Leçon n 11: Série statistique à deux variables numériques Introduction : Statistiques abordées dès le collège dans la partie «Organisation et gestion de données» (statistiques à une variable): Au collège : En cinquième : Introduction (vocabulaire : population, caractère, valeurs, données, effectifs, fréquences, répartitions en classes d'égale amplitude, représentations graphiques, lecture et interprétation de données) En quatrième : moyenne et moyenne pondérée utilisation du tableur En troisième : étendue, médiane, quartiles Au lycée: En seconde : effectif cumulé croissant, exploitation de résultats En première : déciles, diagramme en boîte, variance, écart type En STS : Statistiques à deux variables Niveau concerné : Classe de STS Prérequis : Résultats sur les séries statistiques à une variable, polynômes du second degré, équation d une droite dans un plan Dans toute cette leçon nous nous placerons dans le plan affine euclidien muni d un repère orthogonal O, i, j. I) Série statistique à deux variables 1) Exemple On a regroupé dans un tableau le temps passé par cinq élèves à travailler l oral du CAPES lors de la dernière semaine de révisions et la note qu ils ont obtenu au concours. Temps de travail x i en heures 43 53 55 61 67 Note y i sur 20 16,3 16,9 18 19 18,7 2) Définitions Considérons une population Ω d effectif n n 1. Définition 1: Série statistique à deux variables numériques Soient x i 1 i n et y i 1 i n deux séries statistiques à une variable. On dit alors que x i 1 i n est une série statistique à deux variables numériques.
Définition 2 : Représentation graphique : Nuage de points Dans un repère orthogonal O, i, j, on appelle nuage de point associé à la série statistique à deux variables x i 1 i n, l ensemble des points M i pour i variant de 1 à n. Remarque : De la série statistique double, nous pouvons déduire les séries statistiques simples décrivant séparément les caractères X et Y. Notations: n Si on note X la moyenne de la variable X : X = 1 n i =1 x i Si on n note V(X) la variance de la variable X: V X = 2 X = 1 x n i X 2 i =1 n Définition 3 : Point moyen Le point moyen d un nuage de points est le point G de coordonnées ( X, Y ) Application à l'exemple : Si nous reprenons les données de l exercice précédent, X = 43 53 55 61 67 5 =55,8 Y = 16,3 16,9 18 19 18,7 =17,78 5 Le point moyen est donc G( 55,8 ; 17,78 ) et nous obtenons le nuage de points associé à cette série statistique : Notes 19,5 19 18,5 18 17,5 17 16,5 16 15,5 15 14,5 40 45 Temps 50 de 55 travail 60 65 70 3) Dispersion des points Définition 5 : Covariance On appelle covariance de x i 1 i n notée C X,Y ou Cov(X,Y) le nombre réel défini n par : C X,Y = 1 x n i X y i Y i=1 Remarque : La covariance permet de mesurer la dispersion des points autour du point moyen. Elle
permet d'étudier les variations simultanées des 2 variables par rapport à leurs moyennes respectives. Propriété 1 : (a) C X,Y = 1 x n i y i X Y i=1 (b) C X, X =V X (c) C X, Y X Y n Définition 6 : Coefficient de corrélation linéaire (de Bravais-Pearson) On appelle coefficient de corrélation linéaire entre x i 1 i n et y i 1 i n le nombre réel noté r défini par : r= C X, Y X Y Interprétation : Ce coefficient varie entre -1 et 1. si r est proche de 0, il n'y a pas de relation linéaire entre X et Y si r est proche de 1 il existe une forte relation linéaire entre X et Y Exemple : Avec les données de l exercice précédent, nous trouvons : C X,Y =7,58 et r=0,91 Ici r est proche de 1, il paraît donc intéressant de songer à chercher des droites qui passent le plus près possible de l'ensemble des points du nuage. On dira que ces droites réalisent un ajustement affine du nuage. II) Ajustement affine par la méthode des moindres carrés 1) Principe de la méthode Considèrons les points M i du nuage de points et les points Pi leurs projetés orthogonaux sur la droite d'ajustement choisie. Principe de la méthode :La méthode des moindres carrés consiste à chercher s'il existe une droite réalisant un ajustement affine du nuage telles que la somme des carrés des distances MiPi soit minimale et si oui, à en déterminer une équation. Autrement dit, nous cherchons les réels a et b tels que la somme y i a x i b 2 soit i minimale. Cette somme est appelée somme des résidus en y.
Théorème : Il existe une unique droite réalisant un ajustement affine du nuage de points M i par la méthode des moindres carrés. Définition 7 : On appelle droite d'ajustement affine par la méthode des moindres carrés de x i 1 i n la droite d'équation : y=a x X Y avec a= C XY V X Remarques : (a) Cette droite passe par le point moyen G X ; Y (b) Pour une valeur x 0 du caractère X l'équation obtenue nous permet donc de prévoir le résultat correspondant à la variable Y : on supposera que y 0 =a x 0 X Y (c)si x 0 appartient à [ x 1, x n ], on parle d'interpolation. (d) Si x 0 est en dehors de l'intervalle d'observation du caractère X, on parle d'extrapolation. 2) Autres ajustements affines possibles Il existe d'autres ajustements affines possibles: Droite de Mayer : En décomposant la série en deux série, on obtient deux points moyens G 1 et G 2. La droite G 1 G 2 est alors une droite d'ajustement possible Droite des extrêmes : Il s'agit de la droite passant par les points M 1 (le point d'abscisse minimales) et M n (le point d'abscisse maximale). III) Autres types d'ajustements Dans certains cas, le nuage de points laisse prévoir une relation fonctionnelle globale entre X et Y mais cette relation n'est pas nécessairement affine. Nous sommes alors amenés à réaliser un
ajustement se ramenant, par un changement de variable simple, à un ajustement affine. 1) Ajustement exponentiel Si les points M i sont proches de la courbe d'équation y= e x alors les point N i, ln y i sont proches de la droite d'équation y= ln a x ln et réciproquement. La méthode consiste donc à chercher la droite de régression de X en ln(y). 2) Ajustement puissance Si les points M i sont proches de la courbe d'équation y= a x alors les point N i ln,ln y i sont proches de la droite d'équation y=a x ln et réciproquement. La méthode consiste donc à chercher la droite de régression de ln(x) en ln(y). IV) Applications Exercice 1 : Comparaison de deux ajustements affines : droite de Mayer et droite de régression Le tableau suivant donne le PNB (en euros par habitants) ainsi que le nombre d'hôpitaux (pour million d'habitants) dans quelques pays européens. Pays P1 P2 P3 P4 P5 P6 P7 P8 X = PNB en euros par habitants 5100 7800 11200 15800 20100 22500 26200 28900 Y = Nombre d'hôpitaux par million d'habitants 620 1080 1550 2100 3000 3250 3800 4200 1. Représenter le nuage de point associé à la série statistique (X,Y) à l'aide d'un logiciel adapté. 2. Déterminer les coordonnées du point moyen G de ce nuage de points. Placer G sur le graphique. 3. Déterminer le coefficient de corrélation entre X et Y. Un ajustement affine est-il justifié? 4. Un premier ajustement affine : la droite de Mayer Dans cette question, on considère deux sous-nuages : celui constitué des points correspondants aux pays P1, P2, P3 et P4, et celui correspondant aux pays P5, P6, P7, P8. a) Calculer les coordonnées des points moyens G1 et G2 des deux sous-nuages. b) Déterminer l'équation réduite de la droite (G1G2) La droite (G1G2) s'appelle «droite de Mayer», la représenter dans le repère précédent. c) Calculer la somme des résidus quadratiques S associée à la droite de Mayer (G1G2). 5. Un deuxième ajustement affine : la droite de régression a) Déterminer une équation de la droite de régression de y en x par la méthode des moindres carrés. On notera D cette droite. Représenter D sur le graphique. b) La somme des résidus associée à la droite de régression est S'=35482,50. Laquelle des deux droites (G1G2) et D réalise-t-elle le meilleur ajustement affine? 6. Estimations A l'aide de la droite D et en détaillant les calculs répondre aux questions suivantes : a) Un pays a un PNB de 23400 euros par habitants. Quelle estimation peut-on faire du nombre d'hôpitaux (par million d'habitants) dans ce pays? b) Un pays a 3500 hôpitaux par million d'habitants. A combien peut-on estimer son PIB (en euros, par habitants).
Exercice 2 : Comparaison de différents types d'ajustement
Exercice 3
Exercice 4