Cours 11 Ue variable umérique : dispersio et variace Ce cours est cosacré à la variace et à l'écart-type ; o commece par faire u rappel sur la variace comme idice de dispersio, mesure de l'éparpillemet des observatios ; puis o étudie la maière dot elle se décompose à l'aide des variaces coditioelles, dispersios propres aux sous-populatios. Das ce cours ous supposeros ecore que la variable umérique est Y, les sous-populatios état iduites par X. 1 déf Itervalle iter-quartile : c'est l'itervalle des valeurs situées etre les premier et troisième quartiles, q 5% et q 75% ; par déitio, la moitié des observatios cetrales se trouvet das cet itervalle, u quart état à sa gauche et u autre quart à sa droite. So amplitude s'appelle l'écart iter-quartile. C'est ue mesure de la dispersio qui s'exprime das la même uité que Y : plus il est petit, plus les valeurs cetrales sot ramassées. Variace et écart-type déf La variace d'ue série E de observatios y i de Y est la dispersio quadratique moyee de E autour de la moyee : (1) var(y) = disp q(y) = 1 (y i y) Puisque la moyee est la valeur la plus proche de E pour la distace quadratique, o pourrait déir la variace comme la plus petite distace quadratique moyee d'ue valeur à E. 3 L'écart-type d'ue série E de observatios y i de Y est la racie carrée de la variace ; o le ote σ(y) (o prooce sigma ), ce qui permet de oter la variace σ (y) (ou plus simplemet σ ) ; l'écart-type quatie la dispersio des observatios das la même uité que Y. 4 Formules de la variace. De maière sythétique la déitio (1) s'éoce variace = moyee des carrés des écarts à la moyee ; o démotre qu'elle est équivalete à ue secode formule : variace = moyee des carrés mois carré de la moyee : () σ (y) = 1 yi y Cette secode formule, souvet plus pratique, doit être utilisée avec précautio car elle est sesible aux erreurs d'arrodis. 5 Calcul de la variace. Si o dispose des observatios y i, o utilise l'ue ou l'autre des formules (1) ou (). Exemple des doées cliiques du groupe 1 : Groupe 1 5 7 85 93 104 110 Groupe 45 51 58 7 79 Groupe 3 93 98 11 11 13 La moyee y G1 est égale à 59/ ; e arrodissat au cetième, les formules (1) et () doet :
Statistique pour la psychologie II : E4XP3 (5 88,17) +...+(110 88,17) = 59,81 et 5 +...+110 88,17 = 59,. Le tableau suivat doe les résultats des deux formules pour diérets arrodis de la moyee ; o otera qu'il faut 3 décimales pour que les deux formules doet sesiblemet la même valeur : Moyee Variace y i 5 7 85 93 104 110 88,17 yi 45 5184 75 849 1081 1100 8033,17 59,7997 Moyee Variace (1) Variace () 88, 538,4,44 10,4 3,04 49,4 475,4 59,807 53,97 88,17 53,85 1,47 10,05 3,33 50,59 47,55 59,807 59,18 88,17 53,71 1,37 10,03 3,358 50,84 47,8 59,80 59,747 88,17 53,9 1,3 10,08 3,308 50,934 47,93 59,80 59,8 Distributio discrète. A partir de la distributio d'ue variable discrète, la variace se calcule par ue formule équivalete qui cosiste à regrouper das u même terme les j valeurs égales à m j, comme pour la moyee : (1d) σ (y) = 1 p j=1 j (m j y) et (d) σ (y) = 1 p j=1 j m O otera que das ces formules, la variable muette j parcourt les p modalités de Y et o les observatios. j y Exemple du ombre d'efats de 0 à as das les couples (exemple 1 du Cours 9) : Nbre efats [0-] 1 3 4 5 Total Moy / Var(1d) Couples 39 174 93 10 10 53 j m j 39 4348 889 480 50 1103 1,88 j (m j y couples ) 1547,3 11,3 157,5 41,44 109,9 417,77 0,38 m j 1 4 9 1 5 Moyee Variace (d) j m j 39 89 87 190 50 3,489 0,39 7 Distributio cotiue. A partir de la distributio d'ue variable cotiue, la variace e peut qu'être approximée, puisqu'o e coaît pas les valeurs ; e supposat qu'elles sot uiformémet réparties das chaque modalité [b j ; b j+1 [, o place virtuellemet les j valeurs au cetre c j = b j+b j+1 qui se cofod avec leur moyee, et o obtiet les approximatios suivates : (1c) σ 1 p j=1 j (c j y) et (c) σ 1 p j=1 j c j y Exemple du reveu das le sud (exemple du Cours 9) : Modalités ]0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 30[ Total Moyee Variace Cetres c j,5 7,5 1,5,5 c j,5 5,5 15,5 50,5 E. Y sud 8 4 30 4 14 10,484 j (c j y sud ) 1784,84 373,98 11,93 345, 5745,97 4,34 4,34 j c j 175 3,5 487,5 1150 19375 15,5 4,34 8 Erreur de l'approximatio. La moyee et la variace sot évaluées e faisat la même hypothèse, ue répartitio uiforme des observatios das la modalité-itervalle ; mais cette hypothèse coduit à des erreurs plus importates pour le calcul de la variace, comme ous allos le voir sur l'exemple suivat. Cosidéros la distributio cotiue : Y [0 ; 3[ [3 ; [ Eectif La moyee est approximée par la formule 1 0+3 4 ( + 3+ ) = 3 et la variace par la formule 1 0+3 4 ( ( 3) + ( 3+ 3) ) =,5. Si l'hypothèse d'uiforme répartitio est fausse, e supposat par exemple que les observatios eectives sot 1 1,5 5 et 5,5, de moyee 3,5 et de variace 4,0, les approximatios de la moyee et de la variace doet des valeurs icorrectes, ce qui 'est pas étoat.
Statistique pour la psychologie II : E4XP3 3 Si par cotre l'hypothèse d'uiforme répartitio est juste, e supposat par exemple que les observatios eectives sot 1 4 et 5, de moyee 3 et de variace,5, l'approximatio de la moyee doe comme prévu ue valeur correcte, alors que celle de la variace doe ecore ue valeur icorrecte. Cela est dû au fait que l'approximatio églige la dispersio réelle des observatios à l'itérieur de chaque modalité, e les regroupat toutes au cetre. La coclusio est que, das le cas d'ue variable cotiue, la variace doit autat que possible se calculer sur les observatios elles-mêmes. 9 Propriétés. 1. σ(y + a) = σ(y) et σ (y + a) = σ (y) : o e modie pas la dispersio d'ue série d'observatios e décalat à gauche ou à droite d'ue même valeur a toutes les observatios.. σ(a y) = a σ(y) et σ (a y) = a σ (y) : si o multiplie chaque observatio par ue même valeur a, l'écart-type est égalemet multiplié par a, alors que la variace est multipliée par so carré a. Y 3. Réductio : la variable σ(y) = 1 σ(y) Y, obteue e divisat toutes les observatios y i par σ(y), est de variace égale à 1, d'après la propriété précédete ; o dit qu'elle est réduite. 4. Cetrage et réductio : La variable Y y σ(y) est de moyee ulle et de variace égale à 1 ; o dit qu'elle est cetrée et réduite. 5. Itervalle de dispersio : l'itervalle de dispersio cetré autour de la moyee ID(y) = [y σ(y), ȳ + σ(y)] cotiet approximativemet 95% des observatios si la distributio est symétrique et uimodale. Variace et sous-populatios 10 La variabilité de Y qui se maifeste das la dispersio des observatios a deux origies possibles : la variabilité itrisèque de Y due au fait que sa mesure sur u idividu comporte ue part cotigete, et l'hétérogééité des sous-populatios pour ce caractère. La première origie s'exprime par la dispersio de Y das chaque sous-populatio, mesurée par les variaces coditioelles, la secode par les diéreces etre les moyees coditioelles. 11 déf Variaces coditioelles. Les variaces coditioelles de la variable umérique Y sot les variaces des distributios coditioelles de Y. O ote σ i l'écart-type de Y das la souspopulatio iduite par la ième modalité m i de X, et σi la variace. Si l'o dispose des doées brutes y j, la variace coditioelle σi est alors la dispersio quadratique des i observatios de la sous-populatio autour de la moyee y i : σi = 1 i i j=1 (y j y i ) = 1 i i j=1 y j (y i). Elle mesure la dispersio itere à la sous-populatio, sas teir compte des autres souspopulatios, et par coséquet l'eet de la variabilité itrisèque de Y cocerat cette souspopulatio. 1 déf Décompositio de la variace. La double origie de la variabilité de Y se formalise das la formule de décompositio de la variace ; e eet o peut démotrer que la variace totale des observatios de l'échatillo est la somme de deux quatités : la variace itra : la moyee des variaces coditioelles podérée par la taille des souspopulatios ; elle quatie la part de la variabilité itrisèque de Y das la variace totale ; la variace iter : la variace des moyees coditioelles égalemet podérée par la taille des sous-populatios ; elle quatie l'hétérogééité des sous-populatios. σ = 1 k i σi + 1 k i (y i y)
4 Statistique pour la psychologie II : E4XP3 E termes sythétiques la décompositio de la variace s'éoce variace totale = variace itra + variace iter, ou ecore variace totale = moyee des variaces + variace des moyees. 13 Calcul. O calcule d'abord pour chaque sous-populatio la somme des valeurs et la somme des carrés des valeurs. Avec les doées cliiques, cela doe : Somme Groupe 1 5 7 85 93 104 110 59 yi 45 5184 75 849 1081 1100 48199 Groupe 45 51 58 7 79 300 yi 05 01 334 4489 41 1870 Groupe 3 93 98 11 11 13 551 yi 849 904 1345 1441 1519 1479 O rassemble esuite ces résultats das u tableau (les valeurs e italique), et o le complète avec ue précisio susate pour e pas itroduire d'erreur importate das les calculs de carrés (3 décimales sot gééralemet susates) : 1. O calcule y = 1 y i ; das l'exemple y = 1 11380 = 8,5.. O calcule les moyees y i et les variaces σi coditioelles (88,17 = 59, 59,747 = 48199 88,17 ). 3. O calcule la variace iter par la formule 1 k i y i y (var iter = 7835,04 8,5 = 395,98). 4. O calcule e la variace itra par la formule 1 k i σ i (var itra = 3037,8/1 = 189,83). Arrodi 3 Eectif yi y i y i σi i y i i σi Groupe 1 59 48199 88,17 59,747 440,519 1558,48 Groupe 5 300 1870 0 144 18000 70 Groupe 3 5 551 1479 110, 151,7 070, 758,8 Total 1 1380 18398 1530,719 3037,8 Moyee 8,5 804,875 7835,045 189,83 Variace 585,813 Iter 395,983 189,83 Itra O peut vérier la formule de décompositio de la variace e comparat la variace totale qui se calcule par la formule 1 y i y (σ = 804,88 8,5 = 585,8), avec la somme des variaces iter et itra (395,98+189,83=585,81).
Programme de travail Savoir déir : Statistique pour la psychologie II : E4XP3 5 la variace et l'écart-type ; la formule de décompositio de la variace ; la variace itra ; la variace iter. Savoir expliquer : la sigicatio de la variace et de l'écart-type ; la sigicatio de la variace itra ; la sigicatio de la variace iter. Savoir éocer : les propriétés de la variace et de l'écart-type (Ÿ9). Savoir faire : cetrer et/ou réduire ue variable ; calculer les variaces globales et coditioelles, das tous les cas de gure ; calculer la variace itra ; calculer la variace iter ; vérier la formule de décompositio de la variace.