STA0 : Statistique descriptive Rappel de cours : Soit (x 1,..., x n ) un échantillon, c est-à-dire les valeurs numériques prises par un même caractère sur un ensemble de n individus. Les modalités sont les valeurs prises. La moyenne empirique est x = 1 n x i. n ( i=1 ) 1 n La variance empirique est s x = (x i ) x. n i=1 L écart-type empirique est la racine carrée de la variance empirique. Un échantillon centré et réduit a pour moyenne 0 et pour variance 1. Pour centrer et réduire un échantillon, on retranche la moyenne à toutes les modalités, puis on les divise par l écart-type. La fréquence empirique d un intervalle est le rapport du nombre de valeurs prises dans cet intervalle, au nombre total d individus. La médiane est la plus petite modalité telle qu au moins 0% des valeurs prises soient inférieures. Le premier quartile est la plus petite modalité telle qu au moins % des valeurs prises soient inférieures. Le dernier quartile est la plus petite modalité telle qu au moins 7% des valeurs prises soient inférieures. On considère qu un caractère est continu quand toutes les valeurs prises sont distinctes ou presque. Quand pour la plupart des modalités plusieurs individus ont la même valeur, le caractère est discret. On étudie une population suivant caractères X et Y. On note (x 1,..., x p ) (respectivement (y 1,..., y q )) les modalités prises par le caractère X (resp. Y ). La repartition des individus étudiés suivant ces caractères est présentée dans le tableau de contingence : y 1 y j y q x 1 x i n ij n i. x p n.j n n ij est l effectif conjoint de l échantillon étudié associé à la i-ième modalité du caract ere X et à la j-ième modalité du caractère Y. f ij = n ij /n est la fréquence conjointe. f i. = n i. /n (resp. f.j = n.j /n sont les fréquences marginales. f i/j = n ij /n.j est la fréquence conditionnelle de la modalité x i sachant que le caractère Y a pour valeur y j. 1
Si les caractères X et Y sont indépendants, f ij = f i. f.j. Exercice 1. On donne les effectifs par âge, de mères non fumeuses à l accouchement. âge 1 3 6 7 8 9 30 31 3 33 3 3 effectif 7 8 9 10 1 3 0 1 1. Quelle est la population étudiée? Suivant quel caractère? La population étudiée est une population de femmes non fumeuses ayant au moins un enfant. On s intéresse à leur âge.. Quelles sont les modalités? Les modalités sont les entiers de 1 à 3. 3. S agit-il d un caractère discret ou continu? Compte tenu de la précision des données, plusieurs individus prennent la même modalité (sont considérés comme ayant le même âge). Il s agit donc d un caractère discret.. Calculer les fréquences empiriques des modalités. Pour obtenir les fréquences empiriques, on divise les effectifs par le nombre total d individus, soit ici. âge 1 3 6 7 7 8 9 10 1 3 fréquence val. arrondie 0.09 0.108 0.1 0.13 0.16 0.01 0.07 8 9 30 31 3 33 3 3 0.068 0.0 0.068 0.07 0.0 0.07 0 0.01. Représenter les fréquences empiriques sur un diagramme en bâtons. Le diagramme en bâtons consiste à tracer un segment vertical au-dessus de chaque modalité, de longueur proportionnelle à l effectif ou à la fréquence empirique. 6. Calculer la moyenne, la variance et l écart-type empiriques de l échantillon et interprétez vos résultats. Pour calculer la moyenne empirique on effectue l opération : x = 1 ( ) 7 1 + 8 + + 0 3 + 1 3 =.66. L âge moyen dans cet échantillon est de ans et 8 mois environ. L âge cumulé de toutes les mères étudiées serait le même si toutes avaient ans et 8 mois. Pour calculer la variance empirique on effectue l opération : s x = 1 ) (7 1 + 8 + + 0 3 + 1 3 (.66) = 1.683. 0 1
L écart-type est la racine carrée de la variance : s x = 1.683 = 3.61, soit environ 3 ans et 7 mois. La dispersion moyenne de l âge des mères autour de l âge moyen ans et 8 mois est de 3 ans et 7 mois. 7. Calculer les valeurs de la fonction de répartition empirique. Les valeurs de la fonction de répartition empirique sont les fréquences cumulées. âge 1 3 6 7 7 1 3 6 9 1 fréq. cum. val. arrondie 0.09 0.03 0.3 0.9 0.6 0.66 0.689 8 9 30 31 3 33 3 3 6 60 6 67 0.77 0.811 0.878 0.90 0.99 0.986 0.986 1 8. Quelle est la fréquence empirique de l intervalle [ ; ]? C est la somme des fréquences empiriques des modalités, 3,,, ou bien la différence de valeurs de la fonction de répartition empirique F () F (1), soit 39/ 0.7. Plus de la moitié des femmes de l échantillon sont âgées de à ans. 9. Représenter graphiquement la fonction de répartition empirique. Déterminer graphiquement la médiane et les quartiles de l échantillon. La médiane est ans ; le premier quartile est 3 ans, le dernier quartile est 8 ans. 10. Comparer d une part la moyenne avec la médiane, d autre part l écart-type avec les distances entre la médiane et les quartiles. La moyenne est supérieure à la médiane, ce qui est normal pour une distribution qui est étirée vers la droite. Pour la même raison, l écart entre le dernier quartile et la médiane est supérieur à l écart entre la médiane et le premier quartile. Les deux sont inférieurs à l écart-type : c est le cas pour la plupart des distributions, qu elles soient symétriques ou non. Exercice. On donne les effectifs par âge, de mères fumeuses à l accouchement. âge 1 3 6 7 8 9 30 31 3 33 3 3 effectif 3 3 1 3 3 1 1 1 1. Quelles sont les modalités?. S agit-il d un caractère discret ou continu? 3. Calculer les fréquences empiriques des modalités.. Représenter les fréquences empiriques sur un diagramme en bâtons. 3 71 73 73
. Calculer la moyenne, la variance et l écart-type empiriques de l échantillon. 6. Calculer les valeurs de la fonction de répartition empirique. 7. Quelle est la fréquence empirique de l intervalle [ ; ]? 8. Représenter graphiquement la fonction de répartition empirique. Déterminer la médiane et les quartiles de l échantillon. 9. Comparer d une part la moyenne avec la médiane, d autre part l écart-type avec les distances entre la médiane et les quartiles. Exercice 3. On s intérese ici au lien éventuel entre l âge d un enfant et sa dominance manuelle. Le sujet devait mettre des cartes sur une table en les prenant une à une. L observateur notait alors la main active ainsi qu un éventuel changement de main. Le tableau suivant présente la répartition des enfants étudiés suivant leur âge et leur dominace manuelle. Main droite Main gauche Ambidextre 6 ans 3 10 1 8 ans 38 1 10 10 ans 3 10 7 Merci d interpéter chacun de vos résultat, c est à dire de faire une phrase intégrant chaque résultat numérique. 1. Quelle est la population étudiée? Quels sont les caractères étudiés ainsi que leur type?. Quel est le nombre d enfants âgés de 10 ans et ambidextres? 3. Quel est le pourcentage d enfants âgés de 10 ans et ambidextres?. Quel est la pourcentage d enfants droitiers?. Quel est le pourcentage d enfants gauchers? 6. Quel est le pourcentage d enfants gauchers parmi les enfants de 6 ans? 7. Quelle est la distribution conditionnelle de l âge des enfants pour les enfants ambidextres? 8. Construisez le tableau de distribution conditionnelle des dominances en fonction des âges? 9. Construisez le tableau de distribution conditionnelle des dominances en fonction des âges sous l hypothèse d indépendance? 10. Y a t il indépendance entre l âge des enfants et la dominance manuelle? Exercice. Le tableau de données ci dessous donne la distribution de la surface glaciaire selon l altitude et le lieu du glacier au sein du bassin de l Arve à Chamonix, en 1999. Chaque individu correspond à 1m de glace.
Mer de Glace G. d Argentière G. du Tour La Reudant Nantrilous Total [100 ; 1800[ 76 390 0 0 0 116 [1800 ;100[ 1 00 0 0 0 6 [100 ; 00[ 860 60 3 0 0 9 [00 ; 700[ 8 3100 97 100 0 8600 [700 ;3000[ 1096 7708 916 78 68 3916 [3000 ;3300[ 13968 016 331 0 0 96 [3300 ;3600[ 806 100 3 0 0 9996 Total 696 1886 806 878 718 80 1. De quels types sont les deux variables étudiées?. Construisez le tableau de la distribution conjointe des deux variables (en pourcentage) en faisant apparaître les deux distributions marginales. 3. Calculer moyenne, médiane, variance et écart-type de la distribution marginale de l altitude. Interpréter les deux caractéristiques centrales.. Quelle est la distribution conditionnelle de l altitude pour le glacier du Reudant? Interpréter f [700,3000[/Le Reudant.. Quelle est la distribution conditionnelle des glaciers pour l altidude [700, 3000[? Interpréter f Le Reudant/[700,3000[. 6. Retrouver le tableau de la distribution conjointe à partir des deux tableaux précédents de deux manières différentes. Expliquer votre méthode sur un exemple. 7. Superposer sur un même dessin (histogramme) les distributions conditionnelles de l altitude pour la Mer de Glace et le Glacier d Argentières.