Statistiques 1. Définir et représenter une série statistique Définitions La population d'une série statistique est l'ensemble des éléments appelés «individus» sur lesquels porte l'étude statistique. Le caractère ou variable d'une série statistique est la propriété étudiée sur chaque individu. Il est dit : qualitatif lorsqu'il ne prend pas que des valeurs numériques ; quantitatif discret lorsqu'il ne peut prendre qu'un nombre fini de valeurs numériques ; quantitatif continu lorsqu'il peut prendre une infinité de valeurs numériques regroupées en intervalle nommées classes. Exemples Situation Les notes du étudiée devoir de maths de la Seconde 1 La couleur des yeux des Les salaires des cadres en Martinique Population Tous les élèves de Tous les Norvégien Tous les cadres de Martinique Caractère La note obtenue au devoir La couleur des yeux Le salaire Valeurs possibles 0 ; 0,5 ; 1 ; 1,5... jusquà 20 Bleu, vert, marron, etc. Tous les nombres sont possibles Type du caractère Quantitatif discret (41 valeurs ) Qualitatif Quantitati f continu Définition L'effectif d'une valeur du caractère est le nombre de fois où cette valeur apparaît dans la série. Exemple : Si le caractère étudié est «les notes au devoir de maths» et si 7 élèves ont eu 12 sur 20, alors 7 est l'effectif correspondant à la valeur 12 du caractère. De meme on définit l effectif cumulé croissant et le décroissant
Définitions La fréquence d'une valeur du caractère est le quotient de l'effectif de cette valeur par l'effectif total. La fréquence cumulée croissante (respectivement décroissante) d'une valeur est la somme des fréquences des valeurs qui lui sont inférieures (respectivement supérieures) ou égales. Propriété La somme de toutes les fréquences est toujours égale à 1. Représentation d'une série statistique Selon le type du caractère, on utilise différentes représentations graphiques : La représentation graphique des fréquences cumulées croissantes s'appelle aussi «polygone des fréquences cumulées croissantes».
2. Indicateurs d'une série statistique Une série statistique peut contenir de très nombreuses données (parfois plusieurs milliers). Il est donc nécessaire de trouver une façon de résumer ces données. D'après des données de l'insee, on sait que, en 2009, le salaire mensuel moyen des Français était de 1997 et que la moitié des Français gagnait moins de 1 447 par mois. Ces éléments sont appelés des «indicateurs». On différencie les indicateurs de position et les indicateurs de dispersion. 1. Les indicateurs de position La moyenne La moyenne est l'indicateur le plus répandu. Lorsqu'on reçoit une note, on peut la comparer à la moyenne de la classe, pour se positionner par rapport aux autres élèves. Définition On considère une série statistique dont les valeurs du caractère sont x 1, x 2, x 3,... x p et les effectifs associés : n 1, n 2, n 3,, n p. La moyenne de cette série statistique, notée x, a pour valeur : Lorsque le caractère est continu, on fait ['hypothèse que les valeurs sont uniformément réparties dans les classes. Ainsi x 1 ;x 2.. représentent les centres des classes. La somme des n i represente l effectif total Théorème Si on note f i la fréquence de la valeur x i alors : x = La médiane La médiane correspond à une valeur qui partage en deux parties (presque) égales la série statistique. Pour un caractère quantitatif continu, on peut utiliser le polygone des fréquences cumulées croissantes pour déterminer la médiane. Définition La médiane d'une série statistique est le nombre noté Me, tel que : 50 % au moins des individus ont une valeur du caractère inférieure ou égale à Me et 50 % au moins des individus ont une valeur supérieure ou égale à Me. I :Lorsque le caractère est quantitatif continu, la médiane correspond à la valeur du caractère ayant une fréquence cumulée croissante de 0,5.
Différence entre moyenne et médiane Deux séries peuvent avoir la même moyenne, mais des médianes très différentes. Exemple Cette différence apparaît clairement dans certaines statistiques de population des communes. Dans la région Alsace par exemple, sur les 946 communes, la population moyenne par commune est de 2 044 habitants, et la population médiane est de 778 habitants... La moyenne est très supérieure à la médiane, car la plupart des communes sont faiblement peuplées, mais les villes comme Strasbourg, Mulhouse, Colmar et Haguenau contiennent près de 25 % de la population d'alsace et rendent la moyenne plus importante. Faire le polygone
3. Échantillonnage Il est parfois impossible ou trop coûteux de recueillir des données sur l'ensemble d'une population. On étudie alors un échantillon de cette population à l'aide d'un sondage. La fréquence d'un caractère sur un échantillon est une estimation de sa fréquence sur La population. 1. Modélisation de la situation Définitions Lorsqu'on étudie une partie de la population, on dit qu'on étudie un échantillon. Le nombre d'individus formant l'échantillon est appelé taille de l'échantilon. Notation : On note p la proportion de la population vérifiant le critère étudié et p la proportion de l'échantillon vérifiant ce critère. Théorème de stabilisation des fréquences Plus la taille de l'échantillon est grande, plus p se rapproche de p. Exemple Pour un sondage, on sait que la proportion de personnes ayant répondu «oui» était de 0,4. On connaît donc p : p = 0,4. Voici une représentation des valeurs de p en fonction de la taille de l'échantillon. On constate que plus la taille de l'échantillon est grande, plus p rapproche de p. se La proportion de l'échantillon vérifiant uncritèreest p = n N avec n Le nombre de fois où Le critère est réalisé et N la taille de l'échantillon.
2. Intervalle de fluctuation, intervalle de confiance Théorème de l'intervalle de fluctuation Conditions d'application : La taille n de l'échantillon doit être supérieure ou égale à 25. p doit appartenir à l'intervalle [0,2 ; 0,8]. Dans ces conditions,dans plus de 95% des cas ; p p 1 1 ; p n n appartient à l intervalle : On parle aussi d'intervale de fluctuation au seuil 95 % ou 0,95. Théorème de l'intervalle de confiance Conditions d'application : La taille n de l'échantillon doit être supérieure ou égale à 25. p doit appartenir à l'intervalle [0,2; 0,8]. Dans ces conditions,dans plus de 95% des cas ; p appartient à l intervalle p 1 1 ; p n n On parle aussi d'intervalle de confiance au niveau 95 % ou 0,95. Utilisation Si on connaît p (et que Les conditions sont respectées), on utilise Le théorème de l'intervalle de fluctuation. SI on ne connaît pas p, on utilise Le théorème de l'intervalle de confiance.