CHAPITRE 8 - Échantillons, simulations et fluctuations d'échantillonnage A) Définitions 1) Échantillons Un échantillon, au sens statistique, est un sous-ensemble d'un ensemble plus grand, qu'on espère représentatif de cet ensemble, et qu'on étudie précisément à sa place pour obtenir des renseignements probables sur lui. Exemples :. Avant une élection, on fait des sondages pour prévoir le résultat. Pour cela, on sélectionne un certain nombre de personnes, supposées constituer un "échantillon" représentatif de l'ensemble des votants, et on leur demande leurs intentions de vote.. Si on veut connaître la répartition des espèces dans un lagon, on choisit un certain nombre d'habitats représentatifs du lagon, et on décompte les membres de chaque espèce dans ces endroits sélectionnés. ) Simulations Une simulation consiste, en statistiques, à collecter les résultats trouvés à partir d'un échantillon et à en tirer des paramètres statistiques qui devraient ressembler à ceux de l'ensemble complet. Si on connaît la loi de probabilité suivie par le caractère étudié sur cet ensemble, on peut réaliser des simulations par informatique, ou par des expériences aléatoires obéissant à la même loi. Exemples :. Au lancer de pièce de monnaie, pile ou face ont autant de chances d'arriver (on parle d'équiprobabilité). On peut donc simuler un lancer de pièce en utilisant un programme d'ordinateur (ou de calculatrice) pour créer une suite de "1" et de "0" tirés au hasard, qui représenteront les piles et les faces.. De même, si un dé n'est pas truqué, les chiffres de 1 à 6 sont des résultats équiprobables. Une calculatrice ou un ordinateur muni d'un logiciel adéquat (tableur par ex) peut aussi nous fournir des nombres aléatoires, qui permettent de simuler des lancers de dés (lancers fictifs). 3) Fluctuations d'échantillonnages Si l'on fait plusieurs simulations, leurs résultats ne seront pas forcément identiques, puisque le hasard intervient. On parle alors de "fluctuation d'échantillonnage" pour exprimer que les résultats varient d'une simulation à l'autre. 4) Intervalle de fluctuation a) Définition Imaginons que l'on ait fait un grand nombre de simulations, chacune sur un échantillon de n éléments (que ce soient des individus, des tirages ou des expériences), dans un cas où deux réponses seulement sont possibles (on les appellera "pile" et "face"). On appelle alors intervalle de fluctuation l'intervalle à l'intérieur duquel se situent 95% des résultats de simulations. Page 1/5
b) Théorème (admis) : Si le résultat suit une "loi de Bernoulli (ou Bernouilli)", c'est à dire avec deux réponses possibles, et une probabilité égale à p d'obtenir "pile" et 1 p d'obtenir "face", et si on a les conditions "n > 5" et "0, p 0,8", Alors cet intervalle aura pour largeur n. Autrement dit : Si l on fait des simulations et que la probabilité d un résultat est p, 95 % des résultats trouvés par les simulations se trouveront dans l intervalle [ p 1 n ; p+ 1 n ]. Réciproquement : Si on fait une simulation pour estimer une probabilité p, on aura 95 % de chances que p se trouve dans l intervalle [ f 1 n ; f + 1 n ] où f est le résultat de la simulation sur un échantillon de dimension n. c) Exemples : i) Supposons qu'on lance un dé bien équilibré, et qu'on compte le nombre de résultats supérieurs à 4. Cet événement aura chances sur 6, don 1 sur 3; de se produire, soit une probabilité p = 1/3 33%. Si l'on fait un millier d'échantillons de 100 lancers aléatoires, l'intervalle de fluctuation aura une largeur de 100 = 10 =0,, donc 95% des résultats seront entre 3% et 43%. ii) Supposons qu un sondage sur 100 personnes donne 35 % de chances que le candidat A soit élu, quel sera l intervalle de fluctuation correspondant? Même question si on interroge 1 000 personnes. B) Exemples de simulations 1) Jeu de Pile ou Face a) But de la simulation Vérifier que sur un grand nombre d'essais, on obtient bien à peu près autant de pile que de face.. On utilise la calculatrice pour générer des nombres aléatoires dont on extrait les chiffres (on peut aussi utiliser un tableur où on demande un nombre aléatoire égal à 0 ou 1).. On assimile pile à pair et face à impair. On compte les résultats. On fait un diagramme en bâtons c) Examen des résultats. On doit constater que l'on a à peu près 50% de "pile" et 50% de "face". d) Intervalle de fluctuation Si l'on fait 1 000 échantillons de 100 essais, on devra trouver que 95% des résultats sont compris entre 40% et 60%. Page /5
) Famille de deux enfants a) Présentation du problème On a 3 possibilités : FF, FG ou GG (F = Fille, G = Garçon). On suppose que F et G sont équiprobables et on veut avoir une idée de la répartition entre FF, FG et GG. Plutôt que de faire des statistiques sur une vraie population, on va faire une simulation.. Même principe que pour le (1) mais cette fois on associe chaque fois deux lancers successifs pour trouver un résultat.. On calcule ensuite les fréquences des 3 résultats possibles. c) Examen du résultat On doit constater la répartition suivante : ¼ ; ½ ; ¼. 3) Lancer de dés a) Présentation du problème Le résultat est un nombre de à 1, mais ces nombres ne sont pas équiprobables!. Comme en 1, mais on retient seulement les chiffres 1 à 6 et on les groupe par. On peut aussi avec un tableur trouver des chiffres aléatoires entre 1 et 6.. On fait un tableau c) Examen du résultat. On voit là non équiprobabilité des résultats possibles. Explication : Imaginons que le premier dé est rouge et l'autre bleu. On peut trouver tous les résultats équiprobables possibles en associant à chaque résultat du dé bleu chaque résultat du dé bleu. On compte alors, pour chaque somme de à 1, les résultats qui donnent cette somme. Ce nombre, divisé par le nombre total de résultats possibles, donne la probabilité de chaque somme. 4) Calcul de π a) But Calculer π en utilisant des nombres aléatoires. Si on prend des points au hasard, c'est-à-dire des couples (x,y) de réels au hasard, leur répartition doit se faire en fonction des aires respectives du quart de cercle et du carré. Page 3/5
c) Calculs et examen du résultat. Ça marche! (mais la convergence est très lente!) d) Intervalle de fluctuation En essayant 1 000 fois avec des échantillons de 100 essais, trouver l'intervalle de fluctuation. C) Application à la prise de décisions 1) Prise de décision à partir d'un échantillon Exemple : Parité ou pas parité? Deux entreprises recrutent dans un bassin d'emploi où il y a autant de femmes que d'hommes. On voudrait savoir si elles respectent la parité. Dans l'entreprise A, il y a 100 employés, dont 43 femmes, soit 43%. Dans l'entreprise B, il y a 500 employés dont 1150 femmes, soit 46%. Question 1 : Quelle entreprise respecte le mieux la parité? On pourrait croire que c'est la B... Hé bien non!!!! Supposons que les deux entreprises suivent la règle de la parité, c'est à dire qu'il y a 50% de chances de recruter une femme, et 50% un homme. L'intervalle de fluctuation pour la première entreprise est de 100 =0%, donc la proportion doit être comprise entre 40% et 60%, ce qui est le cas. L'intervalle de fluctuation pour la second entreprise est de comprise entre 48% et 5%, ce qui n'est pas le cas. Donc, c'est bien l'entreprise B qui ne respecte pas la parité... Question : 500 =4%, donc la proportion doit être Quelle nombre d'employés aurait dû avoir l'entreprise B pour être dans les 95% de chances de respecter la parité? Page 4/5
) Estimation d'une proportion Supposons que sur un échantillon représentatif de 400 personnes, on obtienne une moyenne de 70% de "oui" à une question donnée. Quelle est la largeur de l'intervalle de sécurité qui permet d'avoir 95% de chances de contenir la vraie moyenne? Ce sera 400 = 0 =10%, donc elle sera comprise entre 65% et 75%. Exemple : Que serait l'intervalle de sécurité de 95% si l'échantillon est de 900 personnes? Page 5/5