STATISTIQUE ET PROBABILITÉS AU LYCÉE. (séries ES, S, STI2D, STL)

STATISTIQUE ET PROBABILITÉS AU LYCÉE (séries ES, S, STI2D, STL)

Contexte de travail Des notions de statistique inférentielle introduites pour la première fois dans les programmes du secondaire. Ces notions sont enseignées dans différents cursus de l'enseignement supérieur mais le point de vue adopté dans les programmes de lycée est différent. La compréhension de ces notions passent par une maîtrise des fondements de la théorie des probabilités.

Les nouveautés Les lois normales sont introduites en terminales ES et S comme loi-limite d'une suite de variables aléatoires. Théorème de Moivre-Laplace (cas particulier du théorème limite central). Intervalle de fluctuation asymptotique de la fréquence d'échantillonnage. Intervalle de confiance d'une proportion et non d'une probabilité (attention aux confusion!!) à partir de l'intervalle de fluctuation asymptotique.

Les programmes : Statistique Collège effectif fréquence classe médiane quartiles diagramme en bâtons graphiques cartésiens Seconde moyenne effectifs et fréquences cumulés histogrammes Premières variance écart-type diagrammes en boîte Terminales statistique à deux variables ajustement

Les programmes : Probabilités Collège notion de probabilité Seconde probabilité sur un ensemble fini événement P(A B)+P(A B)=P(A)+P(B) tableau croisé arbre des possibles Premières variables aléatoires discrètes espérance variance écart-type lois de Bernoulli lois binomiales lois géométriques tronquées approche de la loi des grands nombres Terminales probabilité conditionnelle indépendance variables aléatoires à densité sur un intervalle lois uniformes lois exponentielles lois normales

Les programmes : Statistique inférentielle Seconde intervalle de fluctuation Premières échantillonnage intervalle de fluctuation binomiale prise de décision prise de décision à partir d'un intervalle de fluctuation binomiale Terminales intervalle de fluctuation asymptotique prise de décision prise de décision à partir d'un intervalle de fluctuation asymptotique égalité de deux proportions estimation intervalle de confiance

Quelques points délicats des programmes de terminales Introduction des lois continues à densité sur un intervalle lois uniformes lois exponentielles loi normale centrée réduite lois normales Intervalle de fluctuation asymptotique Estimation par intervalle de confiance Prise de décision

Loi à densité sur un intervalle

Loi uniforme sur l'intervalle [a ; b]

Loi uniforme sur [a ; b] Les programmes de terminales

Loi uniforme sur [a ; b] Introduction Densité Espérance

Loi uniforme sur [a ; b] Introduction Introduction de la loi uniforme sur [0 ; 1] à partir des fonctions "RANDOM" des calculatrices ou "ALEA" de logiciels (Fichier EXCEL 1-loi uniforme) Questionnement sur la signification d'équiprobabilité sur un intervalle.

Loi uniforme sur [a ; b] Densité Un variable aléatoire X prend ses valeurs dans l'intervalle I = [a ;b] et de telle sorte sorte que tous les nombres de I puissent être atteints de manière semblable. On ne peut raisonner en attribuant une même probabilité à chaque élément de I, on ne pourrait pas avoir 1 comme somme des probabilités élémentaires.

Loi uniforme sur [a ; b] Densité On choisit une distribution de probabilité qui fasse en sorte que la probabilité que X prenne sa valeur dans l'intervalle J= [α ; β], inclus dans I, soit proportionnelle à l'amplitude de J. Ainsi P(X J) = β α b a = 1 b a [t]β α P(X J) = 1 b a β α dt = α β 1 b a dt

Loi uniforme sur [a ; b] Densité 1 unité d'aire

Loi uniforme sur [a ; b] Densité P(X J) 1 unité d'aire J

Loi uniforme sur [a ; b] Densité La densité de la loi uniforme sur l'intervalle [a ; b] est la fonction f définie par : f (x) = 1 b a si x I 0 sinon

Loi uniforme sur [a ; b] Espérance On définit l'espérance d'une variable aléatoire X suivant la loi uniforme sur l'intervalle [a ; b] par : d'où E(X) = b a E(X) = a + b 2 b t f(t) dt = a t b a dt

Loi exponentielle de paramètre λ

Loi exponentielle de paramètre λ Les programmes de terminales

Loi exponentielle de paramètre λ Densité Espérance Radioactivité Durée de fonctionnement d'un système sans vieillissement

Loi exponentielle de paramètre λ Densité La densité de la loi exponentielle de paramètre λ est la fonction f définie par : f(x) = λ e λ x sur ]0; + [

Loi exponentielle de paramètre λ Densité Loi exponentielle de paramètre 4

Loi exponentielle de paramètre λ Densité Ainsi, pour une variable aléatoire X de loi exponentielle de paramètre λ et pour a et b réels positifs : P(a X b) = b a f(t) dt = b a λ e λ t dt P(a X b) = e λ t b a = e λ a e λ b

Loi exponentielle de paramètre λ Espérance On définit l'espérance d'une variable aléatoire X suivant la loi exponentielle de paramètre λ par : E(X) = lim x x + 0 t f(t) dt = lim x x + 0 t λ e λ t dt d'où E(X) = 1 λ

Loi exponentielle de paramètre λ Espérance La formule E(X) = lim x x + 0 t f(t) dt prolonge dans le cadre continu, l'espérance d'une variable discrète

Loi exponentielle de paramètre λ Radioactivité Voir le document d'accompagnement des anciens programmes de terminale S sur ce thème (pp. 77-79).

Loi exponentielle de paramètre λ Durée de fonctionnement d'un système sans vieillissement Les lois exponentielles modélisent la durée de vie d'un matériel.

Loi normale centrée réduite

Loi normale centrée réduite Les programmes de terminales

Loi normale centrée réduite Introduction à partir de lois binomiales de même paramètre de probabilité Théorème de Moivre-Laplace Densité Valeurs particulières Espérance Variance

Loi normale centrée réduite Introduction à partir de lois binomiales de même paramètre de probabilité

Loi normale centrée réduite Introduction à partir de lois binomiales de même paramètre de probabilité Les lois discrètes donnant lieu à des calculs de probabilités fastidieux lorsque le nombre de valeurs observées est important, on recherche une façon d'approcher une loi binomiale par une loi continue. On peut pour cela, rechercher des éléments de stabilité des lois binomiales de même paramètre p. Fichiers GeoGebra

Loi normale centrée réduite Introduction à partir de lois binomiales de même paramètre de probabilité La représentation de la distribution binomiale et son évolution lorsque n augmente ne permet pas d'observer de stabilité. (Fichier GeoGebra 1-binomiale effectif.ggb) Si on travaille sur la distribution des fréquences au lieu de celle des effectifs, des éléments de stabilité apparaissent. (Fichier GeoGebra 2-binomiale frequence.ggb)

Loi normale centrée réduite Introduction à partir de lois binomiales de même paramètre de probabilité On constate de même des éléments de stabilité si on travaille sur la distribution centrée et réduite de lois binomiales. (Fichier GeoGebra 3-binomiale reduite.ggb) Le problème de la variation des hauteurs des bâtons est réglé en remplaçant les bâtons précédents par des rectangles adjacents d'aire totale 1, en vue de l'approche par une loi continue, cela revient à diviser la hauteur des bâtons du graphique précédent par l'écart en deux 1 bâtons successifs np (1 p) (Fichier GeoGebra 4-binomiale rectangles.ggb) Calculs de probabilités (Fichier GeoGebra 5-binomiale rectangles probabilite.ggb)

Loi normale centrée réduite Théorème de Moivre-Laplace (terminale S - admis) Soit p un réel de ]0 ; 1[ et pour n IN, X n une variable aléatoire suivant la loi binomiale de paramètres n et p. Pour tout n IN, on note Z n la variable centrée réduite associée à X n. Pour tous réels a et b : b 1 lim Z n b) = n + P(a a 2π e x 2 2 dx

Loi normale centrée réduite Densité La fonction f définie par : f (x) = 2 x 1 2π e 2 est la densité de la loi normale centrée réduite.

Loi normale centrée réduite Densité

Loi normale centrée réduite Densité La densité de la loi normale centrée réduite est la fonction f définie par : f (x) = x 1 2π e 2 La fonction f n'a pas de primitives algébriques, pour déterminer des probabilités, on utilise : des tables, les fonctions des calculatrices ou de logiciels. 2

Loi normale centrée réduite Valeurs particulières X est une variable aléatoire suivant la loi normale centrée réduite. Pour tout réel de ]0 ; 1[, il existe un unique réel positif u α tel que : u 0,05 1,96 u 0,01 2,58 u 0,1 1,64 P( u α X u α )=1 α.

Loi normale centrée réduite Espérance On définit l'espérance d'une variable aléatoire X suivant la loi normale centrée réduite par : E(X) = lim x 0 x t f(t) dt + lim y y + 0 t f(t) dt

Loi normale centrée réduite Espérance E(X) = E(X) = lim 0 x lim x x x t f(t) dt + 0 t 2π e t 2 lim y y + 2 dt + lim 0 y + t f(t) dt y 0 2 t t 2π e 2 dt E(X) = lim x 2 t 1 2π e 2 0 x + lim y + 2 t 1 2π e 2 y 0 d où E(X) = 0

Loi normale centrée réduite Variance On définit la variance d'une variable aléatoire X suivant la loi normale centrée réduite par : V(X) = E[(X E(X)) 2 ] On admet que : V(X) = 1.

Lois normales

Lois normales Les programmes de terminales

Lois normales Introduction à partir de la loi normale centrée réduite Introduction à partir d'une somme de variables aléatoires uniformes Espérance Variance Valeurs particulières Exemples issues d'autres disciplines

Lois normales Introduction à partir de la loi normale centrée réduite μ est un réel et σ un réel strictement positif. Une variable aléatoire X suit la loi normale N (μ ; σ 2 ) si (X μ)/σ suit la loi normale centrée réduite N (0 ; 1).

Lois normales Introduction à partir d'une somme de variables aléatoires uniformes Les lois normales sont introduites à partir de l'observation, à l'aide d'un logiciel, du cumul des valeurs obtenues lors de la répétition d'une expérience aléatoire dont le résultat suit une loi uniforme. (Fichier EXCEL somme-alea)

Lois normales Espérance Représentation des densité des lois normales d'espérances 3 ; 0 et -4et de variance 0,5.

Lois normales Variance Représentation des densité des lois normales d'espérance 3 et de variances 1 ; 0,5 et 2.

Lois normales Valeurs particulières X est une variable aléatoire suivant la loi normale N (μ ; σ 2 ). P(X [μ σ ; μ + σ] 0,68 P(X [μ 2σ ; μ + 2σ] 0,95 (à 10-2 près) (à 10-2 près) P(X [μ 3σ ; μ + 3σ] 0,997 (à 10-3 près)

Lois normales Valeurs particulières

Intervalles de fluctuation

Intervalles de fluctuation Les programmes de terminales

Intervalles de fluctuation Un cadre théorique Pour α ]0 ; 1[, tout intervalle [a ; b] tel que P(X [a ; b]) 1 - α peut être considéré comme un intervalle de fluctuation de X au seuil 1 - α.

Intervalles de fluctuation Un cadre théorique On peut chercher l'intervalle de fluctuation de X : d'amplitude minimale, d'amplitude minimale centré sur E(X), d'amplitude minimale qui symétrise les probabilités que X soit extérieure à [a ; b]... Ces différentes approches ne sont pas toujours faciles à mettre en oeuvre, surtout si la loi de X est discrète. L'approximation de la loi de X par une loi continue permet de faciliter la démarche.

Intervalles de fluctuation asymptotiques

Intervalles de fluctuation asymptotiques Z est une variable aléatoire suivant la loi normale N(0 ; 1). α est un réel de ]0 ; 1[, il existe un unique réel u α tel que P( u α Z u α ) = 1 α. X n est une variable aléatoire suivant la loi binomiale B (n ; p). X n n p Z n = ) est la variable centrée, réduite associée n p (1 p) à X n.

Intervalles de fluctuation asymptotiques Le théorème de Moivre-Laplace permet de dire que lim P( u α Z n u α ) = P( u α Z u α ) n + soit lim n + P u α X n n p n p (1 p) u α = 1 α ce qui s'écrit encore avec I n = p u α lim P n + X n p (1 p) n n I n = 1 α., p + u α p (1 p) n

Intervalles de fluctuation asymptotiques Théorème Si la variable aléatoire X n suit la loi binomiale B (n ; p), alors, pour tout α dans ]0 ; 1[, on a : lim n + P X n n I n = 1 α avec I n = p (1 p) p (1 p) p u α., p + u n α n et u α désigne l unique réel tel que P( u α Z u α ) = 1 α où Z suit la loi normale N(0 ; 1).

Intervalles de fluctuation asymptotiques L intervalle I n est un intervalle de fluctuation "approché" de X n n au seuil 1 α. Définition X n n appartient à I n avec une probabilité d autant plus proche de 1 α que n est grand : on dit que I n est un intervalle de fluctuation asymptotique de X n au seuil n 1 α.

Intervalles de fluctuation asymptotiques Lien avec l'intervalle de fluctuation du programme de seconde

Intervalles de fluctuation asymptotiques Lien avec l'intervalle de fluctuation du programme de seconde Pour α = 0,05, u α 1,96. Pour tout p [0 ; 1], p (1 p) = 0,25. Ainsi, u α p (1 p) est majoré par 2 0,5 = 1. I n = p u α p (1 p) n., p + u α p (1 p) n est inclus dans et approché par p 1 n., p + 1 n.

Estimation par intervalle de confiance

Estimation par intervalle de confiance Construction d'un abaque On constitue, avec remise, des échantillons de taille 40, dans une population. On considère une modalité d un caractère qualitatif observée pour p =37 % des individus de la population.

Estimation par intervalle de confiance Construction d'un abaque On constitue, avec remise, des échantillons de taille 40, dans une population. On considère une modalité d un caractère qualitatif observée pour p =37 % des individus de la population. L'intervalle de fluctuation asymptotique au seuil de 95%, relatif aux échantillons de taille 40, est [0,22 ; 0,52].

Estimation par intervalle de confiance Construction d'un abaque Représentation de l'intervalle de fluctuation asymptotique au seuil de 95%, relatif aux échantillons de taille 40 pour p =0,37.

Estimation par intervalle de confiance Construction d'un abaque

Estimation par intervalle de confiance Construction d'un abaque Représentation de l'intervalle de fluctuation asymptotique au seuil de 95%, relatif aux échantillons de taille 40 pour p =0,37 et p =0,40.

Estimation par intervalle de confiance Construction d'un abaque

Estimation par intervalle de confiance Utilisation de l'abaque On souhaite estimer la proportion p (inconnue) d'individus présentant une propriété donnée dans une population statistique à partir d'un échantillon de taille 40 prélevé au hasard et sans remise. Supposons que la propriété est observée dans l'échantillon avec une fréquence de 60 %. On détermine ensuite les valeurs de p qui font en sorte que 0,6 appartienne à l'intervalle de fluctuation asymptotique de F au seuil de 0,95, relatif aux échantillons de taille 40.

Estimation par intervalle de confiance Utilisation de l'abaque

Estimation par intervalle de confiance Utilisation de l'abaque Intervalle à 95 % de confiance de p

Statistique inférentielle

Comparaison de fréquences

Comparaison de fréquences Problème On souhaite comparer les proportions p 1 et p 2 d'un même caractère, dans deux populations distinctes, à partir de l observation des fréquences f 1 et f 2 observées sur un échantillon de chacune des deux populations. La question posée est de savoir si la différence f 1 - f 2 est significative.

Comparaison de fréquences Première démarche Pour i {1 ; 2}, F i est la variable aléatoire qui prend pour valeur f i. F1 et F2 sont supposées indépendantes. On pose F = n 1 F 1 + n 2 F 2 n 1 + n 2. Si p 1 = p 2, la loi de Z = F 1 F 2 F 1 (1 F 1 ) + F 2 (1 F 2 ) n 1 par la loi normale N(0 ; 1) si n 1 et n 2 sont supérieurs ou égaux à 30, n 1 p 1 et n 2 p 2 sont supérieurs à 5, n 1 (1 p 1 ) et n 2 (1 p 2 ) sont supérieurs à 5. n 2 est approchée

Comparaison de fréquences Première démarche Au seuil de 95 %, un intervalle de fluctuation de Z est [- 1,96 ; 1,96]. On admet que la différence f 1 - f 2 est significative si la valeur observée de Z est hors de l'intervalle [- 1,96 ; 1,96], ce qui se traduit par : f 1 f 2 > 1,96 F 1 (1 F 1 ) + F 2 (1 F 2 ) n 1 n 2

Comparaison de fréquences Seconde démarche On détermine des intervalles de confiance de p 1 et p 2 respectivement. On admet que la différence f 1 - f 2 est significative si ces intervalles sont disjoints.

Comparaison de fréquences Seconde démarche Cela se traduit par : f 1 u α f 1 (1 f 1 ) n., f 1 + u α f 1 (1 f 1 ) n et f 2 u α f 2 (1 f 2 ) n., f 1 + u α f 2 (1 f 2 ) n disjoints, soit f 1 f 2 > 1,96 F 1 (1 F 1 ) + n 1 F 2 (1 F 2 ) n 2

Comparaison de fréquences Comparaison des deux démarches Les conditions de différence significative sont : Comme pour la première méthode F 1 (1 F 1 ) f 1 f 2 > 1,96 + F 2 (1 F 2 ) n 1 pour la seconde méthode f 1 f 2 > 1,96 F 1 (1 F 1 ) F 2 (1 F 2 ) F 1 (1 F 1 ) + n 1 F 2 (1 F 2 ) n 2 + n 1 n 2 n 2 F 1 (1 F 1 ) + F 2 (1 F 2 ) n 1 la seconde méthode est "plus sévère" que la première. n 2