Chapitre 12: Tests et intervalles de confiance pour moyennes

Chapitre 12: Tests et intervalles de confiance pour moyennes 1. Test statistique pour une moyenne 2. Intervalle de confiance pour une moyenne 3. Tests statistiques pour deux moyennes 4. Intervalle de confiance pour une différence de moyennes 1

Dans ce chapitre, nous allons considérer des variables quantitatives continues et nous intéresser à leur moyenne. 1. Test statistique pour une moyenne Ex: Taille moyenne des individus d une population Soit µ cette moyenne. 2

Hypothèses H 0 : µ = µ 0 H 1 : µ µ 0 Echantillon Tirage aléatoire de n individus. On observe les n variables aléatoires X 1,..., X n. Statistique de test Différence standardisée entre la moyenne des observations et µ 0 : X = 1 n n i=1 T = X µ 0 S/ n. où X i et S = ni=1 (X i X) 2 n 1 Attention: dans ce chapitre, S et s désignent l écart-type dans sa version avec n 1 au dénominateur (et non n comme au chapitre 3). 3

Sous H 0 et sous les conditions d application que les X i sont indépendants et que X i N (µ, σ 2 ), i = 1,... n, on peut montrer que T a une distribution t à n 1 degrés de liberté, notée t n 1. Rappel: la distribution t est une famille de distributions dépendant d un paramètre appelé le nombre de degrés de liberté. comme le motre la figure ci-dessous, plus le nombre de degrés de liberté est élevé, plus la distribution t s approche de la distribution normale standard. Distribution t densité 0.0 0.1 0.2 0.3 0.4 t 1 t 2 t 5 t 10 t 20 t 30 N(0,1) 4 2 0 2 4 t 4

Remarques: Ce test est dit exact, car sous H 0 et les conditions d application la distribution de la statistique de test est connue exactement et non approximativement comme dans les chapitres précédents. La différence avec la statistique de test que nous avons utilisée dans le chapitre 10 pour les poissons du lac est que la variance est estimée en utilisant n 1 au dénominateur et non n. Comme le nombre de degrés de liberté est égal à n 1, on voit que pour des grandes tailles d échantillon la procédure de test décrite ici devient équivalente à celle du chapitre 10, où on utilisait la normale standard. Concrètement, le test est mené de la façon habituelle, mais le domaine de rejet de H 0 n est plus défini à l aide du quantile de la normale standard z 1 α/2 mais avec celui de la loi t à n 1 degrés de liberté, noté t n 1, 1 α/2. Soit t la valeur observée de T. Règle de décision (pour un test de niveau α): Rejeter H 0 si t > t n 1, 1 α/2, où t n 1, 1 α/2 est le quantile 1 α/2 de la distribution t à n 1 degrés de liberté. Ce test s appelle le test de Student ou t-test pour une seule moyenne. 5

2. Intervalle de confiance pour une moyenne Comme précédemment, on définit une fourchette de valeurs plausibles de la vraie moyenne µ dans la population en déterminant toutes les valeurs qui ne sont pas rejetées par le test. Ce sont les valeurs pour lesquelles x µ s/ n t n 1,1 α/2, ce qui est équivalent à x t n 1, 1 α/2 s/ n < µ < x + t }{{} n 1, 1 α/2 s/ n }{{} b inf On définit donc l intervalle de confiance comme IC = [b inf, b sup ]. b sup. 6

Et comme précédemment, on obtient le résultat suivant pour la probabilité que l intervalle de confiance contienne la vraie moyenne µ: Comme T = X µ S/ n t n 1, on a que P ( ce qui est équivalent à P t n 1, 1 α/2 < X µ S/ n < t n 1, 1 α/2 X t n 1, 1 α/2 S/ n }{{} ) = 1 α, < µ < X + t n 1, 1 α/2 S/ n }{{} = 1 α B inf B sup Et donc P ( B inf < µ < B sup ) = 1 α : la probabilité que l intervalle de confiance contienne le vrai paramètre est de 1 α. 7

Au chapitre 10, nous avons vu que l intervalle de confiance basé sur la statistique de test avec la règle de rejeter H 0 si Z = X µ 0 ni=1 (X i X) 2 / n n z > z 1 α/2 avait un coefficient de couverture inférieur à α, même dans le cas où les données ont une distribution normale. En remplaçant les quantiles de N (0, 1) par ceux de la loi t à n 1 degrés de liberté, on corrige ce défaut en élargissant un peu l intervalle de confiance. En effet, comme les distributions t sont un peu plus écartées que la distribution N (0, 1), on aura toujours t n 1, 1 α/2 > z 1 α/2, n. 8

La différence de largeur entre les IC normal et Student a pour base le fait que σ, l écart type des données, n est pas connu et doit être estimé, ce qui représente une source de variabilité supplémentaire. L IC normal n en tient pas compte (il serait exact si σ était connu), alors que l IC Student en tient compte. Rappelons encore que le test de Student est exact si les données ont une distribution normale. En pratique il convient donc de s assurer que le modèle normal est approprié pour décrire les données, par exemple au moyen d un qq-plot. 9

Exemple: On se demande si la masse cérébrale moyenne µ dans une population donnée est égale à la valeur moyenne pour l humanité qui est de 1.5kg. On a mesuré la masse cérébrale de 10 individus et obtenu les valeurs suivantes x i (en kg): 0.77 1.00 1.07 1.20 1.33 1.37 1.45 1.49 1.61 1.82 Le qq-plot indique que le modèle normal n est pas trop mis en défaut: Normal Q Q Plot Sample Quantiles 0.8 1.0 1.2 1.4 1.6 1.8 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles 10

On Procède donc au test: Hypothèses: H 0 : µ = µ 0 = 1.5kg H 1 : µ µ 0 Calcul de la statistique de test: Avec on trouve x = 1.311, et s = t = x µ 0 s/ n. ni=1 (x i x) 2 t = 1.930. n 1 = 0.310, Décision (pour un test au niveau 5%): Comme t < t n 1,0.975 = 2.262, on ne rejette pas H 0. 11

Pour avoir une idée de la précision avec laquelle on a estimé le poids moyen du cerveau dans notre population, on construit un intervalle de confiance à 95%: IC = [ x t n 1, 0.975 s/ n, x + t n 1, 0.975 s/ n] = [1.09kg, 1.53kg], et on constate que, conformément au résultat du test, la valeur de 1.5kg fait partie de l intervalle de confiance. 12

3. Tests statistiques pour deux moyennes Deux situations distinctes: Les données sont observées par paires. Il y a deux mesures par unité d observation. On parle dans ce cas de données appariées. Exemple: On mesure une caractéristique deux fois sur chaque patient d un échantillon; une fois avant un traitement et une fois après. La première et la deuxième observation ne sont pas indépendantes. Les observations proviennent de deux populations différentes et sont indépendantes. On parle alors de données non appariées. Exemple: Poids moyens dans un échantillon de femmes et un échantillon d hommes. Les échantillons n ont pas forcément la même taille. 13

t-test pour données appariées Soient X 1,..., X n et Y 1,..., Y n les variables qui représentent les deux séries de mesures, X 1 allant de paire avec Y 1, etc. On calcule les différences D i = Y i X i et on teste H 0 : E(D i ) = 0 contre H 1 : E(D i ) 0 en se basant sur la condition d application que D i N (µ, σ 2 ), i = 1,..., n. On utilise pour cela le t-test pour une seule moyenne du paragraphe précédent. 14

t-test pour données non appariées Soient X 1,..., X m et Y 1,..., Y n les variables qui représentent les deux séries de mesures. Conditions d application: X i N (µ 1, σ 2 ), Y j N (µ 2, σ 2 ), i = 1,..., m, j = 1,..., n. avec X i et Y j indépendantes i = 1,..., m, j = 1,..., n. Nous avons donc supposé que les deux séries de mesures proviennent de populations qui ont la même variance σ 2. Hypothèses H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Echantillons Tirage aléatoire de m individus dans la première et n individus dans la deuxième population. 15

Statistique de test Différence standardisée entre les moyennes des échantillons: T = D S D, où D = X Ȳ et S D = X = 1 m m i=1 1 m + 1 n avec comme d habitude X i et S x = (m 1)S2 x + (n 1)S 2 y (m 1) + (n 1) et de même pour Y. mi=1 (X i X) 2 m 1, Sous H 0 et les conditions d application, on peut montrer que T t m+n 2, c est-à-dire que T a une distribution t à m + n 2 degrés de liberté. 16

4.Intervalle de confiance pour une différence de moyennes Soit D pop = µ 1 µ 2 la vraie différence entre les moyennes des populations. Ci-dessus, On a testé H 0 : D pop = 0. Pour construire un intervalle de confiance, on teste d autres valeurs de D pop et on garde toutes celles qui ne sont pas rejetées. On peut montrer que: On a donc que P T = D Dpop S D t m+n 2. t m+n 2, 1 α/2 < D Dpop S D ce qui est équivalent à < t m+n 2, 1 α/2 = 1 α, P ( D t m+n 2, 1 α/2 S D < D pop < D + t m+n 2, 1 α/2 S D ) = 1 α 17

Exemple: Déficit alimentaire et myopie. Reprenons encore une fois les données de réfraction occulaire de singes rencontrées dans le chapitre 1 et différentes séries d exercice. Rappel: on se demande si le déficit alimentaire protéique est associé à la myopie. Dans une étude publiée par Young, Leary, Zimmerman et Strobel (1973), les chercheurs ont nourri un groupe de singes avec une diète à faible contenu protéique et un autre groupe avec une diète à haut contenu protéique. Au bout de plusieurs mois, ils ont mesuré la réfraction oculaire des singes. Voici un sous-ensemble des données obtenues: Niveau protéique faible (x i ): 1.27-4.98-0.50 1.25-0.25 0.75-2.75 0.75 1.00 3.00 2.25 0.53 1.25-1.50-5.00 0.75 1.50 0.50 1.75 1.50 Niveau protéique élevé (y i ): -6.00 0.25 1.25-2.00 3.14 2.00 0.75 1.75 0.00 0.75 0.75 0.25 1.25 1.25 1.00 0.50-2.25 18

Les écarts types observés sont: s x = s y = nx i=1 (x i x) 2 n x 1 n y i=1 (y i ȳ) 2 n y 1 = 2.165, = 2.069, ils ne sont donc pas trop différents. Voyons les qq-plots: Niveau protéique faible Niveau protéique élevé Sample Quantiles 4 2 0 2 Sample Quantiles 6 4 2 0 2 2 1 0 1 2 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles Le modèle normal n est pas tout à fait adéquat pour décrire ces données, même si la plupart des observations sont alignées sur une droite. En utilisant une méthode de bootstrap, on a cependant pu s assurer que le niveau réel d un t-test à 5% avec des données distribuées de la sorte était proche de 0.05, de sorte que l on décide d appliquer cette procédure à nos données. 19

On Procède donc au test: Hypothèses: H 0 : µ x = µ y H 1 : µ x µ y, où µ x et µ y sont les vraies réfractions occulaires moyennes dans les deux populations de singes. Calcul de la statistique de test: Avec t = d s D. on trouve d = x ȳ = 0.119, s D = 1 n x + 1 n y (n x 1)s 2 x + (n y 1)s 2 y (n x 1) + (n y 1) = 0.700, t = 0.171. Décision (pour un test au niveau 5%): Comme t < t n x+ny 2, 0.975 = 2.030, on ne rejette pas H 0. 20

Pour avoir une idée de la précision avec laquelle on a estimé la différence entre les réfractions occulaires moyennes des deux populations, on construit un intervalle de confiance à 95%: IC = [d t m+n 2, 0.975 s D, d + t m+n 2, 0.975 s D ] = [ 1.540, 1.301], et on constate que, conformément au résultat du test, la valeur de 0 fait partie de l inervalle de confiance. 21