UE4 Comparaison de moyennes Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Janvier 2011
Plan 1 Comparaison d une moyenne à une référence Contexte Tests et exemples 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Contexte Plan 1 Comparaison d une moyenne à une référence Contexte Tests et exemples 2 Comparaison de deux moyennes
Contexte Comparaison d une moyenne à une référence Exemple 1 firme pharmaceutique veut vérifier son procédé de fabrication flacon de 250 ml de sérum physiologique on mesure le volume de 20 flacons la moyenne observée m = 250,3 contredit-elle la norme de fabrication? Exemple 2 savoir si dans un groupe de personne la dose de vit D suit une norme définie Exemple 3 dosage d une hormone le matin et le soir chez n sujets : la valeur évolue-t-elle dans la journée?
Contexte Comparaison d une moyenne à une référence Ces trois exemples concernent : 1 le contrôle d un processus de fabrication 2 la vérification d une norme 3 une comparaison avant-après dans des mesures appariées : la comparaison dans ce cas de deux moyennes peut se ramener au cas d une moyenne unique
Contexte Comparaison d une moyenne à une référence Les hypothèses nulles et alternatives : dans un contexte de test bilatéral : H 0 : µ = µ R H 1 : µ µ R dans un contexte de test unilatéral : H 0 : µ = µ R H 1 : µ > µ R ou µ < µ R Pour savoir si l échantillon vient de la population P de référence ou d une autre population P savoir si l écart entre m et µ R est attribuable à une fluctuation d échantillonnage ou a une différence réelle entre la valeur de référence et la valeur dans la population dans laquelle on a tiré l échantillon
Tests et exemples Plan 1 Comparaison d une moyenne à une référence Contexte Tests et exemples 2 Comparaison de deux moyennes
Tests et exemples Comparaison d une moyenne à une référence La plupart du temps, on ne connait pas la variance σ 2 dans la population dont on extrait l échantillon (situation la plus courante) la variance doit alors être estimée sur l échantillon donc une incertitude supplémentaire implique l utilisation d une loi de Student t = m µ R s 2 n = loi de Student à n 1 ddl t n 1 où s 2 indique l estimation de σ 2 obtenue sur l échantillon
Tests et exemples Comparaison d une moyenne à une référence Mais si l échantillon est grand : z = m µ R s 2 n N (0,1) où s 2 indique l estimation de σ 2 obtenue sur l échantillon car si n grand, m suit une loi de Gauss même si la V.A. X ne suit pas une loi de Gauss dans la population.
Tests et exemples Comparaison d une moyenne à une référence Les conclusions en terme d H 0 et d H 1 : Pour le test z : pour un test bilatéral : si z z 1 α/2 on accepte H 0 : absence de différence si z > z 1 α/2 on conclut H 1 : différence des moyennes pour un test unilatéral : rejet H 0 si z > z 1 α H 1 : µ > µ R rejet H 0 si z < z 1 α, soit z < z α H 1 : µ < µ R
Tests et exemples Comparaison d une moyenne à une référence Les conclusions en terme d H 0 et d H 1 : Pour le test t, sachant que t suit une loi de Student à n 1 ddl : pour un test bilatéral : on rejette H 0 si t > t n 1;1 α/2 pour un test unilatéral : rejet H 0 si t > t n 1;1 α H 1 : µ > µ R rejet H 0 si t < t n 1;1 α soit t < t n 1;α H 1 : µ < µ R
Tests et exemples Comparaison d une moyenne à une référence Les conclusions en terme d H 0 et d H 1 : Pour le test t, sachant que t suit une loi de Student à n 1 ddl : pour un test bilatéral : on rejette H 0 si t > t n 1;1 α/2 pour un test unilatéral : rejet H 0 si t > t n 1;1 α H 1 : µ > µ R rejet H 0 si t < t n 1;1 α soit t < t n 1;α H 1 : µ < µ R si la V.A. d intérêt suit une loi de Gauss
Tests et exemples Conditions d application Les conditions d applications de ces deux tests sont : si n est grand (n 30), on utilise le test z, quelle que soit la distribution de X dans la population Si n petit (n < 30), on utilise le test t, sous l hypothèse que X N
Tests et exemples Exemple 1 On souhaite comparer la consommation de vit. D de nourrisson par rapport à une norme norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/l. On trouve dans un échantillon n = 137, m = 38,45, s = 51,6. l H 0 : µ P = µ R l H 1 : µ P µ R on réalise le test z : z obs = 38,45 50 = 2,62 51,6 2 137 on compare z obs à z 1 α/2 on conclut H 1 que la population d intérêt a une moyenne de 25-OH-D inférieure à la normale
Tests et exemples Exemple 1 On souhaite comparer la consommation de vit. D de nourrisson par rapport à une norme norme 25-hydroxyvitamine-D (25-OH-D) = 50 nmol/l. On trouve dans un échantillon n = 137, m = 38,45, s = 51,6. l H 0 : µ P = µ R l H 1 : µ P µ R on réalise le test z : z obs = 38,45 50 = 2,62 51,6 2 137 on compare z obs à z 1 α/2 : z obs = 2,62 i.e. z obs > 1,96 on conclut : H 1 que la population d intérêt a une moyenne de 25-OH-D inférieure à la normale
Tests et exemples Exemple 1 : commentaires Remarque On aurait aussi pu calculer la proportion de sujets ayant une concentration en vit. D inférieure à la norme ou inférieure à une valeur basse de la norme (qui va en fait de 20 à 100 nmol/l) et faire un test de comparaison de proportions (voir cours correspondant) Attention cela ne répond pas à la même question et les résultats peuvent être discordants en terme de rejet et acceptation de H 0 ou H 1
Tests et exemples Exemple 2 Vérification des volumes de fabrication échantillon de n = 20, avec m = 250,3, s 2 = 2,9. l H 0 : µ P = µ R l H 1 : µ P µ R on réalise le test t : t obs = 250,3 250 2,9 20 = 0,885 seuil : t n 1;1 α/2 = t 19;0,975 = 2,09 comparaison : t obs et t n 1;1 α/2 on conclut H 0 et on conclut que le volume de fabrication ne diffère pas de la norme
Tests et exemples Exemple 2 Vérification des volumes de fabrication échantillon de n = 20, avec m = 250,3, s 2 = 2,9. l H 0 : µ P = µ R l H 1 : µ P µ R on réalise le test t : t obs = 250,3 250 2,9 20 = 0,885 seuil : t n 1;1 α/2 = t 19;0,975 = 2,09 comparaison : t obs < t n 1;1 α/2 i.e. t obs < 2,09 on conclut H 0 i.e. que le volume de fabrication ne diffère pas de la norme
Plan 1 Comparaison d une moyenne à une référence 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Contexte Plan 1 Comparaison d une moyenne à une référence 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Contexte Contexte de comparaison de deux moyennes Exemple 1 Pour comparer deux somnifères, on attribue soit le somnifère A soit le somnifère B à deux groupes de 50 sujets chacun, groupes constitués aléatoirement. Comment montrer que B allonge plus la durée de sommeil que A? Exemple 2 On souhaite comparer la valeur moyenne de la tension artérielle de deux groupes de patients, selon la présence ou non d un facteur de risque supposé (tabac, alcool, variant génétique, toxique). On dispose d un échantillon de 16 sujets dans chaque groupe. On trouve m A = 130,7 et m B = 136,1. L écart est-il attribuable au facteur? La solution : comparaison de deux moyennes observées
Contexte Comparaison de deux moyennes observées Les hypothèses H 0 et H 1 : Les différences sont-elles attribuables uniquement à une fluctuation aléatoire ou à un effet du médicament (exemple 1) ou du facteur (exemple 2)? Autre formulation : Soit µ A et µ B les moyennes vraies des deux populations A et B d où sont issus les deux échantillons : les deux moyennes sont-elles identiques? Les deux échantillons sont-ils issus de la même population ou de deux populations différentes? H 0 : les deux moyennes ne diffèrent pas : µ A = µ B H 1 : les moyennes diffèrent : µ A µ B si bilatéral H 1 : les moyennes diffèrent : µ A < µ B ou µ A > µ B si unilatéral
Contexte Comparaison de deux moyennes observées Remarque : les σ 2 n interviennent pas dans la formulation des hypothèses alors qu elles sont indispensables pour réaliser le test. Une hypothèse très forte nécessaire pour comparer les moyennes est que les variances sont égales dans les deux populations = homoscédasticité des variances. Pourquoi? Car cela permet de dire que l effet du facteur se manifeste par un décalage des valeurs et pas par la combinaison d un décalage et d une dilatation des valeurs. Si le traitement modifiait les moyennes et les variances, on testerait deux choses simultanément sans que l on puisse les distinguer par ce test On test des décalages de moyennes et pas des modifications quelconques des valeurs
Grands échantillons Plan 1 Comparaison d une moyenne à une référence 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Grands échantillons Comparaison de deux moyennes observées (1) cas des grands échantillons : n 1 30 et n 2 30 Fluctuations d échantillonnage sous H 0 (i.e. si H 0 est vraie) : m A N (µ A, σa 2 /n A) m B N (µ B, σb 2 /n B) et m A m B N (µ A µ B, σa 2 /n A + σb 2 /n B) si les deux échantillons sont indépendants
Grands échantillons Comparaison de deux moyennes observées La plupart du temps, les σ 2 ne sont pas connues Comme n A et n B sont grands, on peut remplacer σ A et σ B par s A et s B (bonne approximation) alors, sous l hypothèse d égalité des variances z = m A m B N (0,1) sa 2 n A + s2 B nb Il y a ici deux approximations de nature différente : 1 la distribution de m par une loi normale 2 celle de la valeur de σ par s
Grands échantillons Comparaison de deux moyennes observées Donc, pour un test bilatéral au seuil α : si z z 1 α/2 on accepte H 0 : absence de différence si z > z 1 α/2 on conclut H 1 : différence des moyennes Et pour un test unilatéral : pour H 1 pour H 1 : µ A > µ B : rejet de H 0 si z > z 1 α : µ A < µ B : rejet de H 0 si z < z 1 α soit z z α
Grands échantillons Application Exemple 1 : somnifères. Deux traitements A et B (B = placebo), comparés sur la durée de sommeil on observe m A = 5,41, m B = 5,02, s 2 A = 2,1 et s2 B = 1,9 formulation unilatérale H 0 : µ A = µ B et H 1 : µ A > µ B z = 1,38 (< z 1 α=95% = 1,645), donc différence non significative donc H 0, absence de différence est ici retenue : on ne met pas en évidence de différence entre les deux traitements un gain de 0,39 h = 23 minutes n est pas négligeable mais insuffisant pour montrer la supériorité de A sur un placebo
Petits échantillons Plan 1 Comparaison d une moyenne à une référence 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Petits échantillons Comparaison de deux moyennes observées (2) cas des petits échantillons : si n 1 < 30 et/ou n 2 < 30 Fluctuations d échantillonnage sous H 0 (i.e. si H 0 est vraie) : dans ce cas, l approximation par la loi de Gauss n est plus possible en raison de l estimation des variances si la distribution de la V.A. est gaussienne dans chacune des populations et si σ 2 A = σ2 B, alors : t = m A m B ( ), s 2 1 n A + 1 n B avec s 2 = (n A 1)sA 2 + (n B 1)sB 2 n A + n B 2 t à n A + n B 2 ddl ; s 2 : moyenne pondérée des variances
Petits échantillons Réalisation du test La valeur de t suit une loi de Student à n A + n B 2 ddl. Donc, pour un test bilatéral : on rejette H 0 si t > t na +n B 2;1 α/2 Et pour un test unilatéral : pour H 1 pour H 1 : µ A > µ B rejet de H 0 si t > t na +n B 2;1 α : µ A < µ B rejet de H 0 si t < t na +n B 2;1 α si la V.A. d intérêt suit une loi de Gauss et que les variances sont égales.
Petits échantillons Remarques diverses : Le test t est en fait valable même pour de grands effectifs, car il se rapproche d un z quand les effectifs augmentent. Dans le cas des grands échantillons, il y a donc deux tests utilisables, qui donnent des résultats très proches. Lorsque les effectifs sont inégaux, il est particulièrement important que l homoscédasticité des variances soit respectée
Petits échantillons Application Exemple 2 : tension artérielle n A = n B = 16 on observe m A = 130,7, m B = 136,1, s 2 A = 23,2 et s2 B = 25,8 H 0 : µ A = µ B et H 1 : µ A µ B on calcule : s 2 = 15 23,2+15 25,8 30 t = donc t > t 30;1 α/2 = 2,042 136,1 130,7 s 2 (1/16 + 1/16) = 3,09 ici dans une formulation bilatérale, si effet du toxique inconnu a priori on utiliserait une formulation unilatérale par ex. pour un traitement dont on connait l action pharmacologique
Petits échantillons Synthèse sur les conditions d application Différents cas possibles : soit une V.A. X si les effectifs sont grands (n A et n B 30) test z quelle que soit la loi de X si les effectifs sont petits (n A et n B < 30) ou si l un des effectifs est petit (n A ou n B < 30) test t X doit être gaussien les variances ne doivent pas être différentes on utilise la moyenne pondérée des variances En pratique, le t de Student est toujours applicable, l écart entre le t et le z diminuant quand n augmente
Séries appariées Plan 1 Comparaison d une moyenne à une référence 2 Comparaison de deux moyennes Contexte Grands échantillons Petits échantillons Séries appariées
Séries appariées Comparaison de moyennes sur séries appariées Jusqu ici deux groupes indépendants de valeurs notion de comparaison non-indépendantes entre deux groupes avant - après témoins appariés aux cas par âges, taille, critères biologiques ex. : côté droit / côté gauche deux prélèvements sur un même organe mais avec deux traitements différents
Séries appariées Comparaison de moyennes sur séries appariées Principe de la solution pour chaque i, calcul de la différence entre les deux valeurs une série unique de valeur comparer la moyenne de cette série à 0. = un test contre une moyenne de référence δ i = µ ia µ ib et calcul des différents pour chaque sujet le test statistique : H 0 : µ δ = 0 (0 = µ R ) et H 1 : µ δ 0 deux tests selon les effectifs : z si n grand ou t si n petit
Séries appariées Comparaison de moyennes sur séries appariées Data! Data! Data! he cried impatiently. I can t make bricks without clay. The Copper Beeches, Sir A. Conan Doyle.
Séries appariées Comparaison de moyennes sur séries appariées Exemple : comparaison de glycémie à jeun sans et avec un traitement. en l absence d effet du traitement, les écarts de mesures seront nuls en formulation bilatérale H 0 : µ dif = 0 et H 1 : µ dif 0 soit n = 12, m dif = 0,21g/L, s 2 m = 0,232 m µ s 2 n = m s 2 n car µ = 0 et m s 2 n t t obs = 0,21( 0) 0,232 12 = 0,21 0,232 12 = 1,51 donc t obs < t 11;1 α/2 puisque (t 11;1 α/2 = 2,2) d où le non rejet de H 0
Séries appariées Synthèse La comparaison de moyennes peut se faire : 1 entre une moyenne observée et une moyenne de référence 2 entre deux moyennes sur des séries appariées, situation qui se ramène au cas 1 avec µ R = 0 2 entre deux moyennes indépendantes 3 entre plus de deux moyennes : voir cours sur ANOVA Les conditions d applications portent sur : la taille du ou des échantillons l homoscédasticité si deux moyennes le respect de la loi de Gauss pour la V.A.