Master 1 de Santé Publique UE de biostatistique : cours 1 Comparaison de plusieurs moyennes M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1
Liens entre deux variables X et Y variable Y Dichotomique Qualitative à plus de classes Quantitative variable X Dichotomique Qualitative à plus de classes comparaison de pourcentages test du χ comparaison de plusieurs distributions test du χ comparaison de moyennes test t de Student ou Z comparaison de plusieurs moyennes Analyse de la variance Quantitative Régression linéaire M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes
Comparaison de plusieurs moyennes Analyse de la variance Les sujets de la population se répartissent en classes. On s'intéresse à une variable X dont on veut comparer les moyennes dans les classes de la population. Hypothèses testées : H 0 : H 1 : µ 1 = µ = = µ il y a au moins une différence entre les moyennes M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 3
Exemples : La comparaison de plusieurs moyennes peut correspondre à plusieurs types de questions Comparaison des poids de naissances moyens de différentes portées de souris L'intérêt est le "facteur portée", pas la différence entre portées particulières. On parle de "facteur aléatoire". Comparaison des valeurs moyennes d un dosage biologique de 6 groupes de patients traités par 6 traitements différents On est intéressé par une comparaison globale, mais peut-être aussi par des comparaisons à, voire un classement des traitements. On parle de "facteur fixe". Comparaison de la durée de séjour en service de réanimation néonatale de prématurés selon leur terme de naissance : 8 semaines 9-3 semaines 33-34 semaines 35-36 semaines Le facteur "terme" est en fait quantitatif. C'est un problème proche d'une régression. Ces questions : - peuvent se traiter de façon identique par l'analyse de la variance qu'on va voir - se différencient lorsque les questions sont plus complexes (étude simultanée de plusieurs facteurs) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 4
Principe de l analyse de la variance Considérons le cas où il y a 4 populations ( = 4) σ total σ T µ 1 µ µ 3 µ 4 µ Les moyennes µ 1, µ, µ 3, et µ 4 sont égales : σ T = σ σ total σ T µ µ 4 µ µ 1 µ 3 Les moyennes µ 1, µ, µ 3, et µ 4 sont différentes : σ T > σ M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 5
σ total σ T µ µ 4 µ µ 1 µ 3 La variance σ T a deux composantes : - σ qui est la variance interne à chaque groupe (variance intra-groupe) - la dispersion entre les µ i qui correspond à la variabilité entre les groupes (variance inter-groupes) Principe de l analyse de la variance : décomposer σ T en ces parties tester si σ T est différent de σ M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 6
Notations X : variable à laquelle on s intéresse : nombre de populations (et donc de moyennes) comparées Chaque population est repérée par l indice j n j : taille de l échantillon extrait de la population j Chacun des sujets de l échantillon est repéré par l indice i > x : i ème observation de l échantillon j M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 7
Décomposition de la variabilité des observations Somme des carrés des écarts totale : SCE T = ( x m) S T = SCE T n 1 ( ) SCE T = x m j + m j m ( ) + ( m j m) = x m j les termes (x m ) caractérisent la variabilité intra-groupe les termes (m j m) caractérisent la variabilité inter-groupes SCE T = ( x m j ) + ( m j m) + x m j On montre que : ( x m j )( m j m) = 0 ( )( m j m) ( ) donc : SCE T = x m j + m j m ( ) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 8
SCE T = ( x m j ) + m j m ( ) SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle SCE A Somme des carrés des écarts due au facteur étudié ( ) SCE A = n j m j m ne dépend que de la dispersion des moyennes m j des groupes comparés = somme des carrés des écarts entre groupes (ou somme des carrés des écarts due au facteur A) SCE A a (-1) degrés de liberté Variance correspondante (entre groupes) : σ A, estimée par s A = SCE A 1 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 9
SCE T = ( x m j ) + m j m ( ) SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle SCE A Somme des carrés des écarts due au facteur étudié SCE R = ( x m j ) n j = x m j i=1 ( ) ne dépend que de la dispersion des valeurs x au sein de chaque échantillon = somme des carrés des écarts intra-classe ou résiduelle SCE R a (n-) degrés de liberté Variance correspondante (résiduelle) : σ R, estimée par s R = SCE R n M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 10
Principe de l analyse de la variance 1. Décomposer s T (en fait SCE T ) en parties : SCET = SCEA + SCER σ total µ µ 4 µ µ 1 µ 3 σ A σ T σ T σ ( = σ R ). Tester si σ T est égal à σ σ ( = σ R ) c est-à-dire comparer s T et s R en fait, s T et s R ne sont pas indépendants et on montre qu il faut comparer s A et s R, c est-à-dire tester l hypothèse H 0 : σ A = σ R pour comprendre pourquoi, on a besoin de calculer les valeurs théoriques σ A et σ R. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 11
Valeurs théoriques des sommes des carrés des écarts SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle On montre que (si les variances de X sont les mêmes dans les populations) : E(SCE T ) = (n 1)σ + n j (µ j µ) E(SCE A ) = ( 1)σ + n j (µ j µ) E(SCE R ) = (n )σ SCE A Somme des carrés des écarts due au facteur étudié D où : E(s T ) = σ T = E SCE T n 1 = σ + 1 n 1 E(s A ) = σ A = E SCE A 1 = σ + 1 1 E(s R ) = σ R = E SCE R n = σ n j (µ j µ) n j (µ j µ) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1
E(s T ) = σ T = E SCE T n 1 = σ + 1 n 1 E(s A ) = σ A = E SCE A 1 = σ + 1 1 E(s R ) = σ R = E SCE R n = σ n j (µ j µ) n j (µ j µ) H 0 : µ 1 = µ = = µ = µ H 0 : σ A = σ R H 1 : il y a au moins une différence entre les moyennes <=> H 0 : σ A > σ R La comparaison des variances σ A et σ R permet ainsi de tester H 0 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 13
Test de comparaison des moyennes Analyse de la variance H 0 : µ 1 = µ = = µ = µ H 0 : σ A = σ R H 1 : il y a au moins une différence entre les moyennes <=> H 0 : σ A > σ R Si H 0 est vraie et si X a une distribution normale de même variance dans chaque population, on montre que : F 0 = s A s suit une loi de Fisher F 1 n R M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 14
Exécution du test H 0 : σ A = σ R H 0 : σ A > σ R 1. Calculer F 0 = s A s R à partir des observations sur l échantillon. Comparer F 0 à la valeur seuil de F 1 n : => règle de décision F 0 F 1 n (α): rejet de H 0 (au risque α) F 0 < F 1 n (α) : non rejet de H 0 Conditions d application : X a une distribution normale de même variance dans chaque population. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 15
Exécution des calculs Tableau d analyse de la variance Source de variation Somme des carrés des écarts ddl Carré moyen (ou variance) F Entre groupes (facteur A) SCE A -1 s A = SCE A 1 F 0 = s A s K Résiduelle SCE R n- s R = SCE R n Total SCE T = SCE A +SCE R n-1 ( ) SCE A = n j m j m = T j n j T G n = nm j j nm T G = total général = i,j x T j = total de l'échantillon j = i x M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 16
SCE R = ( x m j ) n j = x m j i=1 = x i,j T j n j = (n j 1)s j j ( ) n j i=1 ( x m j ) (n j 1) s R = SCE R n = n j = s j ( x m j ) i=1 = ( n j 1)s j ( n j 1)s j n n = n 1 + + n => n- = (n 1-1) + + (n -1) Donc : s R = (n 1 1)s 1 + (n 1)s +... (n 1 1) + (n 1) +... M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 17
Exemples Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 VGM (en µ 3 ) x.809 9.687 8.1 4.99 3.739 x 63.467 887.305 777.86 459.085 350.01 Nombre de leucocytes (10 6 par l) m 8,4 7,49 7,16 7,17 7,69 s 6,7 5,07,90 4,1 3,77 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 18
Comparaison des moyennes du VGM Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 VGM (en µ 3 ) x.809 9.687 8.1 4.99 3.739 x 63.467 887.305 777.86 459.085 350.01 SCE A = T j n j T G n = 809 +...+ 3 739 9 376 30 40 316 = 731 317,04 730 85,456 = 464,75 SCE R = x i,j T j n j = 737 344 809 30 +...+ 3 739 40 = 737 344 731 317,04 = 6.06,80 SCE T = 464,75 + 6 06,80 = 6 491,55 ou x T G n = 737 344 9 376 316 = 6 491,54 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 19
Source de variation Somme des carrés des écarts d.d.l. Carré moyen (ou variance) F Entre mois SCE A = 464,75 4 s A = 464,75 4 = 116,19 Résiduelle SCE R = 6.06,80 311 s R = 6 06,80 311 = 19,38 F 0 = 116,19 19,38 = 6,00 Total SCE T = 6.491,54 315 4 F 0 doit être comparé avec la valeur seuil de F 311 α 0,05 0,05 0,01 0,001 4 F 00 4 F 311 4 F 500,4,85 3,41 4,81,39,81 3,36 4,69 Les moyennes de VGM varient avec le mois de prélèvement (p<1 ). Mois de prélèvement Nov Déc Février Mars Avril Moyenne 93,6 91,4 94,4 93,0 93,5 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 0
Comparaison des moyennes du nombre de leucocytes Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 Nombre de leucocytes (106 par l) m 8,4 7,49 7,16 7,17 7,69 s 6,7 5,07,90 4,1 3,77 m = 1 n j m j T j = n n 30 8,4 +...40 7,69 = 316 = 351,67 316 = 7,44 SCE A = n j m j nm = 30 8,4 + + 40 7,69 316 7,44 = 17.533,76-17.501,14 = 3,6 SCE R = ( n j 1)s j = 9 6,7 +...39 3,77 = 1 34,85 SCE T = SCE A + SCE R = 1.366,87 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1
Source de variation Somme des carrés des écarts Entre mois SCE A = 3,6 4 d.d.l. Carré moyen (ou variance) s A = 3,6 4 = 8,16 F F 0 = 8,16 4,6 = 1,9 Résiduelle SCE R =1.34,85 311 s R = 4,6 Total SCE T = 1.366,87 315 4 F 0 doit être comparé avec la valeur seuil de F 311 α 0,05 0,05 0,01 0,001 4 F 00,4,85 3,41 4,81 4 F 311 4 F 500,39,81 3,36 4,69 On ne met pas évidence de différence entre les nombres moyens de leucocytes selon le mois de prélèvement. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes
Attention aux arrondis Calcul sans arrondis m = 30 8,4 +...40 7,69 316 = 351,67 316 = 7,44 SCE A = 30 8,4 + +40 7,69 316 7,44 = 17.533,76-17.501,14 = 3,6 F 0 = 1,9 non significatif m arrondi à 7,44 donne : SCE A = 30 8,4 + +40 7,69 316 7,44 = 17.533,76-17.491,74 = 46,0 F 0 =,47 significatif M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 3
Cas particulier de moyennes H 0 : µ 1 = µ ; H 1 : µ 1 µ tests possibles : - test de Student m t 0 = 1 m 1 s + 1 n 1 n, avec s = (n 1) s 1 1 + (n 1) s n 1 + n valeur seuil : t n1 +n ;α/ - analyse de la variance F 0 = s A s valeur seuil : F 1 n 1 +n R ;α. Ils sont équivalents car : F 0 = t 0 Les valeurs seuil de F 1 = carrés des valeurs seuil de t. Les conditions d'application identiques : distributions normales et variances égales. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 4
On montre que : Ecarts aux conditions d application - le défaut de normalité des populations n affecte pas les résultats du test si elle n est pas très importante - l'importance de l égalité des variances dépend de l'écart entre les effectifs des échantillons si les échantillons ont des effectifs égaux ou du même ordre de grandeur, l analyse de la variance est très robuste et supporte de fortes hétérogénéités de variances. sinon, le risque α peut être influencé considérablement par une inégalité des variances, surtout lorsque les échantillons les plus réduits correspondent aux populations de variances maximum. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 5