Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011
Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA
Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA
Contexte Précédemment : Comparaison d une moyenne à une moyenne de référence comparaison de deux moyennes observée par test z ou t Quid des cas où il y a plusieurs moyennes? comparer l effet de trois traitements A, B et C sur la cholestérolémie comparer l expression d un gène entre 4 stades de cancer comparer la durée de séjour entre 3 établissements hospitaliers ou plusieurs techniques opératoires comparer une protéine sérique entre tabagiques actifs, anciens tabagiques et non tabagiques
Contexte Soit un facteur F à J classes, de j = 1,..., J traitement, stades de cancer, hôpitaux, techn. chir. Soit une variable aléatoire X cholestérolémie, niveau d expression du gène, durée de séjours, Comparaison des J moyennes µ j La question : existe-t-il au moins un groupe qui diffère des autres? µ 0 = µ 1 = = µ J? ou µ j µ j pour au moins un couple (j, j )?
Contexte Donc, comparaison de différents groupes indépendants une mauvaise solution : comparaisons deux à deux entre les groupes car : augmentation du risque α : si 4 groupes 6 comparaisons de deux groupes risque de conclure à tort à au moins une différence = 1 0,95 6 = 0,265 au lieu de 0,05 mauvaise estimation de la variance sous H 0 si H 0 vraie, la meilleure estimation de la variance commune est faite sur l ensemble des groupes simultanément
Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA
Théorème fondamental de la Variance Les éléments de base : soient une V.A. X, continue, distribuée suivant une loi de Gauss un facteur F constitué de J groupes avec n j sujets par groupe et N le nombre total de sujets x ij la valeur de la mesure pour le sujet i du groupe j µ la moyenne générale inconnue (pop o ) des valeurs de X µ j la moyenne inconnue (pop o ) des valeurs de X dans le groupe j α j l écart entre la moyenne µ j du groupe j et la moyenne générale µ : α j = µ j µ x j la moyenne observée dans le groupe j a j = x j x un résidu ε ij = x ij µ j estimé par e ij
Théorème fondamental de la Variance Le modèle théorique decrivant les données est : x ij = µ + α j + ε ij le test de comparaison de moyennes implique sous H 0 que les α j = 0, j. dans ce cas, le facteur F n a pas d effet sur la variable X sous H 1, α j 0 pour au moins un j : alors, le facteur F a un effet non nul sur la valeur de X données gaussiennes, sinon réaliser une transformation des valeurs pour normaliser les valeurs
Décomposition de la variation totale A partir du modèle fondamental : x ij = µ + α j + ε ij x ij = x + a j + e ij pour les valeurs observées x ij x = ( x j x) + (x ij x j ) où (x ij x j ) est un résidu e ij estimant ε ij = modèle observé de l ANOVA, pour un sujet i dans le groupe j. les écarts entre les observations individuelles et la moyenne générale sont constitués des écarts des observations individuelles à la moyenne des groupes et des écarts de la moyenne des groupes à la moyenne générale.
Décomposition de la variation totale Passage d une unité statistique à l ensemble des unités : x ij x = ( x j x) + (x ij x j ) En élevant au carré et en sommant sur toutes les unités : soit : n j i=1 j =1 n j i=1 j =1 J (x ij x) 2 = J (x ij x) 2 = n j i=1 j =1 n J j ( x j x) 2 + i=1 j =1 n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 J (x ij x j ) 2
Décomposition de la variation totale L équation fondamentale de la variance n j i=1 j =1 J (x ij x) 2 = n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 1 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle i.e. liée au facteur contrôlé 2 une variation résiduelle i.e. entre unités statistiques dans chacun des groupes 3
Décomposition de la variation totale Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe
Décomposition de la variation totale Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe
Décomposition de la variation totale Remarque L équation ne contient pas de double produit car la somme des doubles produits est nulle en raison de la nullité de la somme des écarts par rapport à la moyenne En effet : n j 2 i=1 j =1 n J j (x ij x j )( x j x) = 2 ( x j x) i=1 J (x ij x j ) = 0 j =1
Décomposition de la variation totale L équation fondamentale de la variance n j i=1 j =1 J (x ij x) 2 = n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 1 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle ou liée au facteur contrôlé 2 une variation résiduelle = i.e. entre unités statistiques dans chacun des groupes 3
Les sources de variations Donc : variation totale = Somme des Carrés Totaux (SCE T ) = n j i=1 j =1 J (x ij x) 2 variation factorielle = Somme des Carrés Factoriels (SCE F ) = J [n j ( x j x) 2 ] j =1 variation résiduelle = Somme des Carrés Résiduels (SCE R ) = n j i=1 j =1 J (x ij x j ) 2
Les sources de variations On a alors : SCE T = SCE F + SCE R On y associe des degrés de libertés : N 1 = (J 1) + (N J )
Définition des carrés moyens Les sommes des carrés des écarts peuvent être divisées par leur nombres de degré de liberté respectifs on obtient alors : CM T = SCE T /(N 1) CM F = SCE F /(J 1) CM R = SCE R /(N J ) Ces carrés moyens ont les propriétés de variances, notamment en ce qui concernent leur distribution d échantillonage.
Le tableau d analyse de la variance : première partie Les données d une analyse de la variance sont généralement présentées dans un tableau de la forme suivante : Sources Degrés Sommes des Carrés de variation de liberté carrés des écarts moyens diff. entre groupes J-1 SCE F CM F diff. entre unités N-J SCE R CM R (dans les groupes) (= résiduelle) Total N-1 SCE T
Les tests statistiques associés Comment tester l écart entre les moyennes à partir de ces éléments? plusieurs moyennes et un test, H 0 vs H 1 des sommes de carrés d écarts et leur distributions d échantillonnage La solution : les sommes de carrés d écart sont assimilables à des variances. sous H 0, les CM F et la CM R sont deux estimations différentes d une même variance leur rapport est donc égal à 1 sous H 0 leur comparaison se fait par leur rapport CM F /CM R si le rapport est trop grand, on rejette l hypothèse d égalité des moyennes
Les tests statistiques associés le rapport CM F /CM R est un rapport de variance, i.e. variance factorielle / variance résiduelle (rappel : le terme de variance est abusif mais utilisé partout et donc aussi ici, à partir de maintenant) un rapport de variances suit une loi de Fisher F donc pour tester l écart de plusieurs moyennes : test de Fisher CM F CM R F J 1;N J ce qui permet donc de tester les écarts entre plusieurs moyennes simultanément!
Le tableau d analyse de la variance : première partie Le tableau complet d une ANOVA : Sources de variation Degrés de liberté Sommes des carrés des écarts Carrés moyens Test F p-valeur diff. entre groupes diff. entre unités (résiduelle) J 1 SCE F CM F CM F CM R N J SCE R CM R p Total N 1 SCE T
Retour sur le concept de l ANOVA Plusieurs points : si plus de deux moyennes : ne pas faire de comparaisons deux à deux car estimation commune des variances sur plusieurs groupes sous H 0 l eq o. fondamentale de l ANOVA : somme d écart inter-groupes et d écarts intra-groupes si pas de différence, la variabilité inter-groupes variabilité intra-groupes si l un au moins des groupes s éloigne des autres : l écart des moyennes (inter-groupes) est supérieur à l écart intra groupes
Retour sur le concept de l ANOVA Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe
Retour sur le concept de l ANOVA Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe
Retour sur le concept de l ANOVA on compare donc plusieurs variables en comparant des variances! cette comparaison test F de Fisher (ou Fisher-Snedecor) (ne pas confondre avec test exact de Fisher) test de rapport de variances, avec des ddl. si le rapport CM F /CM R est supérieur à la valeur seuil de la loi de F pour J 1 et N J ddl, on rejette H 0.
Les calculs de l ANOVA Calculs des moyennes : x j = 1 n j i x ij Soit T j = i x ij la somme des x ij dans le groupe j Soit Tj 2 j = ( i x ij ) 2 le carré de la somme des x ij dans le groupe Calcul des carrés moyens : CM F = j Tj 2 n j ( j T j ) 2 N J 1 CM R = x 2 ij j N J T 2 j n j
Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA
Exemple On veut étudier l effet de deux médicaments sur le taux de lymphocytes d animaux de laboratoires. On construit un plan factoriel dans lequel il y a trois groupes d animaux d effectifs 10 animaux par groupe. On garde un des groupes comme témoin et l on administre les médicaments A et B aux deux autres groupes.
Exemples Valeurs observées (10 3 ) : Groupe témoin : 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ; 260 ; 478 ; Groupe traité par A : 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ; 255 ; 528 ; Groupe traité par B : 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ; 275 ; 401 ; Les données correspondent au modèle d ANOVA : une variable de groupe, une variable continue dont on veut comparer les moyennes
Exemple Descriptif des données : $Descriptif leuco groupes = 1 groupes = 2 groupes = 3 Effectifs présents 30.000 10.000 10.000 10.000 Proportions de présents 100.000 100.000 100.000 100.000 Effectifs manquants 0.000 0.000 0.000 0.000 Proportions de manquants 0.000 0.000 0.000 0.000 Moyenne 353.667 319.600 409.400 332.000 Ecart-type 87.787 90.546 98.423 41.042 Variance 7706.644 8198.489 9687.156 1684.444 Erreur standard (s.e.m) 16.302 28.633 31.124 12.979 Err. Std (basée sur l ANOVA) NA 25.541 25.541 25.541
Exemple Les valeurs : n 1 = n 2 = n 3 = 10 x 1 = 319.6, x 2 = 409.4, x 3 = 332.0 T 1 = 3196, T 2 = 4094, T 3 = 3320 T 2 1 = 31962, T 2 2 = 40942, T 2 3 = 33202
Exemple Résultats de l analyse de la variance (logiciel R) : summary(aov(leuco~groupes)) Df Sum Sq Mean Sq F value Pr(>F) groupes 2 47362 23680.9 3.6302 0.04015 * Residuals 27 176131 6523.4 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1
SCE : SCEt = SCEA + SCEe ddl : (30-1) = (3-1) + (30-3) Valeurs : 223492,7 = 47361,9 + 176130,8 Carrés Moyens : CMA = 47361,9/2 = 23680,9 CM_R = 176130,8/27 = 6523,4 Rapport et test (CMA / CMe ) = 23680,9 / 6523,4 = 3,63 --> F calculé Valeur seuil F à 2 et 27 ddl = 3,354 F obs < F seuil d où la conclusion : on rejette H 0 et au moins un des groupes a une moyenne différente des deux autres groupes.