L ANOVA (complements) On utlse le t de Student pour comparer deux moyennes. Cependant s on veut comparer tros moyennes ou plus l devent nécessare d utlser l Analyse de Varance smple ou l ANOVA 1. L applcaton de l ANOVA mplque cnq postulats : 1) La nécessté qu l y at une dstrbuton normale de la varable dépendante (on note cette varable par la lettre y) dans la populaton; ) Les échantllons de la varable dépendante dovent être ndépendants; 3) La dstrbuton de la varable dépendante à l ntéreure de la varable ndépendante (on note cette varable x) possède la même varance. C est ce que l on nomme l homoscédastcté; 4) La varable dépendante dot être quanttatve; 5) L échantllonnage dot être aléatore. S on utlse qu un seul facteur on dra qu l s agt d une analyse smple. Prenons l exemple qu se retrouve dans le lvre de Donnelly. Supposons que vous applquez sur 18 parcelles de votre pelouse tros engras dfférents. Il y a 6 parcelles pour chacun des engras. Après une semane on tond le gazon et on pèse l herbe coupée. On pose l hypothèse qu l n y a pas de dfférence statstquement sgnfcatve dans la moyenne du pods pour les tros types d engras. Ic le postulat 4 est respecté pusque la varable dépendante, le pods, est de nature quanttatve. Les postulats et 5 sont également respectés pusque les échantllons sont aléatores et ndépendants. Il sufft mantenant de valder les postulats 1 et 3. Pour fare cela l faut examner les résultats des dfférentes pesées. Examnons le tableau des résultats. On présumera qu l y a une dstrbuton normale et on remarque que les varances sont relatvement smlares. L ANOVA est un test assez robuste pour permettre un certan écart des varances. Engras 1 (en lbs) Engras (en lbs) Engras 3 (en lbs) 10, 11,6 8,1 8,5 1,0 9,0 8,4 9, 10,7 10,5 10,3 9,1 9,0 9,9 10,5 8,1 1,5 9,5 Moyenne 9,1 10,9 9,48 Varance 1,01 1,7 0,96 On pose l hypothèse nulle que les moyennes sont dentques. Comme les échantllons sont ndépendants on précsera que les moyennes de chacune des tros populatons (c les 1 L ANOVA est un dmnutf pour ANalyss Of VArance. Robert A. Donnelly Jr. he complete dots gude to Statstcs, Alpha, New York, 004. L exemple se trouve aux pages 81-86. La traducton est de nous.
tros engras) provennent d une moyenne de populaton dentque. On exprme cela en notant que H o : µ 1 µ µ 3 et que H 1 : les moyennes ne sont pas égales. On dot lre l expresson H o : µ 1 µ µ 3 comme sut : Il n y a pas de dfférence dans la moyenne des tros populatons d engras ou encore l n y a pas de dfférence entre les tros engras. L objectf du calcul de l ANOVA est donc de vérfer s l exste une dfférence entre les tros types d engras ou encore s cette dfférence se retrouve à l ntéreur des tros groupes. Pour fare cela l faut examner la dstrbuton nterne (à l ntéreur des observatons pour chaque type d engras) et entre les types d engras (on compare les résultats entre les groupes. Il faut donc effectuer pluseurs calculs pour arrver à une concluson. La partton de la somme des carrés Le tableau c haut nous donne la moyenne pour chacun des engras. Il faut également calculer la moyenne totale c'est-à-dre la moyenne pour les 18 observatons. Cette moyenne est : 10, + 8,5 + 8,4 + 10,5 + 9,0 + 8,1 + 11,6 + 1,0 + 9, + 10,3 + 9,9 + 1,5 + 8,1 + 9,0 + 10,7 + 9,1 + 10,5 + 18 177,1 9,83 18 Nous avons ans la moyenne pour chaque groupes (type d engras) ans que la moyenne pour l ensemble de toutes les observatons. La premère étape Il s agt donc de parttonner les dfférentes dévatons du score (moyenne) telle que 3 : La dévaton du score de la varable dépendante par rapport à la moyenne totale est égale à la dévaton du score de la varable dépendante par rapport à la moyenne du groupe plus la dévaton de la moyenne du groupe par rapport à la moyenne totale. On exprme algébrquement cette phrase comme sut : ( ) ( ) + ( ) lorsque le score du e cas de la varable dépendante la moyenne totale (c'est-à-dre la moyenne de tout les cas) la moyenne du groupe de la varable ndépendante auquel appartent le e cas. 9,5 3 Ce texte provdent du lvre de Wllam Fox Statstques Socales, PUL, Sante-Foy, 1999. (p. 34)
Pour l ensemble des cas nous aurons : ( ) ( ) ( ) + (Il est en effet mportant de mettre la dfférence au carré afn de ne pas avor comme résultat fnal 0). Donc pour notre exemple ( ) ( 10, 9,83) + ( 8,5 9,83) +... + ( 9,5 9, 83 ) 9,1 (Vous aurez comprs qu l faut fare le calcul pour chacune des 18 observatons de notre exemple). 9,1 ( ) ( ) + Nous devons mantenant fare le calcul pour chacune des observatons d un certan groupe en foncton de la moyenne de ce groupe. La moyenne pour le premer engras est de 9,1. Donc : ( ) ( 10, 9,1) + ( 8,5 9,1) + ( 8,4 9,1) + ( 10,5 9,1) + ( 9,0 9,1) + ( 8,1 9, 1 ) (,08) ( 0,6) ( 0,7) ( 1,38) ( 0,1) ( 1, 0 ) 1 + + + + + (Note vous aurez remarqué que la somme ne donne pas exactement 0. Nous avons utlsé les chffres qu se retrouvent dans le lvre de Donnelly et celu-c a utlsé une moyenne de 9,1 alors qu elle est en réalté de 9,116666667. Cette pette dfférence dans l utlsaton de la moyenne explque le léger écart entre les dfférences. Cec llustre assez ben l mpact d arrondr des décmales. Lorsque le calcul est effectué par ordnateur on ne retrouve pas ce problème.) ( 1,1664) ( 0,3844) + ( 0,5184) + ( 1,9044) + ( 0,0144) + ( 1,0404) + 5,084 Il faut par la sute répéter pour les deux autres groupes et addtonner le tout. Il exste toutefos une méthode abrégée (qu ne donne pas exactement le même résultat notamment c à cause des décmales) qu est également utlsé. La réponse avec ce deuxème calcul k est 5,05. Cette formule est : ( n 1) 1 s Il s agt donc de la somme (Σ) des dfférents groupe (k) à compter de la premère observaton (1) de la dfférence du nombre d observatons pour chaque groupe mons 1 multplé par la varance de ce groupe. Pour notre exemple nous aurons (6-1) 1,01 + (6-1) 1,70 + (6-1) 0,96 18,35
(Il y a 6 observatons pour le premer engras et la varance est de 1,01; l y a 6 observatons pour le deuxème engras et la varance est de 1,70 et, enfn, l y a 6 observatons pour le trosème engras et la varance est de 0,96.) Nous avons donc une dfférence des scores ntragroupe. Fnalement nous devons calculer la dfférence des scores entre les groupes : 1 k Une des formules utlsées est : ( ) n x x Il s agt donc de fare la somme (Σ) pour chacun des groupes en calculant la dfférence de la moyenne du groupe ( x ) avec la moyenne de l ensemble de toutes les observatons (c x ) (on aurat également pu utlser la notaton sot barre majuscule). La dfférence pour chaque groupe dot être multplé par le nombre (n) d observatons qu se retrouvent à l ntéreur du groupe. Pour notre exemple nous avons : k 1 ( x ) x n 6(9,1-9,83) + 6(10,9 9,83) + 6(9,48-9,83) 10,86 Nous avons donc notre équaton : 9,1 18,35 + 10,86 Mantenant que nous avons les dfférences de la somme des carrés nous pouvons calculer les dfférentes varances. La varance pour l ensemble des 18 observatons est de : DSC ( ) n 1 n 1 9,1 18 1 1,7 DSC Dévaton totale de la somme des carrés La varance ntra groupe est : ( ) n k chacune des observatons du groupe la moyenne du groupe de ces observatons k le nombre de groupe (c 3 pusqu l y a tros engras dfférents) n le nombre total d observatons (c 18)
18,35 Donc : 18 3 18,35 1. 15 La varance nter groupe est : N ( ) k 1 N Nombre d observatons dans le groupe la moyenne du groupe de ces observatons la moyenne totale des observatons k le nombre de groupe (c 3 pusqu l y a tros engras dfférents) (On dot calculer pour chacun des groupes) Ans la varance nter groupe est 10,86 3 1 10,86 5,43 Le calcul de l ANOVA, qu est dentfé par la lettre F, est le résultat de la dvson de la varance nter groupe sur la varance ntra groupe. F Varancent ergroupe Varancent ragroupe 5,43 4,45 1, Ce résultat dot être nterprété en foncton d une table. C est ce que nous verrons c bas. La somme moyenne des carrés entre les groupes (nter groupe) est une mesure de varaton entre les moyennes des dfférents échantllons (c les 3 engras) alors que la la somme moyenne des carrés dans les groupes (ntra groupe) est une mesure de la varaton à l ntéreur de chaque échantllon. Une dfférence relatvement grande ntra groupe par rapport à l ntra groupe ndque que les moyennes sont des échantllons s élogne entre elles. Cette condton fera en sorte que F sera assez grand. Plus le F est grand (en rapport avec la valeur crtque de la table) plus cela nous amène à conclure qu l exste une dfférence statstquement sgnfcatve entre les moyennes. Les degrés de lbertés et l utlsaton de la table Comme pour les autres tests d hypothèse nous devons nterpréter le résultat du F à l ade d une table. Pour utlser cette table l est nécessare de connaître les degrés de lbertés. Dans le cas de la table du F l est nécessare d utlser deux dl (on utlse également la notaton plus technque avec la lettre nû (υ)). Il faut donc connaître le dl nter groupe et ntra groupe. On obtent le dl nter groupe par le calcul suvant : k 1. C'est-à-dre le nombre de groupe mons 1. Ic le dl nter groupe est de 3-1.
On obtent le dl ntra groupe par le calcul suvant N k. Ic l y a 18 observatons au total (donc N 18) et 3 groupes (donc k 3-1). Nous avons donc un dl ntra groupe de 18 3 15. Dans la table le dl nter groupe se retrouve à l horzontal alors que dl ntra groupe se retrouve à la vertcale. Par conventon le dl nter groupe est présenté en premer et le dl ntra groupe en deuxème. Nous obtenons donc le résultat suvant : F (,15) 4,45 Il faut regarder dans la table pour accepter ou rejeter Ho. On commence toujours à un nveau de 0,05 pour prendre la décson. La valeur crtque pour un dl de (,15) à α 0,05 est de 3,68. On rejette donc Ho et on conclue qu l y a une dfférence entre les moyennes (ou meux que les moyennes ne provennent pas de la même populaton. La valeur crtque à α 0,05 est de 4,77. Comme notre F de 4,45 est nféreur à 4,77 nous rejetterons Ho mas à un nveau α 0,05. Le résultat s écrrat donc : F (,15) 4,45 p<,05 Il est mportant de noter que le résultat ne nous permet pas de comparer les moyennes mas ben d affrmer que les moyennes sont dfférentes. Afn d affrmer que le deuxème engras est plus effcace que le premer engras nous serons dans l oblgaton d effectuer un autre test (en anglas a parwse comparason). Habtuellement les résultats se présentent sous forme de tableau : Orgne Somme des carrés dl Somme moyenne des carrés F P Intergroupe 10,86 5,43 4,45 0,05 Intra groupe 18,35 15 1, otal 9,1 17 On obtent le dl total par N - 1 18-1 17 Pour calculer le F on utlse la somme moyenne des carrés.