ANOVA et plans d expérience. Atelier Statistique

ANOVA et plans d expérience Atelier Statistique

Synopsis The analysis of variance is not a mathematical theorem, but rather a convenient method of arranging the arithmetic. Ronald Fisher (1890 1962) Plan d expérience Exemples de plans Décrire les relations entre variables Split Apply Combine (Wickham, 2011) ANOVA à un facteur ANOVA à deux facteurs Effet d interaction Illustration Méthode des blocs Références

Plan d expérience Maximiser la précision en minimisant le nombre d essais. Mise en œuvre organisée d un ensemble d unités expérimentales pour caractériser l effet de certains traitements, ou combinaison de traitements, sur une ou plusieurs variables réponses. Dans les plans factoriels, par exemple, on croisera tous les niveaux de tous les facteurs expérimentaux. Prendre en considération un ou plusieurs facteurs de nuisance pendant la constitution du dessin expérimental : organiser les sources de variation indésirables de façon à ce qu elles affectent les traitements de manière équivalente, rendant ainsi possible la comparaison entre traitements. Dagnelie P. (2012). Principes d expérimentation: planification des expériences et analyse de leurs résultats. Gembloux, Presses agronomiques (ISBN 978-2-87016-117-3). Édition électronique disponible à l adresse : http://www.dagnelie.be.

Exemples de plans a1 x1, x2, x3, x4, x5, x6, x7, x8 a2 x9, x10, x11, x12, x13, x14, x15, x16 id y A 01 x1 a1 02 x2 a1 03 x3 a1... 14 x14 a2 15 x15 a2 16 x16 a2 s1 s2 x1, x2 x9, x10 a1 x3, x4 x11, x12 x5, x6 x13, x14 a2 b1 b2 b1 b2 x7, x8 x15, x16 id y A B s1 x1 a1 b1 s1 x2 a1 b1 s1 x3 a1 b2 s1 x4 a1 b2 s1 x5 a2 b1... s2 x12 a1 b2 s2 x13 a2 b1 s2 x14 a2 b1 s2 x15 a2 b2 s2 x16 a2 b2 a1 a2 b1 x1, x2, x3, x4 x5, x6, x7, x8 b2 x9, x10, x11, x12 x13, x14, x15, x16 id y A B 01 x1 a1 b1 02 x2 a1 b1 03 x3 a1 b1 04 x4 a1 b1 05 x5 a2 b1... 12 x12 a1 b2 13 x13 a2 b2 14 x14 a2 b2 15 x15 a2 b2 16 x16 a2 b2 s1 s3 x1, x2 x9, x10 a1 x3, x4 x11, x12 x5, x6 x13, x14 a2 b1 b2 b1 b2 x7, x8 x15, x16 s2 s4 id y A B s1 x1 a1 b1 s1 x2 a1 b1 s1 x3 a1 b2 s1 x4 a1 b2 s2 x5 a2 b1... s3 x12 a1 b2 s4 x13 a2 b1 s4 x14 a2 b1 s4 x15 a2 b2 s4 x16 a2 b2

Décrire les relations entre variables R suit les conventions de notation proposées par Wilkinson & Rogers (Wilkinson and Rogers, 1973; Chambers and Hastie, 1992) pour exprimer une relation fonctionnelle, symbolisée par ~, entre une variable réponse y et une ou plusieurs variables explicatives. x x + 0 a + b a * b a / b régression linéaire simple idem avec suppression de l intercept deux effets principaux (relation de croisement) équivalent à 1 + a + b + a:b, idem avec interaction équivalent à 1 + a + b + a %in% b (relation d emboîtement) fm <- y ~ a * b * c mod1 <- aov(fm, data=dfrm) update(mod1,. ~. -a:b:c) # modèle de base (A, B, C, AB, AC, BC, ABC) # estimation des paramètres du modèle # suppression de l'interaction ABC

Split Apply Combine (Wickham, 2011) id A y 01 a1 12 02 a1 10 03 a1 8 04 a2 15 05 a2 6 06 a2 10 07 a3 9 08 a3 11 09 a3 10 10 a4 5 11 a4 8 12 a4 12 SPLIT 01 a1 12 02 a1 10 03 a1 8 04 a2 15 05 a2 6 06 a2 10 07 a3 9 08 a3 11 09 a3 10 10 a4 5 11 a4 8 12 a4 12 APPLY mean a1 10 a2 10.3 a3 10 a4 8.3 COMBINE a1 10 a2 10.3 a3 10 a4 8.3 > y <- c(12,10,8,15,6,10,9,11,10,5,8,12) > A <- gl(4, 3, 12, labels=paste("a", 1:4, sep="")) > tapply(y, A, mean) # aggregate(y, list(a=a), mean) a1 a2 a3 a4 10.000000 10.333333 10.000000 8.333333

ANOVA à un facteur Formalisation du modèle : Soit y ij la j e observation dans le groupe i (facteur A). On peut décrire un modèle à effet comme y ij = µ + α i + ε ij, où µ désigne la moyenne générale, α i l effet du groupe i (i = 1,..., a), et ε ij N(0, σ 2 ) un terme d erreur aléatoire. On impose généralement que a i=1 α i = 0. L hypothèse nulle se lit H 0 : α 1 = α 2 =... = α a, et se teste à l aide d un test F à a 1 et N a degrés de liberté. > mod1 <- aov(y ~ A, data=d) > summary(mod1)

ANOVA à deux facteurs On considère deux effets fixes, dont l interaction peut être l objet d étude ou non. Formalisation du modèle : Soit y ijk la k e observation pour le niveau i du facteur A (i = 1,..., a) et le niveau j du facteur B (j = 1,..., b). Le modèle complet avec interaction s écrit y ijk = µ + α i + β j + γ ij + ε ijk, où µ désigne la moyenne générale, α i (β j ) l écart à la moyenne des moyennes de groupe pour le facteur A (B), γ ij les écarts à la moyenne des moyennes pour les traitements A B, et ε ijk N(0, σ 2 ) la résiduelle. Les effets α i et β j sont appelés effets principaux, tandis que γ ij est l effet d interaction.

Les hypothèses nulles associées sont H A 0 : α 1 = α 2 =... = α a, (a 1) dl H B 0 : β 1 = β 2 =... = β b, (b 1) dl H AB 0 : γ 11 = γ 13 =... = γ ab, (a 1)(b 1) dl Des tests F (CM effets / CM résiduelle) permettent de tester ces hypothèses. > mod2a <- aov(y ~ A * B, data=d) # Effets A, B, AB > summary(mod2a) > mod2b <- update(mod2,. ~. - A:B) # Effets A, B > summary(mod2b)

Effet d interaction Absence d'interaction b1 b2 Interaction ordonnée b1 b2 Interaction croisée b1 b2 Effet B Effet B Effet B a1 a2 a1 a2 a1 a2 Effet A Effet A Effet A a1 a2 a1 a2 a1 a2 L'effet de B est le même quel que soit le niveau de A. L'effet de B est plus important dans la condition a2. L'effet de B s'inverse entre a1 et a2.

Illustration The effect of Vitamin C on tooth growth in Guinea Pigs. (Bliss, 1952) The response is the length of odontoblasts (teeth) in each of 10 guinea pigs at each of three dose levels of Vitamin C (0.5, 1, and 2 mg) with each of two delivery methods (orange juice or ascorbic acid). > data(toothgrowth) > ToothGrowth$dose <- factor(toothgrowth$dose) > fm <- len ~ supp * dose > replications(fm, data=toothgrowth) supp dose supp:dose 30 20 10 > aggregate(fm, ToothGrowth, FUN=function(x) c(mean=mean(x), sd=sd(x))) supp dose len.mean len.sd 1 OJ 0.5 13.230000 4.459709 2 VC 0.5 7.980000 2.746634 3 OJ 1 22.700000 3.910953 4 VC 1 16.770000 2.515309 5 OJ 2 26.060000 2.655058 6 VC 2 26.140000 4.797731 Tooth length 35 30 25 20 15 10 5 OJ VC 0.5 1 2 Dose (mg)

Estimation des paramètres du modèle : > aov.fit <- aov(fm, data=toothgrowth) > summary(aov.fit) Df Sum Sq Mean Sq F value Pr(>F) supp 1 205.4 205.4 15.572 0.000231 *** dose 2 2426.4 1213.2 92.000 < 2e-16 *** supp:dose 2 108.3 54.2 4.107 0.021860 * Residuals 54 712.1 13.2 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Deux remarques : 1. Les tests ci-dessus n indiquent pas quelles paires de moyennes diffèrent significativement, mais permettent de se prononcer sur l existence d un effet et le rejet de l hypothèse nulle associée. Pour préciser quels sont les traitements qui diffèrent deux à deux, il faudrait utiliser des procédures (post-hoc) de comparaisons multiples. 2. Le facteur dose est traité comme une variable qualitative non ordonnée ; un test de linéarité de la relation len ~ dose serait toutefois intéressant.

Tableau des effets : > model.tables(aov.fit, type="means", se=true, cterms="supp:dose") Tables of means Grand mean 18.81333 supp:dose dose supp 0.5 1 2 OJ 13.23 22.70 26.06 VC 7.98 16.77 26.14 Standard errors for differences of means supp:dose 1.624 replic. 10

Vérification des conditions d application : > qqmath(~ resid(aov.fit)) > bwplot(len ~ interaction(supp, dose), data=toothgrowth) > bartlett.test(len ~ interaction(supp,dose),data=toothgrowth) Bartlett test of homogeneity of variances data: len by interaction(supp, dose) Bartlett's K-squared = 6.9273, df = 5, p-value = 0.2261 35 30 25 Tooth length 20 15 10 5 OJ/0.5 VC/0.5 OJ/1 VC/1 OJ/2 VC/2

Méthode des blocs Répartir un ensemble hétérogène d unités expérimentales (individus) en sousgroupes plus homogènes (blocs) afin d améliorer la comparaison entre traitements (gain de puissance). Illustrations tirées de Lellouch and Lazar, 1974. Blocs complets (avec ou sans répétition) ANOVA à deux facteurs où l un des facteurs est le facteur de bloc ; les traitements sont orthogonaux aux blocs (si pas de valeur manquante). Exemple : Pour des raisons d économie de place, les animaux utilisés pour une expérience sont mis dans des cages qui peuvent en contenir chacune 12. On dispose au total de 10 cages et l on doit comparer 3 traitements A, B et C. L une des solutions consiste à répartir au hasard les 3 traitements parmi les 120 animaux. On conçoit cependant qu il puisse être intéressant, si l on pense que les résultats observés dans chaque case risquent de présenter une certaine homogénéité par rapport à l ensemble, et qu il existe corrélativement une certaine hétérogénéité d une cage à l autre, d attribuer les 3 traitements à 4 animaux à l intérieur de chaque cage (par tirage au sort).

Blocs incomplets équilibrés Même principe que la méthode BC mais le nombre d unités expérimentales disponibles par bloc est inférieur au nombre de traitements à comparer. Chaque bloc contient le même nombre d unités expérimentales, k ; chaque traitement est attribué dans l ensemble des blocs au même nombre d unités, r ; le nombre de blocs, λ, où apparaissent simultanément deux traitements quelconques est le même quel que soit le couple de traitements considérés. Exemple : On veut comparer les réactions cutanées locales de 5 traitements A, B, C, D, E chez la souris. On souhaiterait utiliser l animal comme son propre témoin, en d autres termes prendre chaque souris comme bloc. Il se peut cependant que, compte-tenu des dimensions de la souris, il ne soit possible d appliquer que 4 traitements à chaque animal. Plan en carré latin Même principe que la méthode BC mais on souhaite contrôler deux facteurs. Exemple : On souhaite comparer 4 traitements appliqués localement au même animal, mais à des endroits différents. Si la place de l injection est une cause systématique et importante de variation, on constituera des blocs animal-place d injection qui ne contiendront qu une unité expérimentale.

Références 1 Wilkinson, G. and Rogers, C. (1973). Symbolic description of factorial models for analysis of variance. Applied Statistics, 22, 392 399. 2 Chambers, J. and Hastie, T., editors (1992). Statistical Models in S. Wadsworth & Brooks. ISBN: 0534167649. 3 Wickham, H. (2011). The split-apply-combine strategy for data analysis. Journal of Statistical Software, 40(1). 4 Bliss, C. (1952). The Statistics of Bioassay. Academic Press. 5 Lellouch, J. and Lazar, P. (1974). Méthodes statistiques en expérimentation biologique. Flammarion. ISBN: 225710398X. ConT E Xt version 2012.05.30 11:26, R version 2.15.1 (2012-06-22), 03-anova.tex 97377fd on 2012/10/15