Master Biologie Intégrative 2017-2018 Biostatistiques avancées Responsable du cours : Yves Desdevises Travaux Dirigés n o 3 Exercice 1 Corrigé Le tableau suivant présente des mesures de la hauteur (en mm) de la plante Saede brassica, réalisées dans plusieurs milieux différents, sur des prélèvements échantillonnés aléatoirement. Un chercheur désire comparer ces données afin de connaître l'effet du milieu sur la taille de S. brassica. Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 5 12 141 56 87 241 15 146 67 105 264 12 135 43 79 225 18 147 78 123 257 24 154 45 114 248 32 69 258 31 236 15 1. Tracez les boîtes à moustaches (boxplots) de la taille des plantes dans chaque milieu. plantes=read.table(file.choose(),header=t) attach(plantes) boxplot(haut~mil) 50 100 150 200 250 A B C D E 2. Quelle analyse permet d'estimer l'effet du milieu sur la hauteur des plantes? Quelles sont les conditions requises pour pouvoir réaliser cette analyse? 1
Il faut faire une analyse de variance à 1 facteur. Conditions : normalité de la distribution, homogénéité des variances, indépendance des observations, variable quantitative, au moins 5 observations/groupe. 3. Vérifiez ces conditions et réalisez l'analyse statistique appropriée. Normalité : tapply(haut,mil,shapiro.test) $A W = 0.8518, p-value = 0.09935 $B W = 0.9848, p-value = 0.9586 $C W = 0.92823, p-value = 0.5665 $D W = 0.94926, p-value = 0.7319 $E W = 0.95828, p-value = 0.8039 Pour tous les groupes, l hypothèse nulle de normalité ne peut être rejetée Test de Bartlett : bartlett.test(haut~mil) Bartlett test of homogeneity of variances data: Haut by Mil Bartlett's K-squared = 5.2061, df = 4, p-value = 0.2668 On ne rejette pas l hypothèse nulle (égalité des variances) : les 5 variances peuvent être considérées comme homogènes. Il est possible d'effectuer une ANOVA avec ces données. ANOVA : summary(aov(haut~mil)) Mil 4 217758 54439 341.3 <2e-16 *** Residuals 26 4147 159 2
On rejette l hypothèse nulle d égalité des moyennes. 4. Testez si les moyennes sont toutes différentes entre elles. Il faut faire un test post-hoc (= test a posteriori) On utilise ici le test HSD de Tukey : TukeyHSD(aov(Haut~Mil)) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Haut ~ Mil) $Mil diff lwr upr p adj B-A 124.72500 103.64166 145.80834 0.0000000 C-A 39.79167 19.81876 59.76457 0.0000349 D-A 81.72500 60.64166 102.80834 0.0000000 E-A 227.12500 207.98467 246.26533 0.0000000 C-B -84.93333-107.32743-62.53924 0.0000000 D-B -43.00000-66.38987-19.61013 0.0001114 E-B 102.40000 80.74519 124.05481 0.0000000 D-C 41.93333 19.53924 64.32743 0.0000860 E-C 187.33333 166.75810 207.90857 0.0000000 E-D 145.40000 123.74519 167.05481 0.0000000 Ce résultat confirme l observation visuelle des boxplots : les moyennes sont toutes différentes entre elles. Exercice 2 Un botaniste veut déterminer si la présence d'insectes a un effet sur la fécondité des plantes dans un champ. Afin d empêcher les insectes d attaquer ses plantes, le botaniste a l'idée d'installer des cages au-dessus de quadrats expérimentaux. Il s inquiète du fait que la cage elle-même pourrait avoir un effet sur la fécondité des plantes, il propose donc d utiliser un facteur à trois niveaux (traitements) : contrôle (plantes non couvertes), plantes recouvertes de cages laissant les insectes entrer et plantes recouvertes de cages empêchant les insectes d'atteindre les plantes. Pour s assurer que les différences qu il observe à la fin de l étude sont dues aux manipulations et non à un effet quelconque des propriétés des cages utilisées, il utilise 5 quadrats par traitement, et il échantillonne 6 plantes par quadrat. Pour chaque plante, la variable mesurée est la fécondité (le nombre de graines produit par la plante durant la saison reproductrice). Les données ci-dessous se trouvent dans le fichier fecondite.txt. CONTRÔLE CAGES FERMEES Quadrats Quadrats Plante 1 2 3 4 5 Plante 1 2 3 4 5 1 82 79 90 85 68 1 74 47 60 43 47 2 67 84 100 93 64 2 86 71 88 53 44 3
3 73 70 65 99 80 3 72 54 86 48 46 4 70 71 99 95 74 4 71 56 84 79 43 5 83 67 84 92 87 5 65 77 45 70 49 6 95 80 63 95 79 6 74 66 68 45 55 CAGES OUVERTES Quadrats Plante 1 2 3 4 5 1 92 62 67 95 70 2 80 97 64 93 62 3 83 63 85 100 77 4 77 77 83 80 80 5 52 88 79 83 71 6 73 77 88 76 87 1. Quelle analyse paramétrique permet de savoir si le facteur a un effet sur la fécondité des plantes? Quelles sont ses conditions d applications? Il faut faire une ANOVA hiérarchique, et vérifier auparavant normalité et homogénéité des variances. 2. Si les conditions d applications sont vérifiées, réalisez l analyse paramétrique puis la même analyse par permutations et comparez les résultats. Normalité : fec=read.table(file.choose(),header=t) attach(fec) tapply(fecondite,quadrats,shapiro.test) $Q1 W = 0.93422, p-value = 0.6131 $Q10 p-value = 0.4255 $Q11 p-value = 0.4637 $Q12 p-value = 0.5485 $Q13 p-value = 0.2864 $Q14 p-value = 0.6144 $Q15 p-value = 0.9826 $Q2 p-value = 0.5032 $Q3 p-value = 0.2278 4
$Q4 p-value = 0.524 $Q5 p-value = 0.9146 $Q6 p-value = 0.3102 $Q7 p-value = 0.8343 $Q8 p-value = 0.3197 $Q9 p-value = 0.1943 Normalité dans tous les groupes. Homogénéité des variances : bartlett.test(fecondite,quadrats) Bartlett test of homogeneity of variances data: Fecondite and Quadrats Bartlett's K-squared = 19.855, df = 14, p-value = 0.1348 Les variances peuvent être considérées comme homogènes. ANOVA hiérarchique : summary(aov(fecondite~cages/quadrats)) Cages 2 6352 3176 25.698 3.16e-09 *** Cages:Quadrats 12 4906 409 3.308 0.000705 *** # Effet du sous/facteur Residuals 75 9269 124 summary(aov(fecondite~cages+error(cages:quadrats))) Error: Cages:Quadrats Cages 2 6352 3176 7.768 0.00685 ** # Effet du facteur principal Residuals 12 4906 409 Error: Within Residuals 75 9269 123.6 Il y a un effet significatif du sous-facteur (quadrats) qui n est pas assez fort pour masquer celui du facteur principal (cages). Test par permutations : source("/ /Fonctions_R/nest.anova.perm.R") nest.anova.perm(fecondite,cages,quadrats,nperm=999) $anova.type [1] "Nested anova, parametric and permutation tests" $nperm 5
[1] 999 $anova.table Df Sum Sq Mean Sq F value Prob(param) Prob(perm) a.fac 2 6352.200 3176.1000 7.767952 0.0068500123 0.011 a.fac:b.fac 12 4906.467 408.8722 3.308266 0.0007045802 0.001 Residuals 75 9269.333 123.5911 NA NA NA Exercice 3 Des écologues ont mesuré la longueur de la queue sur 40 merles d une forêt d Amérique du Nord (fichier merle.txt). Ces individus ont été échantillonnés aléatoirement dans 4 zones géographiques (Z1-4) entre lesquelles les populations ne se mélangent pas. Les scientifiques désirent savoir si la longueur de la queue de ces merles diffère selon la zone et le sexe (M : mâles ; F : femelles), et si une interaction existe entre ces facteurs. 1. Réalisez un test statistique et des diagrammes d interaction permettant de répondre à l interrogation des chercheurs, et interprétez les résultats. Il faut faire une ANOVA à 2 facteurs croisés avec répétitions (les effectifs sont suffisant), si les conditions de normalité et d homogénéité des variances sont vérifiées : Normalité : tapply(queue,zone:sexe,shapiro.test) $`Z1:F` W = 0.8713, p-value = 0.2717 $`Z1:M` W = 0.95235, p-value = 0.754 $`Z2:F` W = 0.85991, p-value = 0.2279 $`Z2:M` W = 0.91408, p-value = 0.4925 $`Z3:F` W = 0.95235, p-value = 0.754 $`Z3:M` W = 0.83274, p-value = 0.1458 $`Z4:F` W = 0.90345, p-value = 0.4292 $`Z4:M` W = 0.96358, p-value = 0.8327 Distribution normale dans tous les groupes. Homogénéité des variances : bartlett.test(queue,zone:sexe) Bartlett test of homogeneity of variances data: queue and zone:sexe Bartlett's K-squared = 4.0823, df = 7, p-value = 0.7703 Homoscédasticité non rejetée. 6
ANOVA factorielle : summary(aov(queue~zone*sexe)) zone 3 10.28 3.43 0.697 0.56063 sexe 1 50.63 50.63 10.305 0.00301 ** zone:sexe 3 27.27 9.09 1.851 0.15788 Residuals 32 157.20 4.91 Seul le facteur «sexe» a un effet significatif sur la longueur de la queue. L interaction entre les facteur n est pas significative au niveau 5 %, bien qu assez forte. Les diagrammes d interactions montrent que cela est du à la différence de longueur de queue entre mâles et femelles qui n est pas la même dans la zone 1. interaction.plot(zone,sexe,queue) mean of queue 95 96 97 98 99 sexe M F Z1 Z2 Z3 Z4 zone 7
interaction.plot(sexe,zone,queue) mean of queue 95 96 97 98 99 zone Z3 Z2 Z4 Z1 F M sexe Exercice 4 On a cherché à connaître l'effet de différents types d'alcool (bière ou vin) et de tabac (cigarette ou cigare) sur le sens du goût chez l'homme. Une technique biochimique permet de quantifier la variable "goût" (variable quantitative discrète) sur une échelle de 0 (aucune sensation) à 6 (goût extrêmement développé). 36 hommes non fumeurs et non buveurs d'âges variables ont été séparés en 9 groupes égaux. Dans chaque groupe, pendant une journée, chaque personne a consommé une dose égale d'alcool (250 ml répartis dans la journée) et fumé une quantité égale de tabac sous différentes formes. Un groupe a servi de contrôle : les individus n'ont pas fumé et/ou n'ont bu que de l'eau. À la fin de la journée, le goût a été mesuré chez chaque individu. Les résultats sont présentés dans le tableau suivant (fichier gout.txt) : Contrôle (ST) Cigarette (Cgt) Cigare (Cgr) Contrôle (SA) 4, 5, 3, 6 3, 2, 3, 1 1, 2, 2, 0 Bière (Bie) 3, 3, 4, 4 2, 2, 1, 3 2, 1, 0, 0 Vin (Vin) 2, 3, 4, 3 2, 2, 0, 2 0, 0, 1, 1 1. Réalisez un test statistique permettant d'estimer l'influence de l'alcool et du tabac sur le goût et interprétez les résultats. On ne peut réaliser une ANOVA à 2 facteurs croisés avec répétitions, car les effectifs sont insuffisants. On va donc effectuer un test non paramétrique de Sheirer-Ray-Hare : 8
gout=read.table(file.choose(),header=t) attach(gout) source("/users/yves/ /SRH.R") SRH(Gout,Tabac,Alcool) Df Sum Sq Mean Sq H pvalue fact1 2 2488.50 1244.25 22.4189 0.00001 fact2 2 222.17 111.08 2.0015 0.36760 fact1:fact2 4 4.83 1.21 0.0435 0.99977 Seul le facteur 1 (Tabac) a ici un effet, et il n y a pas d interaction entre les facteurs sur le goût. On peut aussi utiliser une ANOVA par permutation : Test de l homogénéité des variances par permutations : source("/users/yves/ /bartlett.perm.r") bartlett.perm(split(gout,list(tabac,alcool)),nperm=999) Bartlett K Param.prob Permut.prob [1,] 2.715484 0.9509 1 On ne rejette pas l hypothèse nulle d homoscédasticité. ANOVA permutationnelle : source("/users/yves/ /anova.2way.r") anova.2way(gout~tabac*alcool,model=1,nperm=999) $anova.type [1] "Model I anova (two fixed factors) with permutation tests" $nperm [1] 999 $response.var [1] "Gout" $anova.table Df Sum Sq Mean Sq F value Prob(param) Prob(perm) Tabac 2 49.0555556 24.5277778 29.7640449 1.485216e-07 0.001 Alcool 2 6.0555556 3.0277778 3.6741573 3.878712e-02 0.043 Tabac:Alcool 4 0.9444444 0.2361111 0.2865169 8.841366e-01 0.881 Residuals 27 22.2500000 0.8240741 NA NA NA Cette fois les 2 facteurs ont un effet (le test est plus puissant que le test non paramétrique), et n interagissent pas sur le goût. 9