Master Biologie Intégrative Biostatistiques avancées. Travaux Dirigés n o 2

Master Biologie Intégrative 2017-2018 Biostatistiques avancées Responsable du cours : Yves Desdevises Travaux Dirigés n o 2 Corrigé Exercice 1 Les diamètres de branches de corail peuvent être mesurés de façon rapide à l aide d une méthode photogrammétrique. On veut s assurer que cette méthode n est pas biaisée, et donc vérifier qu elle ne donne pas des valeurs systématiquement trop élevées où trop faibles. Pour cela, les diamètres de 12 branches de corail prélevées aléatoirement ont été mesurés avec cette méthode, et à l aide d un pied à coulisse (diamètres réels). Les résultats, en mm, sont les suivants. Photo. Réel 168,56 165,55 168,75 166,84 165,53 167,86 173,22 169,34 163,61 165,59 163,07 165,05 168,49 164,94 169,64 163,85 169,87 165,74 169,67 169,49 167,12 164,30 168,19 167,10 1. Quel test paramétrique permet de répondre à la question? Quelles sont ses conditions d applications? Réalisez ce test si ces conditions d applications sont vérifiées. Dans ce cas, nous avons affaire à des données appariées, et il faut utiliser le test t pour de telles données, si les distributions sont normales. Ce test demande les mêmes conditions d'applications que le test t pour groupes indépendants. Les paires sont indépendantes. Les données sont appariées : il n'est pas nécessaire de tester l'homogénéité des variances. corail=read.table(file.choose(),header=t) attach(corail) shapiro.test(photo) data: Photo 1

W = 0.9354, p-value = 0.4409 shapiro.test(reel) data: Reel W = 0.92573, p-value = 0.337 t.test(photo,reel,paired=true) Paired t-test data: Photo and Reel t = 2.1508, df = 11, p-value = 0.05457 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.03905331 3.38405331 sample estimates: mean of the differences 1.6725 On ne rejette pas H0, la méthode photogrammétrique n est pas biaisée [notez que la décision aurait été inverse avec un test unilatéral] 2. Traitez le problème en considérant que vous ne disposez que des 4 premières observations pour chaque méthode. Dans ce cas les effectifs sont trop petits pour tester la normalité et réaliser un test paramétrique, il faut utiliser l équivalent non paramétrique, le test de Wilcoxon : wilcox.test(photo,reel,paired=true) Wilcoxon signed rank test data: Photo and Reel V = 8, p-value = 0.375 alternative hypothesis: true location shift is not equal to 0 Même conclusion. On peut aussi utiliser un test-t pour données appariées par permutation : source("/users/yves/ /t.paired.perm.r") t.paired.perm(photo,reel,nperm=999) t-test comparing the means of two related samples Number of objects: 4 Mean of the differences: 1.6175 t statistic (paired observations): 1.17536 95 percent confidence interval of t: -2.762101 5.997101 Degrees of freedom: 3 Alternative hypothesis: two.sided Prob (parametric): 0.3246423 Prob ( 999 permutations): 0.39400 2

$t.ref t 1.17536 $p.param [1] 0.3246423 $p.perm [1] 0.394 $nperm [1] 999 Même conclusion. 3

Exercice 2 On a chargé un médecin de répondre à la question suivante : l'aspirine (acide acétylsalycilique = AAS) diminue-t-elle l'espérance de vie des patients asthmatiques? Ce médecin a récolté des données selon les critères suivants : individus asthmatiques et décédés de façon naturelle au cours des 5 dernières années. Les informations retenues sont l'âge au décès et si de l'aspirine a été recommandée au patient (Oui : O ; Non : N). Le tableau suivant présente un échantillon aléatoire des milliers de réponses obtenues. Âge au décès AAS Âge au décès AAS 45,6 O 69,7 N 45,85 O 51,48 O 48,45 O 51,56 O 48,63 O 55,19 O 48,74 N 55,32 N 49,6 N 57,8 O 51,4 O 58,59 O 60,86 N 58,63 N 52,06 O 58,89 O 53,16 N 59,18 O 54 O 59,24 O 65,16 N 60,53 O 56,93 N 64,86 N 57,38 O 65,81 N 57,94 N 67,72 O 67,96 N 68,8 N 58,24 O 69,58 N 68,61 N 72,66 N 1. Tracez les boxplots de l âge au décès pour chaque groupe, et réalisez un test statistique adapté afin de répondre à la question posée. Enumérez les conditions d'applications de ce test, et testezles si possible. Il faut faire un test de comparaison de moyennes entre les groupes avec ou sans prise d'aas : test t si les conditions d'applications sont respectées. Ces conditions sont : - Variable quantitative. C'est le cas. - Echantillon de taille suffisante. Il y a 36 observations, 19 dans un groupe et 17 dans l autre, assez pour un test paramétrique. - Normalité de la distribution. - Indépendance des observations : elle est supposée. Elle dépend de l'échantillonnage qui a été bien réalisé dans ce sens puisque c'est un échantillon aléatoire parmi des milliers de réponses que l'on étudie. Exemples de non indépendance : autocorrélation spatiale des mesures, parenté des patients (proximité génétique confondante), etc. - Homogénéité des variances (homoscédasticité). Sinon, on fait face à un problème de Behrens-Fisher (test de 2 hypothèses nulles simultanément). Celle-ci doit être préalablement testée à l'aide d'un test F. Boxplots : dataaas=read.table(file.choose(),header=t) 4

attach(dataaas) boxplot(age~aas) 45 50 55 60 65 70 N O Test de normalité : tapply(age,aas,shapiro.test) $N data: X[[i]] W = 0.93106, p-value = 0.2267 $O data: X[[i]] W = 0.95135, p-value = 0.4165 Test F : var.test(age~aas) F test to compare two variances data: Age by AAS F = 1.7322, num df = 16, denom df = 18, p-value = 0.2615 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6560455 4.7063676 sample estimates: ratio of variances 1.732191 On ne peut pas rejeter l'hypothèse nulle, on considère que les deux variances sont homogènes. Test t : t.test(age~aas,var.equal=true,alternative="greater") Two Sample t-test data: Age by AAS t = -3.2661, df = 34, p-value = 0.001247 5

alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -3.466506 sample estimates: mean of x mean of y 54.83105 62.01882 On rejette H 0, les deux moyennes sont significativement différentes, l'âge au décès des patients asthmatiques est plus faible chez ceux qui consomment de l'aspirine. 2. Répondez à la même question en utilisant l extrait du même jeu de données ci-dessous. Âge au décès AAS 48,45 O 59,24 O 60,53 O 64,86 N 65,81 N 67,72 O 68,8 N 69,58 N 67,96 N On doit utiliser un test U (test de Mann-Whitney ou Wilcoxon-Mann-Whitney) car les variances sont maintenant inégales (à vérifier si vous voulez) et le nombre d observations est trop faible pour un test paramétrique (4 dans le groupe O). On utilise ce test dans l'un ou l'autre des cas suivants : - la distribution n'est pas normale - les variances sont hétérogènes - la variable est semi-quantitative (rangs) - le nombre d'observations est trop faible dataaasred=read.table(file.choose(),header=t) attach(dataaasred) wilcox.test(age~aas,paired=false,alternative="greater") Wilcoxon rank sum test data: Age by AAS W = 2, p-value = 0.03175 alternative hypothesis: true location shift is less than 0 6