Master Biologie Intégrative Biostatistiques avancées. Travaux Dirigés n o 1

Master Biologie Intégrative 2016-2017 Biostatistiques avancées Responsable du cours : Yves Desdevises Travaux Dirigés n o 1 Corrigé Exercice 1 Dans une ferme aquacole, on veut étudier l'effet d'un nouveau type de nourriture sur la croissance d'ombles de fontaine (Salvelinus fontinalis) et savoir s'il est plus performant que la nourriture habituellement utilisée. Il faut pour cela élaborer un plan d expérience. On dispose de 16 bassins (chaque bassin peut recevoir un type de nourriture) et de 112 poissons. Ces poissons sont élevés depuis plusieurs générations dans la ferme, en milieu fermé et en conditions contrôlées (aquaculture intensive). On mesure la longueur moyenne des poissons dans chaque bassin, au début de l'expérience et après 3 mois. 1. Quelle est la variable? Posez les hypothèses nulles et contraires. Le test est-il uni ou bilatéral? Justifiez votre réponse. La variable est la longueur mesurée après 3 mois moins la longueur initiale (croissance). H 0 : le nouveau type de nourriture n'influence pas la croissance des poissons H 1 : le nouveau type de nourriture améliore la croissance des poissons Le test est unilatéral car on pense que le nouveau type de nourriture améliore la croissance des poissons. 2. Quelle est l'unité d'expérimentation? Le bassin. 3. Identifiez l'élément d'observation. L'élément d'observation est le poisson. 4. Identifiez le facteur et ses niveaux. Il y a un facteur, la nourriture (ou l alimentation), à deux niveaux: nourriture habituelle et nouvelle nourriture. 1

5. Que pensez-vous de simplement prendre 2 bassins avec 56 poissons dans chaque bassin, et un type de nourriture par bassin? Expliquez brièvement les avantages et les inconvénients de ce plan d'expérience (5 lignes maximum). Inconvénients: Ce plan d'expérience ne comporte que deux unités d'expérimentations, donc on compare deux points. Il n'y a pas de répétitions. Ça ne permet pas de contrôler la variation intrinsèque du système. Avantages: c'est moins casse-tête!! [Attention : ce n'est pas un problème de pseudoréplication] 6. On choisi un plan d'expérience de randomisation par blocs, avec 4 blocs. Qu est-ce que cela signifie et quel est l'intérêt de ce plan d'expérience? 4 groupes définis a priori (différents critères possibles), avec 4 bassins par groupes, dont 2 sont sélectionnés aléatoirement pour recevoir chaque traitement. Ce plan permet une bonne répartition (et la répétition) des unités d'expérimentation dans l'aire d'étude (par exemple), et favorise une allocation optimale des niveaux de traitement. 7. Combien y a-t-il de répétitions par niveau dans le plan ci-dessus? Il y a huit répétitions. Exercice 2 La tableau ci-dessous présente 3 échantillons tirés aléatoirement de la même population (la distribution de la variable montrée est normale). Pour chaque échantillon, calculer la moyenne, l écart-type, l erreur-type, et représentez ces paramètres graphiquement par l intermédiaire de points et de barres d erreurs. 2

n = 4 n = 12 n = 20 80 80 80 92 85 86 105 84 111 120 100 110 118 120 120 89 80 113 90 120 95 80 109 80 116 110 120 120 90 90 80 120 114 87 80 120 1. Quel est l effet de la taille n de l échantillon sur les paramètres calculés? ech1=c(80,92,105,120) ech2=c(80,85,84,100,118,120,80,90,95,109,116,120) ech3=c(80,86,111,110,120,89,113,120,80,80,110,120,90,90,80,120,11 4,87,80,120) length(ech1);length(ech2);length(ech3) mean(ech1);mean(ech2);mean(ech3) sd(ech1);sd(ech2);sd(ech3) sd(ech1)/sqrt(length(ech1));sd(ech2)/sqrt(length(ech2));sd(ech3)/ sqrt(length(ech3)) On trouve : n = 4 n = 12 n = 20 Moyenne 99,25 99,75 100 Ecart-type 17,193 16,142 16,815 Erreur-type 8,596 4,660 3,760 La moyenne et la dispersion (écart-type) autour sont similaires dans les trois cas, mais l erreurtype diminue avec la taille de l échantillon 3

2. Quelles conséquences la taille d échantillon a-t-elle sur la qualité de l estimation des paramètres? La précision de l estimation (reflétée par l erreur-type, qui prend en compte n) augmente avec la taille de l échantillon. Les paramètres sont donc mieux estimés, et l inférence statistique (e.g. comparaisons) sera plus précise avec de plus grands échantillons. Exercice 3 Le nématode Haemonchus contortus est un parasite interne des ruminants. Le tableau suivant présente la quantité de parasites par hôte, pour 31 moutons : Hôte Nombre de parasites Hôte Nombre de parasites Hôte Nombre de parasites 1 0 12 7 23 2 2 10 13 11 24 8 3 14 14 3 25 4 4 17 15 7 26 3 5 7 16 12 27 3 6 27 17 1 28 1 7 2 18 6 29 14 8 8 19 4 30 0 9 3 20 6 31 5 10 16 21 3 11 3 22 8 1. Tracez la boîte à moustaches (boxplot) de cet échantillon. Ab=c(0,10,14,17,7,27,2,8,3,16,3,7,11,3,7,12,1,6,4,6,3,8,2,8,4,3,3,1,14,0,5) boxplot(ab) 0 5 10 15 20 25 4

2. Tracer l'histogramme représentant le nombre d'hôtes en fonction de la quantité de parasites par hôte à l aide la commande. A la vue de cet histogramme, pensez-vous qu'il soit possible d'effectuer des tests paramétriques en utilisant ces données? Justifiez votre réponse. hist(ab) Intervalle de classe : 27/6 = 4,5 6 classes : 0-4,5; 4,5-9; 9-13,5; 13,5-18; 18-22,5; 22,5-27 Nombre d'observations par classe : Classe 1: 14 Classe 2: 9 Classe 3: 3 Classe 4: 4 Classe 5: 0 Classe 6: 1 Histogram of Ab Frequency 0 5 10 15 0 5 10 15 20 25 30 Ab À l'évidence, cette distribution ne correspond pas à une distribution Normale. Elle est très asymétrique. Il n'est pas possible d'utiliser ces données telles quelles pour des tests paramétriques. 3. À partir de la distribution observée, de quelle façon peut-on décrire la répartition de Haemonchus contortus chez les moutons? Cette distribution correspond à une distribution agrégée ou contagieuse. 5

Cela signifie que peu d'hôtes contiennent une grande quantité de parasites, alors que de nombreux hôtes ne sont pas ou peu infectés. Ce type de distribution suggère une transformation en logarithme afin de les rendre plus conformes à une distribution Normale. 4. Transformez les données (à vous de choisir une transformation) et tracez à nouveau un histogramme représentant le nombre d'hôtes parasités en fonction de l'abondance transformée. À l'œil (ne faites ni test ni calcul), les données transformées se prêtent-elles mieux à des tests paramétriques? Vous pouvez essayer diverses transformations. LnAb=log(Ab+1,base=exp(1)) hist(lnab,breaks=c(0,0.555,1.111,1.666,2.221,2.777,3.3325)) Intervalle de classe : 3,332/6 = 0,555 6 classes: 0-0,555; 0,555-1,111; 1,111-1,666; 1,666-2,221; 2,221-2,777; 2,777-3,332 Nombre d'observations par classe : Classe 1: 2 Classe 2: 4 Classe 3: 8 Classe 4: 9 Classe 5: 5 Classe 6: 3 Histogram of LnAb Density 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 LnAb Visuellement, les données se distribuent d'une façon plus conforme à une loi Normale, et se prêtent mieux à des tests paramétriques. 5. Réalisez maintenant un graphique quantile-plot (et afin de vérifier les observations précédentes. Interprétez ce résultat. 6

qqnorm(ab) qqline(ab) Normal Q-Q Plot Sample Quantiles 0 5 10 15 20 25-2 -1 0 1 2 qqnorm(lnab) qqline(lnab) Theoretical Quantiles Normal Q-Q Plot Sample Quantiles 0.0 0.5 1.0 1.5 2.0 2.5 3.0-2 -1 0 1 2 Theoretical Quantiles Vérification : shapiro.test(ab) W = 0.87137, p-value = 0.001497 shapiro.test(lnab) W = 0.9691, p-value = 0.4946 7