Master Biologie Intégrative Biostatistiques avancées. Travaux Dirigés n o 3

Documents pareils
Introduction aux Statistiques et à l utilisation du logiciel R

Analyse de la variance Comparaison de plusieurs moyennes

Lire ; Compter ; Tester... avec R

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Biostatistiques : Petits effectifs

Modèles pour données répétées

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Lois de probabilité. Anita Burgun

Exemples d Analyses de Variance avec R

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exemple PLS avec SAS

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

La classification automatique de données quantitatives

MOHAMAD Rihab 4 rue de la Bergeonnerie Joué-Lès-Tours, FRANCE 33 (0) dib305@hotmail.com

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Cours 9 : Plans à plusieurs facteurs

Étude des flux d individus et des modalités de recrutement chez Formica rufa

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

PROBABILITES ET STATISTIQUE I&II

Evaluation de la variabilité d'un système de mesure

Un exemple de régression logistique sous

Exemples d application

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

ÉTUDE AD HOC RECHERCHE Printemps objectifs: 1) Analyser le comportement des consommateurs 2) Mieux comprendre vos besoins et attentes

TESTS D'HYPOTHESES Etude d'un exemple

MODELE A CORRECTION D ERREUR ET APPLICATIONS

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Statistiques descriptives

Introduction au Data-Mining

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

1 Pourquoi une Gestion des Niveaux de Services?

Introduction à la Statistique Inférentielle

Principe de symétrisation pour la construction d un test adaptatif

Données longitudinales et modèles de survie

TRAVAUX DE RECHERCHE DANS LE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Analyse de grandes bases de données en santé

Estimation et tests statistiques, TD 5. Solutions

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Précision d un résultat et calculs d incertitudes

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

3. Caractéristiques et fonctions d une v.a.

LISTE V AU PROTOCOLE A MAROC. Description des produits

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Aide-mémoire de statistique appliquée à la biologie

Guide d utilisation du logiciel e-enfance

Table des matières. I Mise à niveau 11. Préface

Etude des propriétés empiriques du lasso par simulations

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Convention de stage d ingénieur

ne définition de l arbre.

Comment prouver que les végétaux ont besoin d eau, de minéraux, d air et de lumière pour se développer normalement?

- Les êtres vivants dans leur environnement, rôle et place des êtres vivants - Lecture de textes documentaires

Statistique inférentielle TD 1 : Estimation

Cours de Tests paramétriques

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR

Régression linéaire. Nicolas Turenne INRA

La visualisation d information

La pratique du coaching en France. Baromètre 2010

données en connaissance et en actions?

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

2Exemplaire à conserver par le destinataire

Introduction au Data-Mining

Théorie des sondages : cours 5

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Analyse en Composantes Principales

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Bonnes Pratiques de Fabrication des médicaments à usage humain et vétérinaire

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

MASTER PROFESSIONNEL (2 ème année)

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Application sur le Dispositif en Blocs Complètement Randomisés

Introduction à la statistique non paramétrique

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Titre : POLITIQUE AFIN DE CONTRER LE HARCÈLEMENT PSYCHOLOGIQUE OU TOUTE AUTRE FORME DE VIOLENCE EN MILIEU DE TRAVAIL

Evaluation de cépages résistants ou tolérants aux principales maladies cryptogamiques de la vigne

Fragilité financière : une offre spécifique

TSTI 2D CH X : Exemples de lois à densité 1

CRM pour le Service clients et l Assistance technique

Déclaration d'assurance (budget général) relative à l'exercice 1994 (25-26 octobre 1995)

Fragilité financière : une offre spécifique

IMAGERIE PAR TOMOGRAPHIE ÉLECTRIQUE RÉSISTIVE DE LA DISTRIBUTION DES PHASES DANS UNE COLONNE À BULLES

"La santé des étudiants en 2013"

β-galactosidase A.2.1) à 37 C, en tampon phosphate de sodium 0,1 mol/l ph 7 plus 2-mercaptoéthanol 1 mmol/l et MgCl 2 1 mmol/l (tampon P)

Filtrage stochastique non linéaire par la théorie de représentation des martingales

RÈGLEMENT relatif au programme Remise en argent

Item 169 : Évaluation thérapeutique et niveau de preuve

Économetrie non paramétrique I. Estimation d une densité

Comment faire un Mailing A partir d une feuille Calc

Transcription:

Master Biologie Intégrative 2017-2018 Biostatistiques avancées Responsable du cours : Yves Desdevises Travaux Dirigés n o 3 Exercice 1 Corrigé Le tableau suivant présente des mesures de la hauteur (en mm) de la plante Saede brassica, réalisées dans plusieurs milieux différents, sur des prélèvements échantillonnés aléatoirement. Un chercheur désire comparer ces données afin de connaître l'effet du milieu sur la taille de S. brassica. Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 5 12 141 56 87 241 15 146 67 105 264 12 135 43 79 225 18 147 78 123 257 24 154 45 114 248 32 69 258 31 236 15 1. Tracez les boîtes à moustaches (boxplots) de la taille des plantes dans chaque milieu. plantes=read.table(file.choose(),header=t) attach(plantes) boxplot(haut~mil) 50 100 150 200 250 A B C D E 2. Quelle analyse permet d'estimer l'effet du milieu sur la hauteur des plantes? Quelles sont les conditions requises pour pouvoir réaliser cette analyse? 1

Il faut faire une analyse de variance à 1 facteur. Conditions : normalité de la distribution, homogénéité des variances, indépendance des observations, variable quantitative, au moins 5 observations/groupe. 3. Vérifiez ces conditions et réalisez l'analyse statistique appropriée. Normalité : tapply(haut,mil,shapiro.test) $A W = 0.8518, p-value = 0.09935 $B W = 0.9848, p-value = 0.9586 $C W = 0.92823, p-value = 0.5665 $D W = 0.94926, p-value = 0.7319 $E W = 0.95828, p-value = 0.8039 Pour tous les groupes, l hypothèse nulle de normalité ne peut être rejetée Test de Bartlett : bartlett.test(haut~mil) Bartlett test of homogeneity of variances data: Haut by Mil Bartlett's K-squared = 5.2061, df = 4, p-value = 0.2668 On ne rejette pas l hypothèse nulle (égalité des variances) : les 5 variances peuvent être considérées comme homogènes. Il est possible d'effectuer une ANOVA avec ces données. ANOVA : summary(aov(haut~mil)) Mil 4 217758 54439 341.3 <2e-16 *** Residuals 26 4147 159 2

On rejette l hypothèse nulle d égalité des moyennes. 4. Testez si les moyennes sont toutes différentes entre elles. Il faut faire un test post-hoc (= test a posteriori) On utilise ici le test HSD de Tukey : TukeyHSD(aov(Haut~Mil)) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Haut ~ Mil) $Mil diff lwr upr p adj B-A 124.72500 103.64166 145.80834 0.0000000 C-A 39.79167 19.81876 59.76457 0.0000349 D-A 81.72500 60.64166 102.80834 0.0000000 E-A 227.12500 207.98467 246.26533 0.0000000 C-B -84.93333-107.32743-62.53924 0.0000000 D-B -43.00000-66.38987-19.61013 0.0001114 E-B 102.40000 80.74519 124.05481 0.0000000 D-C 41.93333 19.53924 64.32743 0.0000860 E-C 187.33333 166.75810 207.90857 0.0000000 E-D 145.40000 123.74519 167.05481 0.0000000 Ce résultat confirme l observation visuelle des boxplots : les moyennes sont toutes différentes entre elles. Exercice 2 Un botaniste veut déterminer si la présence d'insectes a un effet sur la fécondité des plantes dans un champ. Afin d empêcher les insectes d attaquer ses plantes, le botaniste a l'idée d'installer des cages au-dessus de quadrats expérimentaux. Il s inquiète du fait que la cage elle-même pourrait avoir un effet sur la fécondité des plantes, il propose donc d utiliser un facteur à trois niveaux (traitements) : contrôle (plantes non couvertes), plantes recouvertes de cages laissant les insectes entrer et plantes recouvertes de cages empêchant les insectes d'atteindre les plantes. Pour s assurer que les différences qu il observe à la fin de l étude sont dues aux manipulations et non à un effet quelconque des propriétés des cages utilisées, il utilise 5 quadrats par traitement, et il échantillonne 6 plantes par quadrat. Pour chaque plante, la variable mesurée est la fécondité (le nombre de graines produit par la plante durant la saison reproductrice). Les données ci-dessous se trouvent dans le fichier fecondite.txt. CONTRÔLE CAGES FERMEES Quadrats Quadrats Plante 1 2 3 4 5 Plante 1 2 3 4 5 1 82 79 90 85 68 1 74 47 60 43 47 2 67 84 100 93 64 2 86 71 88 53 44 3

3 73 70 65 99 80 3 72 54 86 48 46 4 70 71 99 95 74 4 71 56 84 79 43 5 83 67 84 92 87 5 65 77 45 70 49 6 95 80 63 95 79 6 74 66 68 45 55 CAGES OUVERTES Quadrats Plante 1 2 3 4 5 1 92 62 67 95 70 2 80 97 64 93 62 3 83 63 85 100 77 4 77 77 83 80 80 5 52 88 79 83 71 6 73 77 88 76 87 1. Quelle analyse paramétrique permet de savoir si le facteur a un effet sur la fécondité des plantes? Quelles sont ses conditions d applications? Il faut faire une ANOVA hiérarchique, et vérifier auparavant normalité et homogénéité des variances. 2. Si les conditions d applications sont vérifiées, réalisez l analyse paramétrique puis la même analyse par permutations et comparez les résultats. Normalité : fec=read.table(file.choose(),header=t) attach(fec) tapply(fecondite,quadrats,shapiro.test) $Q1 W = 0.93422, p-value = 0.6131 $Q10 p-value = 0.4255 $Q11 p-value = 0.4637 $Q12 p-value = 0.5485 $Q13 p-value = 0.2864 $Q14 p-value = 0.6144 $Q15 p-value = 0.9826 $Q2 p-value = 0.5032 $Q3 p-value = 0.2278 4

$Q4 p-value = 0.524 $Q5 p-value = 0.9146 $Q6 p-value = 0.3102 $Q7 p-value = 0.8343 $Q8 p-value = 0.3197 $Q9 p-value = 0.1943 Normalité dans tous les groupes. Homogénéité des variances : bartlett.test(fecondite,quadrats) Bartlett test of homogeneity of variances data: Fecondite and Quadrats Bartlett's K-squared = 19.855, df = 14, p-value = 0.1348 Les variances peuvent être considérées comme homogènes. ANOVA hiérarchique : summary(aov(fecondite~cages/quadrats)) Cages 2 6352 3176 25.698 3.16e-09 *** Cages:Quadrats 12 4906 409 3.308 0.000705 *** # Effet du sous/facteur Residuals 75 9269 124 summary(aov(fecondite~cages+error(cages:quadrats))) Error: Cages:Quadrats Cages 2 6352 3176 7.768 0.00685 ** # Effet du facteur principal Residuals 12 4906 409 Error: Within Residuals 75 9269 123.6 Il y a un effet significatif du sous-facteur (quadrats) qui n est pas assez fort pour masquer celui du facteur principal (cages). Test par permutations : source("/ /Fonctions_R/nest.anova.perm.R") nest.anova.perm(fecondite,cages,quadrats,nperm=999) $anova.type [1] "Nested anova, parametric and permutation tests" $nperm 5

[1] 999 $anova.table Df Sum Sq Mean Sq F value Prob(param) Prob(perm) a.fac 2 6352.200 3176.1000 7.767952 0.0068500123 0.011 a.fac:b.fac 12 4906.467 408.8722 3.308266 0.0007045802 0.001 Residuals 75 9269.333 123.5911 NA NA NA Exercice 3 Des écologues ont mesuré la longueur de la queue sur 40 merles d une forêt d Amérique du Nord (fichier merle.txt). Ces individus ont été échantillonnés aléatoirement dans 4 zones géographiques (Z1-4) entre lesquelles les populations ne se mélangent pas. Les scientifiques désirent savoir si la longueur de la queue de ces merles diffère selon la zone et le sexe (M : mâles ; F : femelles), et si une interaction existe entre ces facteurs. 1. Réalisez un test statistique et des diagrammes d interaction permettant de répondre à l interrogation des chercheurs, et interprétez les résultats. Il faut faire une ANOVA à 2 facteurs croisés avec répétitions (les effectifs sont suffisant), si les conditions de normalité et d homogénéité des variances sont vérifiées : Normalité : tapply(queue,zone:sexe,shapiro.test) $`Z1:F` W = 0.8713, p-value = 0.2717 $`Z1:M` W = 0.95235, p-value = 0.754 $`Z2:F` W = 0.85991, p-value = 0.2279 $`Z2:M` W = 0.91408, p-value = 0.4925 $`Z3:F` W = 0.95235, p-value = 0.754 $`Z3:M` W = 0.83274, p-value = 0.1458 $`Z4:F` W = 0.90345, p-value = 0.4292 $`Z4:M` W = 0.96358, p-value = 0.8327 Distribution normale dans tous les groupes. Homogénéité des variances : bartlett.test(queue,zone:sexe) Bartlett test of homogeneity of variances data: queue and zone:sexe Bartlett's K-squared = 4.0823, df = 7, p-value = 0.7703 Homoscédasticité non rejetée. 6

ANOVA factorielle : summary(aov(queue~zone*sexe)) zone 3 10.28 3.43 0.697 0.56063 sexe 1 50.63 50.63 10.305 0.00301 ** zone:sexe 3 27.27 9.09 1.851 0.15788 Residuals 32 157.20 4.91 Seul le facteur «sexe» a un effet significatif sur la longueur de la queue. L interaction entre les facteur n est pas significative au niveau 5 %, bien qu assez forte. Les diagrammes d interactions montrent que cela est du à la différence de longueur de queue entre mâles et femelles qui n est pas la même dans la zone 1. interaction.plot(zone,sexe,queue) mean of queue 95 96 97 98 99 sexe M F Z1 Z2 Z3 Z4 zone 7

interaction.plot(sexe,zone,queue) mean of queue 95 96 97 98 99 zone Z3 Z2 Z4 Z1 F M sexe Exercice 4 On a cherché à connaître l'effet de différents types d'alcool (bière ou vin) et de tabac (cigarette ou cigare) sur le sens du goût chez l'homme. Une technique biochimique permet de quantifier la variable "goût" (variable quantitative discrète) sur une échelle de 0 (aucune sensation) à 6 (goût extrêmement développé). 36 hommes non fumeurs et non buveurs d'âges variables ont été séparés en 9 groupes égaux. Dans chaque groupe, pendant une journée, chaque personne a consommé une dose égale d'alcool (250 ml répartis dans la journée) et fumé une quantité égale de tabac sous différentes formes. Un groupe a servi de contrôle : les individus n'ont pas fumé et/ou n'ont bu que de l'eau. À la fin de la journée, le goût a été mesuré chez chaque individu. Les résultats sont présentés dans le tableau suivant (fichier gout.txt) : Contrôle (ST) Cigarette (Cgt) Cigare (Cgr) Contrôle (SA) 4, 5, 3, 6 3, 2, 3, 1 1, 2, 2, 0 Bière (Bie) 3, 3, 4, 4 2, 2, 1, 3 2, 1, 0, 0 Vin (Vin) 2, 3, 4, 3 2, 2, 0, 2 0, 0, 1, 1 1. Réalisez un test statistique permettant d'estimer l'influence de l'alcool et du tabac sur le goût et interprétez les résultats. On ne peut réaliser une ANOVA à 2 facteurs croisés avec répétitions, car les effectifs sont insuffisants. On va donc effectuer un test non paramétrique de Sheirer-Ray-Hare : 8

gout=read.table(file.choose(),header=t) attach(gout) source("/users/yves/ /SRH.R") SRH(Gout,Tabac,Alcool) Df Sum Sq Mean Sq H pvalue fact1 2 2488.50 1244.25 22.4189 0.00001 fact2 2 222.17 111.08 2.0015 0.36760 fact1:fact2 4 4.83 1.21 0.0435 0.99977 Seul le facteur 1 (Tabac) a ici un effet, et il n y a pas d interaction entre les facteurs sur le goût. On peut aussi utiliser une ANOVA par permutation : Test de l homogénéité des variances par permutations : source("/users/yves/ /bartlett.perm.r") bartlett.perm(split(gout,list(tabac,alcool)),nperm=999) Bartlett K Param.prob Permut.prob [1,] 2.715484 0.9509 1 On ne rejette pas l hypothèse nulle d homoscédasticité. ANOVA permutationnelle : source("/users/yves/ /anova.2way.r") anova.2way(gout~tabac*alcool,model=1,nperm=999) $anova.type [1] "Model I anova (two fixed factors) with permutation tests" $nperm [1] 999 $response.var [1] "Gout" $anova.table Df Sum Sq Mean Sq F value Prob(param) Prob(perm) Tabac 2 49.0555556 24.5277778 29.7640449 1.485216e-07 0.001 Alcool 2 6.0555556 3.0277778 3.6741573 3.878712e-02 0.043 Tabac:Alcool 4 0.9444444 0.2361111 0.2865169 8.841366e-01 0.881 Residuals 27 22.2500000 0.8240741 NA NA NA Cette fois les 2 facteurs ont un effet (le test est plus puissant que le test non paramétrique), et n interagissent pas sur le goût. 9