Master Biologie Intégrative Biostatistiques avancées. Travaux Dirigés n o 2

Documents pareils
distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction aux Statistiques et à l utilisation du logiciel R

Lire ; Compter ; Tester... avec R

Introduction à la statistique non paramétrique

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Biostatistiques : Petits effectifs

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Analyse de la variance Comparaison de plusieurs moyennes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exemple PLS avec SAS

Modèles pour données répétées

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

TABLE DES MATIERES. C Exercices complémentaires 42

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Étude des flux d individus et des modalités de recrutement chez Formica rufa

La classification automatique de données quantitatives

Théorie des sondages : cours 5

Principe d un test statistique

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Utilisation du Logiciel de statistique SPSS 8.0

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Lois de probabilité. Anita Burgun

Un exemple de régression logistique sous

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Package TestsFaciles

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

3. Caractéristiques et fonctions d une v.a.

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Principe de symétrisation pour la construction d un test adaptatif

Evaluation de la variabilité d'un système de mesure

Introduction à l approche bootstrap

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Données longitudinales et modèles de survie

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Louis Laurencelle, a vol. 11 no. 1. Introduction

Estimation et tests statistiques, TD 5. Solutions

Exemples d application

Statistique inférentielle TD 1 : Estimation

Modèles Estimés sur Données de Panel

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Introduction à la Statistique Inférentielle

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

L exclusion mutuelle distribuée

Régression linéaire. Nicolas Turenne INRA

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Évaluation de la régression bornée

TESTS D'HYPOTHESES Etude d'un exemple

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

INSCRIPTION EN LIGNE COMMENT ÇA MARCHE?

VI. Tests non paramétriques sur un échantillon

TP DNS Utilisation de BIND sous LINUX

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Analyse de données linguistiques

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

CEST POUR MIEUX PLACER MES PDF

Cours 9 : Plans à plusieurs facteurs

Gestion de photos avec Picasa

îundesdruokerei Berlin

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Exercices sur SQL server 2000

REVUE BIBLIOGRAPHIQUE DES TESTS DE STATIONNARITÉ

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Introduction à l'actuariat

FORMULAIRE DE STATISTIQUES

Keywords: Probability of catastrophic events, Bivariate extreme value theory, Heavy tailed distributions, ALS methods.

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

«WHEN ALL IS SAID AND DONE, MUCH MORE HAS BEEN SAID THAN DONE»

SECONDE BAC PROFESSIONNEL Systèmes Electroniques et Numériques

Filtrage stochastique non linéaire par la théorie de représentation des martingales

SparkInData. Place de Marché des applications Spatiales

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

EXERCICES : MECANISMES DE L IMMUNITE : pages

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Cours en seconde : Comment expliquer la consommation?

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Votre Réseau est-il prêt?

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

DEVOIR MAISON : THEME : LES CLES DE CONTROLE. I. La clé des codes barres

23. Interprétation clinique des mesures de l effet traitement

Transcription:

Master Biologie Intégrative 2017-2018 Biostatistiques avancées Responsable du cours : Yves Desdevises Travaux Dirigés n o 2 Corrigé Exercice 1 Les diamètres de branches de corail peuvent être mesurés de façon rapide à l aide d une méthode photogrammétrique. On veut s assurer que cette méthode n est pas biaisée, et donc vérifier qu elle ne donne pas des valeurs systématiquement trop élevées où trop faibles. Pour cela, les diamètres de 12 branches de corail prélevées aléatoirement ont été mesurés avec cette méthode, et à l aide d un pied à coulisse (diamètres réels). Les résultats, en mm, sont les suivants. Photo. Réel 168,56 165,55 168,75 166,84 165,53 167,86 173,22 169,34 163,61 165,59 163,07 165,05 168,49 164,94 169,64 163,85 169,87 165,74 169,67 169,49 167,12 164,30 168,19 167,10 1. Quel test paramétrique permet de répondre à la question? Quelles sont ses conditions d applications? Réalisez ce test si ces conditions d applications sont vérifiées. Dans ce cas, nous avons affaire à des données appariées, et il faut utiliser le test t pour de telles données, si les distributions sont normales. Ce test demande les mêmes conditions d'applications que le test t pour groupes indépendants. Les paires sont indépendantes. Les données sont appariées : il n'est pas nécessaire de tester l'homogénéité des variances. corail=read.table(file.choose(),header=t) attach(corail) shapiro.test(photo) data: Photo 1

W = 0.9354, p-value = 0.4409 shapiro.test(reel) data: Reel W = 0.92573, p-value = 0.337 t.test(photo,reel,paired=true) Paired t-test data: Photo and Reel t = 2.1508, df = 11, p-value = 0.05457 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.03905331 3.38405331 sample estimates: mean of the differences 1.6725 On ne rejette pas H0, la méthode photogrammétrique n est pas biaisée [notez que la décision aurait été inverse avec un test unilatéral] 2. Traitez le problème en considérant que vous ne disposez que des 4 premières observations pour chaque méthode. Dans ce cas les effectifs sont trop petits pour tester la normalité et réaliser un test paramétrique, il faut utiliser l équivalent non paramétrique, le test de Wilcoxon : wilcox.test(photo,reel,paired=true) Wilcoxon signed rank test data: Photo and Reel V = 8, p-value = 0.375 alternative hypothesis: true location shift is not equal to 0 Même conclusion. On peut aussi utiliser un test-t pour données appariées par permutation : source("/users/yves/ /t.paired.perm.r") t.paired.perm(photo,reel,nperm=999) t-test comparing the means of two related samples Number of objects: 4 Mean of the differences: 1.6175 t statistic (paired observations): 1.17536 95 percent confidence interval of t: -2.762101 5.997101 Degrees of freedom: 3 Alternative hypothesis: two.sided Prob (parametric): 0.3246423 Prob ( 999 permutations): 0.39400 2

$t.ref t 1.17536 $p.param [1] 0.3246423 $p.perm [1] 0.394 $nperm [1] 999 Même conclusion. 3

Exercice 2 On a chargé un médecin de répondre à la question suivante : l'aspirine (acide acétylsalycilique = AAS) diminue-t-elle l'espérance de vie des patients asthmatiques? Ce médecin a récolté des données selon les critères suivants : individus asthmatiques et décédés de façon naturelle au cours des 5 dernières années. Les informations retenues sont l'âge au décès et si de l'aspirine a été recommandée au patient (Oui : O ; Non : N). Le tableau suivant présente un échantillon aléatoire des milliers de réponses obtenues. Âge au décès AAS Âge au décès AAS 45,6 O 69,7 N 45,85 O 51,48 O 48,45 O 51,56 O 48,63 O 55,19 O 48,74 N 55,32 N 49,6 N 57,8 O 51,4 O 58,59 O 60,86 N 58,63 N 52,06 O 58,89 O 53,16 N 59,18 O 54 O 59,24 O 65,16 N 60,53 O 56,93 N 64,86 N 57,38 O 65,81 N 57,94 N 67,72 O 67,96 N 68,8 N 58,24 O 69,58 N 68,61 N 72,66 N 1. Tracez les boxplots de l âge au décès pour chaque groupe, et réalisez un test statistique adapté afin de répondre à la question posée. Enumérez les conditions d'applications de ce test, et testezles si possible. Il faut faire un test de comparaison de moyennes entre les groupes avec ou sans prise d'aas : test t si les conditions d'applications sont respectées. Ces conditions sont : - Variable quantitative. C'est le cas. - Echantillon de taille suffisante. Il y a 36 observations, 19 dans un groupe et 17 dans l autre, assez pour un test paramétrique. - Normalité de la distribution. - Indépendance des observations : elle est supposée. Elle dépend de l'échantillonnage qui a été bien réalisé dans ce sens puisque c'est un échantillon aléatoire parmi des milliers de réponses que l'on étudie. Exemples de non indépendance : autocorrélation spatiale des mesures, parenté des patients (proximité génétique confondante), etc. - Homogénéité des variances (homoscédasticité). Sinon, on fait face à un problème de Behrens-Fisher (test de 2 hypothèses nulles simultanément). Celle-ci doit être préalablement testée à l'aide d'un test F. Boxplots : dataaas=read.table(file.choose(),header=t) 4

attach(dataaas) boxplot(age~aas) 45 50 55 60 65 70 N O Test de normalité : tapply(age,aas,shapiro.test) $N data: X[[i]] W = 0.93106, p-value = 0.2267 $O data: X[[i]] W = 0.95135, p-value = 0.4165 Test F : var.test(age~aas) F test to compare two variances data: Age by AAS F = 1.7322, num df = 16, denom df = 18, p-value = 0.2615 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.6560455 4.7063676 sample estimates: ratio of variances 1.732191 On ne peut pas rejeter l'hypothèse nulle, on considère que les deux variances sont homogènes. Test t : t.test(age~aas,var.equal=true,alternative="greater") Two Sample t-test data: Age by AAS t = -3.2661, df = 34, p-value = 0.001247 5

alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -3.466506 sample estimates: mean of x mean of y 54.83105 62.01882 On rejette H 0, les deux moyennes sont significativement différentes, l'âge au décès des patients asthmatiques est plus faible chez ceux qui consomment de l'aspirine. 2. Répondez à la même question en utilisant l extrait du même jeu de données ci-dessous. Âge au décès AAS 48,45 O 59,24 O 60,53 O 64,86 N 65,81 N 67,72 O 68,8 N 69,58 N 67,96 N On doit utiliser un test U (test de Mann-Whitney ou Wilcoxon-Mann-Whitney) car les variances sont maintenant inégales (à vérifier si vous voulez) et le nombre d observations est trop faible pour un test paramétrique (4 dans le groupe O). On utilise ce test dans l'un ou l'autre des cas suivants : - la distribution n'est pas normale - les variances sont hétérogènes - la variable est semi-quantitative (rangs) - le nombre d'observations est trop faible dataaasred=read.table(file.choose(),header=t) attach(dataaasred) wilcox.test(age~aas,paired=false,alternative="greater") Wilcoxon rank sum test data: Age by AAS W = 2, p-value = 0.03175 alternative hypothesis: true location shift is less than 0 6