Biostatistiques et statistiques appliquées aux sciences expérimentales

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Introduction aux Statistiques et à l utilisation du logiciel R

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Un exemple de régression logistique sous

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Lire ; Compter ; Tester... avec R

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Principe d un test statistique

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exemples d application

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

STATISTIQUES. UE Modélisation pour la biologie

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Exemple PLS avec SAS

Biostatistiques : Petits effectifs

Exemples d Analyses de Variance avec R

Chapitre 3. Les distributions à deux variables

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Modèles pour données répétées

Données longitudinales et modèles de survie

Cours 9 : Plans à plusieurs facteurs

Introduction à la statistique non paramétrique

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

FIMA, 7 juillet 2005

Statistiques Descriptives à une dimension

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Introduction à l approche bootstrap

I. Ensemble de définition d'une fonction

Statistique : Résumé de cours et méthodes

FORMULAIRE DE STATISTIQUES

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Imputation du salaire d ego dans TeO

Le Modèle Linéaire par l exemple :

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Etude des propriétés empiriques du lasso par simulations

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

IBM SPSS Regression 21

Équivalence et Non-infériorité

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

Programmation linéaire

La nouvelle planification de l échantillonnage

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Validation probabiliste d un Système de Prévision d Ensemble

I. Polynômes de Tchebychev

TESTS D'HYPOTHESES Etude d'un exemple

ECTS CM TD TP. 1er semestre (S3)

VITICULTURE 2012 V 12 / PACA 02 STRATEGIE D APPLICATION DU CUIVRE EN VITICULTURE

Econométrie et applications

Application sur le Dispositif en Blocs Complètement Randomisés

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Performance nette du Capital Investissement en France à fin Le 16 septembre 2008

Démographie des masseurs-kinésithérapeutes

Présentation de l essai 2. Enjeux et objectifs 2. Essai 1 (Screening d appétence) 2. Essai 2 (Evaluation au champ) 4.

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Exercice : la frontière des portefeuilles optimaux sans actif certain

NON-LINEARITE ET RESEAUX NEURONAUX

La crise économique vue par les salariés français

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Programmation Linéaire - Cours 1

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Cours Fonctions de deux variables

démographie des masseurs-kinésithérapeutes

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Économetrie non paramétrique I. Estimation d une densité

Modèle GARCH Application à la prévision de la volatilité

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Modèles Estimés sur Données de Panel

Statistiques descriptives

Chapitre 4 : Régression linéaire

Analyse des durées de vie avec le logiciel R

3. Caractéristiques et fonctions d une v.a.

Cours de Tests paramétriques

Document d orientation sur les allégations issues d essais de non-infériorité

données en connaissance et en actions?

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

(Exemple ici de calcul pour une Ducati 748 biposto, et également pour un S2R1000, équipé d un disque acier en fond de cloche, et ressorts d origine)

Évaluation de la régression bornée

Module 2 : Déterminant d une matrice

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Cours d analyse numérique SMI-S4

Apprentissage par renforcement (1a/3)

Crédits d impôt pour la recherche scientifique et le développement expérimental («RS&DE»)

Systèmes de communications numériques 2

Transcription:

Cogmaster A4 p. 1/26 Biostatistiques et statistiques appliquées aux sciences expérimentales Comparaisons multiples Christophe Lalanne christophe.lalanne@gmx.net Cogmaster 2006 2007

Cogmaster A4 p. 2/26 Objet de la séance Rappels sur le test d ANOVA hypothèses et validité diagnostic Comparaison(s) spécifique(s) des moyennes de k échantillons (indépendants) planifiées non-planifiées (a posteriori)

Cogmaster A4 p. 3/26 Le modèle d ANOVA à 1 facteur Hypothèse nulle : H 0 : µ 1 = µ 2 = µ 3 =... = µ k (égalité des k moyennes de population) H 1 : i,j µ i µ j (H 1 H 0 ) Statistique de test : F de Fisher-Snedecor, rejet de H 0 ssi F obs > F ν1,ν 2 ;α=0.05 (ou p obs < 0.05) Conditions de validité indépendance des résidus (i.e. écarts à la moyenne) homogénéité des variances (après transformation, si nécessaire) normalité des résidus

Cogmaster A4 p. 4/26 Loi de Fisher-Snedecor Densité 0.0 0.2 0.4 0.6 0.8 1.0 F(2,10) F(6,32) F(6,18) F(4,12) P(F>2.40)=0.05 P(F>3.26)=0.05 0 1 2 3 4 5 quantiles théoriques

Cogmaster A4 p. 5/26 Après l ANOVA... le test F permet de détecter qu au moins une paire de moyennes est significativement différente on est souvent (mais pas nécessairement) intéressé par des comparaisons spécifiques de paires de moyennes différentes stratégies selon la question posée et le plan d expériences considéré (présence ou non d un groupe témoin, groupes équilibrés ou non, classement des groupes) ces comparaisons peuvent avoir été pensées avant l expérience : comparaisons planifiées (pss besoin du test F global) suggérées après observation des résultats : comparaisons a posteriori, ou dans un but explicatif (post-hoc) ces comparaisons peuvent être à visée indicative ou confirmatoire

Cogmaster A4 p. 6/26 Problème posés par les comparaisons multiples comparaison de toutes les paires de moyennes (k groupes) : C k(k 1) 2 tests à α = 0.05! risque global nombre de tests : 1 (1 α) m où m = C k(k 1) 2 ex : 5 groupes à comparer, risque d erreur réel = 40 %! Si les 5 moyennes sont égales (H 0 ), on détectera au moins une paire de moyennes significativement différentes dans 40 % des cas.

Cogmaster A4 p. 7/26 Procédures de comparaisons multiples 2 stratégies 1. utiliser des tests indépendants : contrastes orthogonaux 2. utiliser des tests spécifiques : test t avec correction de Bonferroni, Newman-Keuls, Tukey HSD, Dunnett... tests spécifiques, 2 approches : modifier le risque de première espèce α pour que le risque total (risque expérimental) demeure 0.05 : méthode de Bonferroni adapter la statistique de test (plus conservateur) : méthode HSD de Tukey comparaisons non-planifiées : seulement si le test F est significatif, surtout si la visée est confirmatoire.

Cogmaster A4 p. 8/26 ANOVA et test t p valeur (tests t multiples) 0.0 0.2 0.4 0.6 0.8 0.0 0.2 0.4 0.6 0.8 1.0 p valeur (anova) V Zoonekynd, http://zoonek2.free.fr/unix/48_r/14.html

Cogmaster A4 p. 9/26 Méthode des contrastes (1) idée : partitionner la variance en SC indépendantes (cas des comparaisons non-planifiées) contraste c i = permet la comparaison d une moyenne, ou d un ensemble de moyennes, à une autre (à l aide d une différence de moyennes, comme pour le test t, µ 1 µ 2 ) définition : deux contrastes sont orthogonaux si le produit de leur coefficients de contraste est nul. Pour un plan à k échantillons, il y a k 1 contrastes orthogonaux formulation : avec i c i = 0 φ = k i=1 c i x i statistique de test : ddl de la résiduelle) φ s φ (s 2 φ = s 2 i c 2 i n i ), à comparer à un t à ν ddl (ν =

Cogmaster A4 p. 10/26 Méthode des contrastes (1) limites : les contraintes imposent un choix particulier de contraste, surtout lorsque le nombre de groupes k > 3 ex : 3 groupes a, b et c ; contrastes = a vs. b et b vs. c Exemple : 4 échantillons : x 1, x 2, x 3, x 4 H 0 : µ 1 = µ 4 c = [ 1 0 0 1] H 0 : (µ 1 + µ 2 )/2 = (µ 3 + µ 4 )/2 c = [ 1 1 1 1]

Cogmaster A4 p. 11/26 Utilisation de contrastes sous R (1) n <- 20 g <- gl(5,n,5*n,labels=paste(rep( g,5),1:5,sep="")) y <- NULL for (i in 1:5) y <- append(y,rnorm(n,mean=runif(1)*i,sd=1.5)) plot(y ~ g,horizontal=t,xlab = y,ylab = x ) model1 <- aov(y ~ g) summary(model1) summary.lm(model1) levels(g) contrasts(g) <- cbind(c(4,-1,-1,-1,-1),c(0,1,1,-1,-1), c(0,0,0,1,-1),c(0,1,-1,0,0)) model2 <- aov(y ~ g) summary.lm(model2) Matrice de contraste : [,1] [,2] [,3] [,4] g1 4 0 0 0 g2-1 1 0 1 g3-1 1 0-1 g4-1 -1 1 0 g5-1 -1-1 0

Cogmaster A4 p. 12/26 Utilisation de contrastes sous R (2) y g1 g2 g3 g4 g5 1 0 1 2 3 4 5 x

Cogmaster A4 p. 13/26 Utilisation de contrastes sous R (3) Residuals vs Fitted Normal Q Q Residuals 2 0 2 4 56 54 36 Standardized residuals 2 1 0 1 2 3 56 54 36 0.0 0.5 1.0 1.5 2.0 2.5 2 1 0 1 2 Fitted values Theoretical Quantiles Standardized residuals 0.0 0.5 1.0 1.5 Scale Location 56 54 36 0.0 0.5 1.0 1.5 2.0 2.5 Standardized residuals 2 0 1 2 3 Constant Leverage: Residuals vs Factor Levels g : 56 54 36 g1 g5 g3 g2 g4 Fitted values Factor Level Combinations

Cogmaster A4 p. 14/26 Utilisation de contrastes sous R (4) Modèle global (summary(model1)) Df Sum Sq Mean Sq F value Pr(>F) g 4 62.219 15.555 7.6566 2.164e-05 *** Residuals 95 192.998 2.032 Tests sur les coefficients du modèle complet (summary.lm(model1)) Residuals: Min 1Q Median 3Q Max -2.58494-1.05627-0.04863 0.93955 3.75477 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 0.08574 0.31871 0.269 0.788489 gg2 1.62985 0.45073 3.616 0.000481 *** gg3 1.46144 0.45073 3.242 0.001636 ** gg4 2.44558 0.45073 5.426 4.39e-07 *** gg5 1.33268 0.45073 2.957 0.003922 ** Residual standard error: 1.425 on 95 degrees of freedom Multiple R-Squared: 0.2438,Adjusted R-squared: 0.2119 F-statistic: 7.657 on 4 and 95 DF, p-value: 2.164e-05

Cogmaster A4 p. 15/26 Utilisation de contrastes sous R (5) Tests sur les contrastes (summary.lm(model2)) Residuals: Min 1Q Median 3Q Max -2.58494-1.05627-0.04863 0.93955 3.75477 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.45965 0.14253 10.241 < 2e-16 *** g1-0.34348 0.07127-4.820 5.45e-06 *** g2-0.17174 0.15936-1.078 0.2839 g3 0.55645 0.22536 2.469 0.0153 * g4 0.08421 0.22536 0.374 0.7095 Residual standard error: 1.425 on 95 degrees of freedom Multiple R-Squared: 0.2438,Adjusted R-squared: 0.2119 F-statistic: 7.657 on 4 and 95 DF, p-value: 2.164e-05

Cogmaster A4 p. 16/26 Utilisation de contrastes sous R (6) Remarque : Un contraste n est rien d autre qu un test t (au carré) ; on parle de comparaisons à 1 ddl. Rappel statistique de test pour le t : t obs = x 1 x 2 s 2 p /n où s 2 p est une estimation de la variance commune (dans le cas où l on suppose l homogénéité des variances) Il existe d autres types de contrastes sous R : treatment contrasts, Helmert contrasts (par défaut sous R), sum contrast. Ils sont spécifiés grâce à la commande options(contrasts=c("contr.treatment","contr.poly")).

Cogmaster A4 p. 17/26 Méthode du t multiple protégé (LSD) (1) idée : utiliser le test t classique, en calculant la variance commune (erreur-type au dénominateur) à partir de l ensemble des échantillons méthode : (1) si les effectifs sont inégaux, on calcule un t pour chaque paire de moyenne ; (2) si les effectifs sont égaux, on calcule directement la plus petite différence significative (LSD), = t n 1;α=0.05 2 s2, à n laquelle on compare chacune des différences de moyenne intérêt : rapide et simple à mettre en œuvre ; donne un aperçu global de l ensemble des différences de moyennes considérées comme significatives limites : la protection n existe que sous H 0 ; visée indicative seulement

Cogmaster A4 p. 18/26 Méthode du t multiple protégé (LSD) (2) Idée naïve : calcul de tous les t avec comme erreur-type la résiduelle des 2 séries d observations considérées res <- matrix(na,nrow=5,ncol=5) for (j in 1:5) { for (i in 1:5) res[i,j] <- round(t.test(y[as.numeric(g)==j], y[as.numeric(g)==i],var.equal=t)$p.value,4) } res[upper.tri(res,diag=t)] <- NA dimnames(res) <- list(levels(g),levels(g)) Calcul de LSD : même chose en prenant comme erreur-type la résiduelle de toutes les séries d observations nk <- 20 # nb d obs par groupe tmp <- summary.aov(model1) residuals <- tmp[[1]]$ Mean Sq [2] # var. résiduelle lsd <- qt(0.975, 2*nk-2) * sqrt(2 * residuals/nk) plot.design(aggregate(y,list(g),mean)) segments(0.25,mean(y)-lsd/2,0.25,mean(y)+lsd/2)

Cogmaster A4 p. 19/26 Méthode du t multiple protégé (LSD) (3) mean of x 1.0 1.5 2.0 2.5 3.0 g3 g4 g2 g5 g1 Group.1 Factors

Cogmaster A4 p. 20/26 Méthode du t multiple protégé (LSD) (4) res <- matrix(na,nrow=5,ncol=5) for (j in 1:5) { for (i in 1:5) { diff.mean <- mean(y[as.numeric(g)==j]) - mean(y[as.numeric(g)==i]) res[i,j] <- ifelse(abs(diff.mean) > lsd, round(diff.mean,2), NA) } } res[upper.tri(res,diag=t)] <- NA dimnames(res) <- list(levels(g),levels(g))

Cogmaster A4 p. 21/26 Méthode du t multiple protégé (LSD) (5) t avec s 2 p calculée sur les 2 échantillons comparés (valeurs de p obs ): g1 g2 g3 g4 g5 g1 NA NA NA NA NA g2 0.3696 NA NA NA NA g3 0.0000 0.0022 NA NA NA g4 0.0374 0.3144 0.0064 NA NA g5 0.5968 0.6306 0.0000 0.0757 NA t avec s 2 p calculée sur tous les échantillons comparés (valeurs des différences de moyennes significatives): g1 g2 g3 g4 g5 g1 NA NA NA NA NA g2 NA NA NA NA NA g3-2.21-1.65 NA NA NA g4-1.11 NA 1.09 NA NA g5 NA NA 1.92 NA NA Note: ces valeurs ne correspondent pas à l exemple initial de l ANOVA...

Cogmaster A4 p. 22/26 Méthode du t corrigé (Bonferroni) idée : même principe (test t), en corrigeant le risque α en fonction du nombre de comparaisons pour m comparaisons (m < C k(k 1) 2 ), on fixe α, α = 0.05, comme risque m de première espèce pour chacun des tests : méthode de Bonferroni intérêt : rapide et simple à mettre en œuvre ; donne un aperçu global de l ensemble des différences de moyennes considérées comme significatives pairwise.t.test(y,g,p.adjust.method="bonf") Il existe d autres types de méthodes de correction (?p.adjust).

Cogmaster A4 p. 23/26 Méthode de Tukey (HSD) (1) très utilisé en complément de l ANOVA lorsque l on cherche à expliquer des différences non prévues lors de la conception du protocole (démarche post-hoc) idée : modifier la statistique de test pour que la détection d une différence significative soit plus difficile statistique de test : T = x 1 x 2 s p à comparer aux valeurs q des range studentisés (?qtukey). R donne les IC associés à chaque comparaison limites : effectifs égaux dans chaque groupe model1.hsd <- TukeyHSD(model1) plot(model1.hsd,las=1) Le package multcomp comprend un ensemble de procédures de comparaisons multiples (?simint).

Cogmaster A4 p. 24/26 Méthode de Tukey (HSD) (2) 95% family wise confidence level g2 g1 g3 g1 g4 g1 g5 g1 g3 g2 g4 g2 g5 g2 g4 g3 g5 g3 g5 g4 3 2 1 0 1 2 3 Differences in mean levels of g

Cogmaster A4 p. 25/26 En résumé (1) Méthode des contrastes traitements à rôle symétrique ou non ; toujours valable si les contrastes sont indépendants ; problème du choix de ceux-ci ; visée confirmatoire Méthode du t multiple protégé traitements à rôle symétrique ; peu puissant ; risque de conclusions erronées lorsqu il y a un grand nombre de comparaisons ; visée indicative Méthode du t corrigé (Bonferroni) traitements à rôle symétrique ; visée indicative/confirmatoire Méthode de Scheffé traitements à rôle symétrique ; manque de puissance (trop de protection); permet de tester la nullité de n importe quel contraste; visée confirmatoire

Cogmaster A4 p. 26/26 En résumé (2) Méthode de Newman-Keuls traitements à rôle symétrique ; puissance accrue si les effectifs sont égaux et les contrastes simples ; permet de «grouper» les moyennes ; visée confirmatoire Méthode de Tukey traitements à rôle symétrique ; même protection que Newman-Keuls, mais moins puissante ; nécessite des effectifs égaux, et des contrastes simples ; visée confirmatoire Méthode de Dunnett traitements à rôle non symétrique ; utilisable dans le cas d une comparaison à un groupe témoin (ou de référence) ; nécessite le recours à une table spécifique ; visée confirmatoire