ANOVA et plans d expérience. Atelier Statistique

Documents pareils
TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

FORMULAIRE DE STATISTIQUES

STATISTIQUES. UE Modélisation pour la biologie

Introduction aux Statistiques et à l utilisation du logiciel R

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La classification automatique de données quantitatives

MODELE A CORRECTION D ERREUR ET APPLICATIONS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Lire ; Compter ; Tester... avec R

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Introduction à l approche bootstrap

VI. Tests non paramétriques sur un échantillon

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Exemples d Analyses de Variance avec R

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Problème 1 : applications du plan affine

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Quelques rappels concernant la méthode expérimentale

Exemple PLS avec SAS

Cours d Analyse. Fonctions de plusieurs variables

Biostatistiques : Petits effectifs

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyse en Composantes Principales

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Exemples d application

1 Complément sur la projection du nuage des individus

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Chapitre 3. Les distributions à deux variables

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Cours de méthodes de scoring

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Priorités de calcul :

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

NOTIONS DE PROBABILITÉS

Un exemple de régression logistique sous

Cours 9 : Plans à plusieurs facteurs

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

TSTI 2D CH X : Exemples de lois à densité 1

Evaluation de cépages résistants ou tolérants aux principales maladies cryptogamiques de la vigne

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Développement de lois et de structures de réglages destinées à la téléopération avec retour d effort

2.4 Représentation graphique, tableau de Karnaugh

Programmation linéaire

Modèles pour données répétées

Chapitre 3 : INFERENCE

Introduction au datamining

Le chi carré. Le sommaire. Approche quantitative

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Probabilités III Introduction à l évaluation d options

Géométrie dans l espace Produit scalaire et équations

PROBABILITES ET STATISTIQUE I&II

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Si deux droites sont parallèles à une même troisième. alors les deux droites sont parallèles entre elles. alors

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Application sur le Dispositif en Blocs Complètement Randomisés

CHAPITRE 5. Stratégies Mixtes

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Analyse des correspondances avec colonne de référence

Séquence 2. Repérage dans le plan Équations de droites. Sommaire

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Table des matières: Guidelines Fonds de Pensions

STAGE IREM 0- Premiers pas en Python

LE PRODUIT SCALAIRE ( En première S )

Mesure de l'impact de la marque de provenance Aliments du Québec sur la valeur des produits

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

Les devoirs en Première STMG

Activités numériques [13 Points]

1S Modèles de rédaction Enoncés

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

PROGRAMME (Susceptible de modifications)

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Evaluation de la variabilité d'un système de mesure

TABLE DES MATIERES. C Exercices complémentaires 42

23. Interprétation clinique des mesures de l effet traitement

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Transcription:

ANOVA et plans d expérience Atelier Statistique

Synopsis The analysis of variance is not a mathematical theorem, but rather a convenient method of arranging the arithmetic. Ronald Fisher (1890 1962) Plan d expérience Exemples de plans Décrire les relations entre variables Split Apply Combine (Wickham, 2011) ANOVA à un facteur ANOVA à deux facteurs Effet d interaction Illustration Méthode des blocs Références

Plan d expérience Maximiser la précision en minimisant le nombre d essais. Mise en œuvre organisée d un ensemble d unités expérimentales pour caractériser l effet de certains traitements, ou combinaison de traitements, sur une ou plusieurs variables réponses. Dans les plans factoriels, par exemple, on croisera tous les niveaux de tous les facteurs expérimentaux. Prendre en considération un ou plusieurs facteurs de nuisance pendant la constitution du dessin expérimental : organiser les sources de variation indésirables de façon à ce qu elles affectent les traitements de manière équivalente, rendant ainsi possible la comparaison entre traitements. Dagnelie P. (2012). Principes d expérimentation: planification des expériences et analyse de leurs résultats. Gembloux, Presses agronomiques (ISBN 978-2-87016-117-3). Édition électronique disponible à l adresse : http://www.dagnelie.be.

Exemples de plans a1 x1, x2, x3, x4, x5, x6, x7, x8 a2 x9, x10, x11, x12, x13, x14, x15, x16 id y A 01 x1 a1 02 x2 a1 03 x3 a1... 14 x14 a2 15 x15 a2 16 x16 a2 s1 s2 x1, x2 x9, x10 a1 x3, x4 x11, x12 x5, x6 x13, x14 a2 b1 b2 b1 b2 x7, x8 x15, x16 id y A B s1 x1 a1 b1 s1 x2 a1 b1 s1 x3 a1 b2 s1 x4 a1 b2 s1 x5 a2 b1... s2 x12 a1 b2 s2 x13 a2 b1 s2 x14 a2 b1 s2 x15 a2 b2 s2 x16 a2 b2 a1 a2 b1 x1, x2, x3, x4 x5, x6, x7, x8 b2 x9, x10, x11, x12 x13, x14, x15, x16 id y A B 01 x1 a1 b1 02 x2 a1 b1 03 x3 a1 b1 04 x4 a1 b1 05 x5 a2 b1... 12 x12 a1 b2 13 x13 a2 b2 14 x14 a2 b2 15 x15 a2 b2 16 x16 a2 b2 s1 s3 x1, x2 x9, x10 a1 x3, x4 x11, x12 x5, x6 x13, x14 a2 b1 b2 b1 b2 x7, x8 x15, x16 s2 s4 id y A B s1 x1 a1 b1 s1 x2 a1 b1 s1 x3 a1 b2 s1 x4 a1 b2 s2 x5 a2 b1... s3 x12 a1 b2 s4 x13 a2 b1 s4 x14 a2 b1 s4 x15 a2 b2 s4 x16 a2 b2

Décrire les relations entre variables R suit les conventions de notation proposées par Wilkinson & Rogers (Wilkinson and Rogers, 1973; Chambers and Hastie, 1992) pour exprimer une relation fonctionnelle, symbolisée par ~, entre une variable réponse y et une ou plusieurs variables explicatives. x x + 0 a + b a * b a / b régression linéaire simple idem avec suppression de l intercept deux effets principaux (relation de croisement) équivalent à 1 + a + b + a:b, idem avec interaction équivalent à 1 + a + b + a %in% b (relation d emboîtement) fm <- y ~ a * b * c mod1 <- aov(fm, data=dfrm) update(mod1,. ~. -a:b:c) # modèle de base (A, B, C, AB, AC, BC, ABC) # estimation des paramètres du modèle # suppression de l'interaction ABC

Split Apply Combine (Wickham, 2011) id A y 01 a1 12 02 a1 10 03 a1 8 04 a2 15 05 a2 6 06 a2 10 07 a3 9 08 a3 11 09 a3 10 10 a4 5 11 a4 8 12 a4 12 SPLIT 01 a1 12 02 a1 10 03 a1 8 04 a2 15 05 a2 6 06 a2 10 07 a3 9 08 a3 11 09 a3 10 10 a4 5 11 a4 8 12 a4 12 APPLY mean a1 10 a2 10.3 a3 10 a4 8.3 COMBINE a1 10 a2 10.3 a3 10 a4 8.3 > y <- c(12,10,8,15,6,10,9,11,10,5,8,12) > A <- gl(4, 3, 12, labels=paste("a", 1:4, sep="")) > tapply(y, A, mean) # aggregate(y, list(a=a), mean) a1 a2 a3 a4 10.000000 10.333333 10.000000 8.333333

ANOVA à un facteur Formalisation du modèle : Soit y ij la j e observation dans le groupe i (facteur A). On peut décrire un modèle à effet comme y ij = µ + α i + ε ij, où µ désigne la moyenne générale, α i l effet du groupe i (i = 1,..., a), et ε ij N(0, σ 2 ) un terme d erreur aléatoire. On impose généralement que a i=1 α i = 0. L hypothèse nulle se lit H 0 : α 1 = α 2 =... = α a, et se teste à l aide d un test F à a 1 et N a degrés de liberté. > mod1 <- aov(y ~ A, data=d) > summary(mod1)

ANOVA à deux facteurs On considère deux effets fixes, dont l interaction peut être l objet d étude ou non. Formalisation du modèle : Soit y ijk la k e observation pour le niveau i du facteur A (i = 1,..., a) et le niveau j du facteur B (j = 1,..., b). Le modèle complet avec interaction s écrit y ijk = µ + α i + β j + γ ij + ε ijk, où µ désigne la moyenne générale, α i (β j ) l écart à la moyenne des moyennes de groupe pour le facteur A (B), γ ij les écarts à la moyenne des moyennes pour les traitements A B, et ε ijk N(0, σ 2 ) la résiduelle. Les effets α i et β j sont appelés effets principaux, tandis que γ ij est l effet d interaction.

Les hypothèses nulles associées sont H A 0 : α 1 = α 2 =... = α a, (a 1) dl H B 0 : β 1 = β 2 =... = β b, (b 1) dl H AB 0 : γ 11 = γ 13 =... = γ ab, (a 1)(b 1) dl Des tests F (CM effets / CM résiduelle) permettent de tester ces hypothèses. > mod2a <- aov(y ~ A * B, data=d) # Effets A, B, AB > summary(mod2a) > mod2b <- update(mod2,. ~. - A:B) # Effets A, B > summary(mod2b)

Effet d interaction Absence d'interaction b1 b2 Interaction ordonnée b1 b2 Interaction croisée b1 b2 Effet B Effet B Effet B a1 a2 a1 a2 a1 a2 Effet A Effet A Effet A a1 a2 a1 a2 a1 a2 L'effet de B est le même quel que soit le niveau de A. L'effet de B est plus important dans la condition a2. L'effet de B s'inverse entre a1 et a2.

Illustration The effect of Vitamin C on tooth growth in Guinea Pigs. (Bliss, 1952) The response is the length of odontoblasts (teeth) in each of 10 guinea pigs at each of three dose levels of Vitamin C (0.5, 1, and 2 mg) with each of two delivery methods (orange juice or ascorbic acid). > data(toothgrowth) > ToothGrowth$dose <- factor(toothgrowth$dose) > fm <- len ~ supp * dose > replications(fm, data=toothgrowth) supp dose supp:dose 30 20 10 > aggregate(fm, ToothGrowth, FUN=function(x) c(mean=mean(x), sd=sd(x))) supp dose len.mean len.sd 1 OJ 0.5 13.230000 4.459709 2 VC 0.5 7.980000 2.746634 3 OJ 1 22.700000 3.910953 4 VC 1 16.770000 2.515309 5 OJ 2 26.060000 2.655058 6 VC 2 26.140000 4.797731 Tooth length 35 30 25 20 15 10 5 OJ VC 0.5 1 2 Dose (mg)

Estimation des paramètres du modèle : > aov.fit <- aov(fm, data=toothgrowth) > summary(aov.fit) Df Sum Sq Mean Sq F value Pr(>F) supp 1 205.4 205.4 15.572 0.000231 *** dose 2 2426.4 1213.2 92.000 < 2e-16 *** supp:dose 2 108.3 54.2 4.107 0.021860 * Residuals 54 712.1 13.2 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Deux remarques : 1. Les tests ci-dessus n indiquent pas quelles paires de moyennes diffèrent significativement, mais permettent de se prononcer sur l existence d un effet et le rejet de l hypothèse nulle associée. Pour préciser quels sont les traitements qui diffèrent deux à deux, il faudrait utiliser des procédures (post-hoc) de comparaisons multiples. 2. Le facteur dose est traité comme une variable qualitative non ordonnée ; un test de linéarité de la relation len ~ dose serait toutefois intéressant.

Tableau des effets : > model.tables(aov.fit, type="means", se=true, cterms="supp:dose") Tables of means Grand mean 18.81333 supp:dose dose supp 0.5 1 2 OJ 13.23 22.70 26.06 VC 7.98 16.77 26.14 Standard errors for differences of means supp:dose 1.624 replic. 10

Vérification des conditions d application : > qqmath(~ resid(aov.fit)) > bwplot(len ~ interaction(supp, dose), data=toothgrowth) > bartlett.test(len ~ interaction(supp,dose),data=toothgrowth) Bartlett test of homogeneity of variances data: len by interaction(supp, dose) Bartlett's K-squared = 6.9273, df = 5, p-value = 0.2261 35 30 25 Tooth length 20 15 10 5 OJ/0.5 VC/0.5 OJ/1 VC/1 OJ/2 VC/2

Méthode des blocs Répartir un ensemble hétérogène d unités expérimentales (individus) en sousgroupes plus homogènes (blocs) afin d améliorer la comparaison entre traitements (gain de puissance). Illustrations tirées de Lellouch and Lazar, 1974. Blocs complets (avec ou sans répétition) ANOVA à deux facteurs où l un des facteurs est le facteur de bloc ; les traitements sont orthogonaux aux blocs (si pas de valeur manquante). Exemple : Pour des raisons d économie de place, les animaux utilisés pour une expérience sont mis dans des cages qui peuvent en contenir chacune 12. On dispose au total de 10 cages et l on doit comparer 3 traitements A, B et C. L une des solutions consiste à répartir au hasard les 3 traitements parmi les 120 animaux. On conçoit cependant qu il puisse être intéressant, si l on pense que les résultats observés dans chaque case risquent de présenter une certaine homogénéité par rapport à l ensemble, et qu il existe corrélativement une certaine hétérogénéité d une cage à l autre, d attribuer les 3 traitements à 4 animaux à l intérieur de chaque cage (par tirage au sort).

Blocs incomplets équilibrés Même principe que la méthode BC mais le nombre d unités expérimentales disponibles par bloc est inférieur au nombre de traitements à comparer. Chaque bloc contient le même nombre d unités expérimentales, k ; chaque traitement est attribué dans l ensemble des blocs au même nombre d unités, r ; le nombre de blocs, λ, où apparaissent simultanément deux traitements quelconques est le même quel que soit le couple de traitements considérés. Exemple : On veut comparer les réactions cutanées locales de 5 traitements A, B, C, D, E chez la souris. On souhaiterait utiliser l animal comme son propre témoin, en d autres termes prendre chaque souris comme bloc. Il se peut cependant que, compte-tenu des dimensions de la souris, il ne soit possible d appliquer que 4 traitements à chaque animal. Plan en carré latin Même principe que la méthode BC mais on souhaite contrôler deux facteurs. Exemple : On souhaite comparer 4 traitements appliqués localement au même animal, mais à des endroits différents. Si la place de l injection est une cause systématique et importante de variation, on constituera des blocs animal-place d injection qui ne contiendront qu une unité expérimentale.

Références 1 Wilkinson, G. and Rogers, C. (1973). Symbolic description of factorial models for analysis of variance. Applied Statistics, 22, 392 399. 2 Chambers, J. and Hastie, T., editors (1992). Statistical Models in S. Wadsworth & Brooks. ISBN: 0534167649. 3 Wickham, H. (2011). The split-apply-combine strategy for data analysis. Journal of Statistical Software, 40(1). 4 Bliss, C. (1952). The Statistics of Bioassay. Academic Press. 5 Lellouch, J. and Lazar, P. (1974). Méthodes statistiques en expérimentation biologique. Flammarion. ISBN: 225710398X. ConT E Xt version 2012.05.30 11:26, R version 2.15.1 (2012-06-22), 03-anova.tex 97377fd on 2012/10/15