Analyse de variance - Modèles à effets fixes

Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

FORMULAIRE DE STATISTIQUES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Analyse de la variance Comparaison de plusieurs moyennes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

TABLE DES MATIERES. C Exercices complémentaires 42

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Arbres binaires de décision

Exemples d application

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3. Les distributions à deux variables

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Introduction à l approche bootstrap

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Etude des propriétés empiriques du lasso par simulations

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Cours 9 : Plans à plusieurs facteurs

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Estimation et tests statistiques, TD 5. Solutions

Cours de méthodes de scoring

Biostatistiques : Petits effectifs

données en connaissance et en actions?

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Programmation linéaire

Le risque Idiosyncrasique

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

T de Student Khi-deux Corrélation

Introduction aux Statistiques et à l utilisation du logiciel R

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

1 Définition de la non stationnarité

INF6304 Interfaces Intelligentes

Le Modèle Linéaire par l exemple :

Relation entre deux variables : estimation de la corrélation linéaire

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

La place de SAS dans l'informatique décisionnelle

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Intégration de la dimension sémantique dans les réseaux sociaux

Soutenance de stage Laboratoire des Signaux et Systèmes

TSTI 2D CH X : Exemples de lois à densité 1

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

L Econométrie des Données de Panel

VI. Tests non paramétriques sur un échantillon

Analyse en Composantes Principales

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Commande Prédictive des. Convertisseurs Statiques

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Principe d un test statistique

Évaluation de la régression bornée

MABioVis. Bio-informatique et la

Quantification Scalaire et Prédictive

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TABLE DES MATIÈRES. Avant-propos... Remerciements... CHAPITRE 1 LA COMPTABILITÉ DE MANAGEMENT... 1

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Coup de Projecteur sur les Réseaux de Neurones

Feuille d exercices 2 : Espaces probabilisés

1 Imputation par la moyenne

(Customer Relationship Management, «Gestion de la Relation Client»)

Qu est-ce qu une probabilité?

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Modèles pour données répétées

STRICTEMENT CONFIDENTIEL

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

Chapitre 5 : Flot maximal dans un graphe

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Projet de Traitement du Signal Segmentation d images SAR

Architecture des Systèmes d Information Architecture des Systèmes d Information

Chapitre 4 - Spectroscopie rotationnelle

Item 169 : Évaluation thérapeutique et niveau de preuve

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Introduction à la Statistique Inférentielle

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

1 Complément sur la projection du nuage des individus

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

23. Interprétation clinique des mesures de l effet traitement

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Cours de Tests paramétriques

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Transcription:

Analyse de variance - Mathieu Emily Laboratoire de mathématiques appliquées Agrocampus Ouest, Rennes Analyse de variance Mathieu EMILY - Agrocampus Ouest 1

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèles à 2 facteurs Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 2

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèle Estimation Test global Analyse Post-Hoc Hypothèses du modèle et tests non paramétriques Modèles à 2 facteurs Modèles Estimation Test global Interaction Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 3

Quel est l effet d un traitement sur le poids de poussins? Poids : variable à expliquer quantitative Traitement : variable explicative qualitative ou facteur Analyse de variance Mathieu EMILY - Agrocampus Ouest 4

Quel est l effet du sexe sur le poids de poussins? Poids : variable à expliquer quantitative Sexe : variable explicative qualitative ou facteur Remarque : on utilise une autre représentation de la variabilité par des boxplot Analyse de variance Mathieu EMILY - Agrocampus Ouest 5

Quel est l effet du traitement et du sexe sur le poids de poussins? Poids : variable à expliquer quantitative Traitement et Sexe : 2 facteurs Interprétation des interactions : à faire avec précaution! Analyse de variance Mathieu EMILY - Agrocampus Ouest 6

Objectifs généraux de l Analyse de variance Expliquer une variable quantitative par 1 ou plusieurs facteurs. Expliquer une variable revient à expliquer sa variabilité ou variance. La variabilité mesure la dispersion de la variable La variabilité se quantifie par la somme des carrés des écarts par rapport à la moyenne. Objectif de l analyse de variance (Version 1) Evaluer le fait de considérer les observations d une même catégorie d un facteur égale à la moyenne empirique, sur la variabilité de la variable à expliquer. Analyse de variance Mathieu EMILY - Agrocampus Ouest 7

Caractéristiques fondamentales Planification expérimentale Orthogonalité des facteurs Plan équilibré (mêmes effectifs pour chaque cellule du plan) Plan complet : toutes les combinaisons de facteurs ont été expérimentées Hypothèses de modélisation Modèles paramétriques Modèles non-paramétriques Analyse de variance Mathieu EMILY - Agrocampus Ouest 8

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèle Estimation Test global Analyse Post-Hoc Hypothèses du modèle et tests non paramétriques Modèles à 2 facteurs Modèles Estimation Test global Interaction Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 9

La variabilité La variabilité est la notion de base de l Analyse de variance. Toute la complexité d un phénomène est quantifiée par sa variabilité. Un objectif statistique de l Analyse de variance est de rendre compte du maximum de variabilité d un phénomène en tenant compte du minimum d information. L information utilisée est caractérisée par la dimension des facteurs ou degrés de liberté. Compromis classique en statistique entre qualité d ajustement et parcimonie. Objectif de l analyse de variance (Version 2) Evaluer la variabilité expliquée par un facteur en pondérant par rapport à la dimension (ou degré de liberté) de ce facteur. Analyse de variance Mathieu EMILY - Agrocampus Ouest 10

Exemple jouet Considérons le phénomène de la visualisation d une photo 1. Le phénomène est caractérisé par la variabilité des pixels de l image. La variabilité est mesurée par la Somme des Carrés des Ecarts (SCE) pour 256 couleurs vaut : SCE T = 9232 et ddl = 256 1 = 255 1. La photo lena sert d image de test pour les algorithmes de traitement d image et est devenue un standard industriel et scientifique. Analyse de variance Mathieu EMILY - Agrocampus Ouest 11

Exemple jouet : modèle 1 Un spécialiste connaît les zones de couleur moyenne. Peut-on conserver une bonne visualisation du phénomène? Les pixels de couleur moyenne sont ramenés à leur moyenne empirique (et de même pour les autres pixels). = + Image réelle Modèle à 2 couleurs Image résiduelle Pensez-vous que l information donnée par le spécialiste est pertinente? Analyse de variance Mathieu EMILY - Agrocampus Ouest 12

Exemple jouet : modèle 1 Pour évaluer un modèle on compare la variabilité du modèle à celle de la résiduelle Evaluation numérique : SCE M1 = 160 SCE R1 = 9072 F M1 = 4.48 p.val = 0.035 Analyse de variance Mathieu EMILY - Agrocampus Ouest 13

Exemple jouet : modèle 2 Un autre spécialiste connaît les zones foncées. Peut-on conserver une bonne visualisation du phénomène? = + Image réelle Modèle à 2 couleurs Image résiduelle SCE M2 = 6330 SCE R2 = 2901 F M2 = 554.23 p.val < 2.2e 16 Analyse de variance Mathieu EMILY - Agrocampus Ouest 14

Exemple jouet 3 Un non-spécialiste ne connaît rien et affecte des pixels foncés au hasard. Peut-on conserver une bonne visualisation du phénomène? = + Image réelle Modèle à 2 couleurs Image résiduelle SCE M3 = 0.02 SCE R = 9231 F M3 = 0.00076 p.val = 0.97 Analyse de variance Mathieu EMILY - Agrocampus Ouest 15

Exemple jouet : bilan Dans les exemples précédents, nous avons cherché à modéliser (ou simplifier) un phénomène complexe (photo avec 256 couleurs) par un phénomène plus simple (photo à 2 couleurs) La pertinence du modèle est évaluée par la part de variabilité conservée par le modèle. Cette mesure s effectue par le calcul de la somme des carrés des écarts. En détails on remarque que : Modèle 1 : information pertinent mais non-linéaire. Modèle 2 : information très pertinente. Modèle 3 : information pas du tout pertinente. Analyse de variance Mathieu EMILY - Agrocampus Ouest 16

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèles à 2 facteurs Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 17

Exemple illustratif Espèce étudiée : Vache Taille d échantillon : n = 30 observations Une variable à expliquer : le gain moyen de poids sur 30 jours. 2 variables explicatives : Milieu à 3 modalités (Bon, médiocre et moyen) Génotype à 2 modalités : Pur et Croise Analyse de variance Mathieu EMILY - Agrocampus Ouest 18

Démarche à suivre L étude de l impact de facteurs sur une variable quantitative peut se faire à différents niveaux. Du point de vue statistique, il convient de respecter l ordre du schéma d analyse suivant : 1 Pertinence du modèle global 2 Effet de chaque facteur 3 Comparaison des modalités pour un facteur donné Analyse de variance Mathieu EMILY - Agrocampus Ouest 19

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèle Estimation Test global Analyse Post-Hoc Hypothèses du modèle et tests non paramétriques Modèles à 2 facteurs Modèles Estimation Test global Interaction Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 20

Illustration : effet du Milieu sur le gain de poids Analyse de variance Mathieu EMILY - Agrocampus Ouest 21

Ecriture du modèle Y ij = µ + α i + ε ij i représente le niveau du facteur (i = 1,..., I) j représente l indice de répétition (j = 1,..., n i ) Si le plan est équirépété : ni = J Hypothèses de modélisation : i, j, εij N (0, σ) i i ou j j : Cov(ε ij, ε i j ) = 0 Analyse de variance Mathieu EMILY - Agrocampus Ouest 22

Interprétation du modèle Y ij = µ + α i + ε ij La variable Y ij est la somme d un terme constant µ d un effet spécifique à chaque niveau du facteur αi un résidu aléatoire gaussien εij Le modèle possède I + 1 paramètres : La dimension paramétrique du modèle est I! Une contrainte de liaison doit être explicitée pour estimer les paramètres. Analyse de variance Mathieu EMILY - Agrocampus Ouest 23

Contraintes sur les paramètres Nullité du terme constant : µ = 0 Y ij = µ i + ε ij Nullité de la somme des effets individuels I α i = 0 i=1 Nullité de la somme pondérée des effets individuels I n i α i = 0 i=1 Une modalité de référence : i α i = 0 Analyse de variance Mathieu EMILY - Agrocampus Ouest 24

Estimation des paramètres : principe des Moindres Carrés Ordinaires On cherche à minimiser l écart entre les observations et le modèle : I n i (Y ij Ŷij) 2 i=1 j=1 Pour chaque modalité i, minimiser n i j=1 (Y ij Ŷij) 2 se fait par : µ i = Y i. = 1 n i n i L estimation du modèle permet d utiliser le modèle pour la prédiction j=1 Y ij Y ij est prédite par son espérance Ŷij Pour le modèle avec nullité de la constante, l estimation des paramètres permet donc de prédire chaque modalité du facteur par sa fréquence observée. Analyse de variance Mathieu EMILY - Agrocampus Ouest 25

Autres contraintes Somme des effets individuels nulle µ = 1 I I Y i. et i, α i = Y i. µ i=1 Somme pondérée des effets individuels nulle µ = Y.. = 1 I I n i Y i. et i, α i = Y i. Y.. i=1 Une modalité de référence : i µ = Y i. et i, α i = Y i. Y i. Analyse de variance Mathieu EMILY - Agrocampus Ouest 26

Estimation des résidus Degrés de liberté : n-i n données I paramètres estimés dans le modèle Un estimateur non biaisé de σ est donné par σ 2 = 1 n I I n i (Y ij Ŷij) 2 i=1 j=1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 27

Sortie R Analyse de variance Mathieu EMILY - Agrocampus Ouest 28

Sortie SAS avec la proc glm proc glm data=charolais class Milieu; model GMQ=Milieu / solution ss1 ss3; run; Analyse de variance Mathieu EMILY - Agrocampus Ouest 29

Utilisation d un modèle d ANOVA Un modèle d ANOVA est rarement utilisé pour prédire un phénomène. Un modèle d ANOVA est surtout utilisé pour savoir si le facteur considéré a un effet ou non sur la variable réponse. Question statistique La prise en compte des différents niveaux du facteurs contribue-t-elle significativement à expliquer la variabilité de Y? Analyse de variance Mathieu EMILY - Agrocampus Ouest 30

Décomposition de la variabilité SCE T =. = I n i (Y ij Y.. ) 2 i=1 j=1 I I n i n i (Y i. Y.. ) 2 + (Y ij Y i. ) 2 i=1 i=1 j=1 = SCE M + SCE R SCE T (resp. SCE M, SCE R ) : somme des carrés des écarts Totale (resp. Modèle, Résiduelle) SCE M : variabilité inter-classe = variabilité expliquée par le modèle SCE R : variabilité intra-classe = variabilité résiduelle Analyse de variance Mathieu EMILY - Agrocampus Ouest 31

Hypothèses de test Pour tester l effet d un facteur on peut : faire une comparaison de modèles : ce qui revient à : H 0 : Y ij = µ + ε ij contre H 1 : Y ij = µ + α i + ε ij H 0 : i α i = 0 contre H 1 : i α i 0 Pour ce test, on va comparer la variabilité expliquée par le modèle, SCE M, à la variabilité résiduelle, SCE R. Si les 2 variabilités sont du même ordre de grandeur il n y a pas d effet du facteur. Pour comparer SCEM et SCE R, il faut diviser par leurs degrés de liberté et comparer CM M et CM R : CM M = SCE M I 1 et CM R = SCE R n I Analyse de variance Mathieu EMILY - Agrocampus Ouest 32

Test global On peut montrer : E[CM M ] = σ 2 + 1 I 1 I n i αi 2 et E[CM R ] = σ 2 i=1 Sous H 0 on a : E[CM M ] = E[CM R ] Ainsi : SCE M σ 2 H0 χ 2 I 1 et SCE R σ 2 H0 χ 2 n I F Obs = CM M H0 F I 1 n I CM R Analyse de variance Mathieu EMILY - Agrocampus Ouest 33

Tableau d analyse de variance Variabilité SCE ddl CM Statistique Facteur i n i(y i. Y.. ) 2 I 1 SCE M /(I-1) F Obs = CM M /CM R Résiduelle ij (Y ij Y i. ) 2 n I SCE R /(n-i) Totale i,j (Y ij Y.. ) 2 n 1 Règle de décision : Si FObs < F I 1 n I (1 α), on accepte H0 au seuil α. Si FObs > F I 1 n I (1 α), on rejette H0 au seuil α. Remarque : le test est unilatéral. Pour rejeter H 0, on cherche à avoir CM M > CM R. Analyse de variance Mathieu EMILY - Agrocampus Ouest 34

Tableau d analyse de variance avec R On note donc un effet significatif du milieu sur le gain moyen de poids. Remarque : le tableau d ANOVA ne dépend pas de la contrainte. Analyse de variance Mathieu EMILY - Agrocampus Ouest 35

Tableau d analyse de variance avec SAS proc glm data=charolais class Milieu; model GMQ=Milieu / solution ss1 ss3; run; Analyse de variance Mathieu EMILY - Agrocampus Ouest 36

Test de conformité H 0 : α i = c vs H 0 : α i c Sous la contrainte de nullité de somme des effets on : ) α i N (α i, σ αi On estime σ αi par : Ainsi : σ 2 α i = I 1 I σ 2 J = I 1 I CM R J t Obs = α i c σ 2 α i H0 T n I On peut donc construire un test de Student à partir de t Obs : Si tobs < t n I (1 α/2) on accepte H 0 au seuil α Si tobs > t n I (1 α/2) on rejette H 0 au seuil α Analyse de variance Mathieu EMILY - Agrocampus Ouest 37

Analyse Post-Hoc : comparaison de 2 moyennes Si H 0 : i α i = 0 est rejetée, on peut rechercher plus précisément les modalités du facteur qui diffèrent. Soit i et i, 2 modalités du facteur, on s intéresse à tester l hypothèse : H 0 : i µ i = µ i. On utilise alors un principe de comparaison de moyennes : ( ( 1 µ i µ i N µ i µ i, + 1 ) ) σ n i n 2 i Il faut estimer σ 2 : on utilise l hypothèse d homoscédasticité et l information de la résiduelle (et donc son degré de liberté : ddl R = n I) : t i,i = µ i µ i (µ i µ i ) T σ 1 n i + 1 ddlr n i On pose alors : LSD = t ddlr (1 α/2) σ 1 n i + 1 n i Si µi µ i > LSD, on rejette H 0 Analyse de variance Mathieu EMILY - Agrocampus Ouest 38

Analyse Post-Hoc : comparaison de > 2 moyennes Attention : si l on effectue plusieurs fois cette comparaison, le niveau α du test n est plus respecté. Une stratégie consiste à corriger ce niveau α par une procédure de correction de tests multiples (Bonferroni par exemple) D autres procédures s appuient sur la statistique d écart studentisé : M r M 1 q r,ddl = 1 2 ( σ2 n r + σ2 n 1 ) = t r,1 2 r est le nombre de moyennes M1 M r ddl est le nombre de degré de liberté de la résiduelle pour l ANOVA à 1 facteur : r = I et ddl = n I. Tukey(-Kramer) HSD, Duncan (MRT), Newman-Keuls (SNK) La méthode de Scheffé s appuie sur les contrastes. Analyse de variance Mathieu EMILY - Agrocampus Ouest 39

Exemple avec sorties R pairwise.t.test (pk stats) et glht (pk multicomp) Les packages agricole et laercio permettent de créer des groupes entre les modalités mais ne proposent pas de p-valeurs. Analyse de variance Mathieu EMILY - Agrocampus Ouest 40

Exemple avec sorties SAS : utilisation de l option lsmeans proc glm data=charolais class Milieu; model GMQ=Milieu / solution ss1 ss3; lsmeans Milieu / adjust = T; lsmeans Milieu / adjust = BON; lsmeans Milieu / adjust = TUKEY; run; Analyse de variance Mathieu EMILY - Agrocampus Ouest 41

Méthode des contrastes Un contraste est une combinaison linéaire des moyennes (par modalité) telle que la somme des coefficients (C 1,..., C I ) valent 0 : i C i = 0. I contraste = C i Y i. La SCE expliquée par le contraste est donnée par : ( I ) 2 i=1 C iy i. SCE constraste = I i=1 C i 2/n i = CM contraste car 1 ddl En comparant à la résiduelle on a : i=1 F Obs = CM contraste CM R H0 F 1 ddl R Par exemple C 1 = 1, C 2 = 1 et C 3 = 2 permet de savoir les 2 modalités 1 et 2 sont meilleurs que la modalité 3 : H 0 : Y 1. + Y 2. 2Y 3. = 0 Analyse de variance Mathieu EMILY - Agrocampus Ouest 42

Exemple de contrastes (1) Hypothèse nulle : La modalité "Bon" de Milieu a la même GMQ que les modalités combinées "Médiocre" et "Moyen". Cela revient à H 0 : Y 1. + Y 2. 2Y 3. = 0 d où le contraste : C 1 = 1, C 2 = 1 et C 3 = 2. Pour les logiciels, il faut faire attention à l ordre des modalités interprété pour chaque variable : Pour SAS, on peut utiliser l option contrast a Milieu 2-1 1; Remarque : R propose un test t (Student) tandis que SAS propose un test F (Fisher) t 2 Obs = F Obs ici car ddl = 1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 43

Exemple de contrastes (2) Hypothèse nulle : La modalité "Médiocre" de Milieu a la même GMQ que la modalité et "Moyen". Cela revient à H 0 : Y 1. Y 2. = 0 d où le contraste : C 1 = 1, C 2 = 1 et C 3 = 0. Pour les logiciels, il faut faire attention à l ordre des modalités interprété pour chaque variable : Pour SAS, on peut utiliser l option contrast a Milieu 0 1 1; Analyse de variance Mathieu EMILY - Agrocampus Ouest 44

Principales hypothèses Normalité des résidus : Test de Shapiro par exemple : shapiro.test Homoscédasticité : Test de Bartlett par exemple : bartlett.test Indépendence des observations : Quasiment impossible à tester en pratique Variante non-paramétrique : Test de Mann-Whitney si I = 2 Test de Kruskal-Wallis si I > 2 Analyse de variance Mathieu EMILY - Agrocampus Ouest 45

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèle Estimation Test global Analyse Post-Hoc Hypothèses du modèle et tests non paramétriques Modèles à 2 facteurs Modèles Estimation Test global Interaction Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 46

Illustration : effet du Milieu et du génotype sur le gain de poids Analyse de variance Mathieu EMILY - Agrocampus Ouest 47

Ecriture du modèle Y ijk = µ + α i + β j + ε ijk i représente le niveau du premier facteur (i = 1,..., I) j représente le niveau du deuxième facteur (j = 1,..., J) k représente l indice de répétition (k = 1,..., n ij ) Si le plan est équirépété : nij = K Hypothèses de modélisation : i, j, k, εijk N (0, σ) i i ou j j ou k k : Cov(ε ikj, ε i j k ) = 0 Analyse de variance Mathieu EMILY - Agrocampus Ouest 48

Interprétation du modèle Y ijk = µ + α i + β j + ε ijk La variable Y ijk est la somme d un terme constant µ d un effet spécifique à chaque niveau du premier facteur αi d un effet spécifique à chaque niveau du second facteur βj un résidu aléatoire gaussien εijk Le modèle possède I + J + 1 paramètres : La dimension paramétrique du modèle est I + J 1! Une contrainte de liaison doit être explicitée pour estimer les paramètres. Analyse de variance Mathieu EMILY - Agrocampus Ouest 49

Estimation des paramètres : principe des Moindres Carrés Ordinaires On se place dans le cas équilibré n ij = K. On cherche à minimiser l écart entre les observations et le modèle : I n J ij (Y ijk Ŷijk) 2 i=1 j=1 k=1 Nullité de la somme des effets individuels ( I i=1 α i = 0 et J j=1 β i = 0) µ = Y... et i, α i = Y i.. Y... et j, βj = Y.j. Y... Pour les résidus : Degrés de liberté : n I J + 1 Estimateur sans biais de σ : σ 2 = 1 n I J + 1 I i=1 J j=1 K (Y ijk Ŷ ijk ) 2 k=1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 50

La variabilité du modèle Dans le cas complet (toutes les combinaisons des facteurs sont testés) et équilibré (chaque combinaison est testée un même nombre de fois), on a : (Y ijk Y...) 2 = (Y i.. Y...) 2 + (Y.j. Y...) 2 + (Y ijk (Y i.. + Y.j. Y...)) 2 i,j,k i,j,k i,j,k i,j,k SCE T = SCE F1 + SCE F2 + SCE R Variabilité Somme des carrés ddl Facteur 1 SCE F1 = KJ I i (Y i.. Y... ) 2 I 1 Facteur 2 SCE F2 = KI J j (Y.j. Y... ) 2 J 1 Résiduelle SCE R = i,j,k (Y ijk (Y i.. + Y.j. Y... )) 2 IJK I J 1 Totale SCE T = i,j,k (Y ijk Y... ) 2 IJK 1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 51

Test global On peut montrer que : E[CM F1 ] = σ 2 + JK I 1 I i=1 α 2 i, E[CM F2 ] = σ 2 + IK J 1 J βj 2, E[CM R ] = σ 2 Pour tester l effet d un facteur (Facteur 1 par exemple), on utilise le même principe qu une ANOVA à 1 facteur : Règle de décision : F F1 Obs = CM F 1 CM R H0 F I 1 n I J+1 j=1 Si F F 1 Obs < F I 1 n I J+1 (1 α), on accepte H 0 au seuil α. Si F F 1 Obs > F I 1 n I J+1 (1 α), on rejette H 0 au seuil α. Analyse de variance Mathieu EMILY - Agrocampus Ouest 52

Notion d interaction Dans le modèle simple on suppose que les effets des deux facteurs s ajoutent simplement : L effet d une modalité d un facteur (αi par exemple) est la même quelle que soit la modalité du second facteur. Cette hypothèse est vraie lorsque les effets des 2 facteurs sur la variable réponse sont indépendants. Interaction En analyse de variance, il y a interaction lorsque les effets de 2 facteurs appliqués simultanément ne peuvent pas être déduits des moyennes des réponses des 2 facteurs pris séparément. Analyse de variance Mathieu EMILY - Agrocampus Ouest 53

Illustration : effet du Milieu et du Génotype sur le gain de poids Analyse de variance Mathieu EMILY - Agrocampus Ouest 54

Ecriture du modèle Y ijk = µ + α i + β j + αβ ij + ε ijk i représente le niveau du premier facteur (i = 1,..., I) j représente le niveau du premier facteur (j = 1,..., J) k représente l indice de répétition (k = 1,..., n ij ) Si le plan est équirépété : nij = K Hypothèses de modélisation : i, j, k, εijk N (0, σ) i i ou j j ou k k : Cov(ε ikj, ε i j k ) = 0 αβ ij correspond à l effet spécifique de l interaction des facteurs. Dans ce modèle le nombre de degré de liberté des résidus est donné par : n 1 (I 1) (J 1) (I 1)(J 1) = n IJ Analyse de variance Mathieu EMILY - Agrocampus Ouest 55

Estimation On utilise le principe des Moindres Carrés Ordinaires. Avec comme contrainte la nullité de la somme des effets : I α i = 0, i=1 J J β j = 0, i : αβ ij = 0 j : i=j j=1 I αβ ij = 0 i=1 et dans le cas complet et équirépété, on a µ = Y..., α i = Y i.. Y..., βj = Y.j. Y... Pour les résidus, on a : αβ ij = Y ij. Y i.. Y.j. + Y... σ 2 = 1 n IJ I J i=1 j=1 k=1 K (Y ijk Ŷijk) 2 = 1 n IJ I J K ε 2 ijk i=1 j=1 k=1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 56

La variabilité du modèle Dans le cas complet (toutes les combinaisons des facteurs sont testés) et équilibré (chaque combinaison est testée un même nombre de fois), on a : (Y ijk Y...) 2 = (Y i.. Y...) 2 + (Y.j. Y...) 2 i,j,k i,j,k i,j,k + (Y ij. (Y i.. + Y.j. Y...)) 2 + (Y ijk Y ij.) 2 i,j,k i,j,k SCE T = SCE F1 + SCE F2 + SCE F12 + SCE R Variabilité Somme des carrés ddl Facteur 1 SCE F1 = KJ I i (Y i.. Y... ) 2 I 1 Facteur 2 SCE F2 = KI J j (Y.j. Y... ) 2 J 1 Interaction SCE F12 = K I J i j (Y.j. Y... ) 2 (I 1)(J 1) Résiduelle SCE R = i,j,k (Y ijk Y ij. ) 2 IJ(K 1) Totale SCE T = i,j,k (Y ijk Y... ) 2 IJK 1 Analyse de variance Mathieu EMILY - Agrocampus Ouest 57

Test global On peut montrer que : E[CM F1 ] = σ 2 + JK I 1 E[CM F12 ] = σ 2 + I i=1 K (I 1)(J 1) Les tests sur l effet d un facteur sont : α 2 i, E[CM F2 ] = σ 2 + IK J 1 I i=1 j=1 J βj 2, j=1 J α i βj 2, E[CM R ] = σ 2 F F1 Obs = CM F 1 CM R H0 F (I 1) IJ(K 1), Pour tester l effet d interaction : F F2 Obs = CM F 2 CM R H0 F (J 1) IJ(K 1) F F12 Obs = CM F 12 H0 F (I 1)(J 1) CM IJ(K 1) R Les règles de décision des tests s appuient sur l unilatéralité du test. Analyse de variance Mathieu EMILY - Agrocampus Ouest 58

Plan 1 Introduction de la problématique Des questions types Notion de variabilité 2 Modèles à 1 facteur Modèle Estimation Test global Analyse Post-Hoc Hypothèses du modèle et tests non paramétriques Modèles à 2 facteurs Modèles Estimation Test global Interaction Extensions Analyse de variance Mathieu EMILY - Agrocampus Ouest 59

ANOVA à n (> 2) facteurs Les modèles d analyse de variance se généralise facilement à un nombre plus important de facteurs (ANOVA à n facteurs). Les principes de test des effets sont identiques Le nombre de paramètres augmente fortement avec des interactions d ordre élevé Interprétation très complexe d interaction d ordre > 2 On peut alors utiliser une écriture matricielle qui donne des résultats généraux qui permette de : lier l ANOVA à la régression linéaire multiple (Voir TD) avoir des formules générales des estimateurs traiter le cas des données déséquilibrées Analyse de variance Mathieu EMILY - Agrocampus Ouest 60

Décomposition de la variabilité (cas déséquilibré) Dans un plan qui n est pas complet-équilibré la somme des SCE n est pas nécessairement égale à la SCE T. On distingue alors plusieurs types de sortie dont : Somme des carrés de Type I qui correspondent à la variabilité expliquée par un effet sachant que les effets précédemment écrits sont déjà dans le modèle. Somme des carrés de Type III qui correspondent à la variabilité expliquée par l apport d un effet sachant que tous les autres effets sont déjà présents dans le modèle. L ordre d inclusion des facteurs est donc importante dans l analyse de Type I Remarque : Type I et Type III sont équivalentes dans un plan complet-équilibré Analyse de variance Mathieu EMILY - Agrocampus Ouest 61

Anova Type I et Type III On reprend les données de Vache sans les 2 premières observations. Analyse de variance Mathieu EMILY - Agrocampus Ouest 62

Anova Type I et Type III - SAS proc glm data=charolais2 class Milieu Genotype; model GMQ=Milieu Genotype/ solution ss1 ss3; run; Analyse de variance Mathieu EMILY - Agrocampus Ouest 63

Démarche à suivre Du point de vue statistique, il convient de respecter l ordre du schéma d analyse suivant : 1 Pertinence du modèle global Modèle global vs. modèle constant 2 Effet de chaque facteur On commence par les effets d interaction 3 Comparaison des modalités pour un facteur donné Comparaisons multiples Test sur les contrastes Analyse de variance Mathieu EMILY - Agrocampus Ouest 64