3. COMPARAISON DE PLUS DE DEUX GROUPES
La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA) L analyse de variance suppose l homogénéité des variances et la normalité des données Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles) Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d autres méthodes Les tests d homogénéité des variances (THV) requièrent la normalité des données
THV : Test de Bartlett Données normalement distribuées H 0 H 1 : toutes les variances sont égales : au moins une des variances est différente Test d une variable auxiliaire (statistique-test) B qui suit une loi du χ 2 sous H 0 (test unilatéral)
avec En divisant B par C, on obtient une statistique B suivant une loi du χ 2 à (k - 1) ddl : test
Analyse de variance (ANOVA) k groupes indépendants d observations Comparaison des moyennes (par l intermédiaire des variances totale, intergroupe et intragroupe) H 0 H 1 : Les moyennes des k groupes sont égales : Au moins une des moyennes est différente (l ANOVA ne dit pas lesquelles)
On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l erreur de Type I (problème des tests multiples) Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire Conditions d application Variable quantitative Normalité ( équivalents NP : Test de Kruskal-Wallis, Friedman,...) Homoscédasticité Indépendance des observations n 5 observations/groupe
Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H 0 : tests a posteriori Test LSD (Least Significant Difference, Fisher) Test HSD (Honestly Significant Difference, Tukey) Test SNK (Student, Newmann, Keuls) Test de Scheffé Test de Dunnet (pour comparer groupe témoin aux autres) Diffèrent entre eux et du test t par leur définition de l erreur de Type I Souvent réalisés dans la foulée par les logiciels
Différentes formes d ANOVA 1 2 3 4 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 1 facteur 1 2 3 4 A X X X X B X X X X C X X X X ANOVA à 2 facteurs croisés A B 1 2 3 4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 2 facteurs croisés avec répétitions 1 2 3 A B C D E F X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA hiérarchique
ANOVA à > 2 facteurs et/ou avec plusieurs variables Avec > 2 facteurs : ANOVA multifactorielle Implique de nombreuses possibilités d interactions entre les facteurs. A définir a priori Mêmes principes que ANOVA factorielle Avec plusieurs variables : analyse de variance multivariable ou MANOVA Généralisation de l ANOVA univariable Les variables doivent être pas ou peu corrélées
ANOVA à 1 facteur 1 variable k groupes (k > 2), définis par 1 critère Exemple variable = croissance d une plante critère = différentes intensités lumineuses Facteur contrôlé ( expérimental ) ou aléatoire ( naturel )
Sources de variation : décomposition de la variance totale Dispersion totale SCT : SC par rapport à la moyenne générale Dispersion intragroupe SCE, due aux erreurs : somme des SC pour chaque groupe par rapport à sa propre moyenne Dispersion intergroupe SCI : SC des moyennes des groupes par rapport à la moyenne générale (pondération : SC multipliés par le nombre d éléments par groupe)
Représentation graphique Cas où H0 est vraie : pas de différence entre les groupes SCE 2 SCE 1 SCE 3 X X X SCT X SCI SCE = SCE + SCE + SCE 1 2 3 On peut montrer que SCT = SCE + SCI Cas où H1 est vraie : il y a une différence entre les groupes SCE 2 SCE 1 X SCE 3 X X SCT X SCI
Pour calculer les variances (= carrés moyens), il faut diviser les SCE par les nombres de ddl correspondants SCT : n - 1 ddl, donc S2 T = SCT/(n - 1) Variance totale SCE : (n 1-1) + (n 2-1) +... + (n k - 1) = n - k ddl, donc S 2 E = SCE/(n - k) Variance due aux erreurs = variance résiduelle : variabilité naturelle, toujours là SCI : k - 1 ddl, donc S2 I = SCI/(k - 1) Variance intergroupe = variance factorielle : effet éventuel du facteur
Si H 0 est vraie (pas d effet du facteur) : S2 E et S2 I sont deux estimations indépendantes de la fluctuation aléatoire σ 2 (S 2 T en est également une) Sous H, chaque groupe est un échantillon d une 0 population, sa variance est donc une estimation de σ 2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S 2 E Sous H, les moyennes de chaque groupe estiment la 0 moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ 2 : S 2 I
Si H 0 n est pas vraie (il y a un effet du facteur) S2 E reste une estimation de σ2 (d où l importance de l homogénéité des variances!) S2 I n est plus une estimation de σ2, mais elle est nécessairement plus grande car la distribution d échantillonnage des moyennes (différentes si H 0 n est pas vraie) est plus large que celle de µ
Test Donc sous H 0, S2 I /S2 E 1 On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl Test unilatéral L ANOVA ne dit pas quelle moyenne est différente
Formules SCE = x 2 - (Ti 2 /ni) SCI = (Ti 2 /ni) - T 2 /n avec T = x = somme de toutes les valeurs Ti = x = somme des valeurs de chaque groupe i ni = effectif de chaque groupe n = effectif total
Test de Kruskal-Wallis Equivalent non paramétrique de l ANOVA à 1 facteur Efficacité (/ANOVA) = 0,95 Distribution non Normale Variances inégales Petits groupes Variable semi-quantitative Généralisation du test U
Principe Les valeurs sont toutes mélangées et placées en rang Pour chaque groupe, on somme les rangs : R j Pour les k groupes, on obtient k valeurs de R j Statistique-test H c = 12/(n(n+1))Σ(R j 2 /nj ) - 3(n + 1) Sous H 0 la statistique-test suit une loi du χ2 à (k - 1) ddl
Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang) Utilisation d une statistique corrigée H corr = H c /C avec C = 1 - (Σ(ex l 3 - ex l )/(n 3 - n)) où ex l est le nombre d individus ex-aequo pour la valeur l la somme se fait sur le nombre de groupes d ex-aequo
ANOVA à 2 facteurs croisés Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux Dans ce cas, on considère une seule observation par combinaison de niveaux On peut tester l effet de chaque facteur, car chacun comprend des répétitions B A 1...... r 1 X X X X... X X X X s X X X X
Exemple On veut connaître l effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d eau par profondeur dans 4 masses d eau de températures différentes Variable : productivité (µg chl a/mg) Facteur A : température Facteur B : profondeur
Test de 2 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres
Sources de variation Dispersion totale SCT : SCE par rapport à la moyenne générale Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B
Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants SCEA : (r - 1) donc S2 A SCEB : (s - 1) donc S2 B = SCEA/(r - 1) = SCEB/(s - 1) SCEE : (r - 1)(s - 1) donc S2 E = SCEE/(r - 1)(s - 1) Tests H 0A : F = S2 A /S2 E H 0B : F = S2 B /S2 E avec (r - 1) et (r - 1)(s - 1) ddl avec (s - 1) et (r - 1)(s - 1) ddl
Formules avec T = somme de toutes les valeurs Ti ou j = somme des valeurs des lignes ou des colonnes SCEE = SCET - (SCEA + SCEB)
Test de Friedman Appelé aussi Méthode de Friedman pour blocs randomisés Equivalent non-paramétrique de l ANOVA à 2 facteurs sans répétitions Pas de présupposé sur la distribution Pour variables quantitatives ou semi-quantitatives Moins puissant que l ANOVA Deux hypothèses nulles : moyennes égales selon chaque facteur
Principe Le test doit être conduit deux fois : une fois pour chaque facteur A et B, à a et b niveaux (ex. pour A) Placer les valeurs selon le facteur A en rangs dans les niveaux (qui jouent le rôle de blocs) du facteur B Sommer les rangs selon les niveaux : (Σ b Rij) Calculer X 2 = ((12/(ab(a + 1))Σ a (Σ b Rij) 2 ) - 3b(a + 1) Cette valeur suit une loi du χ 2 à (a - 1) ddl sous H0 Idem pour B
ANOVA à 2 facteurs avec répétitions A Permet de tester en plus l interaction entre les 2 facteurs Interaction : influence du niveau d un facteur sur l effet de l autre facteur sur la variable dépendante B 1... s 1...... r 1 1 1 1............ t t t t 1 1 1 1............ t t t t 1 1 1 1............ t t t t
Exemple On cherche à évaluer les effets de la dose d un médicament et de l âge sur le rythme cardiaque de patients. On veut en outre savoir si l effet éventuel du médicament diffère selon l âge. Variable : rythme cardiaque au repos Facteur A : dose de médicament Facteur B : catégorie d âge Effet différentiel selon l âge (ou l inverse) : interaction A X B
Effets des facteurs et de l interaction B : âge 120 120 A : médicament Dose forte Dose faible Var : Rythme cardiaque 85 50 Jeune Adulte Âgé Pas d effet 120 85 50 Jeune Adulte Âgé Effet de B 85 50 Jeune Adulte Âgé Effet de A 120 85 50 Jeune Adulte Âgé Effet de A et B
A : médicament Dose forte Dose faible B : âge Var : Rhytme cardiaque 120 85 50 Jeune Adulte Âgé Interaction + effet de A 120 85 50 Jeune Adulte Âgé Interaction et pas d effet de A et B La présence d une interaction rend complexe l étude de l effet des facteurs individuels Dans ce cas, ceux-ci doivent être étudiés plus précisément, ou non considérés
Test de 3 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Les facteurs A et B n interagissent pas sur la variable
Sources de variation Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion cellulaire SCEC : au sein des cases du tableau Dispersion due à l interaction SCEAB Dispersion résiduelle SCEE : dispersion totale SCET moins SCEC
Variances : division par les ddl SCEA : (r - 1) donc S2 A SCEB : (s - 1) donc S2 B = SCEA/(r - 1) = SCEB/(s - 1) SCEAB : (r - 1)(s - 1) donc S2 AB = SCEAB/ (r - 1)(s - 1) SCEE : rs(t - 1) donc S2 E = SCEE/rs(t - 1)
Tests H 0A : F = S2 A /S2 E H 0B : F = S2 B /S2 E avec (r - 1) et rs(t - 1) ddl avec (s - 1) et rs(t - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl
Formules SCEAB = SCEC - (SCEA + SCEB) SCEE = SCET - SCEC
Tableau d ANOVA Exemple pour deux facteurs à 3 et 2 niveaux, et 8 répétitions par niveau Source ddl Somme des carrés Carré moyen F Probabilité A 2 181,32 90,66 9,483 0,0004 B 1 16,64 16,64 1,74 0,194 A X B 2 23,93 11,96 1,251 0,297 Erreur 42 401,52 9,56
Test de Scheirer-Ray-Hare Equivalent non-paramétrique de l ANOVA à deux facteurs avec répétitions Extension du test de Kruskal-Wallis (mêmes conditions) Parfois appelé test H Test de l effet de chaque facteur et de l interaction Facteur A, à a niveaux, facteur B à b niveaux, n répétitions par combinaison de niveaux
Principe Placer l ensemble des valeurs en rang Remplacer les valeurs originales par leurs rangs Effectuer une ANOVA factorielle sur ces rangs, on obtient pour chaque facteur les SCE Calculer le carré moyen CM = abn(abn + 1)/12 Pour chaque facteur et l interaction, calculer les statistiques H, telles que H = SCE/CM Sous H 0 les statistiques-test suivent une loi du χ2 à un nombre de ddl correspondant au SCE testé
ANOVA hiérarchique Extension de l ANOVA à 1 facteur Niveaux emboîtés (nested) = hiérarchisés Pas de correspondances entre les modalités des 1... a 1... b 1... b 1... b 1 1 1 1 1 1 1 1 1........................... n n n n n n n n n facteurs
Exemple Prélèvement et mesure de la taille de plantes dans 12 localités réparties également dans 3 chaînes de montagnes Variable : taille (pouvant faire l objet de n répétitions par localité) Facteur A : chaîne (3 niveaux) Facteur SG = sous-groupe : localités (4 niveaux) Les facteurs sont emboîtés : la localité 1 de la chaîne 2 n a pas de rapport avec la localité 1 des deux autres chaînes
Test de 2 hypothèses nulles 1. Les moyennes sont identiques selon le sousfacteur SG dans les niveaux du facteur A 2. Les moyennes sont identiques selon le facteur A Les hypothèses sont testées dans cet ordre
Tests Effet des sous-groupes H 0 SG : F SG = S 2 SG /S2 E avec a(b-1) et ab(n-1) ddl Effet du facteur proprement dit, tenant compte de l effet des sous-groupes H 0 A : F A = S 2 A /S2 SG avec (a-1) et a(b-1) ddl
ANOVA : modèles I, II et III (= modèle mixte) Fonction du caractère contrôlé (niveaux fixés par l'expérimentateur) ou aléatoire (niveaux choisis au hasard parmi une gamme de possibilité) des facteurs (= critères de classification) Ce qu'on a vu jusque là est l'anova de modèle I : 2 facteurs contrôlés ANOVA de modèle II : 2 facteurs aléatoires ANOVA de modèle III (ou mixte) : 1 facteur contrôlé et 1 facteur aléatoire
Pas toujours aisé de différencier un facteur fixe d'un facteur aléatoire : il faut savoir si on considère les niveaux comme un échantillon aléatoire d'un groupe plus vaste (exemple : quelques années sur une longue période) Modèle II rarement rencontré en biologie Tous les calculs des SCE. restent les mêmes, ce sont les calculs des F qui changent L'estimation de l'effet d'un facteur doit tenir compte du caractère aléatoire de l'autre facteur le cas échéant, par l'intermédiaire de l'effet de l'interaction
Modèle mixte (III) avec facteur A contrôlé et B aléatoire : H 0A : F = S2 A /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et rs(t - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl
Modèle II avec facteur A et B aléatoires : H 0A : F = S2 A /S2 AB H 0B : F = S2 B /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl avec (s - 1) et (r - 1)(s - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl
Comparaison de > 2 groupes Données normales? Oui Non n i petit Test d homogénéité Succès Normaliser des variances Oui Echec n i > 145? Echec Homoscédasticité Hétéroscédasticité Non ANOVA Succès Homogénéiser les variances Echec Test non paramétrique (K-W, Friedman,...)