STAT-I301 Chapitre VII: ANOVA Caroline Verhoeven
Table des matières 1 Introduction 2 ANOVA à 1 facteur 3 Test de Tukey Caroline Verhoeven STAT-I301 2 / 22
1. Introduction Augmentation du risque d erreur du type I : Exemple I Exemple 1 En 1995, Inaudi et al. ont publié un article satirique dans le journal Annals of Improbable Research. Sujet de l article : l effet papillon : le battement d ailes d un papillon peut avoir des grands effets, tels que le création d un ouragan sur un autre continent. Caroline Verhoeven STAT-I301 3 / 22
1. Introduction Augmentation du risque d erreur du type I : Exemple II Exemple 1 Les chercheurs on attrapé des douzaines de papillons et ont enregistré quotidiennement si ils battaient des ailes ou non en Suisse et ont téléphoné tous les jours à leur copine à Paris, pour demander si il pleut. A la fin de l étude, ils ont testé, pour chaque papillon, si il y avait un lien entre leur battement d ailes et la pluie à Paris. Ils ont trouvé un papillon dont les jours des battement d ailes était fortement corrélés avec les jours de pluie à Paris. Ils ont donc montré le lien entre les 2. Leur erreur statistique : Si on fait suffisamment de tests, il y en aura bien un statistiquement significatif Si on effectue N test indépendant avec un niveau significatif α, la probabilité de ne pas faire d erreur du type I est (1 α) N. La probabilité de faire au moins 1 erreur du type I est 1 (1 α) N. Caroline Verhoeven STAT-I301 4 / 22
ANOVA à 1 facteur : Exemple I Quand change de zone horaire, on souffre du décalage horaire. Ensuite, on s adapte au cycle lumineux perçu par l oeil et on resynchronise notre rythme circadien. Le changement dans ce rythme se nomme un shift. En 1998, Campbell et Murphy ont déclaré que ce shift pouvait également se faire en illuminant l arrière du genoux. Le résultat fut très controversé Caroline Verhoeven STAT-I301 5 / 22
ANOVA à 1 facteur : Exemple II En 2002, Wright et Czeisler ont réétudié ce phénomène. Ils ont mesuré le cycle de production de mélatonine chez N = 22 sujets aléatoirement soumis à un des 3 traitement suivants. Ils ont été réveillé durant leur sommeil et soumis à une forte lumière dans les yeux, à l arrière du genoux ou à aucune lumière, durant une période de 3 heures. Après 2 jours, on a mesuré leur cycle de mélatonine. Le shift (en heures) est donnés pour chaque groupe sur le slide suivant. Un shift négatif montre un retard dans la production de mélatonine Caroline Verhoeven STAT-I301 6 / 22
ANOVA à 1 facteur : Exemple III contrôle genoux yeux 0,53 0,73-0,78 0,36 0,31-0,86 0,20 0,03-1,35-0,37-0,29-1,48-0,60-0,56-1,52-0,64-0,96-2,04-0,68-1,61-2,83-1,27 groupe 1 : contrôle, N 1 = 8 groupe 2 : genoux, N 2 = 7 groupe 3 : yeux, N 3 = 7 Caroline Verhoeven STAT-I301 7 / 22
ANOVA à 1 facteur : Principe Ne pas faire plusieurs test 2 groupes par 2 groupes! ANOVA : généralisation du test t pour 2 échantillons indépendants, vers k > 2 échantillons indépendants Formulation des hypothèses H 0 : µ 1 = µ 2 = = µ k H a : Au moins une des moyennes est différentes des autres ANOVA : ANalysis Of VAriance Principe : Comparer la variabilité entre les groupes avec celle à l intérieur des groupes Caroline Verhoeven STAT-I301 8 / 22
ANOVA à 1 facteur : Notations k : Nombre d échantillons x ij : mesure pour le sujet i du groupe j x j : moyenne des mesures du groupe j x : Moyenne globale de toutes les mesures N j : Nombre de sujets du groupe j N : Nombre total de sujets Caroline Verhoeven STAT-I301 9 / 22
ANOVA : Calcul et Résolution de l exemple I x ij x = (x ij x j ) variation intra-groupes + (x j x) variation inter-groupes Exemple 2 0,5 0,5 0,5 0,5 0,5 0,5 1,5 1,5 1,5 2,5 contr. gen. yeux 2,5 contr. gen. yeux 2,5 contr. gen. yeux x x 1, x 2, x 3 Caroline Verhoeven STAT-I301 10 / 22
ANOVA : Calcul et Résolution de l exemple II Calcul de la variance inter-groupes MS B = k j=1 N j(x j x) 2 k 1 Exemple 2 x 1 = 0, 31, x 2 = 0, 34 x 3 = 1, 55 x = 0, 71 MS B = 1 2 = 3, 61 (8( 0, 31+0, 71) 2 + 7( 0, 34+0, 71) 2 + 7( 1, 55+0, 71) 2) Caroline Verhoeven STAT-I301 11 / 22
ANOVA : Calcul et Résolution de l exemple III Calcul de la variance intra-groupes MS W = N1 i=1 (x i1 x 1 ) 2 + N 2 i=1 (x i2 x 2 ) 2 + + N k i=1 (x ik x k ) 2 N k Exemple 2 x i1 x i2 x i3 (x i1 x 1 ) 2 (x i2 x 2 ) 2 (x i3 x 3 ) 2 0,53 0,73-0,78 0,70 1,14 0,60 0,36 0,31-0,86 0,45 0,42 0,48 0,20 0,03-1,35 0,26 0,13 0,04-0,37-0,29-1,48 0,00 0,00 0,01-0,60-0,56-1,52 0,08 0,05 0,00-0,64-0,96-2,04 0,11 0,39 0,24-0,68-1,61-2,83 0,14 1,62 1,63-1,27 0,92 2,67 3,75 2,99 Caroline Verhoeven STAT-I301 12 / 22
ANOVA : Calcul et Résolution de l exemple IV Exemple 2 MS W = 2, 67+3, 75+2, 99 22 3 = 0, 50 Caroline Verhoeven STAT-I301 13 / 22
ANOVA : Calcul et Résolution de l exemple IV On veut comparer MS B et MS W On calcule le rapport entre les 2 f = MS B MS W, F F(k 1, N k) Si H 0 est vraie, on s attend à ce que f = 1 SI H a est vraie, on s attend à ce que f > 1 Caroline Verhoeven STAT-I301 14 / 22
ANOVA : Calcul et Résolution de l exemple V Exemple 2 On veut savoir si au moins un des groupes a en moyenne un shift différent dans son rythme circadien, avec un niveau significatif α = 0, 05. On a f = MS B 3, 61 = MS W 0, 50 Calcul de la valeur p = 7, 29, F F(2, 19) p = P(F > 7, 29) = 0, 0045 < α = 0, 05 On rejette H 0 1,0 0,8 0,6 0,4 0,2 3,52 f Caroline Verhoeven STAT-I301 15 / 22
ANOVA à 1 facteur : Conditions Les échantillons doivent être aléatoires simples Les échantillons doivent être indépendants Il faut que σ 1 = σ 2 = = σ k Pour vérifier cela, on a le test de Levene Il faut que la variable soit distribuée normalement pour les k populations Il existe des alternatives non paramétrique au test fait ici : le test de Kruskall-Wallis Caroline Verhoeven STAT-I301 16 / 22
Après l ANOVA 2. ANOVA à 1 facteur L ANOVA ne permet de détecter que si toutes les moyennes sont les mêmes ou si au moins une est différente. Comment savoir lesquelles sont différentes? Si on ne rejette pas H 0 : on peut s arrêter Si on rejette H 0 : Il y a différentes possibilités (tests de comparaison multiples) : Bonferroni Tukey Dunnett Sidak... Caroline Verhoeven STAT-I301 17 / 22
3. Test de Tukey Test de Tukey : Principe Ce test compare la moyenne entre toutes les combinaisons possibles de 2 groupes Ce test suppose que l hypothèse nulle a été rejetée Ce test garantit que le risque de faire une erreur du type I à travers tous les testes reste en dessous du niveau α Formulation des hypothèses pour chaque test : Considérons les populations j 1 et j 2 avec respectivement les moyennes µ j1 et µ j2 : H 0 : µ j1 µ j2 = 0 H a : µ j1 µ j2 0 Caroline Verhoeven STAT-I301 18 / 22
3. Test de Tukey Test de Tukey : Calcul et résolution de l exemple I 1 On classe les groupes de manière à ce que leur moyenne soit en ordre décroissant Exemple 2 On veut voir dans notre exemple du rythme circadien quelles moyennes son différentes les unes des autres avec α = 0, 05. On a : yeux genoux contrôle x 1 x 2 x 3-0,31-0,34-1,55 Caroline Verhoeven STAT-I301 19 / 22
3. Test de Tukey Test de Tukey : Calcul et résolution de l exemple II 2 On prend la différence entre les moyennes 3 On calcule une erreur standard s j1,j 2 basée sur MS W : s j1,j 2 = MS W ( 1 N j1 + 1 N j2 ) Exemple 2 groupe j 1 groupe j 2 x j1 x j2 s j1,j 2 contrôle genoux 0,027 0,364 contrôle yeux 1,243 0,376 genoux yeux 1,216 0,364 Caroline Verhoeven STAT-I301 20 / 22
3. Test de Tukey Test de Tukey : Calcul et résolution de l exemple III 4 On calcule la statistique q j1,j 2 q j1,j 2 = x j 1 x j2 s j1,j 2 5 On compare q j1,j 2 à la valeur q α;k;n k dans le tableau Exemple 2 Si q j1,j 2 q α;k;n k On rejette H 0 Si q j1,j 2 < q α;k;n k On ne rejette pas H 0 groupe j 1 groupe j 2 x j1 x j2 s j1,j 2 q j1,j 2 q 0,05;3;19 Résultat contrôle genoux 0,027 0,364 0,074 2,54 NRH 0 contrôle yeux 1,243 0,376 3,411 2,54 RH 0 genoux yeux 1,216 0,364 3,231 2,54 RH 0 Caroline Verhoeven STAT-I301 21 / 22
3. Test de Tukey Test de Tukey : Conditions Les mêmes conditions que l ANOVA En principe : le nombre de sujets doit être le même pour les k échantillons. Si ce n est pas le cas, la puissance baisse. Caroline Verhoeven STAT-I301 22 / 22