Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification, celui qui définit les groupes ou les échantillons indépendants) a un effet significatif sur la variable X étudiée. L analyse de variance à 2 ou plusieurs facteurs généralise cette méthode lorsque nous avons plus d un critère de classification. Remarque : on présente souvent dans la littérature le problème de l analyse de variance à un facteur sous la forme d un modèle linéaire comme suit : X ij = µ + a j + e ij où X ij est le score observé du sujet i dans le traitement j, µ la moyenne de la population totale, α l effet du traitement j, et e ij la valeur de l erreur de mesure. j µ et α j sont des constantes qui garderaient les mêmes valeurs respectives si on mesurait plusieurs fois le score du sujet i dans la condition j. Par contre, la valeur de l erreur changerait à chaque nouvelle mesure du même sujet et différerait d un sujet à l autre. Pour la simplicité, nous nous limiterons au cas de deux facteurs, mais la méthode se généralise aisément à plusieurs facteurs. Prenons l exemple suivant : Nous étudions le stress (score de stress = variable X) au sein d une société. Nous repérons les employés suivant leur âge (>/< 50 ans : 1 er facteur à 2 niveaux) et leur niveau de responsabilité (techniciens, cadres inférieurs et cadres supérieurs : second facteur à 3 niveaux). Nous définissons ainsi un plan d expérience à 2 facteurs (ou deux critères de classification) ; on parle encore de plan factoriel 2 x 3 (2 niveaux sur le premier facteur et trois niveaux sur le second). Nous appellerons le premier facteur, le facteur A et le second, le facteur B. Une cellule correspond à un certain niveau du facteur A et un certain niveau du facteur B (par exemple les cadres inférieurs de moins de 50 ans). Dans chaque cellule les sujets sont différents (lorsqu il s agit des mêmes sujets on parle de plan à mesures répétées : ceci fera l objet d une prochaine séance de TP). Lorsqu il y a le même nombre de sujets dans chaque cellule on parlera d un plan balancé ou équilibré sinon nous dirons que le plan est non balancé ou non équilibré. Si nous avons 6 sujets par cellule, nous pouvons visualiser la situation de notre exemple par le tableau suivant : < 50 ans > 50 ans Techniciens XXXXXX XXXXXX Cadre Inf. XXXXXX XXXXXX Cadre Sup. XXXXXX XXXXXX 1
Nous allons nous intéresser à la moyenne de X dans chacune des cellules et sur les marges. Dans l exemple considéré, nous obtenons : < 50 ans > 50 ans Techniciens 15,0000 9,6667 12,3333 Cadre Inf. 15,1667 15,8333 15,5000 Cadre Sup. 14,5000 26,1667 20,3333 14,8889 17,2222 16,0556 Trois types d effets, donc de sources de variation, entrent en jeu : 1. L effet principal du facteur Age (cf moyennes marginales des colonnes): compte non tenu du niveau de responsabilité, l âge a-t-il un effet sur le stress? Donc, 14,89 est-il statistiquement différent de 17,22? Si oui, nous aurons montré la présence d un effet du facteur «âge». Ceci est en fait l objet de l ANOVA à 1 facteur. 2. L effet principal du facteur Niveau responsabilité (cf moyennes marginales des lignes). Compte non tenu de l âge, le niveau de responsabilité a-t-il un effet sur le stress? Donc, 12.33, 15.5 et 20.33 sont-ils statistiquement différents? Si oui, nous aurons montré la présence d un effet du facteur Niveau de responsabilité. 3. L interaction entre le facteur Age et le facteur niveau de responsabilité. Ici on ne s intéresse plus aux marges, mais aux cellules. Les 6 moyennes sont donc prises en compte. On se demande si l effet de l âge est le même quel que soit le niveau du facteur Niveau de responsabilité, ou si l effet du niveau de responsabilité est le même à chaque niveau du facteur Age. Quand un facteur n a pas les mêmes effets simples principaux à tous les niveaux de l autre facteur, les deux facteurs sont dits en interaction. Une interaction entre 2 facteurs A et B est souvent indiquée par un signe de multiplication : A X B. Les effets principaux et les interactions sont indépendants. Il est donc possible d obtenir des effets principaux significatifs sans interaction significative entre les facteurs ; il est aussi possible d obtenir une interaction significative sans aucun effet principal significatif. Graphiquement si nous représentons les moyennes à travers les niveaux de responsabilités en fixant la tranche d âge, nous obtenons les 2 trajectoires suivantes : 2
Estimated Marginal Means of Score de stress 25,00 Tranche d'âge <50ans >50ans Estimated Marginal Means 20,00 15,00 10,00 Techn. Cadre Inf. Niveau de responsabilité Cadre Sup. L examen de ce type de graphique permet de mettre en évidence la présence d une interaction entre les deux facteurs principaux. Sous sa forme linéaire, ce problème de l analyse de variance à deux facteurs s exprime comme suit : X ijk = µ + a j + ß k +? jk + e ijk où µ est la moyenne générale de X, a j l effet du traitement j, ß k l effet du traitement k,? jk l effet de l interaction des traitements j et k, et e ijk est un terme d erreur. Si le facteur A n a pas d effet, tous les a j sont nuls. Si le facteur B n a pas d effet, tous les ß k sont nuls et s il n y a pas d effet de l interaction, tous les? jk sont nuls. Principe de l analyse de variance à 2 facteurs. On se propose de tester trois hypothèses différentes : 1. H 0 il n y a pas d effet principal du facteur A H 1 il y a un effet principal du facteur A 2. H 0 il n y a pas d effet principal du facteur B H 1 il y a un effet principal du facteur B 3. H 0 il n y a pas d interaction entre les facteurs A et B H 1 il y a une interaction entre les facteurs A et B. Comme dans l ANOVA à un facteur pour répondre à ces questions, nous partons de la décomposition de la variabilité totale de X. SS total = SS A + SS B + SS A*B + SS within Notations : Chaque cellule du plan est repérée par deux indices j et k qui renvoient au niveau j du facteur A et au niveau k du facteur B. X ijk est le i ème individu de la cellule (j,k) M est la moyenne générale de X sur l ensemble des observations, 3
M j k est la moyenne de X dans la cellule (j,k) M. k est la moyenne de X dans l ensemble des cellules du niveau k du facteur B, M j. est la moyenne de X dans l ensemble des cellules du niveau j du facteur A, n jk = nombre de sujets dans la cellule (j,k) (nous noterons n dans le cas des plans balancés) n. k = le nombre de sujets dans l ensemble des cellules du niveau k du facteur B, n j. = le nombre de sujets dans l ensemble des cellules du niveau j du facteur A, N = Nombre total de sujets, J = nombre de modalités du facteur A, K = nombre de modalités du facteur B La formule de décomposition de la variation totale pour un plan équilibré est la suivante : k j i j k k n n j.. k j ( M ( M n k j i jk ( X j.. k ( X ijk M )² = M )² + M )² + ( M jk ijk M M j. jk M )². k + M )² + De manière résumée cette somme se réécrit : SS total = SS A + SS B + SS A*B + SS within A chaque somme de carrés est associée un nombre de degrés de liberté : Somme : SS total = SS A +SS B + SS A*B + SS within d.l. N-1 J-1 K-1 (J-1)(K-1) N-(J.K) N = Nombre total de sujets, J = nombre de modalités du facteur A, K = nombre de modalités du facteur B Les ratios SS/d.l. définissent les MS (carrés moyens) MS A = SS A / (J-1), MS B = SS B / (K-1), MS A*B = SS A*B / [(J-1).(K-1)], MS within = SS within / (N-1) Sous l hypothèse nulle les ratios MS A /MS within, MS B /MS within, MS A*B /MS within se distribuent suivant une loi F de Fisher-Snédecor : MS A = F J-1, N-1 MS B = F K-1, N-1 MS A*B = F (J-1)(K-1), N-1 Hypothèses : Comme dans l ANOVA à 1 facteur, nous supposerons que la variable X se distribue normalement (suivant une loi Normale) dans chaque cellule (j,k) avec la même variance s² et que les observations sont indépendantes les une des autres (on vérifiera l allure normale par un graphique «box-plot» de X dans chaque cellule). Les échantillons (de chaque cellule) sont indépendants les uns des autres. 4
Comparaisons multiples. Comme en analyse de variance à un facteur, on peut procéder à des comparaisons a priori et a posteriori (post hoc) lorsque l ANOVA détecte un ou des effets significatifs. Il est important de toujours contrôler le niveau global de l erreur lors de comparaisons a priori. Ce contrôle se fait automatiquement par SPSS dans le cas des comparaisons «post hoc». Notons encore que les comparaisons post hoc proposées par SPSS ne permettent pas des comparaisons entre les moyennes de deux cellules ; Seules les comparaisons des effets principaux (entre tous les niveaux d un facteur sur les marges) sont proposées au niveau des tests «post hoc». Si l on souhaite faire des comparaisons non planifiées de moyennes entre 2 cellules (à n envisager que s il y a une interaction significative), il convient de passer par un test de Tukey dans une ANOVA à 1 facteur sur la variable croisée A*B (créée par «Transform compute»). Si cette nouvelle variable possède beaucoup de modalités les tests post hoc seront fort conservateurs (et peu puissants). Il est encore possible de faire les comparaisons des moyennes aux différents niveaux d un facteur pour un niveau fixé de l autre (faire «select cases») ; c est l examen d une trajectoire dans le graphique des moyennes décrit ci-dessus. Ces comparaisons se font par un test de Tukey dans une ANOVA à 1 facteur après avoir sélectionné les sujets au niveau donné du second facteur. On peut répéter ainsi l opération pour tous les niveaux du second facteur. Ce type de test permet de déterminer à quel niveau d un facteur un autre facteur du plan exerce ses effets. On parle, dans ce cas, de tests sur les effets simples. Alternatives. L analyse de variance est une procédure robuste qui admet sans trop de problèmes des déviations légères par rapport aux conditions de normalité et d homogénéité des variances. Notons encore qu il n existe pas de test non paramétrique universellement reconnu lorsque la condition de normalité est gravement violée. Effet de taille. Dans l ANOVA 1 facteur, nous avons défini l effet de taille par η² comme la proportion de la variance de X expliquée par le facteur : η² = SS facteur / SS total Dans l ANOVA à 2 facteurs, nous pouvons définir un effet de taille (complet) pour chaque source de variation (facteur A, facteur B et interaction A*B). η² A = SS A / SS total, η² B = SS B / SS total, η² A*B = SS A*B / SS total (Ces effets de taille ne sont pas fournit par SPSS). Par contre, SPSS détermine l effet de taille partiel h² partiel (Partial eta square) η² p(a) = SS A / (SS A + SS within ), η² p(b) = SS B / (SS B + SS within ), η² A*B = SS A*B / (SS A*B + SS within ) 5
Exercice 1 On évalue l efficacité d un nouveau traitement ayant pour objet d améliorer le développement global des enfants atteints de trisomie 21. Pour cela, une étude a été menée auprès de 12 enfants. Six d entre eux ont reçu un produit actif alors que 6 autres ont reçu un placebo, et ce pendant 6 mois. Un indice de développement global de chaque enfant est calculé avant et après le début de l étude par un même psychologue. Cet indice de développement global résume l ensemble des capacités en termes de coordination, posture, langage et sociabilité. La nature du traitement donné n est connue ni de la famille ni du patient ni du psychologue. Deux psychologues ont participés à l étude. Les données fournies par l institut J. Lejeune sont reprises dans le fichier HP6-4.sav. Peut-on conclure à l efficacité du traitement? Observe-t-on le même résultat quel que soit le psychologue? Exercice 2 58 participants, dont 30 garçons et 28 filles, ont parcouru aussi vite que possible une distance à la nage. Le temps obtenu a été falsifié de façon à donner une performance moins bonne qu attendu. Une demi-heure plus tard les sujets ont dû re-parcourir et leurs temps ont été à nouveau enregistrés. Les auteurs avaient prédit que lors du second essai, les nageurs les plus pessimistes réaliseraient un moins bon temps et que les optimistes obtiendraient de meilleurs résultats que lors du premier essai. La variable dépendante étudiée est le rapport (ratio) temps1/temps2 ; une valeur supérieure à 1 signife que le nageur à mieux réussi au second essai. Les données sont reprises dans le fichier H13-13.sav Pouvez-vous confirmer la prédiction des auteurs? Ces résultats sont-ils indépendants du genre? Vérifiez par un graphique «box-plot» la condition de normalité ; en cas de doute pour l un ou l autre sous-groupe, effectuez un test de Kolmogorov-Smirnov. Si vous confirmez la prédiction des auteurs, déterminez les cellules présentant des résultats moyens significativement différents. Refaites les analyses sans tenir compte du facteur sexe. Exercice 3 On forme 9 groupes de volontaires qui participent chacun à l expérience suivante : pendant une semaine, les participants sont soumis à des annonces publicitaires visuelles. Selon le groupe, la masse totale de publicité (variable «taux») est nulle situation «sans» -, «moyenne» ou «forte». Les publicités ventent les qualités de trois pseudo-marques de nouilles. L une des marques est dite «dominante» (85 % des publicités), un autre est «survivante» (15 % des publicités) et la troisième est «inexistante» (pas de publicité). On mesure ensuite chez les volontaires par une variable numérique X l impact de l une des pseudo-marques de nouilles son image de marque -. Pour chaque groupe, on mesure l impact d une seule des trois marques. Les neuf groupes sont obtenus par le croisement de la situation S et de la marque M. Les données sont reprises dans le fichier NG2.sav Déterminez les facteurs qui influencent l image de marque du produit. Vérifiez par un graphique Box-plot la condition de normalité de la variable X dans chaque cellule. Tracez les 6
trajectoires des moyennes. Le cas échéant (lorsqu un effet est significatif) déterminez les cellules présentant des différences significatives. Interprétez vos résultats. Exercice 4 Dans une expérience on présente à chaque sujet soit oralement soit par écrit un mot qui est soit un mot familier soit un mot non familier. Après une période d attente on interroge le sujet et on calcule le nombre de syllabes non significatives mémorisées. L expérience est réalisée sur 24 sujets répartis en 4 groupes de six et les résultats sont repris dans le fichier LM7.sav Quels sont les facteurs mis en présence? Quelle est la variable étudiée? Quels sont les facteurs qui présentent un effet significatif quant à la variable étudiée? Représentez les trajectoires des moyennes. Exercice 5 Dans une étude consacrée aux processus de mémoire, des animaux ont été testés à une tâche d apprentissage de l évitement. Lors de l essai d apprentissage, les animaux recevaient un stimulus anxiogène dès qu ils franchissaient une certaine ligne. L expérimentateur a distingué trois groupes d animaux selon l endroit du cortex où il leur avait été plantés des électrodes (site neutre, zone A et zone B). Chaque groupe a encore été subdivisé selon le moment de réception de la stimulation électrique (50, 100 ou 150 millièmes de seconde après avoir franchi la ligne et avoir reçu le stimulus anxiogène). Si la zone stimulée du cerveau jouait un rôle dans la mémoire, la stimulation affecterait probablement la consolidation de la mémorisation et retarderait l apprentissage de la réponse d évitement ; l animal n hésiterait pas à franchir à nouveau la ligne. Les données relatives à la latence (temps nécessaire avant de franchir la ligne) sont reprises dans le fichier UL5-3.sav. Quelles sont les facteurs susceptibles d influencer la latence? Effectuez une analyse de variance, représentez les trajectoires des moyennes en fonction de la variable «Délai». Etudier les trois effets simples (un par «site»). Solutions Exercice 1 Les éventuels effets du traitement, du psychologue et de l interaction psy x traitement peuvent être mis en évidence par une analyse de la variance à 2 facteurs (2x2). On utilisera la procédure «Analyze General - Linear Model univariate» avec «indice» comme variable dépendante et les variables «psychologue» et «traitements» comme facteurs à effets fixes ; on sélectionnera le test d homogénéité des variances dans les options et l on choisira les graphiques des moyennes en fonction du traitement avec une trajectoire par psychologue. Au niveau du modèle, nous choisissons le modèle complet (effets principaux + interaction). Le test de Levene ne rejette pas l hypothèse d égalité des variances : 7
Levene's Test of Equality of Error Variances(a) Dependent Variable: Augmentation de l'indice de développement global F df1 df2 Sig.,615 3 8,625 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Traitement+Psychologue+Traitement * Psychologue Tests of Between-Subjects Effects Dependent Variable: Augmentation de l'indice de développement global Source Type III Sum of Squares df Mean Square F Sig. Partial Eta Squared Corrected Model 2195,713(a) 3 731,904 2,658,120,499 Intercept 34518,413 1 34518,413 125,367,000,940 Psychologue 44,083 1 44,083,160,700,020 Traitement 2043,630 1 2043,630 7,422,026,481 Psychologue * Traitement 108,000 1 108,000,392,549,047 Error 2202,713 8 275,339 Total 38916,840 12 Corrected Total 4398,427 11 a R Squared =,499 (Adjusted R Squared =,311) Estimated Marginal Means of Augmentation de l'indice de développement global 70,0 Psychologue 1 2 Estimated Marginal Means 60,0 50,0 40,0 placebo Traitement produit actif Nous pouvons conclure qu il y a un effet principal significatif du facteur Traitement (F(1,8) = 7,422 ; p = 0.026) ; pas d effet Psychologue significatif (F(1,8) = 0,16 ; p > 0.05) ni d interaction Psychologue x Traitement significative (F(1,8) = 0.392 ; p > 0.05). Cela signifie que le traitement a un bien un effet positif sur le développement global des enfants atteints de trisomie et que les résultats ne varient pas en fonction du psychologue qui a fait passer le test (pas d effet psy) et que cet effet du traitement est identique quel que soit le psychologue qui a fait passer le test (pas d interaction). 8
Exercice 2 Nous sommes en présence de deux facteurs explicatifs : le facteur optimisme «optim» et le facteur «sexe». Nous effectuerons donc une Analyse de variance à 2 facteurs. Par après nous regarderons ce qu une ANOVA à 1 facteur aurait donné ou encore un test t pour échantillons indépendants. Dans un premier temps, nous vérifions la condition de normalité par un graphique «Box-plot clustered» : Nous obtenons le graphique ci-après : 1,150 Sexe garçon fille 1,100 31 1,050 1,000 ratio 0,950 0,900 40 0,850 37 0,800 Optimiste optim Pessimiste Les valeurs extrêmes pour le segment «garçon-pessimiste» semble perturber la condition de normalité. Le test de Kolmogorov-Smirnov (limité à ce segment : par «select cases») ne rejette pas la condition de normalité de la variable «ratio» dans ce segment. 9
One-Sample Kolmogorov-Smirnov Test ratio N 13 Normal Parameters(a,b) Mean.94538 Std. Deviation.058862 Most Extreme Absolute.179 Differences Positive.158 Negative -.179 Kolmogorov-Smirnov Z.646 Asymp. Sig. (2-tailed).797 a Test distribution is Normal. b Calculated from data. La procédure «Analyze General Linear Model univariate» pour le modèle complet donne les résultats suivants : Le test de Levene ne rejette pas l hypothèse d égalité des variances : Levene's Test of Equality of Error Variances(a) Dependent Variable: ratio F df1 df2 Sig..501 3 54.683 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Sexe+optim+Sexe * optim Dependent Variable: ratio Tests of Between-Subjects Effects Source Type III Sum of Squares df Mean Square F Sig. Corrected Model.040(a) 3.013 3.800.015 Intercept 54.036 1 54.036 15222.829.000 Sexe.008 1.008 2.215.142 optim.017 1.017 4.681.035 Sexe * optim.016 1.016 4.536.038 Error.192 54.004 Total 57.514 58 Corrected Total.232 57 a R Squared =.174 (Adjusted R Squared =.128) Avec un risqué de 1ère espèce de 5%, nous pouvons conclure qu il y a bien un effet significatif principal du facteur Optimisme (F(1,54) = 4.682 ; p = 0.035) ainsi qu une interaction Sexe x Optimisme significative (F(1,54) = 4.536 ; p = 0.038) ; par contre il n y a pas d effet principal Sexe (F(1,54) = 0.008 ; p >.05). Le graphique des trajectoires des moyennes permet de visualiser ce résultat : 10
Estimated Marginal Means of ratio Sexe garçon fille Estimated Marginal Means 1,000 0,975 0,950 Optimiste optim Pessimiste Le graphique semble indiquer qu il n y a pas de différence significative entre garçons et filles optimistes mais bien lorsqu ils sont pessimistes. Pour vérifier ceci, nous devons procéder à des comparaisons «post hoc». SPSS ne fournit ces tests que pour les effets principaux (sur les marges) et uniquement lorsqu il y a plus de 2 modalités par facteur. Dans le cas présent les deux facteurs ont chacun deux modalités donc aucun résultat de comparaison n est disponible. Pour avoir toutes les comparaisons des 4 cellules (Garçon-optimiste, Garçon-pessimiste, Filleoptimiste, Fille-pessimiste) nous créons la variable croisée (optim*sexe) dans une nouvelle variable = 10*optim + sexe : (11 = Garçon-optimiste, 12 = Fille-optimiste, 21 = Garçonpessimiste, 22 = Fille-pessimiste). On effectue ensuite une ANOVA à 1 facteur (cette nouvelle variable) en demandant le test post Hoc de Tukey. Le tableau des comparaisons montre qu il y a bien une différence significative entre les filles et les garçons pessimistes ainsi qu entre les garçons optimistes et pessimistes et qu il n y en en pas entre les filles et les garçons optimistes. Dependent Variable: ratio Tukey HSD Multiple Comparisons (I) croisem Garçon-optim Mean 95% Confidence Interval Difference (J) croisem (I-J) Std. Error Sig. Lower Bound Upper Bound Fille-optim.010312.023744.972 -.05263.07325 Garçon-pessim.069027(*).021951.014.01084.12722 Fille-pessim.010856.020150.949 -.04256.06427 Fille-optim Garçon-optim -.010312.023744.972 -.07325.05263 Garçon-pessim Garçon-pessim.058715.025060.101 -.00772.12515 Fille-pessim.000544.023498 1.000 -.06175.06284 Garçon-optim -.069027(*).021951.014 -.12722 -.01084 Fille-optim -.058715.025060.101 -.12515.00772 Fille-pessim -.058171(*).021685.046 -.11566 -.00069 Fille-pessim Garçon-optim -.010856.020150.949 -.06427.04256 Fille-optim -.000544.023498 1.000 -.06284.06175 Garçon-pessim.058171(*).021685.046.00069.11566 * The mean difference is significant at the.05 level. 11
Les garçons pessimistes semblent donc être beaucoup plus affectés par la perception d un échec que les filles pessimistes. Si nous avions effectué une analyse de variance (de la variable ratio) à 1 facteur (optim) nous n aurions pas pu établir qu il y avait une différence entre les optimistes et les pessimistes comme le montre le tableau ci-dessous (p-valeur 6,1 %) : ratio ANOVA Sum of Squares df Mean Square F Sig. Between Groups.014 1.014 3.664.061 Within Groups.218 56.004 Total.232 57 Rappelons que l Anova est un test bilatéral ; si l on se rapporte à l hypothèse des auteurs : «lors du second essai, les nageurs les plus pessimistes réaliseraient un moins bon temps et les optimistes obtiendraient de meilleurs résultats» ; un test-t unilatéral est plus approprié et permet de rejeter l hypothèse nulle puisque alors la p-valeur vaut 3,05 %. Comme il n y a que 2 groupes, nous aurions aussi pu faire un test t pour échantillons indépendants et nous aurions obtenu : Independent Samples Test Independent Samples Test Levene t-test for Equality of Means F Sig. t df Sig. (2-tailed) Mean Diff Std. Error Diff 95% CI of diff ratio Equal var assumed 1,542 0,219 1,914 56 0,061 0,031 0,016420-0,00146 0,064325 Equal var not assumed 1,95 55,08 0,056 0,031 0,016-0,00086 0,0637 Lower Upper Exercice 3 Une représentation de la distribution de X (= Impact) dans chaque cellule s obtient par un graphique box-plot via la procédure «Graph box-plot- clustered» : 12
10 8 6 45 Taux Fort Moyen Sans Impact 6 4 79 2 15 78 0 55 Dominante survivante Marque Inexistante Si la non-normalité de certaines cellules peut être suspectée on procédera à un test de K-S sur l échantillon en question ; c est le cas de la cellule (inexistante sans) : le tableau ci-après ne rejète pas la normalité dans cette cellule : One-Sample Kolmogorov-Smirnov Test Impact N 9 Mean 1.89 Normal Parameters(a,b) Std. Deviation.601 Most Extreme Differences Absolute.351 Positive.316 Negative -.351 Kolmogorov-Smirnov Z 1.053 Asymp. Sig. (2-tailed).217 a Test distribution is Normal. b Calculated from data. Il en va de même pour la cellule (dominante fort) : One-Sample Kolmogorov-Smirnov Test Impact N 9 Mean 8.00 Normal Parameters(a,b) Std. Deviation 1.000 Most Extreme Differences Absolute.278 Positive.278 Negative -.167 Kolmogorov-Smirnov Z.833 Asymp. Sig. (2-tailed).491 a Test distribution is Normal. b Calculated from data. 13
Nous pouvons donc supposer que la variable «Impact» est distribuée normalement dans chacune des cellules. Nous sommes en présence de deux facteurs qui sont susceptibles d influencer l image de marque d un produit : la «marque» et le «taux» de publicité. Nous procédons donc à une analyse de variance à deux facteurs («taux» et «marque»). La procédure «Analysze General Linear Model Univariate» fournit le résultat suivant : Le test de Levene ne rejette pas, au niveau de 5 %, l homogénéité des variances dans chaque cellule : Levene's Test of Equality of Error Variances(a) Dependent Variable: Impact F df1 df2 Sig. 1.953 8 72.065 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+Taux+Marque+Taux * Marque Le tableau de l ANOVA est le suivant : Dependent Variable: Impact Tests of Between-Subjects Effects Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 371.556(a) 8 46.444 39.600.000 Intercept 841.000 1 841.000 717.063.000 Taux 54.296 2 27.148 23.147.000 Marque 182.000 2 91.000 77.589.000 Taux * Marque 135.259 4 33.815 28.832.000 Error 84.444 72 1.173 Total 1297.000 81 Corrected Total 456.000 80 a R Squared =.815 (Adjusted R Squared =.794) Tous les facteurs et leur croisement sont très hautement significatifs. Ainsi nous notons un effet principal significatif du facteur Marque (F(2,72)= 77.589 ; p = 0.000) et du facteur Taux (F(2,72) = 23.147 ; p = 0.000) ainsi qu une interaction Marque x Taux significative (F(4,72) = 28.832 ; p = 0.000). En ce qui concerne la marque, l examen des moyennes (via analyze - compare means- means) ainsi que le graphe nous indiquent que plus la marque est présente dans les publicités plus grand sera son impact ; la «puissance publicitaire» d une marque semble donc influencer son image de marque. Impact Impact * Marque Marque Mean N Std. Deviation Dominante 5,00 27 2,660 survivante 3,33 27 1,687 Inexistante 1,33 27,784 Total 3,22 81 2,387 14
En ce qui concerne le taux, l analyse des moyennes indique que plus le taux est important plus l impact est grand. Toutefois, d un point de vue descriptif, il ne semble pas y avoir une grande différence entre un taux fort et un taux moyen. Impact * Taux Impact Taux Mean N Std. Deviation Fort 3,93 27 3,281 Moyen 3,67 27 1,797 Sans 2,07 27 1,207 Total 3,22 81 2,387 L interaction (cf graphe) semble indiquer que l inégalité entre les marques augmente avec le taux général de publicité. Un test post hoc permettra d analyser plus en détails ces observations descriptives. Estimated Marginal Means of Impact 8 Taux Fort Moyen Sans Estimated Marginal Means 6 4 2 0 Dominante survivante Marque Inexistante Ainsi, après avoir construit la variable croisée «Marque-taux» (croisement = 10*Taux + marque) 15
Un test de Tukey dans une ANOVA à un facteur («croisement») permet de mettre en évidence les paires de cellules qui ont un impact moyen statistiquement différent. Tukey HSD Impact Subset for alpha =.05 croisement N 1 2 3 4 5 6 fort-inexist. 9.56 moy-inexist. 9 1.56 1.56 sans -inexist. 9 1.89 1.89 1.89 sans -domin. 9 2.11 2.11 2.11 sans -surviv. 9 2.22 2.22 fort-surviv. 9 3.22 3.22 moy-surviv. 9 4.56 4.56 moy-domin. 9 4.89 fort-domin. 9 8.00 Sig..074.926.200.200.999 1.000 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 9.000. Ce tableau mis en parallèle avec le graphique ci-dessus, nous permet d affirmer que l impact moyen d une marque dominante dans un contexte de publicité fort est statistiquement différent de toutes les autres situations. Dans un contexte sans publicité, il n y a pas de différence de perception des marques (groupe 3). Pour une marque «survivante», il n y a pas de différence significative de sa perception entre un contexte à fort taux publicitaire et un contexte sans publicité. En guise de conclusion, la course à la publicité semble en contradiction avec la libre concurrence puisqu un taux élevé de publicité augmente des inégalités non justifiées entre les marques. Exercice 4 La variable étudiée est le nombre de syllabes (non significatives) mémorisées. Les facteurs mis en jeu sont le caractère oral ou écrit des mots présentés (variable «orec») et le caractère familier ou non de ces mêmes mots (variable «fam»). Le tableau d analyse de variance à deux facteurs est le suivant : Tests of Between-Subjects Effects Dependent Variable: Nombre de syllabes mémorisées Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 184.167(a) 3 61.389 6.473.003 Intercept 4428.167 1 4428.167 466.942.000 Fam 150.000 1 150.000 15.817.001 OrEcr 6.000 1 6.000.633.436 Fam * OrEcr 28.167 1 28.167 2.970.100 Error 189.667 20 9.483 Total 4802.000 24 Corrected Total 373.833 23 a R Squared =.493 (Adjusted R Squared =.417) 16
On y observe que seul le facteur «familier-non familier» est significatif dans l explication du nombre de mots mémorisés (F (1,20) = 15.817 ; p = 0.001). Le graphique des trajectoires des moyennes est le suivant : l inversion des moyennes que l on observe n est pas significative (F(1,24) = 2.970 ; p >.05). Estimated Marginal Means of Nombre de syllabes mémorisées 18 OrEcr Oral Ecrit Estimated Marginal Means 16 14 12 10 Familier Fam Non-familier Exercice 5 Nous sommes en présence d un plan d expérience à deux facteurs inter-sujet : le facteur «délai» entre le franchissement de la ligne et l envoi du stimulus anxiogène et le facteur zone du cerveau recevant les stimuli («site»). Le test de Levene ne rejette pas l hypothèse d égalité des variances. Test d'égalité des variances des erreurs de Levene(a) Variable dépendante: latence F ddl1 ddl2 Signification,148 8 36,996 Teste l'hypothèse nulle que la variance des erreurs de la variable dépendante est égale sur les différents groupes. a Plan : Intercept+Delai+site+Delai * site Le tableau d analyse de variance est le suivant : Tests of Between-Subjects Effects Dependent Variable: latence Source Type III Sum of Squares Df Mean Square F Sig. Corrected Model 916.578(a) 8 114.572 3.909.002 Intercept 26402.222 1 26402.222 900.758.000 site 356.044 2 178.022 6.074.005 Delai 188.578 2 94.289 3.217.052 site * Delai 371.956 4 92.989 3.172.025 Error 1055.200 36 29.311 Total 28374.000 45 Corrected Total 1971.778 44 a R Squared =.465 (Adjusted R Squared =.346) 17
Il en ressort qu il n y a pas d effet principal «délai», c est à dire que toute autre chose étant égale, la latence n est pas significativement influencée par le délai entre le franchissement de la ligne et l envoi du stimulus. C est ce que montre aussi le test post hoc de Tukey. latence Tukey HSD(a,b) Subset Delai N 1 100 15 22.33 50 15 23.27 150 15 27.07 Sig..056 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 29.311. a Uses Harmonic Mean Sample Size = 15.000. b Alpha =.05. Il y a un effet principal «site» (F(2,36) = 6.074 ; p = 0.005). Le test post hoc de Tukey montre qu il s agit de la zone test qui fournit une latence moyenne significativement différente de celle obtenue dans les deux autres zones. latence Tukey HSD(a,b) Subset site N 1 2 Zone A 15 22.20 Zone B 15 22.27 site neutre 15 28.20 Sig..999 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square(Error) = 29.311. a Uses Harmonic Mean Sample Size = 15.000. b Alpha =.05. L analyse de variance décèle également une source de variation dans le croisement «site * délai» (F(4,36) = 3.172 ; p = 0.025). Le graphique des trajectoires des moyennes permet de visualiser cette interaction. 18
Estimated Marginal Means of latence Estimated Marginal Means 30 27,5 25 22,5 20 site site neutre Zone A Zone B 17,5 50 100 Delai 150 Afin de vérifier les sources de variation, on effectue une analyse des effets simples. Il s agit d une ANOVA à 1 facteur, limitée à une trajectoire. Pour ce faire, on sélection dans un premier temps les données d une trajectoire (par Select cases introduire la condition : «if site = 1»). Dans le cas du site neutre, nous n observons aucune différence significative comme le confirme le tableau d analyse de variance : latence ANOVA Sum of Squares df Mean Square F Sig. Between Groups 1.200 2.600.017.984 Within Groups 433.200 12 36.100 Total 434.400 14 Dans le cas de la zone A, il y a bien une différence significative entre les moyennes suivant le «délai» ; la latence moyenne à 50 msec est significativement plus faible que celle à 150 msec. La latence moyenne à 100 msec n est pas significativement différente de celle lorsque le délai est de 50 msec ou 150 msec. latence ANOVA Sum of Squares df Mean Square F Sig. Between Groups 254.800 2 127.400 4.528.034 Within Groups 337.600 12 28.133 Total 592.400 14 19
Tukey HSD latence Subset for alpha =.05 Delai N 1 2 50 5 16.80 100 5 23.00 23.00 150 5 26.80 Sig..196.513 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 5.000. Dans le cas de la zone B, il y a bien une différence significative entre les moyennes suivant le «délai» ; la latence moyenne à 100 msec est significativement plus faible que celle à 150 msec et 50 msec. latence ANOVA Sum of Squares df Mean Square F Sig. Between Groups 304.533 2 152.267 6.425.013 Within Groups 284.400 12 23.700 Total 588.933 14 Tukey HSD latence Subset for alpha =.05 Delai N 1 2 100 5 16.00 50 5 24.40 150 5 26.40 Sig. 1.000.796 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 5.000. Nous pouvons donc conclure que l effet du facteur «délai» diffère suivant les valeurs du facteur «site». Plus précisément, cet effet est significatif uniquement lorsque les stimulations sont appliquées dans les zones A et B du cerveau mais pas sur le site neutre. Une autre manière d expliquer la source de la variation introduite par le croisement des deux facteurs est de procéder à une comparaison de toutes les cellules en introduisant une nouvelle variable et en effectuant un test post hoc de Tukey dans une analyse de variance à un facteur (cette nouvelle variable). Ceci ne fait pas l objet de la présente question. Signalons encore que plus le nombre de cellules à comparer est important, moins nous aurons de chance de mettre en évidence une faible différence entre les moyennes. 20