III. COMPRENDRE LA LOGIQUE DE L ANALYSE DE VARIANCE

Documents pareils
Relation entre deux variables : estimation de la corrélation linéaire

Analyse de la variance Comparaison de plusieurs moyennes

Norme internationale d information financière 1 Première application des Normes internationales d information financière

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

23. Interprétation clinique des mesures de l effet traitement

DOCM Solutions officielles = n 2 10.

TURBOS WARRANTS CERTIFICATS. Les Turbos Produits à effet de levier avec barrière désactivante. Produits non garantis en capital.

Cours 9 : Plans à plusieurs facteurs

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

DEVENEZ UN POKER-KILLER AU TEXAS HOLD EM!

M2 IAD UE MODE Notes de cours (3)

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

GUIDE PRATIQUE. Du provisionnement des emprunts à risques

Fiche PanaMaths Calculs avec les fonctions sous Xcas

Etude de fonctions: procédure et exemple

Chapitre 1 Régime transitoire dans les systèmes physiques

III- Raisonnement par récurrence

Priorités de calcul :

Chapitre 2 Le problème de l unicité des solutions

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

avec des nombres entiers

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Norme comptable internationale 21 Effets des variations des cours des monnaies étrangères

L exclusion mutuelle distribuée

CAC, DAX ou DJ : lequel choisir?

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Chapitre 2. Eléments pour comprendre un énoncé

Développements limités, équivalents et calculs de limites

Diagnostic financier - Corrigé

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

DISCOUNTED CASH-FLOW

Format de l avis d efficience

ANNUITES. Les annuités définissent une suite de versements identiques ou non effectués à intervalles de temps égaux. -annuités non constantes

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Hedging delta et gamma neutre d un option digitale

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

STRICTEMENT CONFIDENTIEL

1. Une petite économie ouverte dans un monde de capitaux parfaitement mobiles

Projet Matlab : un logiciel de cryptage

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Soutenance de stage Laboratoire des Signaux et Systèmes

!-.!#- $'( 1&) &) (,' &*- %,!

1 Première section: La construction générale

Probabilités III Introduction à l évaluation d options

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Continuité en un point

Notion de fonction. Résolution graphique. Fonction affine.

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Principes généraux de la modélisation de la dispersion atmosphérique

Les Turbos. Guide Pédagogique. Produits à effet de levier avec barrière désactivante. Produits présentant un risque de perte en capital

OPÉRATIONS SUR LES FRACTIONS


Calcul différentiel sur R n Première partie

4D Server et les licences : fonctionnement et environnement

MÉTHODOLOGIE POUR LE CALCUL DE L AMORTISSEMENT ET DE LA VALEUR DU STOCK NET DOMICILIAIRE DIVISION DE L INVESTISSEMENT ET DU STOCK DE CAPITAL

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Limites finies en un point

Les indices à surplus constant

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

COMMISSION DES NORMES COMPTABLES. Avis CNC Calcul des critères de l article 15 C.Soc.

Technique opératoire de la division (1)

B. Le rapprochement bancaire

Le calcul du barème d impôt à Genève

Java Licence Professionnelle CISII,

Utilisation d objets : String et ArrayList

Pictet CH Solutions, fonds de placement de droit suisse du type «autres fonds en placements traditionnels» Modifications du contrat de fonds

Arguments d un programme

Les différents types de relation entre les tables

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

CHAPITRE 1. Suites arithmetiques et géometriques. Rappel 1. On appelle suite réelle une application de

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

NOTICE EXPLICATIVE QUI SOUSCRIT CETTE DÉCLARATION?

Quelques algorithmes simples dont l analyse n est pas si simple

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

MANUEL DE L UTILISATEUR

Annexe commune aux séries ES, L et S : boîtes et quantiles

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

La crise économique vue par les salariés français

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

L empreinte carbone des banques françaises. Résultats commentés

TURBOS JOUR : DES EFFETS DE LEVIER DE x20, x50, x100 jusqu à x300!

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE

Notes explicatives Règles de facturation en matière de TVA

Introduction aux Statistiques et à l utilisation du logiciel R

CONTRAT DE MAINTENANCE STANDARD DES LOGICIELS CERMIADATA

O, i, ) ln x. (ln x)2

Mesure de la dépense énergétique

Validation probabiliste d un Système de Prévision d Ensemble

TURBOS Votre effet de levier sur mesure

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

Transcription:

A III. COMPRENDRE LA LOGIQUE DE L ANALYSE DE VARIANCE Écarts à la moyenne Comme cela a été montré dans le premier paragraphe de ce chapitre, la statistique F cal de l ANOVA reflète à la fois la variabilité entre les groupes (ou inter, qui est le numérateur de la division permettant d obtenir cet indice) et de la variabilité dans les groupes (ou intra, le dénominateur). Pour clarifier ceci, à partir du schéma ci-dessus (cf. figure ), sélectionnons un score quelconque et voyons comment ce score s écarte tout d abord de la grande moyenne. Par exemple, le score du participant du groupe est égal à (Y = ), l écart du score de ce participant à la moyenne générale est le suivant : Y M.. = =. Cet écart peut être décomposé en deux valeurs : d une part, l écart du participant du groupe à la moyenne de son propre groupe : (Y M. ) = = 2 d autre part, l écart de la moyenne du groupe du participant à la grande moyenne : (M. M..) = = 3 Ainsi, la note du participant n du groupe, qui est de, à laquelle est retirée la valeur de la moyenne de son groupe qui vaut donne un résultat égal à + 2, qui représente donc l écart de sa note par rapport à la moyenne de son groupe. De la même façon, la moyenne du groupe de ce participant, qui est de, à laquelle est retirée la valeur de la grande moyenne, donne 3, qui représente donc l écart entre la moyenne du groupe et la grande moyenne. Et, bien sûr, (2 + 3) = qui représente l écart à la grande moyenne. Ces différentes soustractions sont fondamentales pour comprendre la logique de l ANOVA. En effet, l écart entre la note du participant et la moyenne de son propre groupe représente la contribution de ce participant à la variabilité dans les groupes, ou variabilité intragroupes. De ce fait, la somme des contributions de tous les participants représentera la variabilité à l intérieur des groupes, ou variabilité intra. Il s agit de l erreur expérimentale car, dans une expérience «parfaite», tous les participants d un groupe devraient obtenir la même note car ils sont soumis à la même condition expérimentale. De la même manière, l écart entre la moyenne d un groupe et la grande moyenne représente la contribution de ce groupe à la variabilité entre les groupes. Par conséquent, la somme des écarts de chaque moyenne de groupe à la grande moyenne représente la variabilité entre les groupes ou intergroupes. C est donc cet écart qui reflète l effet de la V.I. puisque, si les deux groupes avaient la même moyenne, la grande moyenne serait également égale (sic!) à leurs moyennes (i.e., si M. = M 2. alors (M. = M 2. = M..) et mettrait en évidence le fait que le traitement expérimental n a aucun effet. D une manière générale, l écart du score d un participant à la grande moyenne peut se décomposer ainsi : 2

(Y as M..) = (Y as ) + (M a. M..), avec : Y as : Différence entre le score d un participant et la moyenne de son groupe, c est-à-dire l écart dans les (ou à l intérieur des) groupes ou écart intragroupes, ce qui représente l erreur expérimentale ; M a. M.. : Différence entre la moyenne d un groupe et la grande moyenne, c està-dire l écart entre les groupes ou intergroupes (i.e., d un groupe à un autre), ce qui représente l effet de la V.I., laquelle peut toutefois comporter un peu d erreur. Par conséquent, la variabilité dans les groupes s exprime par l écart dans les groupes, la variabilité entre les groupes s exprime par l écart entre les groupes. Ainsi, ce qui est communément appelé «erreur expérimentale» traduit les différences de scores entre les participants d un même groupe expérimental, c est-à-dire la variabilité interindividuelle (qui est un phénomène tout à fait normal et classique!). Plus l erreur est grande, plus la dispersion des scores dans un même groupe sera élevée et plus l écart dans les groupes sera fort. Ceci signifie que les scores des participants à l intérieur d un même groupe seront très différents. À l inverse, l effet de la V.I. se traduit par des différences de performances entre les groupes. Cet effet se manifeste par l écart entre les moyennes des différents groupes et la grande moyenne. B L expérience du début de chapitre va aider une fois de plus à comprendre la suite. Calculs des écarts à la moyenne Reprenons l exemple du premier paragraphe en ne sélectionnant, pour simplifier les calculs, que cinq participants par groupe. Évidemment, de ce fait, les moyennes ne sont plus les mêmes. Pour calculer les différents écarts des scores à la moyenne de leur groupe et à la grande moyenne, le plus simple est de dresser un tableau, comme celui ci-après : TABLEAU 3 Calculs des écarts à la moyenne Groupe Y as M.. M a. Y as Y as M.. M a. M.. Gr. Gr. 2 8 2,,,,,,,,,, + + + 2 + 2, 3, 3, 2,, + 2, +, + 3, +, +, 2, 2, 2, 2, 2, + 2, + 2, + 2, + 2, + 2, Total / / / Quel intérêt présente tous ces calculs? Apparemment, aucun, puisque, lorsque les totaux sont effectués, le résultat est toujours le même :! Par conséquent, comment mettre ici en évidence des variations dans et entre les groupes? CHAPITRE ANOVA à un facteur de variation et mesures emboîtées : calculs 2

Puisque ce tableau ne donne aucune indication intéressante relativement aux écarts inter- et intragroupes, que faut-il faire pour pouvoir tester la différence entre et dans les groupes, qui est la base de l ANOVA? D après ce qui précède, la notion de variabilité peut se traduire par la notion statistique de dispersion, dont l indice est la variance (cf. chapitre 2). La variance d une population peut être estimée à partir d un indice calculé sur un échantillon. Cette estimation se note s 2 et se calcule de la manière suivante : s 2 Σ(Y M) = 2 n (rappel : la lettre grecque σ, élevée au carré soit σ 2, qui se lit petit sigma au carré représente la variance de la population et σ son écart type). Le numérateur, qui ressemble fort à l estimation de la variabilité dans les groupes, s appelle une somme des carrés dont l abréviation est SC. Il s agit en effet de la somme (symbolisée par la lettre grecque Σ) de plusieurs valeurs élevées au carré. Ceci est nécessaire pour avoir une note positive et, comme cela vient d être démontré, pour éviter d avoir des sommes qui sont toutes égales à. Ainsi, chaque soustraction, avant d être additionnée à la suivante, sera élevée au carré. Le dénominateur, n, correspond à un nombre de degrés de libertés (abrégés en ddl). Ici, il s agit du nombre de participants auquel est enlevée une unité. En résumé, les sommes des carrés traduisent la variabilité des scores par rapport à la moyenne et les degrés de liberté vont «normer» ces SC afin, entre autres, de rendre comparables les différentes SC entre elles. À partir de ces deux quantités, représentant toutes deux des écarts à la moyenne écart des notes à la moyenne de leur groupe et écart des moyennes de chaque groupe à la grande moyenne, il est possible de dériver les formules nécessaires pour estimer l indice F de l analyse de variance. Un point d explication, pour aller un peu plus loin et avant d aborder les formules : la variance totale inconnue (c est-à-dire la variance de la population) peut être estimée par n importe laquelle des variances calculées à l intérieur d un groupe. Comme il y a A estimations de la variance à l intérieur d un groupe (puisqu il y a A groupes, tout simplement), la meilleure estimation de la variance totale inconnue est obtenue en faisant la somme de tous les numérateurs divisée par la somme de tous les dénominateurs. Ainsi, la première estimation de la variance totale inconnue est égale à la variance intragroupes, celle-ci étant égale à une somme des carrés appelée «dans» les groupes, puisqu elle reflète la variabilité qui existe à l intérieur des groupes divisée par l effectif de chaque groupe, autant de fois qu il y a de groupes [soit un dénominateur égal à A(S )]. Cette première estimation est considérée comme une bonne estimation (i.e., non biaisée) de la variance totale inconnue, à condition cependant que l hypothèse de travail concernant l homogénéité des variances soit respectée. 2

De plus, si l hypothèse nulle (H ) est exacte, la variance des moyennes de chaque groupe est également une estimation de la variance totale inconnue. Ainsi, la seconde estimation de la variance totale inconnue est égale à A fois la variance intergroupe (c està-dire d un groupe à l autre) estimée. Cette estimation de la variance totale inconnue est elle aussi une bonne estimation de cette variance inconnue, si et seulement si l hypothèse nulle est vraie. Il existe donc deux estimations possibles de la variance totale inconnue d où le test du F, qui va permettre de «départager» ces deux estimations. Cette méthode statistique va, comme on va le voir dans les paragraphes suivants de manière plus concrète, consister à tester le rapport F des deux estimations. C est là, de manière très simplifiée, la logique de cette statistique. Sommes des carrés (SC) C Dans le cadre de l ANOVA, trois sommes des carrés doivent être calculées : la somme des carrés dans les groupes, appelée SC dans et qui traduit la variabilité dans les groupes ou variabilité intra ; la somme des carrés entre les groupes, symbolisée par SC entre, pour la variabilité entre les groupes ou inter ; la somme des carrés totale ou SC tot, qui correspond à l addition des deux SC précédentes (et qui peut également se calculer indépendamment). Ainsi : SC dans = (Y as ) 2 représente l erreur expérimentale. a s SC entre = S (M a. M..) 2 représente l erreur expérimentale + l effet de la V.I. a SC = SC + SC = (Y tot entre dans as ) 2 + S (M a. M..) 2 ou encore : a s a SC tot = (Y as M..) 2. a s Remarque : les sommes des carrés sont sensibles au nombre d éléments qui les composent et, notamment au nombre de participants par groupe. Par conséquent, pour pouvoir comparer les SC, il faut les exprimer avec une même échelle. Pour cela, les SC sont normées par les degrés de liberté. En effet, comme le révèlent les formules, alors que pour la SC dans, il faut faire autant de soustractions qu il y a de participants dans l expérience, pour la SC entre, il suffit de faire un nombre de soustractions équivalent au nombre de modalités de la V.I. (par conséquent, toujours moins dans la plupart des cas). Degrés de liberté (ddl) D De manière très simple, le nombre de degrés de liberté correspond au nombre d éléments d un ensemble pouvant varier librement. La formule générale pour estimer le nombre de ddl d une SC est alors la suivante : (Nombre d observations indépendantes nombre d estimations de paramètres de la population). Pour l ANOVA, trois degrés de liberté sont définis, correspondant chacun à une somme des carrés : CHAPITRE ANOVA à un facteur de variation et mesures emboîtées : calculs 2

Les degrés de liberté entre les groupes La SC entre est calculée à partir des écarts des moyennes des groupes à la grande moyenne ; il y a autant de moyennes que de modalités de la V.I. et le statisticien estime alors qu il va perdre un degré de liberté en calculant la grande moyenne d où : ddl entre = A. Les degrés de liberté dans les groupes La SC dans est calculée à partir des écarts des scores des participants de chaque groupe à la moyenne des groupes ; ainsi, il faut calculer toutes les moyennes de tous les groupes pour pouvoir obtenir cette SC et le statisticien estime alors qu il va perdre autant de ddl qu il y a de modalités à la V.I. (c est-à-dire de groupes ou de conditions), d où : ddl dans = A (S ) = AS A. Les degrés de liberté totale La SC tot se calcule à partir des écarts des scores à la grande moyenne, une seule estimation est donc nécessaire, celle de la grande moyenne, on ne perd donc qu un degré de liberté, d où : ddl tot = AS E Carrés moyens (CM) Le résultat de la division d une SC par le ddl lui correspondant donne une quantité appelée carré moyen et abrégé en CM. Pour l analyse de variance à un facteur de variation et mesures indépendantes, il est, d après ce qui précède relativement aux variances inter- et intragroupes, nécessaire de calculer seulement deux CM : un CM entre et un CM dans, dont les formules, très simples, sont les suivantes : SC S (M CM entre = = a. M..) 2 entre ddlentre A (Y as ) 2 CM dans = = ddldans A(S ) Remarque importante : les sommes des carrés s additionnent (SC tot = SC dans + SC entre ), les degrés de liberté s additionnent (ddl tot = ddl dans + ddl entre ) mais les CM ne s additionnent pas. Il n existe donc pas de valeur appelée CM tot. Évaluation du F cal SC dans a F Après ces calculs, il ne reste plus qu à évaluer la valeur du F calculé. Étant donné que le F cal représente le rapport entre la variabilité entre les groupes et la variabilité dans les groupes, il se calcule tout simplement de la manière suivante : F cal = CM entre CMdans s 28

Enfin, il est tout à fait possible, pour simplifier la rédaction des formules, d écrire le signe somme grand sigma (Σ) sans lui adjoindre systématiquement des indices en dessus et en dessous. Les formules qui viennent d être présentées s appellent des «formules de compréhension» parce que, normalement, elles permettent de comprendre la logique de l analyse de variance (notamment le fait que deux types de sources de variation sont divisés). IV. FORMULES DE COMPRÉHENSION : CALCUL DE L EXEMPLE Pour comprendre tous ces calculs, le mieux est de les effectuer. Pour cela, l expérience du paragraphe va être traitée. Là encore, un tableau permettant de synthétiser tous les calculs est très utile. Il peut être complété par l estimation de la moyenne, de la variance et de l écart type pour chaque groupe. TABLEAU 3 Préparation des calculs pour les sommes des carrés Participants Y as M.. M a. (Y as ) (Y as M..) 2 (M a. M..) 2 Y Y 2 Y 3 Y Y Y Y Y 8 Y Y 3 2 2 3 (M. M..) 2 = ( ) 2 = Y 2 Y 2 2 Y 2 3 Y 2 Y 2 Y 2 Y 2 Y 2 8 Y 2 Y 2 8 2 8 2 2 2 Total / / / 2 222 (M 2. M..) 2 = ( ) 2 = Calcul des sommes des carrés : SC tot =ΣΣ(Y as M..) 2 = ( ) 2 + (3 ) 2 + ( ) 2 +... + ( ) 2 + ( ) 2 + + ( ) 2 = 2 SC entre = SΣ(M a. M..) 2 = ( ) 2 + ( ) 2 = ( + ) = 8 SC dans =ΣΣ(Y as ) 2 = ( ) 2 + (3 ) 2 +... + ( ) 2 + + ( ) 2 = 2 Et il est facile de vérifier que SC tot = SC entre + SC dans = 8 + 2 = 222 CHAPITRE ANOVA à un facteur de variation et mesures emboîtées : calculs 2

Calcul des degrés de liberté : ddl entre = A = 2 = ddl dans = A(S ) = 2( ) = 8 ddl tot = AS = (2 ) = De la même manière, ddl tot = ddl entre + ddl dans = + 8 = Calcul des carrés moyens : SC 8 SC 2 CM entre = entre = = 8 CM dans = dans = = 2,33 ddlentre ddldans 8 Calcul de l indice d effet F cal : CM 8 F cal = entre = =,3. CMdans 2,33 Enfin, traditionnellement, les calculs sont récapitulés dans un tableau, qui va permettre d insérer toutes ces valeurs et qui s appelle une table d ANOVA : TABLEAU 38 Les résultats de l ANOVA présentés dans une table Sources de variation SC ddl CM F cal Entre les groupes 8 8,3 Dans les groupes 2 8 2,3 Total 222 Remarques importantes : () Les différents calculs pour l exemple choisi ont été effectués de manière assez rapide parce qu il n y avait que participants par groupe. Cependant, dès que le nombre de participants et/ou de conditions expérimentales augmente, toutes les soustractions qui ont été effectuées pour obtenir les différentes sommes des carrés vont vite devenir très fastidieuses. Il est alors nécessaire d envisager une méthode de calcul plus rapide outre bien sûr celle qui consiste à recourir à un logiciel adapté, puissant et rapide!!! que celle utilisée ici, qui visait essentiellement à faire comprendre, comme cela a déjà été souligné, la logique sous-tendant l ANOVA. (2) Le F qui a été calculé est très élevé ; il laisse donc à penser qu il existe une différence significative entre les deux groupes expérimentaux. Néanmoins, pour le moment, il n est pas possible d affirmer cela. Il faut donc franchir une étape supplémentaire pour vérifier la significativité de l indice F cal. Ces deux points, fondamentaux, sont abordés dans le paragraphe suivant. A V. TEST STATISTIQUE ET FORMULES DE CALCUL RAPIDE Utilité du test statistique Le critère F cal doit permettre d indiquer clairement s il existe un effet de la V.I. sur la V.D. En règle générale, plus il est grand, plus l indication de l existence de cet effet est claire, bien que ceci dépende avant tout de la taille des échantillons. Cependant, constater que 3