3. COMPARAISON DE PLUS DE DEUX GROUPES

Documents pareils

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

FORMULAIRE DE STATISTIQUES

Cours 9 : Plans à plusieurs facteurs

Biostatistiques : Petits effectifs

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

STATISTIQUES. UE Modélisation pour la biologie

TABLE DES MATIERES. C Exercices complémentaires 42

Principe d un test statistique

Evaluation de la variabilité d'un système de mesure

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Introduction aux Statistiques et à l utilisation du logiciel R

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

La classification automatique de données quantitatives

Item 169 : Évaluation thérapeutique et niveau de preuve

23. Interprétation clinique des mesures de l effet traitement

Estimation et tests statistiques, TD 5. Solutions

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

T de Student Khi-deux Corrélation

Application sur le Dispositif en Blocs Complètement Randomisés

Introduction à l approche bootstrap

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Exemples d application

4. Résultats et discussion

Évaluations aléatoires : Comment tirer au sort?

Aide-mémoire de statistique appliquée à la biologie

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Comparaison de populations

Logiciel XLSTAT version rue Damrémont PARIS

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Théorie des sondages : cours 5

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Comment évaluer une banque?

Arbres binaires de décision

Statistiques Descriptives à une dimension

Analyse en Composantes Principales

INF6304 Interfaces Intelligentes

Package TestsFaciles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Le taux d'actualisation en assurance

Pôle de Dakar S IMUL ATIONS. 1 Utiliser un taux d accroissement pour une simulation

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Relation entre deux variables : estimation de la corrélation linéaire

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Statistiques descriptives

Le modèle de régression linéaire

1 Définition de la non stationnarité

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Les débats sur l évolution des

Correction du baccalauréat ES/L Métropole 20 juin 2014

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Quelques rappels concernant la méthode expérimentale

Cours de méthodes de scoring

Classe de première L

CRITERES D EXAMEN DE VARIETES EN VUE DE LEUR ADMISSION AU CATALOGUE POMMES DE TERRE (Solanum tuberosum L.) - 13/12/2013

Cours de Tests paramétriques

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Le Modèle Linéaire par l exemple :

LES GENERATEURS DE NOMBRES ALEATOIRES

Mesures et incertitudes

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Validation probabiliste d un Système de Prévision d Ensemble

Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND

Évaluation de la régression bornée

Un logiciel de statistiques complet

Exemples d Analyses de Variance avec R

Précision d un résultat et calculs d incertitudes

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Marchés oligopolistiques avec vente d un bien non homogène

TESTS D'HYPOTHESES Etude d'un exemple

DCG 6. Finance d entreprise. L essentiel en fiches

Table des matières. I Mise à niveau 11. Préface

Résolution de systèmes linéaires par des méthodes directes

Quelques éléments de statistique multidimensionnelle

quelques Repères pour Doctorants

Le chi carré. Le sommaire. Approche quantitative

Ressources pour le lycée général et technologique

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Transcription:

3. COMPARAISON DE PLUS DE DEUX GROUPES

La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA) L analyse de variance suppose l homogénéité des variances et la normalité des données Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles) Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d autres méthodes Les tests d homogénéité des variances (THV) requièrent la normalité des données

THV : Test de Bartlett Données normalement distribuées H 0 H 1 : toutes les variances sont égales : au moins une des variances est différente Test d une variable auxiliaire (statistique-test) B qui suit une loi du χ 2 sous H 0 (test unilatéral)

avec En divisant B par C, on obtient une statistique B suivant une loi du χ 2 à (k - 1) ddl : test

Analyse de variance (ANOVA) k groupes indépendants d observations Comparaison des moyennes (par l intermédiaire des variances totale, intergroupe et intragroupe) H 0 H 1 : Les moyennes des k groupes sont égales : Au moins une des moyennes est différente (l ANOVA ne dit pas lesquelles)

On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l erreur de Type I (problème des tests multiples) Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire Conditions d application Variable quantitative Normalité ( équivalents NP : Test de Kruskal-Wallis, Friedman,...) Homoscédasticité Indépendance des observations n 5 observations/groupe

Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H 0 : tests a posteriori Test LSD (Least Significant Difference, Fisher) Test HSD (Honestly Significant Difference, Tukey) Test SNK (Student, Newmann, Keuls) Test de Scheffé Test de Dunnet (pour comparer groupe témoin aux autres) Diffèrent entre eux et du test t par leur définition de l erreur de Type I Souvent réalisés dans la foulée par les logiciels

Différentes formes d ANOVA 1 2 3 4 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 1 facteur 1 2 3 4 A X X X X B X X X X C X X X X ANOVA à 2 facteurs croisés A B 1 2 3 4 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 2 facteurs croisés avec répétitions 1 2 3 A B C D E F X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA hiérarchique

ANOVA à > 2 facteurs et/ou avec plusieurs variables Avec > 2 facteurs : ANOVA multifactorielle Implique de nombreuses possibilités d interactions entre les facteurs. A définir a priori Mêmes principes que ANOVA factorielle Avec plusieurs variables : analyse de variance multivariable ou MANOVA Généralisation de l ANOVA univariable Les variables doivent être pas ou peu corrélées

ANOVA à 1 facteur 1 variable k groupes (k > 2), définis par 1 critère Exemple variable = croissance d une plante critère = différentes intensités lumineuses Facteur contrôlé ( expérimental ) ou aléatoire ( naturel )

Sources de variation : décomposition de la variance totale Dispersion totale SCT : SC par rapport à la moyenne générale Dispersion intragroupe SCE, due aux erreurs : somme des SC pour chaque groupe par rapport à sa propre moyenne Dispersion intergroupe SCI : SC des moyennes des groupes par rapport à la moyenne générale (pondération : SC multipliés par le nombre d éléments par groupe)

Représentation graphique Cas où H0 est vraie : pas de différence entre les groupes SCE 2 SCE 1 SCE 3 X X X SCT X SCI SCE = SCE + SCE + SCE 1 2 3 On peut montrer que SCT = SCE + SCI Cas où H1 est vraie : il y a une différence entre les groupes SCE 2 SCE 1 X SCE 3 X X SCT X SCI

Pour calculer les variances (= carrés moyens), il faut diviser les SCE par les nombres de ddl correspondants SCT : n - 1 ddl, donc S2 T = SCT/(n - 1) Variance totale SCE : (n 1-1) + (n 2-1) +... + (n k - 1) = n - k ddl, donc S 2 E = SCE/(n - k) Variance due aux erreurs = variance résiduelle : variabilité naturelle, toujours là SCI : k - 1 ddl, donc S2 I = SCI/(k - 1) Variance intergroupe = variance factorielle : effet éventuel du facteur

Si H 0 est vraie (pas d effet du facteur) : S2 E et S2 I sont deux estimations indépendantes de la fluctuation aléatoire σ 2 (S 2 T en est également une) Sous H, chaque groupe est un échantillon d une 0 population, sa variance est donc une estimation de σ 2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S 2 E Sous H, les moyennes de chaque groupe estiment la 0 moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ 2 : S 2 I

Si H 0 n est pas vraie (il y a un effet du facteur) S2 E reste une estimation de σ2 (d où l importance de l homogénéité des variances!) S2 I n est plus une estimation de σ2, mais elle est nécessairement plus grande car la distribution d échantillonnage des moyennes (différentes si H 0 n est pas vraie) est plus large que celle de µ

Test Donc sous H 0, S2 I /S2 E 1 On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl Test unilatéral L ANOVA ne dit pas quelle moyenne est différente

Formules SCE = x 2 - (Ti 2 /ni) SCI = (Ti 2 /ni) - T 2 /n avec T = x = somme de toutes les valeurs Ti = x = somme des valeurs de chaque groupe i ni = effectif de chaque groupe n = effectif total

Test de Kruskal-Wallis Equivalent non paramétrique de l ANOVA à 1 facteur Efficacité (/ANOVA) = 0,95 Distribution non Normale Variances inégales Petits groupes Variable semi-quantitative Généralisation du test U

Principe Les valeurs sont toutes mélangées et placées en rang Pour chaque groupe, on somme les rangs : R j Pour les k groupes, on obtient k valeurs de R j Statistique-test H c = 12/(n(n+1))Σ(R j 2 /nj ) - 3(n + 1) Sous H 0 la statistique-test suit une loi du χ2 à (k - 1) ddl

Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang) Utilisation d une statistique corrigée H corr = H c /C avec C = 1 - (Σ(ex l 3 - ex l )/(n 3 - n)) où ex l est le nombre d individus ex-aequo pour la valeur l la somme se fait sur le nombre de groupes d ex-aequo

ANOVA à 2 facteurs croisés Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux Dans ce cas, on considère une seule observation par combinaison de niveaux On peut tester l effet de chaque facteur, car chacun comprend des répétitions B A 1...... r 1 X X X X... X X X X s X X X X

Exemple On veut connaître l effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d eau par profondeur dans 4 masses d eau de températures différentes Variable : productivité (µg chl a/mg) Facteur A : température Facteur B : profondeur

Test de 2 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres

Sources de variation Dispersion totale SCT : SCE par rapport à la moyenne générale Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B

Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants SCEA : (r - 1) donc S2 A SCEB : (s - 1) donc S2 B = SCEA/(r - 1) = SCEB/(s - 1) SCEE : (r - 1)(s - 1) donc S2 E = SCEE/(r - 1)(s - 1) Tests H 0A : F = S2 A /S2 E H 0B : F = S2 B /S2 E avec (r - 1) et (r - 1)(s - 1) ddl avec (s - 1) et (r - 1)(s - 1) ddl

Formules avec T = somme de toutes les valeurs Ti ou j = somme des valeurs des lignes ou des colonnes SCEE = SCET - (SCEA + SCEB)

Test de Friedman Appelé aussi Méthode de Friedman pour blocs randomisés Equivalent non-paramétrique de l ANOVA à 2 facteurs sans répétitions Pas de présupposé sur la distribution Pour variables quantitatives ou semi-quantitatives Moins puissant que l ANOVA Deux hypothèses nulles : moyennes égales selon chaque facteur

Principe Le test doit être conduit deux fois : une fois pour chaque facteur A et B, à a et b niveaux (ex. pour A) Placer les valeurs selon le facteur A en rangs dans les niveaux (qui jouent le rôle de blocs) du facteur B Sommer les rangs selon les niveaux : (Σ b Rij) Calculer X 2 = ((12/(ab(a + 1))Σ a (Σ b Rij) 2 ) - 3b(a + 1) Cette valeur suit une loi du χ 2 à (a - 1) ddl sous H0 Idem pour B

ANOVA à 2 facteurs avec répétitions A Permet de tester en plus l interaction entre les 2 facteurs Interaction : influence du niveau d un facteur sur l effet de l autre facteur sur la variable dépendante B 1... s 1...... r 1 1 1 1............ t t t t 1 1 1 1............ t t t t 1 1 1 1............ t t t t

Exemple On cherche à évaluer les effets de la dose d un médicament et de l âge sur le rythme cardiaque de patients. On veut en outre savoir si l effet éventuel du médicament diffère selon l âge. Variable : rythme cardiaque au repos Facteur A : dose de médicament Facteur B : catégorie d âge Effet différentiel selon l âge (ou l inverse) : interaction A X B

Effets des facteurs et de l interaction B : âge 120 120 A : médicament Dose forte Dose faible Var : Rythme cardiaque 85 50 Jeune Adulte Âgé Pas d effet 120 85 50 Jeune Adulte Âgé Effet de B 85 50 Jeune Adulte Âgé Effet de A 120 85 50 Jeune Adulte Âgé Effet de A et B

A : médicament Dose forte Dose faible B : âge Var : Rhytme cardiaque 120 85 50 Jeune Adulte Âgé Interaction + effet de A 120 85 50 Jeune Adulte Âgé Interaction et pas d effet de A et B La présence d une interaction rend complexe l étude de l effet des facteurs individuels Dans ce cas, ceux-ci doivent être étudiés plus précisément, ou non considérés

Test de 3 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Les facteurs A et B n interagissent pas sur la variable

Sources de variation Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion cellulaire SCEC : au sein des cases du tableau Dispersion due à l interaction SCEAB Dispersion résiduelle SCEE : dispersion totale SCET moins SCEC

Variances : division par les ddl SCEA : (r - 1) donc S2 A SCEB : (s - 1) donc S2 B = SCEA/(r - 1) = SCEB/(s - 1) SCEAB : (r - 1)(s - 1) donc S2 AB = SCEAB/ (r - 1)(s - 1) SCEE : rs(t - 1) donc S2 E = SCEE/rs(t - 1)

Tests H 0A : F = S2 A /S2 E H 0B : F = S2 B /S2 E avec (r - 1) et rs(t - 1) ddl avec (s - 1) et rs(t - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl

Formules SCEAB = SCEC - (SCEA + SCEB) SCEE = SCET - SCEC

Tableau d ANOVA Exemple pour deux facteurs à 3 et 2 niveaux, et 8 répétitions par niveau Source ddl Somme des carrés Carré moyen F Probabilité A 2 181,32 90,66 9,483 0,0004 B 1 16,64 16,64 1,74 0,194 A X B 2 23,93 11,96 1,251 0,297 Erreur 42 401,52 9,56

Test de Scheirer-Ray-Hare Equivalent non-paramétrique de l ANOVA à deux facteurs avec répétitions Extension du test de Kruskal-Wallis (mêmes conditions) Parfois appelé test H Test de l effet de chaque facteur et de l interaction Facteur A, à a niveaux, facteur B à b niveaux, n répétitions par combinaison de niveaux

Principe Placer l ensemble des valeurs en rang Remplacer les valeurs originales par leurs rangs Effectuer une ANOVA factorielle sur ces rangs, on obtient pour chaque facteur les SCE Calculer le carré moyen CM = abn(abn + 1)/12 Pour chaque facteur et l interaction, calculer les statistiques H, telles que H = SCE/CM Sous H 0 les statistiques-test suivent une loi du χ2 à un nombre de ddl correspondant au SCE testé

ANOVA hiérarchique Extension de l ANOVA à 1 facteur Niveaux emboîtés (nested) = hiérarchisés Pas de correspondances entre les modalités des 1... a 1... b 1... b 1... b 1 1 1 1 1 1 1 1 1........................... n n n n n n n n n facteurs

Exemple Prélèvement et mesure de la taille de plantes dans 12 localités réparties également dans 3 chaînes de montagnes Variable : taille (pouvant faire l objet de n répétitions par localité) Facteur A : chaîne (3 niveaux) Facteur SG = sous-groupe : localités (4 niveaux) Les facteurs sont emboîtés : la localité 1 de la chaîne 2 n a pas de rapport avec la localité 1 des deux autres chaînes

Test de 2 hypothèses nulles 1. Les moyennes sont identiques selon le sousfacteur SG dans les niveaux du facteur A 2. Les moyennes sont identiques selon le facteur A Les hypothèses sont testées dans cet ordre

Tests Effet des sous-groupes H 0 SG : F SG = S 2 SG /S2 E avec a(b-1) et ab(n-1) ddl Effet du facteur proprement dit, tenant compte de l effet des sous-groupes H 0 A : F A = S 2 A /S2 SG avec (a-1) et a(b-1) ddl

ANOVA : modèles I, II et III (= modèle mixte) Fonction du caractère contrôlé (niveaux fixés par l'expérimentateur) ou aléatoire (niveaux choisis au hasard parmi une gamme de possibilité) des facteurs (= critères de classification) Ce qu'on a vu jusque là est l'anova de modèle I : 2 facteurs contrôlés ANOVA de modèle II : 2 facteurs aléatoires ANOVA de modèle III (ou mixte) : 1 facteur contrôlé et 1 facteur aléatoire

Pas toujours aisé de différencier un facteur fixe d'un facteur aléatoire : il faut savoir si on considère les niveaux comme un échantillon aléatoire d'un groupe plus vaste (exemple : quelques années sur une longue période) Modèle II rarement rencontré en biologie Tous les calculs des SCE. restent les mêmes, ce sont les calculs des F qui changent L'estimation de l'effet d'un facteur doit tenir compte du caractère aléatoire de l'autre facteur le cas échéant, par l'intermédiaire de l'effet de l'interaction

Modèle mixte (III) avec facteur A contrôlé et B aléatoire : H 0A : F = S2 A /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et rs(t - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl

Modèle II avec facteur A et B aléatoires : H 0A : F = S2 A /S2 AB H 0B : F = S2 B /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl avec (s - 1) et (r - 1)(s - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl

Comparaison de > 2 groupes Données normales? Oui Non n i petit Test d homogénéité Succès Normaliser des variances Oui Echec n i > 145? Echec Homoscédasticité Hétéroscédasticité Non ANOVA Succès Homogénéiser les variances Echec Test non paramétrique (K-W, Friedman,...)