Analyse de la variance Comparaison de plusieurs moyennes

Documents pareils
Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Principe d un test statistique

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

FORMULAIRE DE STATISTIQUES

Estimation et tests statistiques, TD 5. Solutions

Introduction aux Statistiques et à l utilisation du logiciel R

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Chapitre 3. Les distributions à deux variables

Cours 9 : Plans à plusieurs facteurs

TABLE DES MATIERES. C Exercices complémentaires 42

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Cours de Tests paramétriques

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Application sur le Dispositif en Blocs Complètement Randomisés

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

STATISTIQUES. UE Modélisation pour la biologie

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Exemples d application

Biostatistiques : Petits effectifs

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TESTS D'HYPOTHESES Etude d'un exemple

CAPTEURS - CHAINES DE MESURES

Résolution de systèmes linéaires par des méthodes directes

Introduction à l approche bootstrap

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

La classification automatique de données quantitatives

T de Student Khi-deux Corrélation

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Analyse en Composantes Principales

Un exemple de régression logistique sous

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Le Modèle Linéaire par l exemple :

Lire ; Compter ; Tester... avec R

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Le modèle de Black et Scholes

Chapitre 2/ La fonction de consommation et la fonction d épargne

Package TestsFaciles

108y= 1 où x et y sont des entiers

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

données en connaissance et en actions?

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Statistique inférentielle TD 1 : Estimation

Le risque Idiosyncrasique

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Fonctions de plusieurs variables

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Probabilités III Introduction à l évaluation d options

Chapitre 4 : Régression linéaire

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exemples d Analyses de Variance avec R

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

4. Résultats et discussion

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

VI. Tests non paramétriques sur un échantillon

Évaluation de la régression bornée

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Etude des propriétés empiriques du lasso par simulations

Exercices de Statistique HEI /2015 A. RIDARD

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction à la statistique non paramétrique

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Les indices à surplus constant

Relation entre deux variables : estimation de la corrélation linéaire

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

23. Interprétation clinique des mesures de l effet traitement

Item 169 : Évaluation thérapeutique et niveau de preuve

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Examen d informatique première session 2004

Introduction à la Statistique Inférentielle

PROBABILITES ET STATISTIQUE I&II

Programmation linéaire

Théorie et codage de l information

Chapitre 2 Le problème de l unicité des solutions

Introduction à l étude des Corps Finis

1 Complément sur la projection du nuage des individus

Transcription:

Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011

Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA

Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA

Contexte Précédemment : Comparaison d une moyenne à une moyenne de référence comparaison de deux moyennes observée par test z ou t Quid des cas où il y a plusieurs moyennes? comparer l effet de trois traitements A, B et C sur la cholestérolémie comparer l expression d un gène entre 4 stades de cancer comparer la durée de séjour entre 3 établissements hospitaliers ou plusieurs techniques opératoires comparer une protéine sérique entre tabagiques actifs, anciens tabagiques et non tabagiques

Contexte Soit un facteur F à J classes, de j = 1,..., J traitement, stades de cancer, hôpitaux, techn. chir. Soit une variable aléatoire X cholestérolémie, niveau d expression du gène, durée de séjours, Comparaison des J moyennes µ j La question : existe-t-il au moins un groupe qui diffère des autres? µ 0 = µ 1 = = µ J? ou µ j µ j pour au moins un couple (j, j )?

Contexte Donc, comparaison de différents groupes indépendants une mauvaise solution : comparaisons deux à deux entre les groupes car : augmentation du risque α : si 4 groupes 6 comparaisons de deux groupes risque de conclure à tort à au moins une différence = 1 0,95 6 = 0,265 au lieu de 0,05 mauvaise estimation de la variance sous H 0 si H 0 vraie, la meilleure estimation de la variance commune est faite sur l ensemble des groupes simultanément

Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA

Théorème fondamental de la Variance Les éléments de base : soient une V.A. X, continue, distribuée suivant une loi de Gauss un facteur F constitué de J groupes avec n j sujets par groupe et N le nombre total de sujets x ij la valeur de la mesure pour le sujet i du groupe j µ la moyenne générale inconnue (pop o ) des valeurs de X µ j la moyenne inconnue (pop o ) des valeurs de X dans le groupe j α j l écart entre la moyenne µ j du groupe j et la moyenne générale µ : α j = µ j µ x j la moyenne observée dans le groupe j a j = x j x un résidu ε ij = x ij µ j estimé par e ij

Théorème fondamental de la Variance Le modèle théorique decrivant les données est : x ij = µ + α j + ε ij le test de comparaison de moyennes implique sous H 0 que les α j = 0, j. dans ce cas, le facteur F n a pas d effet sur la variable X sous H 1, α j 0 pour au moins un j : alors, le facteur F a un effet non nul sur la valeur de X données gaussiennes, sinon réaliser une transformation des valeurs pour normaliser les valeurs

Décomposition de la variation totale A partir du modèle fondamental : x ij = µ + α j + ε ij x ij = x + a j + e ij pour les valeurs observées x ij x = ( x j x) + (x ij x j ) où (x ij x j ) est un résidu e ij estimant ε ij = modèle observé de l ANOVA, pour un sujet i dans le groupe j. les écarts entre les observations individuelles et la moyenne générale sont constitués des écarts des observations individuelles à la moyenne des groupes et des écarts de la moyenne des groupes à la moyenne générale.

Décomposition de la variation totale Passage d une unité statistique à l ensemble des unités : x ij x = ( x j x) + (x ij x j ) En élevant au carré et en sommant sur toutes les unités : soit : n j i=1 j =1 n j i=1 j =1 J (x ij x) 2 = J (x ij x) 2 = n j i=1 j =1 n J j ( x j x) 2 + i=1 j =1 n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 J (x ij x j ) 2

Décomposition de la variation totale L équation fondamentale de la variance n j i=1 j =1 J (x ij x) 2 = n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 1 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle i.e. liée au facteur contrôlé 2 une variation résiduelle i.e. entre unités statistiques dans chacun des groupes 3

Décomposition de la variation totale Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe

Décomposition de la variation totale Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe

Décomposition de la variation totale Remarque L équation ne contient pas de double produit car la somme des doubles produits est nulle en raison de la nullité de la somme des écarts par rapport à la moyenne En effet : n j 2 i=1 j =1 n J j (x ij x j )( x j x) = 2 ( x j x) i=1 J (x ij x j ) = 0 j =1

Décomposition de la variation totale L équation fondamentale de la variance n j i=1 j =1 J (x ij x) 2 = n J j [n j ( x j x) 2 ] + j =1 i=1 j =1 J (x ij x j ) 2 1 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle ou liée au facteur contrôlé 2 une variation résiduelle = i.e. entre unités statistiques dans chacun des groupes 3

Les sources de variations Donc : variation totale = Somme des Carrés Totaux (SCE T ) = n j i=1 j =1 J (x ij x) 2 variation factorielle = Somme des Carrés Factoriels (SCE F ) = J [n j ( x j x) 2 ] j =1 variation résiduelle = Somme des Carrés Résiduels (SCE R ) = n j i=1 j =1 J (x ij x j ) 2

Les sources de variations On a alors : SCE T = SCE F + SCE R On y associe des degrés de libertés : N 1 = (J 1) + (N J )

Définition des carrés moyens Les sommes des carrés des écarts peuvent être divisées par leur nombres de degré de liberté respectifs on obtient alors : CM T = SCE T /(N 1) CM F = SCE F /(J 1) CM R = SCE R /(N J ) Ces carrés moyens ont les propriétés de variances, notamment en ce qui concernent leur distribution d échantillonage.

Le tableau d analyse de la variance : première partie Les données d une analyse de la variance sont généralement présentées dans un tableau de la forme suivante : Sources Degrés Sommes des Carrés de variation de liberté carrés des écarts moyens diff. entre groupes J-1 SCE F CM F diff. entre unités N-J SCE R CM R (dans les groupes) (= résiduelle) Total N-1 SCE T

Les tests statistiques associés Comment tester l écart entre les moyennes à partir de ces éléments? plusieurs moyennes et un test, H 0 vs H 1 des sommes de carrés d écarts et leur distributions d échantillonnage La solution : les sommes de carrés d écart sont assimilables à des variances. sous H 0, les CM F et la CM R sont deux estimations différentes d une même variance leur rapport est donc égal à 1 sous H 0 leur comparaison se fait par leur rapport CM F /CM R si le rapport est trop grand, on rejette l hypothèse d égalité des moyennes

Les tests statistiques associés le rapport CM F /CM R est un rapport de variance, i.e. variance factorielle / variance résiduelle (rappel : le terme de variance est abusif mais utilisé partout et donc aussi ici, à partir de maintenant) un rapport de variances suit une loi de Fisher F donc pour tester l écart de plusieurs moyennes : test de Fisher CM F CM R F J 1;N J ce qui permet donc de tester les écarts entre plusieurs moyennes simultanément!

Le tableau d analyse de la variance : première partie Le tableau complet d une ANOVA : Sources de variation Degrés de liberté Sommes des carrés des écarts Carrés moyens Test F p-valeur diff. entre groupes diff. entre unités (résiduelle) J 1 SCE F CM F CM F CM R N J SCE R CM R p Total N 1 SCE T

Retour sur le concept de l ANOVA Plusieurs points : si plus de deux moyennes : ne pas faire de comparaisons deux à deux car estimation commune des variances sur plusieurs groupes sous H 0 l eq o. fondamentale de l ANOVA : somme d écart inter-groupes et d écarts intra-groupes si pas de différence, la variabilité inter-groupes variabilité intra-groupes si l un au moins des groupes s éloigne des autres : l écart des moyennes (inter-groupes) est supérieur à l écart intra groupes

Retour sur le concept de l ANOVA Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe

Retour sur le concept de l ANOVA Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe

Retour sur le concept de l ANOVA on compare donc plusieurs variables en comparant des variances! cette comparaison test F de Fisher (ou Fisher-Snedecor) (ne pas confondre avec test exact de Fisher) test de rapport de variances, avec des ddl. si le rapport CM F /CM R est supérieur à la valeur seuil de la loi de F pour J 1 et N J ddl, on rejette H 0.

Les calculs de l ANOVA Calculs des moyennes : x j = 1 n j i x ij Soit T j = i x ij la somme des x ij dans le groupe j Soit Tj 2 j = ( i x ij ) 2 le carré de la somme des x ij dans le groupe Calcul des carrés moyens : CM F = j Tj 2 n j ( j T j ) 2 N J 1 CM R = x 2 ij j N J T 2 j n j

Plan 1 Introduction 2 Théorie de l Analyse de la Variance (ANOVA) 3 Application de l ANOVA

Exemple On veut étudier l effet de deux médicaments sur le taux de lymphocytes d animaux de laboratoires. On construit un plan factoriel dans lequel il y a trois groupes d animaux d effectifs 10 animaux par groupe. On garde un des groupes comme témoin et l on administre les médicaments A et B aux deux autres groupes.

Exemples Valeurs observées (10 3 ) : Groupe témoin : 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ; 260 ; 478 ; Groupe traité par A : 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ; 255 ; 528 ; Groupe traité par B : 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ; 275 ; 401 ; Les données correspondent au modèle d ANOVA : une variable de groupe, une variable continue dont on veut comparer les moyennes

Exemple Descriptif des données : $Descriptif leuco groupes = 1 groupes = 2 groupes = 3 Effectifs présents 30.000 10.000 10.000 10.000 Proportions de présents 100.000 100.000 100.000 100.000 Effectifs manquants 0.000 0.000 0.000 0.000 Proportions de manquants 0.000 0.000 0.000 0.000 Moyenne 353.667 319.600 409.400 332.000 Ecart-type 87.787 90.546 98.423 41.042 Variance 7706.644 8198.489 9687.156 1684.444 Erreur standard (s.e.m) 16.302 28.633 31.124 12.979 Err. Std (basée sur l ANOVA) NA 25.541 25.541 25.541

Exemple Les valeurs : n 1 = n 2 = n 3 = 10 x 1 = 319.6, x 2 = 409.4, x 3 = 332.0 T 1 = 3196, T 2 = 4094, T 3 = 3320 T 2 1 = 31962, T 2 2 = 40942, T 2 3 = 33202

Exemple Résultats de l analyse de la variance (logiciel R) : summary(aov(leuco~groupes)) Df Sum Sq Mean Sq F value Pr(>F) groupes 2 47362 23680.9 3.6302 0.04015 * Residuals 27 176131 6523.4 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1

SCE : SCEt = SCEA + SCEe ddl : (30-1) = (3-1) + (30-3) Valeurs : 223492,7 = 47361,9 + 176130,8 Carrés Moyens : CMA = 47361,9/2 = 23680,9 CM_R = 176130,8/27 = 6523,4 Rapport et test (CMA / CMe ) = 23680,9 / 6523,4 = 3,63 --> F calculé Valeur seuil F à 2 et 27 ddl = 3,354 F obs < F seuil d où la conclusion : on rejette H 0 et au moins un des groupes a une moyenne différente des deux autres groupes.