Comparaison de plusieurs moyennes

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

FORMULAIRE DE STATISTIQUES

Principe d un test statistique

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Cours 9 : Plans à plusieurs facteurs

STATISTIQUES. UE Modélisation pour la biologie

Lois de probabilité. Anita Burgun

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Introduction à l approche bootstrap

Relation entre deux variables : estimation de la corrélation linéaire

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Biostatistiques : Petits effectifs

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Estimation et tests statistiques, TD 5. Solutions

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

23. Interprétation clinique des mesures de l effet traitement

Chapitre 3. Les distributions à deux variables

Probabilités III Introduction à l évaluation d options

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

1 Définition de la non stationnarité

TESTS D'HYPOTHESES Etude d'un exemple

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le risque Idiosyncrasique

Arbres binaires de décision

Introduction à la Statistique Inférentielle

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Evaluation de la variabilité d'un système de mesure

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Programmation Linéaire - Cours 1

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Programmation linéaire

"ÉMISSIONS TRADING" ET CONTROLE DES REJETS DE POLLUANTS ATMOSPHERIQUES ISSUES DE CENTRALES THERMIQUES * SYNTHESE

DCG 6. Finance d entreprise. L essentiel en fiches

Régression linéaire. Nicolas Turenne INRA

Une étude de différentes analyses réalisées par le BIT

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Intérêt diagnostic du dosage de la CRP et de la leucocyte-estérase dans le liquide articulaire d une prothèse de genou infectée

TABLE DES MATIERES. C Exercices complémentaires 42

Cours de méthodes de scoring

LE BUDGET DES VENTES

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

VI. Tests non paramétriques sur un échantillon

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

1. Vocabulaire : Introduction au tableau élémentaire

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

: seul le dossier dossier sera cherché, tous les sousdomaines

afférent au projet de décret relatif aux obligations indexées sur le niveau général des prix

Application sur le Dispositif en Blocs Complètement Randomisés

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

La classification automatique de données quantitatives

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Cours de Tests paramétriques

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Projet SENTINELLE Appel àprojets «CO 2»Déc. 2007

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

COURS GESTION FINANCIERE A COURT TERME SEANCE 2 COUVERTURE DU BESOIN DE FINANCEMENT CHOIX DU NIVEAU DU FONDS DE ROULEMENT

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Rapport de stage. «Travail préparatoire à l estimation du coût d une bonne qualité des eaux de baignade sur le littoral Aquitain»

GUIDE PRATIQUE. Du provisionnement des emprunts à risques

II L APPROCHE PEDAGOGIQUE EN 2nde PRO LOGISTIQUE ET TRANSPORT. 1 Mon téléphone portable

Architecture des Systèmes d Information Architecture des Systèmes d Information

Introduction aux Statistiques et à l utilisation du logiciel R

UN EXEMPLE D EVALUATION DISCIPLINAIRE : EN ECONOMIE-GESTION (Droit)

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Inégalités sociales de santé et accès aux soins. Inégalités sociales de santé et protection sociale Psychomot 1 UPMC/VHF

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Chapitre 2/ La fonction de consommation et la fonction d épargne

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

Évaluation de la régression bornée

3. Caractéristiques et fonctions d une v.a.

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Couples de variables aléatoires discrètes

COMMENTAiRES/ DECISIONS

Lecture critique et pratique de la médecine

Comparaison de populations

MonUPMC vue par l enseignant

ECTS CM TD TP. 1er semestre (S3)

BTS MUC E4 : MGUC code : MUMGUC-CORRIGÉ

Transcription:

Master 1 de Santé Publique UE de biostatistique : cours 1 Comparaison de plusieurs moyennes M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1

Liens entre deux variables X et Y variable Y Dichotomique Qualitative à plus de classes Quantitative variable X Dichotomique Qualitative à plus de classes comparaison de pourcentages test du χ comparaison de plusieurs distributions test du χ comparaison de moyennes test t de Student ou Z comparaison de plusieurs moyennes Analyse de la variance Quantitative Régression linéaire M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes

Comparaison de plusieurs moyennes Analyse de la variance Les sujets de la population se répartissent en classes. On s'intéresse à une variable X dont on veut comparer les moyennes dans les classes de la population. Hypothèses testées : H 0 : H 1 : µ 1 = µ = = µ il y a au moins une différence entre les moyennes M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 3

Exemples : La comparaison de plusieurs moyennes peut correspondre à plusieurs types de questions Comparaison des poids de naissances moyens de différentes portées de souris L'intérêt est le "facteur portée", pas la différence entre portées particulières. On parle de "facteur aléatoire". Comparaison des valeurs moyennes d un dosage biologique de 6 groupes de patients traités par 6 traitements différents On est intéressé par une comparaison globale, mais peut-être aussi par des comparaisons à, voire un classement des traitements. On parle de "facteur fixe". Comparaison de la durée de séjour en service de réanimation néonatale de prématurés selon leur terme de naissance : 8 semaines 9-3 semaines 33-34 semaines 35-36 semaines Le facteur "terme" est en fait quantitatif. C'est un problème proche d'une régression. Ces questions : - peuvent se traiter de façon identique par l'analyse de la variance qu'on va voir - se différencient lorsque les questions sont plus complexes (étude simultanée de plusieurs facteurs) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 4

Principe de l analyse de la variance Considérons le cas où il y a 4 populations ( = 4) σ total σ T µ 1 µ µ 3 µ 4 µ Les moyennes µ 1, µ, µ 3, et µ 4 sont égales : σ T = σ σ total σ T µ µ 4 µ µ 1 µ 3 Les moyennes µ 1, µ, µ 3, et µ 4 sont différentes : σ T > σ M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 5

σ total σ T µ µ 4 µ µ 1 µ 3 La variance σ T a deux composantes : - σ qui est la variance interne à chaque groupe (variance intra-groupe) - la dispersion entre les µ i qui correspond à la variabilité entre les groupes (variance inter-groupes) Principe de l analyse de la variance : décomposer σ T en ces parties tester si σ T est différent de σ M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 6

Notations X : variable à laquelle on s intéresse : nombre de populations (et donc de moyennes) comparées Chaque population est repérée par l indice j n j : taille de l échantillon extrait de la population j Chacun des sujets de l échantillon est repéré par l indice i > x : i ème observation de l échantillon j M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 7

Décomposition de la variabilité des observations Somme des carrés des écarts totale : SCE T = ( x m) S T = SCE T n 1 ( ) SCE T = x m j + m j m ( ) + ( m j m) = x m j les termes (x m ) caractérisent la variabilité intra-groupe les termes (m j m) caractérisent la variabilité inter-groupes SCE T = ( x m j ) + ( m j m) + x m j On montre que : ( x m j )( m j m) = 0 ( )( m j m) ( ) donc : SCE T = x m j + m j m ( ) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 8

SCE T = ( x m j ) + m j m ( ) SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle SCE A Somme des carrés des écarts due au facteur étudié ( ) SCE A = n j m j m ne dépend que de la dispersion des moyennes m j des groupes comparés = somme des carrés des écarts entre groupes (ou somme des carrés des écarts due au facteur A) SCE A a (-1) degrés de liberté Variance correspondante (entre groupes) : σ A, estimée par s A = SCE A 1 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 9

SCE T = ( x m j ) + m j m ( ) SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle SCE A Somme des carrés des écarts due au facteur étudié SCE R = ( x m j ) n j = x m j i=1 ( ) ne dépend que de la dispersion des valeurs x au sein de chaque échantillon = somme des carrés des écarts intra-classe ou résiduelle SCE R a (n-) degrés de liberté Variance correspondante (résiduelle) : σ R, estimée par s R = SCE R n M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 10

Principe de l analyse de la variance 1. Décomposer s T (en fait SCE T ) en parties : SCET = SCEA + SCER σ total µ µ 4 µ µ 1 µ 3 σ A σ T σ T σ ( = σ R ). Tester si σ T est égal à σ σ ( = σ R ) c est-à-dire comparer s T et s R en fait, s T et s R ne sont pas indépendants et on montre qu il faut comparer s A et s R, c est-à-dire tester l hypothèse H 0 : σ A = σ R pour comprendre pourquoi, on a besoin de calculer les valeurs théoriques σ A et σ R. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 11

Valeurs théoriques des sommes des carrés des écarts SCE T Somme des carrés des écarts totale SCE R Somme des carrés des écarts résiduelle On montre que (si les variances de X sont les mêmes dans les populations) : E(SCE T ) = (n 1)σ + n j (µ j µ) E(SCE A ) = ( 1)σ + n j (µ j µ) E(SCE R ) = (n )σ SCE A Somme des carrés des écarts due au facteur étudié D où : E(s T ) = σ T = E SCE T n 1 = σ + 1 n 1 E(s A ) = σ A = E SCE A 1 = σ + 1 1 E(s R ) = σ R = E SCE R n = σ n j (µ j µ) n j (µ j µ) M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1

E(s T ) = σ T = E SCE T n 1 = σ + 1 n 1 E(s A ) = σ A = E SCE A 1 = σ + 1 1 E(s R ) = σ R = E SCE R n = σ n j (µ j µ) n j (µ j µ) H 0 : µ 1 = µ = = µ = µ H 0 : σ A = σ R H 1 : il y a au moins une différence entre les moyennes <=> H 0 : σ A > σ R La comparaison des variances σ A et σ R permet ainsi de tester H 0 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 13

Test de comparaison des moyennes Analyse de la variance H 0 : µ 1 = µ = = µ = µ H 0 : σ A = σ R H 1 : il y a au moins une différence entre les moyennes <=> H 0 : σ A > σ R Si H 0 est vraie et si X a une distribution normale de même variance dans chaque population, on montre que : F 0 = s A s suit une loi de Fisher F 1 n R M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 14

Exécution du test H 0 : σ A = σ R H 0 : σ A > σ R 1. Calculer F 0 = s A s R à partir des observations sur l échantillon. Comparer F 0 à la valeur seuil de F 1 n : => règle de décision F 0 F 1 n (α): rejet de H 0 (au risque α) F 0 < F 1 n (α) : non rejet de H 0 Conditions d application : X a une distribution normale de même variance dans chaque population. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 15

Exécution des calculs Tableau d analyse de la variance Source de variation Somme des carrés des écarts ddl Carré moyen (ou variance) F Entre groupes (facteur A) SCE A -1 s A = SCE A 1 F 0 = s A s K Résiduelle SCE R n- s R = SCE R n Total SCE T = SCE A +SCE R n-1 ( ) SCE A = n j m j m = T j n j T G n = nm j j nm T G = total général = i,j x T j = total de l'échantillon j = i x M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 16

SCE R = ( x m j ) n j = x m j i=1 = x i,j T j n j = (n j 1)s j j ( ) n j i=1 ( x m j ) (n j 1) s R = SCE R n = n j = s j ( x m j ) i=1 = ( n j 1)s j ( n j 1)s j n n = n 1 + + n => n- = (n 1-1) + + (n -1) Donc : s R = (n 1 1)s 1 + (n 1)s +... (n 1 1) + (n 1) +... M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 17

Exemples Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 VGM (en µ 3 ) x.809 9.687 8.1 4.99 3.739 x 63.467 887.305 777.86 459.085 350.01 Nombre de leucocytes (10 6 par l) m 8,4 7,49 7,16 7,17 7,69 s 6,7 5,07,90 4,1 3,77 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 18

Comparaison des moyennes du VGM Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 VGM (en µ 3 ) x.809 9.687 8.1 4.99 3.739 x 63.467 887.305 777.86 459.085 350.01 SCE A = T j n j T G n = 809 +...+ 3 739 9 376 30 40 316 = 731 317,04 730 85,456 = 464,75 SCE R = x i,j T j n j = 737 344 809 30 +...+ 3 739 40 = 737 344 731 317,04 = 6.06,80 SCE T = 464,75 + 6 06,80 = 6 491,55 ou x T G n = 737 344 9 376 316 = 6 491,54 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 19

Source de variation Somme des carrés des écarts d.d.l. Carré moyen (ou variance) F Entre mois SCE A = 464,75 4 s A = 464,75 4 = 116,19 Résiduelle SCE R = 6.06,80 311 s R = 6 06,80 311 = 19,38 F 0 = 116,19 19,38 = 6,00 Total SCE T = 6.491,54 315 4 F 0 doit être comparé avec la valeur seuil de F 311 α 0,05 0,05 0,01 0,001 4 F 00 4 F 311 4 F 500,4,85 3,41 4,81,39,81 3,36 4,69 Les moyennes de VGM varient avec le mois de prélèvement (p<1 ). Mois de prélèvement Nov Déc Février Mars Avril Moyenne 93,6 91,4 94,4 93,0 93,5 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 0

Comparaison des moyennes du nombre de leucocytes Mois de Nov Déc Février Mars Avril prélèvement n 30 106 87 53 40 Nombre de leucocytes (106 par l) m 8,4 7,49 7,16 7,17 7,69 s 6,7 5,07,90 4,1 3,77 m = 1 n j m j T j = n n 30 8,4 +...40 7,69 = 316 = 351,67 316 = 7,44 SCE A = n j m j nm = 30 8,4 + + 40 7,69 316 7,44 = 17.533,76-17.501,14 = 3,6 SCE R = ( n j 1)s j = 9 6,7 +...39 3,77 = 1 34,85 SCE T = SCE A + SCE R = 1.366,87 M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 1

Source de variation Somme des carrés des écarts Entre mois SCE A = 3,6 4 d.d.l. Carré moyen (ou variance) s A = 3,6 4 = 8,16 F F 0 = 8,16 4,6 = 1,9 Résiduelle SCE R =1.34,85 311 s R = 4,6 Total SCE T = 1.366,87 315 4 F 0 doit être comparé avec la valeur seuil de F 311 α 0,05 0,05 0,01 0,001 4 F 00,4,85 3,41 4,81 4 F 311 4 F 500,39,81 3,36 4,69 On ne met pas évidence de différence entre les nombres moyens de leucocytes selon le mois de prélèvement. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes

Attention aux arrondis Calcul sans arrondis m = 30 8,4 +...40 7,69 316 = 351,67 316 = 7,44 SCE A = 30 8,4 + +40 7,69 316 7,44 = 17.533,76-17.501,14 = 3,6 F 0 = 1,9 non significatif m arrondi à 7,44 donne : SCE A = 30 8,4 + +40 7,69 316 7,44 = 17.533,76-17.491,74 = 46,0 F 0 =,47 significatif M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 3

Cas particulier de moyennes H 0 : µ 1 = µ ; H 1 : µ 1 µ tests possibles : - test de Student m t 0 = 1 m 1 s + 1 n 1 n, avec s = (n 1) s 1 1 + (n 1) s n 1 + n valeur seuil : t n1 +n ;α/ - analyse de la variance F 0 = s A s valeur seuil : F 1 n 1 +n R ;α. Ils sont équivalents car : F 0 = t 0 Les valeurs seuil de F 1 = carrés des valeurs seuil de t. Les conditions d'application identiques : distributions normales et variances égales. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 4

On montre que : Ecarts aux conditions d application - le défaut de normalité des populations n affecte pas les résultats du test si elle n est pas très importante - l'importance de l égalité des variances dépend de l'écart entre les effectifs des échantillons si les échantillons ont des effectifs égaux ou du même ordre de grandeur, l analyse de la variance est très robuste et supporte de fortes hétérogénéités de variances. sinon, le risque α peut être influencé considérablement par une inégalité des variances, surtout lorsque les échantillons les plus réduits correspondent aux populations de variances maximum. M1 de Santé Publique Biostatistique Cours 1 - Comparaison de plusieurs moyennes 5