Analyse de la variance (ANOVA)



Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Evaluation de la variabilité d'un système de mesure

Principe d un test statistique

La classification automatique de données quantitatives

FORMULAIRE DE STATISTIQUES

Introduction à la Statistique Inférentielle

Biostatistiques : Petits effectifs

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction aux Statistiques et à l utilisation du logiciel R

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Comparaison de populations

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Introduction à l approche bootstrap

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Cours de méthodes de scoring

Estimation et tests statistiques, TD 5. Solutions

VI. Tests non paramétriques sur un échantillon

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Cours de Tests paramétriques

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

NC 35 Norme comptable relative aux états financiers consolidés

Cours 9 : Plans à plusieurs facteurs

1. Vocabulaire : Introduction au tableau élémentaire

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Application sur le Dispositif en Blocs Complètement Randomisés

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

T de Student Khi-deux Corrélation

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Correction du baccalauréat ES/L Métropole 20 juin 2014

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Relation entre deux variables : estimation de la corrélation linéaire

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Étude d impact quantitative No 3 Risque de crédit - Instructions

Théorie des sondages : cours 5

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Marchés oligopolistiques avec vente d un bien non homogène

Annexe A de la norme 110

Arbres binaires de décision

Ressources pour le lycée général et technologique

Probabilités conditionnelles Loi binomiale

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

1 Définition de la non stationnarité

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TSTI 2D CH X : Exemples de lois à densité 1

3. Caractéristiques et fonctions d une v.a.

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

1. Les types d enquêtes

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Le Modèle Linéaire par l exemple :

Statistique inférentielle TD 1 : Estimation

Application 1- VBA : Test de comportements d'investissements

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les effets d une contrainte de crédit sur la convergence économique : Le cas des pays de l UEMOA

Statistiques Descriptives à une dimension

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

CCP PSI Mathématiques 1 : un corrigé

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Régression linéaire. Nicolas Turenne INRA

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Sdage, état d avancement de la révision et prochaine consultation

4. Résultats et discussion

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

LES FONCTIONNAIRES ET LEUR MUTUELLE

NC 06 Norme comptable relative aux Immobilisations incorporelles

Quelques rappels concernant la méthode expérimentale

L Econométrie des Données de Panel

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Directeur de la publication : André-Michel ventre, Directeur de l INHESJ Rédacteur en chef : Christophe Soullez, chef du département de l ONDRP

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

MISE EN CONFORMITE DES CONTRATS DE PREVOYANCE, SANTE ET RETRAITE SUPPLEMENTAIRE

Les perspectives du portage salarial

Chapitre 3 : INFERENCE

1 Complément sur la projection du nuage des individus

IFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours

STATISTIQUES. UE Modélisation pour la biologie

Analyse en Composantes Principales

Consommation et investissement : une étude économétrique

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Exemples d application

Les macroinvertébrés: des bioindicateurs incontournables pour le monitoring des cours d eau en CH

Aide-mémoire de statistique appliquée à la biologie

Type d'organisation. 2. Décrivez comment le système d'information qui appuie la recherche et les activités de financement est organisé.

L eau dans les documents d urbanisme. L approche des solutions environnementales de l urbanisme CAUE mai 2011

Transcription:

Chapitre 7 Analyse de la variance (ANOVA) Introduction L analyse de la variance (ANOVA) a pour objectif d étudier l influence d un ou plusieurs facteurs sur une variable quantitative. Nous nous intéresserons ici au cas où les niveaux, ou modalités, des facteurs sont fixés par l expérimentateur. On parle alors de modèle fixe. C est la comparaison de moyennes pour plusieurs groupes (> 2). Il s'agit de comparer la variance intergroupe (entre les différents groupes : écart des moyennes des groupes à la moyenne totale) à la variance intragroupe (somme des fluctuations dans chaque groupe). S'il n'y a pas de différence entre les groupes, ces deux variances sont (à peu près) égales. Sinon, la variance intergroupe est nécessairement la plus grande. L ANOVA se résume à une comparaison multiple de moyennes de différents échantillons constitués par les différentes modalités des facteurs. Les conditions d application du test paramétrique de comparaison de moyennes s appliquent donc à nouveau. L'analyse de variance (analysis of variance ou ANOVA) peut être vue comme une généralisation du test de Student. On souhaite tester les effets de k traitements qui ont été administrés respectivement à n 1, n k individus. En analyse de variance, le paramètre susceptible d'influer sur les données étudiées s'appelle un facteur, et ses valeurs sont les modalités (ici les différents traitements). Dans le modèle probabiliste, chaque modalité correspond à un échantillon. Pour h = 1,..k, on note : On cherche à savoir si la variabilité observée dans les données est uniquement due au hasard, ou s'il existe effectivement des différences significatives entre les classes, imputables au facteur. Pour cela, on va comparer les variances empiriques de chaque échantillon, à la variance de l'échantillon global, de taille n1+ +nk=n. La moyenne des variances (pondérée par les effectifs) résume la variabilité à l'intérieur des classes, d'où le nom de variance intra-classes (intragroupes), ou variance résiduelle. La variance des moyennes décrit les différences entre classes qui peuvent être dues au traitement, d'où le nom de variance inter-classes (intra-groupes), ou variance expliquée. On note : la moyenne empirique de la la variance empirique de la -ième classe, -ième classe, la moyenne de l'échantillon global, La moyenne des variances (variance intra-classes), V intra 1

La variance des moyennes (variance inter-classes), V inter Alors : la variance de l'échantillon global. Test d'homogénéité des variances Pour beaucoup de tests paramétriques (ANOVA, régression), l'homogénéité des variances est une condition nécessaire. Homogénéité des variances = homoscédasticité Plusieurs méthodes existent pour tester l'homogénéité des variances dans plusieurs groupes qui n'ont pas nécessairement le même nombre d'objets. Un test très utilisé est le test de Bartlett, détaillé ici. Ce test est valide si les distributions des objets sont Normales (Le test de Bartlett estime si les différentes sous-catégories d'une variable de distribution normale ont la même variance). Le test donne un résultat global et ne permet pas d'estimer les différences de variances des sous-catégories deux à deux. Il est très sensible à la non-normalité.. Exemple Nombre/km2 (densité) de sapins poussant dans 3 (= k) forêts différentes (groupes) : Groupe 1 Groupe 2 Groupe 3 45 78 354 34 69 338 35 86 351 29 58 332 42 57 341 37 64 358 44 347 28 Variance 42,214 131,867 86,476 Avant de tester l'effet du milieu (forêt) sur la densité de sapins par une ANOVA, il faut vérifier l'homogénéité des variances. Question : à un niveau de risque de 5 %, les variances de ces trois groupes sont-elles homogènes? Hypothèses : H0 : toutes les variances sont égales H1 : au moins une des variances est différente des autres Test : Sp 2 = Σ((ni 1)si 2 )/Σ(ni 1) B = (Σ(ni 1))(ln Sp 2 ) - Σ((ni 1)ln si 2 ) 2

C = 1 + 1/(3(k 1))[Σ1/(ni 1) 1/(Σ(ni 1))] BC = B/C. Sous H 0, B C suit une loi du Khi-carré (χ²) à (k 1) ddl (ν). Condition : distributions Normales des populations d'origine. Règle de décision : H 0 est rejetée si B C > χ² 0,05;2, soit 5,99. Calcul du test : Sp 2 = ((7)42,214 + (5)131,867 + (6)86,476)/(7 + 5 + 6) = 81,872 B = (7 + 5 + 6)ln 81,872 (7 ln42,214 + 5 ln131,867 + 6 ln86,476) = 1,925 C = 1 + (1/6)[(1/7 + 1/5 + 1/6) (1/(7 + 5 + 6))] = 1,076 B C = 1,925/1,076 = 1,789 Décision : B C < 5,99, H 0 est acceptée : Les trois variances sont homogènes. Explication de ANOVA à un critère (ou facteur) 3

4

5

6

7 d indépendance

Exemple Mêmes données que précédemment, mais la question devient : la densité moyenne de sapin est-elle la même dans les 3 forêts? Hypothèses H 0 : toutes les moyennes selon le facteur sont égales H 1 : au moins une des moyennes µ r est différente des autres Variable dépendante : Densité en sapin (nb/km2) Facteur : Forêt (s = 3 niveaux). Calculs : Total 1 = 294, Total 2 = 412, Total 3 = 2421 ; Total (T)= 3127 ΣΣx 2 = 877889 n = 21 ; n 1 = 8 ; n 2 = 6 ; n 3 = 7 k (Nbre de groupes) = 3 SCE R = ΣΣx 2 - Σ(Tj 2 /nj) = 877889 (294 2 /8 + 412 2 /6 + 2421 2 /7) = 1473,69 SCE A = Σ(Tj 2 /nj) T2/n = (294 2 /8 + 412 2 /6 + 2421 2 /7) 31272/21 = 410790,119 S R 2 = SCE R /(n - k) = 1473,69/(21 3) = 81,872 S A 2 = SCE A /(k - 1) = 410790,119/(3 1) = 205395,060 8

Test statistique F = S A 2 / S R 2 = 205395,060/81,872 = 2508,743 F est comparé à un F à (3 1 = 2) et (21 3 = 18) degrés de liberté Donc: Fcritique = F(2; 18) = 3,555 à 5 %. Attention, l ANOVA est toujours un test unilatéral. Si Fcal > F* (H0) : on rejette l hypothèse d indépendance Si Fcal < F* (H1) on accepte l hypothèse d indépendance, on accepte H 1 (pas de relation entre les variables). Décision Fcalculé > Fcritique: les densités moyennes de sapins ne sont pas les mêmes = le facteur «Forêt» a un effet sur la densité des sapins (il y a un effet du milieu (forêt) sur la densité de sapins). Il y a une relation de dépendance. 9

Exemple 2 : H 0 : lorsque le poids augmente, on n assiste pas forcement à une augmentation des corticoïdes urinaires. 10

11

Exercice 1 Le tableau suivant présente des mesures de la hauteur (en mm) de la plante Saede brassica, réalisées dans plusieurs milieux différents. Un chercheur désire comparer ces données afin de connaître l'effet du milieu sur la taille de S. brassica (on admet que les données suivent une distribution Normale). Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 5 12 141 56 87 241 15 146 67 105 264 12 135 43 79 225 18 147 78 123 257 24 154 45 114 248 32 69 258 31 236 15 Tj (=Σxj) 159 723 358 508 1729 1. Quelle analyse permet d'estimer l'effet du milieu sur la hauteur des plantes? 2. Quelles sont les conditions requises pour pouvoir réaliser cette analyse? 3. Vérifiez ces conditions et réalisez l'analyse statistique appropriée. Exercice 2 On veut savoir si la quantité de nitrates varie d'une station à l'autre le long d'une rivière. Pour cela, on prélève en 10 points (n=10) chaque fois une certaine quantité d'eau dans 3 stations différentes (k=3). Station 1 Station 2 Station 3 50,00 162,00 120,00 52,00 350,00 120,00 123,00 125,00 122,00 100,00 320,00 221,00 200,00 112,00 253,00 250,00 200,00 141,00 220,00 40,00 182,00 220,00 162,00 175,00 300,00 160,00 160,00 220,00 250,00 214,00 12

13