Comparaison de Moyennes et ANOVA

Documents pareils
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyse de la variance Comparaison de plusieurs moyennes

FORMULAIRE DE STATISTIQUES

La classification automatique de données quantitatives

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

M2 IAD UE MODE Notes de cours (3)

Lire ; Compter ; Tester... avec R

PROGRAMME (Susceptible de modifications)

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Table des matières. I Mise à niveau 11. Préface

TABLE DES MATIERES. C Exercices complémentaires 42

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

O, i, ) ln x. (ln x)2

Logiciel XLSTAT version rue Damrémont PARIS

STATISTIQUES. UE Modélisation pour la biologie

Rappels sur les suites - Algorithme

Cours 9 : Plans à plusieurs facteurs

Évaluation de la régression bornée

Statistiques Descriptives à une dimension

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Programmation linéaire

Chp. 4. Minimisation d une fonction d une variable

Introduction à l approche bootstrap

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

3. Caractéristiques et fonctions d une v.a.

Exemples d application

Programmation linéaire

Probabilités III Introduction à l évaluation d options

Raisonnement par récurrence Suites numériques

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Régression linéaire. Nicolas Turenne INRA

Cours de méthodes de scoring

Chapitre 1 : Évolution COURS

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

LE BUDGET DES VENTES

données en connaissance et en actions?

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Limites finies en un point

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Classe de première L

Chapitre 3. Les distributions à deux variables

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Correction du baccalauréat ES/L Métropole 20 juin 2014

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Relation entre deux variables : estimation de la corrélation linéaire

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Problème 1 : applications du plan affine

1 Complément sur la projection du nuage des individus

F1C1/ Analyse. El Hadji Malick DIA

Principe d un test statistique

Introduction aux Statistiques et à l utilisation du logiciel R

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Les indices à surplus constant

Introduction à la théorie des files d'attente. Claude Chaudet

Corrigé des TD 1 à 5

Mesure, impact des politiques et estimation. Programme de formation MIMAP. Remerciements

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

I. Ensemble de définition d'une fonction

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Introduction à la Statistique Inférentielle

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Statistique : Résumé de cours et méthodes

Exercice : la frontière des portefeuilles optimaux sans actif certain

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Calculabilité Cours 3 : Problèmes non-calculables.

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

L isomorphisme entre les tours de Lubin-Tate et de Drinfeld et applications cohomologiques par Laurent Fargues

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Biostatistiques : Petits effectifs

Exemples d Analyses de Variance avec R

1 Recherche en table par balayage

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Chapitre 3 : INFERENCE

23. Interprétation clinique des mesures de l effet traitement

Dualité dans les espaces de Lebesgue et mesures de Radon finies

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Best Styles ou comment capturer au mieux les primes de risque sur les marchés d actions

Annexe commune aux séries ES, L et S : boîtes et quantiles

TESTS D'HYPOTHESES Etude d'un exemple

Chapitre 5. Équilibre concurrentiel et bien-être

Le modèle de Black et Scholes

Théorèmes de Point Fixe et Applications 1

Leçon 01 Exercices d'entraînement

Transcription:

Département de Mathématiques et Informatique, U.A.G. 27 Janvier 2012

Plan Introduction Types de moyenne

Types de moyenne Avoir une indication de l ordre de grandeur d une série de valeurs mesurées (ou observées) Total des valeurs observées Nombre de valeurs observées notée traditionnellement x.

Types de moyenne Avoir une indication de l ordre de grandeur d une série de valeurs mesurées (ou observées) Total des valeurs observées Nombre de valeurs observées notée traditionnellement x. Question sous jacente : par quelle valeur unique pourrait-on remplacer toutes les valeurs pour avoir la même somme?

Types de moyenne Exemple : moyenne des évaluations dans 2 collèges d effectifs 400 et 600 respectivement. Collège 1 : x 1;1,, x 1;400 Collège 2 : x 2;1,, x 2;600 x = (x 1;1 + + x 1;400 ) + (x 2;1 + + x 2;600 ). 400 + 600 La moyenne des évaluations pour chaque collège : x 1 = 12, 4 et x 2 = 13, 8.

Types de moyenne Exemple : moyenne des évaluations dans 2 collèges d effectifs 400 et 600 respectivement. Collège 1 : x 1;1,, x 1;400 Collège 2 : x 2;1,, x 2;600 x = (x 1;1 + + x 1;400 ) + (x 2;1 + + x 2;600 ). 400 + 600 La moyenne des évaluations pour chaque collège : x 1 = 12, 4 et x 2 = 13, 8. Que faire si données perdues sauf moyennes et effectifs? x = 1 2 ( x 1 + x 2 ) = 13, 1 (INCORRECT) x = 400 x 1 + 600 x 2 400 + 600 = 0, 4 x 1 + 0, 6 x 2 = 13, 24 (CORRECT).

Types de moyenne Moyennes arithmétiques Formellement : n nombres x 1, x 2,, x n. On distingue les moyennes suivantes : n arithmétique simple 1 n (x 1 + x 2 + + x n ) = 1 n x i

Types de moyenne Moyennes arithmétiques Formellement : n nombres x 1, x 2,, x n. On distingue les moyennes suivantes : n arithmétique simple 1 n (x 1 + x 2 + + x n ) = 1 n arithmétique pondérée p 1 x 1 + p 2 x 2 + + p n x n = les poids p 1, p 2,, p n étant positifs et tels que x i n p i x i, n p i = 1.

Types de moyenne Moyenne géométrique géométrique (x 1 x 2 x n ) 1 n n = ( x i ) 1 n, les xi > 0 Exemple : Quotient des effectifs d un collège entre 2009 et 2011 Années 2008 2009 2010 2011 Effectifs 420 448 430 479 Quotient - 1,07 0,96 1,12 Moyenne géométrique : (1, 07 0, 96 1, 12) 1 3 = 1, 15 1 3 = 1, 045.

Types de moyenne Moyenne géométrique géométrique (x 1 x 2 x n ) 1 n n = ( x i ) 1 n, les xi > 0 Exemple : Quotient des effectifs d un collège entre 2009 et 2011 Années 2008 2009 2010 2011 Effectifs 420 448 430 479 Quotient - 1,07 0,96 1,12 Moyenne géométrique : (1, 07 0, 96 1, 12) 1 3 = 1, 15 1 3 = 1, 045. Question sous jacente : par quelle valeur unique pourrait-on remplacer toutes les valeurs pour avoir le même produit? x = 1 3 (1, 07 + 0, 96 + 1, 12) = 1, 050 (INCORRECT) (1, 07 0, 96 1, 12) 1 3 = 1, 15 1 3 = 1, 045 (CORRECT).

Types de moyenne Moyenne harmonique harmonique n 1 x 1 + 1 x 2 + + 1 = n, les x n i > 0. x n 1 x i

Types de moyenne Moyenne harmonique harmonique n 1 x 1 + 1 x 2 + + 1 = n, les x n i > 0. x n 1 x i Exemple : élève faisant le trajet domicile-lycée à la vitesse constante de 2km/h à l aller et 4km/h au retour. Vitesse moyenne du trajet aller-retour? x = 1 2 (2 + 4) = 3, 000 (INCORRECT) 2 1 2 + 1 = 2, 667 (CORRECT). 4

Types de moyenne Moyenne harmonique harmonique n 1 x 1 + 1 x 2 + + 1 = n, les x n i > 0. x n 1 x i Exemple : élève faisant le trajet domicile-lycée à la vitesse constante de 2km/h à l aller et 4km/h au retour. Vitesse moyenne du trajet aller-retour? x = 1 2 (2 + 4) = 3, 000 (INCORRECT) 2 1 2 + 1 = 2, 667 (CORRECT). 4 Question sous jacente : par quelle valeur unique pourrait-on remplacer toutes les valeurs pour avoir la même somme des inverses?

Types de moyenne Liens entre les 3 types de moyenne, f -moyenne Soit f fonction continue strictement monotone sur l intervalle I IR. Soit x 1,, x n une série de valeurs de I. Il existe un unique élément m de I tel que f (m) = 1 n f (x i ). n

Types de moyenne Liens entre les 3 types de moyenne, f -moyenne Soit f fonction continue strictement monotone sur l intervalle I IR. Soit x 1,, x n une série de valeurs de I. Il existe un unique élément m de I tel que f (m) = 1 n f (x i ). n Preuve existence: min,,n f (x i) 1 n n f (x i ) max f (x i) donc 1,,n n Preuve unicité: f est injective. n f (x i ) f (I ).

Types de moyenne Liens entre les 3 types de moyenne, f -moyenne Soit f fonction continue strictement monotone sur l intervalle I IR. Soit x 1,, x n une série de valeurs de I. Il existe un unique élément m de I tel que f (m) = 1 n f (x i ). n Preuve existence: min,,n f (x i) 1 n n f (x i ) max f (x i) donc 1,,n n Preuve unicité: f est injective. n f (x i ) f (I ). m est appelé f -moyenne des x 1,, x n et l on a m = f 1( 1 n n f (x i ) ).

Types de moyenne Liens entre les 3 types de moyenne, f -moyenne Soit f fonction continue strictement monotone sur l intervalle I IR. Soit x 1,, x n une série de valeurs de I. Il existe un unique élément m de I tel que f (m) = 1 n f (x i ). n Preuve existence: min,,n f (x i) 1 n n f (x i ) max f (x i) donc 1,,n n n f (x i ) f (I ). Preuve unicité: f est injective. m est appelé f -moyenne des x 1,, x n et l on a m = f 1( 1 n f (x i ) ). n Question sous jacente : par quelle valeur unique pourrait-on remplacer tous les x i pour avoir la même somme des f (x i )? Si f (x) = x, la moyenne est arithmétique Si f (x) = Ln(x), la moyenne est géométrique Si f (x) = 1/x, la moyenne est harmonique.

Types de moyenne Positions respectives des f -moyennes Si f strictement convexe et décroissante, alors m < x. Ainsi, pour I = IR +, moyenne harmonique < moyenne arithmétique. Si f strictement concave et croissante, alors m < x. Ainsi, pour I = IR +, moyenne géométrique < moyenne arithmétique. En utilisant la convexité de x Ln(1/x), on démontre que moyenne harmonique < géométrique. CONCLUSIONS : Soit x 1,, x n des valeurs non toutes identiques dans IR +, alors min,,n x i n n 1 n ( x i ) 1 n x max i,,n. x i

Investigation par histogrammes Contexte : Une variable quantitative Y à expliquer par une ou plusieurs variables qualitative(s) Visualiser : la distribution de Y pour chaque modalité des variables qualitatives. Résultats d'évaluation Résultats d'évaluation Effectif 0 20 40 60 80 100 moyenne=12 écart-type=2 Effectif 0 20 40 60 80 moyenne=10 écart-type=2 6 8 10 12 14 16 18 2 4 6 8 10 12 14 16 Note Note

Investigation par Box-plot Visualiser : la distribution de Y pour chaque modalité des variables qualitatives. Résultats d'évaluation Note moyenne 0 5 10 15 20 A B C Collège

Contexte de l ANOVA ANOVA (ANalysis Of VAriance) = méthode de comparaison de groupes. Contexte : Une variable quantitative à expliquer par une ou plusieurs variables qualitative(s) appelée(s) facteur(s). Question:? influence des variables qualitatives sur la variable quantitative? Exemple : résultats des évaluations d un collège à l autre?

Contexte de l ANOVA ANOVA (ANalysis Of VAriance) = méthode de comparaison de groupes. Contexte : Une variable quantitative à expliquer par une ou plusieurs variables qualitative(s) appelée(s) facteur(s). Question:? influence des variables qualitatives sur la variable quantitative? Exemple : résultats des évaluations d un collège à l autre? Remarque : si la variable qualitative n a que deux modalités, test de Student Exemple : Résultats chez les garçons et chez les filles

Contexte de l ANOVA ANOVA (ANalysis Of VAriance) = méthode de comparaison de groupes. Contexte : Une variable quantitative à expliquer par une ou plusieurs variables qualitative(s) appelée(s) facteur(s). Question:? influence des variables qualitatives sur la variable quantitative? Exemple : résultats des évaluations d un collège à l autre? Remarque : si la variable qualitative n a que deux modalités, test de Student Exemple : Résultats chez les garçons et chez les filles L ANOVA permet d étudier plus de 2 modalités

Exemple Notes de 25 élèves subissant trois préparations distinctes Préparation A: 5,6,6,7,7,8,9,10 > moyenne 7.25 Préparation B: 7,7,8,8,9,10,10,11 > moyenne 8.75 Préparation C: 7,9,9,10,10,10,11,12,13 > moyenne 10.11 Ces différences sont-elles significatives?

Exemple Notes de 25 élèves subissant trois préparations distinctes Préparation A: 5,6,6,7,7,8,9,10 > moyenne 7.25 Préparation B: 7,7,8,8,9,10,10,11 > moyenne 8.75 Préparation C: 7,9,9,10,10,10,11,12,13 > moyenne 10.11 Ces différences sont-elles significatives? Résultats des 3 préparations Note 6 8 10 12 A B C Préparation

Ecarts significatifs entre groupes? Cela va dépendre des : - Moyennes de groupe - Ecart-types de groupe - Tailles de groupe Outils : tests statistiques d hypothèses Le Problème de test est : H 0 : les moyennes attendues sont égales pour tous les groupes contre H 1 : les moyennes attendues ne sont pas égales pour tous les groupes. Si H 1 retenue, pousser l investigation pour savoir quel(s) groupe(s) diffère(nt) des autres

Suppositions de l ANOVA Les observations suivent approximativement la loi Normale - vérification par visualisation d histogrammes et test de normalité affaiblie à l unimodalité si existence de valeurs extrêmes, préférer le test de Kruskall-Wallis (basé sur les médianes)

Suppositions de l ANOVA Les observations suivent approximativement la loi Normale - vérification par visualisation d histogrammes et test de normalité affaiblie à l unimodalité si existence de valeurs extrêmes, préférer le test de Kruskall-Wallis (basé sur les médianes) Ecart-types approximativement égaux d un groupe à l autre Règle empirique : rapport entre plus grand ecart-type et plus petit 2.

Vérification des suppositions Préparation Taille Moyenne Médiane Ecart-type A 8 7,250 7,000 1,669 B 8 8,75 8,500 1,488 C 9 10,111 10,000 1,764 Plus grand écart-type : 1,764 Plus petit écart-type : 1,488 Règle empirique : 1,488 x 2 = 2,976 > 1,764

Notations de l ANOVA à un facteur n = nombre d unités statistiques (ou individus statistiques) I = nombre de groupes = nombre de modalités du facteur n i = effectif du groupe i x ij = valeur observées sur l unité j du groupe i x i = moyenne du groupe i x= moyenne globale (c est-à-dire tous groupes confondus) s i = écart-type du groupe i avec si 2 = 1 n i (x ij x i ) 2 n i j=1

Principe de l ANOVA à un facteur L ANOVA à un facteur, mesure deux sources de variation : la variation intra-groupe en considérant l écart entre chaque valeur et la moyenne de son groupe I n i I SCR = (x ij x i ) 2 = n i si 2 j=1 SCR= Somme des Carrés Résiduelle (ou intra-groupe).

Principe de l ANOVA à un facteur L ANOVA à un facteur, mesure deux sources de variation : la variation intra-groupe en considérant l écart entre chaque valeur et la moyenne de son groupe I n i I SCR = (x ij x i ) 2 = n i si 2 j=1 SCR= Somme des Carrés Résiduelle (ou intra-groupe). la variation inter-groupe en considérant l écart entre moyennes de groupe et moyenne globale I n i (x i x) 2 = j=1 I n i (x i x) 2 SCF = Somme des Carrés Factorielle (ou inter-groupe).

Théorème d ANOVA à un facteur SCT = Somme des Carrés due à la variation Totale. SCT = I n i (x ij x) 2 j=1 prend en compte l écart entre chaque valeur et la moyenne globale. Théorème d ANOVA : SCT = SCF + SCR. basé sur la décomposition x ij x = x i x + x ij x i Modèle sous-jacent : x ij = µ + α i + e ij avec les e ij indépendants de loi N (0, σ 2 ). I Principe de compensation des effets : α i = 0. Autre énoncé du modèle : Valeur observée= valeur attendue tous groupes confondus + effet du groupe d appartenance + erreur résiduelle.

Tableau d ANOVA à un facteur Source de Somme Degrés de Carré moyen F de Fisher variation des carrés liberté Totale SCT n 1 CMT= SCT n 1 Factorielle SCF I 1 CMF = SCF I 1 F = CMF CMR Résiduelle SCR n I CMR = SCR n I

Formalisation du problème de test; Règle décisionnelle x ij réalisation d une variable aléatoire X ij avec E(X ij ) = µ i = µ + α i. Problème de test : H 0 : i [[1, I ]], µ i = µ contre H 1 : i [[1, I ]], µ i µ. ou encore H 0 : i [[1, I ]], α i = 0 contre H 1 : i [[1, I ]], α i 0. Sous H 0, F suit la loi de Fisher-Snedecor à I 1 et n I degrés de liberté. Règle de décision au niveau de signification α : - Rejet de H 0 si F > f I 1,n I,1 α - Non rejet de H 0 si F f I 1,n I,1 α où f I 1,n I,1 α fractile d ordre 1 α de la loi de Fisher-Snedecor à I 1 et n I degrés de liberté. Règle de décision basée sur la p-value p : - Rejet de H 0 si p < α - Non rejet de H 0 si p α.

Objets et commandes sous l environnement R Appel à la fonction lm (linear model) qui effectue le traitement statistique du modèle linéaire sous-jacent à l ANOVA. Appel à la fonction aov (analysis of variance) qui calcule le tableau d ANOVA et effectue le test de Fisher. Appel à la fonction summary qui effectue un résumé des calculs effectués par lm et aov. L objet Evaluation est le vecteur correspondant à la série statistique des évaluations L objet Préparation est le vecteur correspondant à la série statistique des préparations subies. Lignes de commande : > summary(lm(evaluation Preparation)) > summary(aov(evaluation Preparation))

Résultats sous l environnement R Paramètre Estimation Ecart-type t de Student p-value α 2 1,5000 0,8250 1,818 0,08266 α 3 2,8611 0,8017 3,569 0,00172 ** Signification et p-value : 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Source de Somme Degrés de Carré Statistique p-value Variation des carrés liberté moyen de Fisher Factorielle 34,671 2 17,3356 6,3682 0,00658 ** Résiduelle 59,889 22 2,7222 Signification et p-value : 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 L écart intuitif entre préparations est confirmé par les tests statistiques. Ce n est pas toujours le cas!!!

MERCI DE VOTRE ATTENTION!