Statistiques non paramétriques Comparaison de "moyennes"

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Introduction à la statistique non paramétrique

Lire ; Compter ; Tester... avec R

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques : Petits effectifs

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Introduction aux Statistiques et à l utilisation du logiciel R

Relation entre deux variables : estimation de la corrélation linéaire

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Principe d un test statistique

Introduction à l approche bootstrap

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Estimation et tests statistiques, TD 5. Solutions

Bases : Probabilités, Estimation et Tests.

Cours 9 : Plans à plusieurs facteurs

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Statistiques Descriptives à une dimension

Localisation des fonctions

Cours de Tests paramétriques

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

VI. Tests non paramétriques sur un échantillon

Unity Real Time 2.0 Service Pack 2 update

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Un exemple de régression logistique sous

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Package TestsFaciles

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Statistique : Résumé de cours et méthodes

Logiciel XLSTAT version rue Damrémont PARIS

1 Définition de la non stationnarité

Séries Statistiques Simples

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Chapitre 3. Les distributions à deux variables

Exemples d application

LES MODELES DE SCORE

Données longitudinales et modèles de survie

Evaluation générale de la qualité des données par âge et sexe

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Modèles pour données répétées

Langage SQL : créer et interroger une base

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

DMP1 DSFT des Interfaces DMP des LPS Annexe : complément de spécification sur l impression des documents à remettre au patient

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

T de Student Khi-deux Corrélation

FORMULAIRE DE STATISTIQUES

Essai Inter-groupe : FFCD UNICANCER FRENCH - GERCOR

23. Interprétation clinique des mesures de l effet traitement

Leçon N 4 : Statistiques à deux variables

L'évaluation par les pairs dans un MOOC. Quelle fiabilité et quelle légitimité? Rémi Bachelet Ecole Centrale de Lille 24 novembre 2014, Université

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Introduction à la Statistique Inférentielle

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

quelques Repères pour Doctorants

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

La nouvelle planification de l échantillonnage

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Encryptions, compression et partitionnement des données

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Document d orientation sur les allégations issues d essais de non-infériorité

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

3. Caractéristiques et fonctions d une v.a.

Algorithmique et Programmation, IMA

Exemple PLS avec SAS

Comparaison de populations

Table des matières. I Mise à niveau 11. Préface

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

Compter à Babylone. L écriture des nombres

Comment créer un nouveau compte? 1/2- Pour le consommateur

Lois de probabilité. Anita Burgun

Chapitre 5 : Flot maximal dans un graphe

données en connaissance et en actions?

SAS de base : gestion des données et procédures élémentaires

TD d économétrie appliquée : Introduction à STATA

Probabilités sur un univers fini

FONCTION DE DEMANDE : REVENU ET PRIX

Application sur le Dispositif en Blocs Complètement Randomisés

ESSEC Cours Wealth management

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

Équivalence et Non-infériorité

Modèles Estimés sur Données de Panel

Le risque Idiosyncrasique

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Transcription:

1 / 47 Statistiques non paramétriques Comparaison de "moyennes" M-A Dronne 2016-2017

Introduction Rappels Contrairement aux tests paramétriques, les tests non paramétriques ne nécessitent pas l estimation des paramètres (moyenne et écart-type) des populations. Ils ne dépendent donc pas de la nature des distributions des variables étudiées. En anglais, ils sont dits "distribution-free". Contexte d utilisation Ces tests sont utilisés quand les conditions d application des tests paramétriques classiques ne sont pas vérifiées : Ecart à la normalité Hétéroscédasticité (= hétérogénéité des variances = non égalité des variances) 2 / 47

3 / 47 Introduction Principe général On remplace les valeurs observées par leur rang de classement. On utilise ce rang pour étudier le classement relatif de ces valeurs les unes par rapport aux autres (au lieu d examiner les valeurs elles-mêmes ou leur moyenne et écart-type). Remarques Ces tests s appliquent aussi bien à des variables continues qu à des variables discrètes. Ces tests peuvent être utilisés même en présence de valeurs extrêmes.

4 / 47 Introduction Caractéristiques Ils sont moins puissants que les tests paramétriques. il est plus difficile de mettre en évidence une différence significative (ex : effet d un traitement). Inversement, ils sont plus robustes. quand on met en évidence une différence significative, on a peu de risque de se tromper.

5 / 47 Plan du cours Tests non paramétriques Comparaison de médianes (langage courant : comparaison de moyennes) Comparaison de 2 médianes, échantillons indépendants Test de Wilcoxon / Mann-Whitney Comparaison de 2 médianes, échantillons appariés Test des rangs signés de Wilcoxon Comparaison de plus de 2 médianes, échantillons indépendants Test de Kruskal-Wallis Comparaison de plus de 2 médianes, échantillons appariés Test de Friedman Autres tests non paramétriques

Test de Wilcoxon / Mann-Whitney Objectif Comparaison des médianes de deux populations dans le cas d échantillons indépendants. Autres noms du test Test des (sommes des) rangs Test de Wilcoxon / test de Mann-Whitney Données Population 1 Echantillon 1 Données : x 1,..., x n1 Taille : n 1 Population 2 Echantillon 2 Données : y 1,..., y n2 Taille : n 2 6 / 47

7 / 47 Test de Wilcoxon / Mann-Whitney Tests paramétriques "équivalents" Selon les cas : test utilisant la loi normale ou la loi de Student. Rappels Pour comparer les moyennes de 2 populations dans le cas échantillons indépendants : Cas 1 : Si n 1 30 et n 2 30 loi normale Cas 2 : Si n 1 < 30 et/ou n 2 < 30 Si X 1 N (µ 1, σ 1 ) et X 2 N (µ 2, σ 2 ) Si σ 2 1 = σ2 2 (homoscédasticité) : test de Student Si σ 2 1 σ 2 2 (hétéroscédasticité) : test de Student avec correction de Welch Si X 1 N (µ 1, σ 1 ) et/ou X 2 N (µ 2, σ 2 ) : test de Wilcoxon / Mann-Whitney

Test de Wilcoxon / Mann-Whitney Exemple Problème Un essai est mené afin d étudier l effet d un nouveau traitement pour une maladie rare. Cet essai fait intervenir 10 patients : 6 d entre eux reçoivent le nouveau traitement (traitement A) et les 4 autres reçoivent le traitement précédemment utilisé (traitement B). Les durées de vie (en années) des patients après leur admission dans l étude sont ensuite recensées. Question La survie avec les traitements A et B est-elle la même chez les patients atteints de cette maladie? La médiane du temps de survie des patients avec le traitement A est-elle significativement différente de celle avec le traitement B, au risque α? 8 / 47

9 / 47 Test de Wilcoxon / Mann-Whitney Question statistique Variables 2 variables : X 1 et X 2 variables quantitatives (continues ou discrètes) Hypothèses statistiques H 0 : égalité des médianes des 2 populations H 0 : Me 1 = Me 2 H 1 bilatéral : non égalité des médianes des 2 populations H 1 : Me 1 Me 2 Remarque : il est aussi possible de faire un test unilatéral (droit ou gauche)

10 / 47 Test de Wilcoxon / Mann-Whitney Choix du test Tests préliminaires Normalité des données? Visualisation des données Test de normalité (Shapiro-Wilk) Homoscédascticité? Test de comparaison de variances (Fisher) Choix du test En l absence de normalité utilisation du test non paramétrique de Wilcoxon / Mann-Whitney

11 / 47 Test de Wilcoxon / Mann-Whitney Statistique de test Mann-Whitney : valeur de la statistique de test u c 1. On rassemble les valeurs des deux échantillons et on les classe par ordre croissant. 2. On affecte un rang à chacune de ces valeurs (rang 1 à (n 1 + n 2 )). 3. En cas d ex-aequo, on affecte à chaque ex-aequo un rang égal à la moyenne des rangs occupés par ces ex-aequo (ex : s il y a 2 ex-aequo en 4 ème et 5 ème position, on attribue à ces deux valeurs le rang 4,5).

12 / 47 Test de Wilcoxon / Mann-Whitney Statistique de test Mann-Whitney : valeur de la statistique de test u c (suite) 1. On calcule les sommes suivantes : Somme des rangs des valeurs de l échantillon 1 : r1 Somme des rangs des valeurs de l échantillon 2 : r2 2. On calcule u 1 et u 2 : u 1 = n 1 n 2 + n 1(n 1 + 1) r 1 et u 2 = n 1 n 2 + n 2(n 2 + 1) 2 2 3. On vérifie que : u 1 + u 2 = n 1 n 2 4. On prend : u c = min(u 1, u 2 ) r 2 Lecture de la valeur seuil u s La table de Mann-Whitney donne la valeur de u sα telle que P(U u sα ) = α (sens inverse de la table de l écart-réduit) On lit u s5% pour les valeurs n 1 et n 2 et pour α = 5%.

13 / 47 Test de Wilcoxon / Mann-Whitney Confrontation et conclusion Décision statistique et conclusion On compare u c et u s5% : Si u c u s5% : rejet de H 0 au risque 5% il existe une différence significative entre les deux médianes au risque 5%. Si u c > u s5% : non rejet de H 0 au risque 5% il n existe pas de différence significative entre les deux médianes au risque 5%. Remarque : attention au sens des inégalités! Remarque Le test de Mann-Whitney est équivalent au test de Wilcoxon W = U + n(n+1) 2

14 / 47 Test de Wilcoxon / Mann-Whitney Approximation normale Remarque Si n 1 et n 2 sont assez grands (n 1 20 et n 2 20), U suit approximativement la loi normale N(µ, σ) sous H0 avec : µ = n 1n 2 2 et σ = n1 n 2 (n 1 + n 2 + 1) La variable centrée réduite correspondante est alors : ɛ = U µ σ On détermine ensuite la valeur calculée de cette statistique de test et on compare cette valeur avec la valeur seuil lue dans la table de la loi normale. 12

15 / 47 Test de Wilcoxon / Mann-Whitney Logiciel R Commande R > wilcox.test(valeurs, alternative= two.sided, conf.level=.95, exact=true, correct=false) Remarque sur la p-value Si exact=false, la p-value est calculée avec l approximation normale (sinon, la p-value est calculée sans approximation) Si correct=true, la p-value est calculée avec une correction de continuité (sinon, la p-value est calculée sans correction de continuité) Si rien n est précisé (paramètres par défaut), la p-value est calculée sans approximation pour des échantillons de moins de 50 valeurs sans ex-aequo et avec l approximation normale et une correction de continuité dans les autres cas

Test de Wilcoxon / Mann-Whitney Exemple Résultats sur R Wilcoxon rank sum test data: valeurs by facteur W = 19, p-value = 0.1344 alternative hypothesis: true location shift is not equal to 0 Remarque sur le W calculé le W de Wilcoxon donné ici est égal au nombre de toutes les paires (x 1i, x 2j ) pour lesquelles x 2j x 1i. Conclusion p value = 0.13 > 0.05 non rejet de H 0 au risque 5% pas de différence significative entre les médianes des espérances de vie des patients avec les médicaments A et B au risque 5% 16 / 47

Test des rangs signés de Wilcoxon Objectif Comparaison des médianes de deux populations dans le cas d échantillons dépendants (= séries appariées). Autres noms du test Test des rangs signés / test de Wilcoxon Test des rangs par paires Données Population 1 Echantillon 1 Données : x 1,..., x n Taille : n Population 2 Echantillon 2 Données : y 1,..., y n Taille : n 17 / 47

18 / 47 Test des rangs signés de Wilcoxon Test paramétrique "équivalent" Selon les cas : test utilisant la loi normale ou la loi de Student. Rappels Pour comparer les moyennes de 2 populations dans le cas de séries appariées : Cas 1 : Si n 30 : loi normale Cas 2 : Si n < 30 Si D = (X Y ) N (µ D, σ D ) : test de Student Si D = (X Y ) N (µ D, σ D ) : test des rangs signés de Wilcoxon

Test des rangs signés de Wilcoxon Exemple Problème Un nouveau médicament C est développé et testé préalablement sur un petit nombre de personnes (10) ayant un taux de cholestérol total trop élevé. Le taux de cholestérol total de ces 10 personnes est mesuré avant et après administration de ce médicament. Question Le médicament C a t-il un effet sur le cholestérol total des patients? La médiane du taux de cholestérol total des patients après administration du médicament C est-elle significativement différente de celle avant prise de ce médicament, au risque α? 19 / 47

Test des rangs signés de Wilcoxon Question statistique et tests préliminaires Variable X D = X 1 X 2 : 1 variable quantitative (continue ou discrète) Hypothèses statistiques H 0 : égalité des médianes des 2 populations H 0 : Me D = 0 H 1 bilatéral : non égalité des médianes des 2 populations H 1 : Me D 0 Remarque : il est aussi possible de faire un test unilatéral (gauche ou droit) 20 / 47

Test des rangs signés de Wilcoxon Choix du test Tests préliminaires Normalité des données? Visualisation des données Test de normalité (Shapiro-Wilk) Choix du test En l absence de normalité utilisation du test non paramétrique des rangs signés de Wilcoxon 21 / 47

Test des rangs signés de Wilcoxon Statistique de test Valeur de la statistique de test w c 1. On calcule les différences entre les valeurs appariées. 2. On compte le nombre de différences non nulles : N 3. On classe ces N différences (en valeur absolue!) par ordre croissant. 4. On affecte à chaque différence son rang dans ce classement. 5. En cas d ex-aequo, on prend un rang qui est la moyenne des rangs occupés par ces ex-aequo. 6. On calcule les sommes suivantes : Somme des rangs des différences positives : w+ Somme des rangs des différences négatives : w N(N + 1) 7. On vérifie que : w + + w = 2 8. On prend : w c = min(w +, w ) 22 / 47

Test des rangs signés de Wilcoxon Confrontation et conclusion Lecture de la valeur seuil w s La table de Wilcoxon donne la valeur de w sα telle que P(W w sα ) = α (même sens que table de Mann-Whitney) On lit w s5% pour la valeur N et pour α = 5%. Décision statistique et conclusion On compare w c et w s : Si w c w s5% : rejet de H 0 au risque 5% il existe une différence significative entre les deux médianes au risque 5%. Si w c > w s5% : non rejet de H 0 au risque 5% il n existe pas de différence significative entre les deux médianes au risque 5%. Remarque : attention au sens des inégalités! 23 / 47

24 / 47 Test des rangs signés de Wilcoxon Approximation normale Remarque Si N est assez grand (N > 25), W suit approximativement la loi normale N(µ, σ) sous H0 avec : µ = N(N + 1) 2 et σ = N(N + 1)(2N + 1) La variable centrée réduite correspondante est alors : ɛ = W µ σ On détermine ensuite la valeur calculée de cette statistique de test et on compare cette valeur avec la valeur seuil lue dans la table de la loi normale. 24

25 / 47 Test des rangs signé de Wilcoxon Logiciel R Commande R > wilcox.test(valeurs, alternative= two.sided, conf.level=.95, paired=true) Remarque sur la p-value Utilisation des options exact et correct de la même façon que précédemment. Le calcul de la p-value se fait donc selon un des cas suivants : Sans approximation Avec une approximation normale Avec une approximation normale et correction de continuité

26 / 47 Test des rangs signé de Wilcoxon Exemple Résultats sur R Wilcoxon signed rank test with continuity correction data: valeurs V = 27, p-value = 0.234 alternative hypothesis: true location shift is not equal to 0 Conclusion p value = 0.23 > 0.05 non rejet de H 0 au risque 5% pas de différence significative entre les médianes des taux de cholestérol des patients avant et après administration du médicament C au risque 5%

27 / 47 Test des rangs signés de Wilcoxon Remarques Remarque Si on veut faire une comparaison d une moyenne à une moyenne de référence dans un cas non paramétrique (petit échantillon et/ou absence de normalité des données), on utilise également le test des rangs signés de Wilcoxon (voire le test des signes de Wilcoxon)

28 / 47 Test de Kruskal-Wallis Objectif Comparaison des médianes de k populations dans le cas d échantillons indépendants (avec k > 2). Exemple Comparaison des médianes de 3 populations (k = 3). Données Population 1 Echantillon 1 x 1,..., x n1 Taille : n 1 Population 2 Echantillon 2 y 1,..., y n2 Taille : n 2 Population 3 Echantillon 3 z 1,..., z n3 Taille : n 3

29 / 47 Test de Kruskal-Wallis Test paramétrique "équivalent" ANOVA (Analysis of Variance) à 1 facteur. Conditions d application du test Normalité Homoscédasticité Indépendance des distributions Loi utilisée : loi de Fisher Snédécor (F)

Test de Kruskal-Wallis Exemple Problème Dans un laboratoire, 3 équipes travaillent sur le dosage plasmatique d une protéine chez le rongeur en utilisant 3 méthodes différentes (T 1, T 2 et T 3 ). Ces équipes mesurent les concentrations de cette protéine sur 6 rongeurs, 5 rongeurs et 6 rongeurs respectivement. Question Le dosage de la protéine est-il le même avec les 3 méthodes T 1, T 2 et T 3? La médiane de la concentration de protéine est-elle significativement différente selon la méthode utilisée (T 1, T 2 et T 3 ), au risque α? 30 / 47

31 / 47 Test de Kruskal-Wallis Question statistique Variables 3 variables : X 1, X 2 et X 3 variables quantitatives (continues ou discrètes) Hypothèses statistiques H 0 : égalité des médianes des populations : Me 1 = Me 2 = Me 3 H 1 (toujours bilatéral) : non égalité d au moins 2 médianes des populations : (i, j) tq Me i Me j

32 / 47 Test de Kruskal-Wallis Tests préliminaires et statistique de test Tests préliminaires Normalité des données? Visualisation des données Test de normalité (Shapiro-Wilk) Homoscédascticité? Test de comparaison de variances (Bartlett ou Levene) Valeur de la statistique de test h c 1. On rassemble les valeurs des trois échantillons et on classe ces valeurs par ordre croissant. 2. On affecte un rang à chaque valeur (rang 1 à (n 1 + n 2 + n 3 )). 3. En cas d ex-aequo, on prend un rang qui est la moyenne des rangs occupés par ces ex-aequo.

33 / 47 Test de Kruskal-Wallis Statistique de test Valeur de la statistique de test h c (suite) 1. On calcule les sommes suivantes : Somme des rangs des valeurs de l échantillon 1 : r1 Somme des rangs des valeurs de l échantillon 2 : r 2 Somme des rangs des valeurs de l échantillon 3 : r 3 2. On calcule h c : ( ) 12 k r 2 h c = n(n + 1) j 3 (n + 1) n j avec n = n 1 + n 2 + n 3 j=1 Lecture de la valeur seuil h s La table de Kruskal-Wallis donne la valeur de h sα telle que P(H h sα ) = α Pour les valeurs n 1, n 2 et n 3 et pour α = 5%, on lit h s5%

34 / 47 Test de Kruskal-Wallis Confrontation et conclusion Décision statistique et conclusion On compare h c et h s : Si h c h s5% : non rejet de H 0 au risque 5% il n existe pas de différence significative entre les médianes au risque 5%. Si h c > h s5% : rejet de H 0 au risque 5% il existe une différence significative entre les médianes au risque 5%. Remarque Lorsque les effectifs (n 1, n 2,..., n k ) sont tous 5, on peut utiliser le test du Chi-deux à (k 1) ddl (k étant le nombre de groupes)

Test de Kruskal-Wallis Logiciel R et exemple Commande R > kruskal.test(valeurs) Résultats sur R Kruskal-Wallis rank sum test data: valeurs by facteur Kruskal-Wallis chi-squared = 3.2518, df = 2, p-value = 0.1967 Conclusion p value = 0.19 > 0.05 non rejet de H 0 au risque 5% pas de différence significative entre les médianes des concentrations de protéine avec les 3 méthodes T 1, T 2 et T 3 au risque 5% pas d effet significatif de la méthode de dosage sur la concentration en protéine au risque 5% 35 / 47

36 / 47 Test de Kruskal-Wallis Remarque Comparaisons 2 à 2 Si le test est significatif (p c < 0.05) : Conclusion : au moins 2 médianes sont significativement différentes Tests supplémentaires : tests spécifiques de comparaison de médianes 2 à 2

Test de Friedman Objectif Comparaison des médianes de k populations dans le cas d échantillons appariés (avec k > 2). Exemple Comparaison des médianes de 3 populations (k = 3). Données Population 1 Echantillon 1 x 1,..., x n1 Taille : n Population 2 Echantillon 2 y 1,..., y n2 Taille : n Population 3 Echantillon 3 z 1,..., z n3 Taille : n 37 / 47

38 / 47 Test de Friedman Test paramétrique "équivalent" ANOVA (Analysis of Variance) à 2 facteurs. Conditions d application du test Normalité Homoscédasticité Indépendance des distributions Loi utilisée : loi de Fisher Snédécor (F)

Test de Friedman Exemple Problème Afin d étudier l effet de la dose d un médicament sur la concentration plasmatique en un métabolite particulier P, on administre à 7 patients 3 doses différentes (D 1, D 2 et D 3 ) de ce médicament sur 3 jours de la semaine et on mesure la concentration de P après chacune administration. Question La concentration en métabolite P est-elle différente selon la dose administrée? La médiane de la concentration de P est-elle significativement différente selon la dose administrée (D 1, D 2 et D 3 ), au risque α? 39 / 47

40 / 47 Test de Friedman Question statistique Variables 3 variables : X 1, X 2 et X 3 Variables quantitatives (continues ou discrètes) Hypothèses statistiques H 0 : égalité des médianes des populations : Me 1 = Me 2 = Me 3 les 3 échantillons viennent de la même population H 1 (toujours bilatéral) : non égalité d au moins 2 médianes des populations (i, j) tq Me i Me j les 3 échantillons ne viennent pas de la même population

41 / 47 Test de Friedman Tests préliminaires et statistique de test Test préliminaire : normalité des données? Visualisation des données Test de normalité (Shapiro-Wilk) Valeur de la statistique de test Q c 1. On met en colonne les k groupes (ou catégories) à comparer et en ligne les n individus (ou blocs d individus). 2. On affecte un rang aux valeurs dans chaque ligne (rang 1 à k). 3. En cas d ex-aequo, on prend un rang qui est la moyenne des rangs occupés par ces ex-aequo. 4. On calcule la somme des rangs de chaque colonne (R j pour j 1,..., k)

Test de Friedman Statistique de test Valeur de la statistique de test Q c (suite) 1. En l absence d ex-aequo : Q c = 12 nk(k + 1) k j=1 ( ) Rj 2 3n(k + 1) n : nombre de lignes k : nombre de colonnes (groupes à comparer) 2. En présence d ex-aequo (pas au programme) : Qc = 1 Q c (d 3 ij d ij ) nk(k 2 1) Lecture de la valeur seuil Q s La table de Friedman donne la valeur de Q sα telle que P(Q Q sα ) = α Pour les valeurs k et n et pour α = 5%, on lit Q s5% 42 / 47

43 / 47 Test de Friedman Confrontation et conclusion Décision statistique et conclusion On compare Q c et Q s : Si Q c Q s5% : non rejet de H 0 au risque 5% il n existe pas de différence significative entre les médianes au risque 5%. Si Q c > Q s5% : rejet de H 0 au risque 5% il existe une différence significative entre les médianes au risque 5%. Remarque Lorsque k et n sont assez grands (k > 4 et n > 15), on peut utiliser le test du Chi-deux à (k 1) ddl (k : nombre de groupes)

Test de Friedman Logiciel R et exemple Commande R > friedman.test(valeurs) Résultats sur R Friedman rank sum test data: valeurs Friedman chi-squared = 8, df = 2, p-value = 0.01832 Conclusion p value = 0.018 < 0.05 rejet de H 0 au risque 5% différence significative entre au moins deux médianes de concentrations en métabolites selon la dose administrée au risque 5% effet significatif de la dose sur la concentration en métabolite au risque 5%. 44 / 47

45 / 47 Test de Friedman Remarque Comparaisons 2 à 2 Si le test est significatif (p c < 0.05) : Conclusion : au moins 2 médianes sont significativement différentes Tests supplémentaires : tests spécifiques de comparaison de médianes 2 à 2

46 / 47 Plan du cours Tests non paramétriques Comparaison de médianes (langage courant : comparaison de moyennes) Comparaison de 2 médianes, échantillons indépendants Test de Wilcoxon / Mann-Whitney Comparaison de 2 médianes, échantillons appariés Test des rangs signés de Wilcoxon Comparaison de plus de 2 médianes, échantillons indépendants Test de Kruskal-Wallis Comparaison de plus de 2 médianes, échantillons appariés Test de Friedman Autres tests non paramétriques

47 / 47 Autres tests non paramétriques Exemples Tests du χ 2 Comparaison d une distribution à une distribution de référence Comparaison de 2 distributions ou de 2 proportions Etude de l indépendance de deux variables Test de corrélation (des rangs) de Spearman étude de la corrélation entre deux variables (quantitatives) Test de Kolmogorov-Smirnov, test de Lilliefors,... Etude de la normalité Test de Fligner-Kileen,... Comparaison de variances