STATISTIQUES APPLIQUÉES À LA BIOLOGIE :

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Introduction à la statistique non paramétrique

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Biostatistiques : Petits effectifs

TESTS D'HYPOTHESES Etude d'un exemple

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Estimation et tests statistiques, TD 5. Solutions

Lois de probabilité. Anita Burgun

Lire ; Compter ; Tester... avec R

VI. Tests non paramétriques sur un échantillon

Statistique : Résumé de cours et méthodes

Représentation d une distribution

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Document d orientation sur les allégations issues d essais de non-infériorité

Principe d un test statistique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

I. Cas de l équiprobabilité

Logiciel XLSTAT version rue Damrémont PARIS

Précision d un résultat et calculs d incertitudes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Que faire lorsqu on considère plusieurs variables en même temps?

!-.!#- $'( 1&) &) (,' &*- %,!

Séries Statistiques Simples

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Chapitre 3. Les distributions à deux variables

Chapitre 3 : INFERENCE

TSTI 2D CH X : Exemples de lois à densité 1

23. Interprétation clinique des mesures de l effet traitement

Statistiques Descriptives à une dimension

Introduction aux Statistiques et à l utilisation du logiciel R

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

LES DECIMALES DE π BERNARD EGGER

Annexe commune aux séries ES, L et S : boîtes et quantiles

PROBABILITES ET STATISTIQUE I&II

Localisation des fonctions

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Variables Aléatoires. Chapitre 2

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Calcul élémentaire des probabilités

Item 169 : Évaluation thérapeutique et niveau de preuve

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Programmes des classes préparatoires aux Grandes Ecoles

Le modèle de Black et Scholes

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Le chi carré. Le sommaire. Approche quantitative

La nouvelle planification de l échantillonnage

Loi binomiale Lois normales

Finance, Navier-Stokes, et la calibration

Introduction à l approche bootstrap

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Strasbourg. De la statistique. aux probabilités. en lycée. De la statistique. aux probabilités. en lycée. Octobre 2006

Leçon N 4 : Statistiques à deux variables

données en connaissance et en actions?

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Table des matières. I Mise à niveau 11. Préface

3. Caractéristiques et fonctions d une v.a.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Sondage de référence 2005 sur la satisfaction des clients du CRSH

Ressources pour le lycée général et technologique

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Statistique Descriptive Élémentaire

Moments des variables aléatoires réelles

Cours 9 : Plans à plusieurs facteurs

Introduction à la Statistique Inférentielle

Exercices de génétique classique partie II

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Analyse et interprétation des données

Solution de stress test Moody s Analytics

Fonctions de plusieurs variables

Votre capital le plus précieux: Les collaborateurs de votre entreprise.

Probabilités sur un univers fini

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Niveau de scolarité et emploi : le Canada dans un contexte international

Foscolo (1), J Felblinger (2), S Bracard (1) CHU Hôpital central, service de neuroradiologie, Nancy (1) CHU BRABOIS, Centre d investigation clinique

Théorie des sondages : cours 5

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Statistiques à une variable

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Analyse de la variance Comparaison de plusieurs moyennes

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Pour les Pros, par des Pros!

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

quelques Repères pour Doctorants

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Ouverture d une Pépinière dédiée à la finance 5 rue d UZès

Transcription:

STATISTIQUES APPLIQUÉES À LA BIOLOGIE : LES TESTS NON PARAMÉTRIQUES. Alexandre Popier L3 BBTE, Université du Maine, Le Mans Semestre 1 A. P. (Le Mans) Tests non paramétriques. Semestre 1 1 / 41

PLAN DU COURS 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 2 / 41

ÉLÉMENTS DE LANGAGE. PARAMÉTRIQUE ET NON PARAMÉTRIQUE : Mathématiques : Paramétrique : porte sur un paramètre (proportion, moyenne, variance, etc.), c est-à-dire un nombre (ou un vecteur). Tests de signe : paramétriques (portent sur la médiane). Non paramétrique : porte sur une densité, une loi, etc. χ 2 et Kolmogorov : non paramétriques. Biologie : Non paramétrique : sans condition sur la loi des données ou libre de distribution. POINT COMMUN : Test avec une erreur de seconde espèce pas (ou mal) contrôlée! Raison : hypothèse alternative trop vaste. A. P. (Le Mans) Tests non paramétriques. Semestre 1 3 / 41

TABLEAU RÉSUMÉ. Test Conditions Proportion P n 30 : loi binomiale n 30 : N (0, 1) Comparaison n 30 : N (0, 1) Moyenne ou variance P (inclus comparaison) n 30 : N (0, 1) Indépendance χ 2 effectifs attendus E NP ou homogénéité supérieurs à 5 Adéquation χ 2 E 5, loi discrète NP K-S n 8, loi continue Médiane signe ou (inclus comparaison) Wilcoxon NP Comparaison sur k > 2 échantillons Kruskal-Wallis NP A. P. (Le Mans) Tests non paramétriques. Semestre 1 4 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 5 / 41

EXEMPLE 1 : DERNIER CHIFFRE DES POIDS. QUESTIONNAIRE DE SANTÉ : sous estimation et arrondi du poids réel. 80 personnes interrogées indépendamment. Dernier chiffre Effectif Dernier chiffre Effectif 0 35 5 24 1 0 6 1 2 2 7 4 3 1 8 7 4 4 9 2 En principe les 10 chiffres sont équiprobables. DÉFINITION Un test d adéquation est utilisé pour tester que la distribution des fréquences observées est en adéquation avec (conforme à) une distribution donnée. A. P. (Le Mans) Tests non paramétriques. Semestre 1 6 / 41

EXEMPLE 2 : GÉNOTYPE DES ENFANTS. 90 enfants sélectionnés aléatoirement. Génotype Effectif observé Effectif attendu AA 22 90 0, 25 = 22, 5 Aa 55 90 0, 50 = 45, 5 aa 13 90 0, 25 = 22, 5 AA : enfant sain. Aa : enfant porteur. aa : enfant malade. A. P. (Le Mans) Tests non paramétriques. Semestre 1 7 / 41

EXEMPLE 3 : VACCIN DE SALK. Contre la polyomélite. Étude faite en 1954 à Chicago. Tableau de contingence suivant : Polio paralysante? Oui Non Groupe traitement vaccin de Salk 33 200712 Groupe placebo 115 201114 DÉFINITION Un test d indépendance teste l hypothèse nulle qu il n y a pas d association entre la variable ligne et la variable en colonne dans un tableau de contingence. A. P. (Le Mans) Tests non paramétriques. Semestre 1 8 / 41

EXEMPLE 4 : SEXE ET RÉPONSE AUX SONDAGES. SONDAGE avec question posée : «L avortement est un sujet privé qui devrait être laissé à la décision des femmes sans intervention du gouvernement.» Sondeurs hommes interrogent 800 hommes. Sondeurs femmes interrogent 400 hommes. Sexe du sondeur Homme Femme Hommes qui sont d accord 560 308 Hommes qui sont en désaccord 240 92 QUESTION : la réponse du sondé dépend-elle du sexe du sondeur? Ici on parle parfois d homogénéité : les différentes populations ont-elles les mêmes proportions que certaines caractéristiques? A. P. (Le Mans) Tests non paramétriques. Semestre 1 9 / 41

BASE COMMUNE : LA LOI DU χ 2. La loi du chi-deux à k degrés de liberté est donnée par la densité : f (x) = 1 2 k/2 Γ(k/2) x (k/2) 1 e x/2, x > 0. y 0.0 0.1 0.2 0.3 0.4 0.5 k=2 k=3 k=5 k=10 0 5 10 15 20 x A. P. (Le Mans) Tests non paramétriques. Semestre 1 10 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 11 / 41

QUELQUES NOTATIONS ET HYPOTHÈSES. EFFECTIFS OBSERVÉS ET ATTENDUS : 1 O : les effectifs observés des résultats. 2 E : les effectifs attendus. 3 k : nombre de catégories pour les résultats. 4 n : nombre total de résultats. REMARQUE : effectifs attendus calculés comme suit : multiplication du nombre total par la probabilité de la catégorie. CONDITIONS À REMPLIR : Les données sont sélectionnées aléatoirement. Les données d échantillon sont des comptages des effectifs pour chacune des différentes catégories. Pour chaque catégorie l effectif attendu est au moins 5 (aucune condition sur l effectif observé). A. P. (Le Mans) Tests non paramétriques. Semestre 1 12 / 41

STATISTIQUE DE TEST ET CONCLUSION. STATISTIQUE DE TEST : χ 2 = (O E) 2. E χ 2 : loi du chi deux à k 1 degrés de liberté (k : nombre de catégories). Tests toujours unilatéraux à droite. CONCLUSION : Grande adéquation entre les valeurs : petite valeur de χ 2 ou grande P-valeur. Seuil à lire dans la table ou via R en utilisant qchisq. ERREUR DE SECONDE ESPÈCE : dans tous les tests du χ 2, on ne la contrôle pas! Accepter H 0 est une faute! A. P. (Le Mans) Tests non paramétriques. Semestre 1 13 / 41

EXEMPLE 1 : POIDS. TEST : on pense que les gens trichent et arrondissent leur poids. H 0 = {p 0 = p 1 =... = p 9 } : pas d arrondi, chiffres équiprobables. H 1 : au moins une des probabilités est différente des autres. Niveau α = 5% : seuil pour k 1 = 9 : 16,92 (qchisq(0.05,9,lower.tail=f)). n = 80 personnes interrogées. (O E) 2 Dernier chiffre Effectif observé O Effectif attendu E E 0 35 8 91,125 1 0 8 8 2 2 8 4,5.... Totaux 80 80 χ 2 = 156, 6 CONCLUSION : χ 2 > 16, 92 : on rejette H 0. A. P. (Le Mans) Tests non paramétriques. Semestre 1 14 / 41

EXEMPLE 1 : POIDS. 0.00 0.02 0.04 0.06 0.08 0.10 Valeurs cohérentes Zone de rejet A. P. (Le Mans) Tests non paramétriques. Semestre 1 14 / 41

EXEMPLE 2 : GÉNOTYPE. TRAITEMENT SOUS R pour un niveau de 1%. O<-c(22, 55, 13) E<-90*c(0.25,0.5,0.25) chideux<-sum((o-e)ˆ2/e) chideux seuil<-qchisq(0.01,2,lower.tail=f) seuil Pvaleur<-pchisq(chideux,2,lower.tail=F) Pvaleur p<-e chisq.test(o,p=p,rescale.p=t) QU EN CONCLUEZ-VOUS? A. P. (Le Mans) Tests non paramétriques. Semestre 1 15 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 16 / 41

RAPPEL : EXEMPLE 3. Contre la poliomyélite. Étude faite en 1954 à Chicago. Tableau de contingence suivant : Polio paralysante? Oui Non Groupe traitement vaccin de Salk 33 200712 Groupe placebo 115 201114 TEST D INDÉPENDANCE : H 0 : variables de ligne et de colonne indépendantes. H 1 : variables de ligne et de colonne dépendantes. CONDITIONS À REMPLIR : Les données sont sélectionnées aléatoirement. Les données d échantillon sont des comptages des effectifs. Pour chaque catégorie l effectif attendu est au moins 5 (aucune condition sur l effectif observé). A. P. (Le Mans) Tests non paramétriques. Semestre 1 17 / 41

FRÉQUENCES MARGINALES ET CONDITIONNELLES. DÉFINITION La somme des effectifs de chaque ligne (ou colonne) donne les effectifs marginaux. Ils permettent de décrire la distribution de la variable placée en ligne (ou en colonne). En divisant les effectifs marginaux par l effectif total du tableau (somme de toutes les cellules), on obtient les fréquences marginales. RETOUR SUR L EXEMPLE 3 : Polio paralysante? Oui Non Effectifs Fréquences Traitement 33 200712 200745 49,9% Placebo 115 201114 201229 50,1% Effectifs 148 401826 401974 Fréquences 0,037% 99,963% 100% A. P. (Le Mans) Tests non paramétriques. Semestre 1 18 / 41

FRÉQUENCES MARGINALES ET CONDITIONNELLES. DÉFINITION L étude séparée des lignes du tableau s appelle étude conditionnelle. On calculera les fréquences pour chaque ligne. On parle de fréquences conditionnelles des lignes. RETOUR SUR L EXEMPLE 3 : en pourcentage Polio paralysante? Oui Non Total Traitement 0,016 99,984 100 Placebo 0,029 99,971 100 A. P. (Le Mans) Tests non paramétriques. Semestre 1 18 / 41

INDÉPENDANCE STATISTIQUE. DÉFINITION L indépendance est la situation extrême dans une table de contingence où il n existe aucune relation entre les deux variables. Les fréquences conditionnelles des lignes sont alors toutes identiques et égales à la fréquence marginale des colonnes. PROPRIÉTÉ Dans le cas d indépendance, l effectif de chaque cellule se retrouve en utilisant uniquement les effectifs marginaux : Effectif de la cellule (i, j) = total ligne i total colonne j. total tableau A. P. (Le Mans) Tests non paramétriques. Semestre 1 19 / 41

INDÉPENDANCE STATISTIQUE. Pour chaque cellule, on calcule cette valeur. Elle est considérée comme l effectif attendu sous l hypothèse d indépendance. RETOUR SUR L EXEMPLE 3 : tableau des effectifs attendus E Polio paralysante? Oui Non Traitement 200745 148 401974 = 73, 91 200671,09 Placebo 74,089 201154,91 A. P. (Le Mans) Tests non paramétriques. Semestre 1 19 / 41

TEST D INDÉPENDANCE DU χ 2. DÉFINITION La statistique du χ 2 d indépendance de Pearson consiste à faire χ 2 = (O E) 2. E χ 2 suit la loi du chi deux à (r 1)(c 1) degrés de liberté où r est le nombre de lignes, c celui de colonnes. Plus sa valeur est importante, plus les deux variables sont liées. A. P. (Le Mans) Tests non paramétriques. Semestre 1 20 / 41

RETOUR SUR L EXEMPLE DE LA POLIO. Valeurs numériques : χ 2 = (33 73, 91)2 73, 91 + 0, 008 +... + 0, 008 = 45, 252. Seuil critique 3, 841 (qchisq(0.05,1,lower.tail=f)). Conclusion : recevoir le vaccin n est pas indépendant d avoir la polio. A. P. (Le Mans) Tests non paramétriques. Semestre 1 21 / 41

RETOUR SUR L EXEMPLE DE LA POLIO. CODE R : O<-c(33,200712,115,201114) Obs<-matrix(O,2,2,byrow=T) cols<-colsums(obs) ligs<-rowsums(obs) tot<-sum(cols) E<-c(ligS[1]*colS[1],ligS[1]*colS[2],......ligS[2]*colS[1],ligS[2]*colS[2])/tot chideux<-sum((o-e) 2 / E) chideux seuil<-qchisq(0.05,1,lower.tail=f) seuil Pvaleur<-pchisq(chideux,1,lower.tail=F) Pvaleur chisq.test(obs,correct=f) A. P. (Le Mans) Tests non paramétriques. Semestre 1 21 / 41

LÉSIONS CÉRÉBRALES ET SPORT. À faire à titre d entraînement! QUESTION : détecte-t-on des lésions cérébrales chez les sportifs subissant régulièrement des chocs à la tête par contact? ÉTUDE sur le football américain et le soccer par IRM (1997) : Groupes Oui Non Foot. am. 7 11 Soccer 11 4 Contrôles 5 15 RECHERCHE d une association entre activité et risque de dysfonctionnement. A. P. (Le Mans) Tests non paramétriques. Semestre 1 22 / 41

RAPPEL EXEMPLE 4 : SEXE ET RÉPONSE AUX SONDAGES. SONDAGE Sexe du sondeur Homme Femme Hommes qui sont d accord 560 308 Hommes qui sont en désaccord 240 92 Test : indépendance entre réponse et sexe du sondeur. Autre formulation : homogénéité H 0 : proportions de réponses en accord/désaccord identiques pour les sujets sondés par des hommes et pour les sujets sondés par des femmes. H 1 : proportions différentes. A. P. (Le Mans) Tests non paramétriques. Semestre 1 23 / 41

MISE EN PLACE DU TEST. CALCULS : identiques au test d indépendance! EXERCICE : 1 Retrouver les effectifs attendus (entre parenthèses) Sexe du sondeur Homme Femme Accord 560 (E = 578, 67) 308 (289,33) Désaccord 240 (221,33) 92 (110,67) 2 En déduire la valeur de χ 2. Quelle est la valeur seuil? CONCLUSION : Les réponses et le sexe du sondeur sont dépendants, donc les hommes semblent influencés par le sexe du sondeur. A. P. (Le Mans) Tests non paramétriques. Semestre 1 24 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 25 / 41

UN AUTRE TEST D ADÉQUATION. TEST D ADÉQUATION : H 0 = {L = L 0 } vs. H 1 = {L L 0 }. L : loi des données. L 0 : loi fixée. Exemple : L 0 = normale N (2, 4). TEST DU CHI DEUX : possible pour les lois discrètes La loi L 0 spécifique un nombre fini de valeurs avec une probabilité pour chaque valeur. TEST DE KOLMOGOROV-SMIRNOV : Complémentaire car valable pour une loi L 0 avec densité. Programmé en R via la fonction ks.test. A. P. (Le Mans) Tests non paramétriques. Semestre 1 26 / 41

EXEMPLE. PÉRIMÈTRE CRANIEN des nouveaux-nés garçons. Récupérer sur UMTICE le fichier MHED.txt et l importer dans R. Calculer la moyenne m et l écart-type s de cet échantillon. Tester si cet échantillon suit une loi gaussienne de paramètres m et s 2. ecdf(taille.h) Fn(x) 0.0 0.2 0.4 0.6 0.8 1.0 Bébés garçons Bébés filles Loi normale 36 38 40 42 44 A. P. (Le Mans) Tests non paramétriques. x Semestre 1 27 / 41

EXEMPLE. EXTENSION : Ce test permet aussi de tester l égalité en loi de deux échantillons. L illustrer avec les données pour les filles via le fichier FHED. Test de normalité : utiliser plutôt le test de Shapiro-Wilk (shapiro.test). Efficace même avec de petits échantillons. Peut être complété par un QQ-plot (qqnorm). Normal Q-Q Plot Sample Quantiles 36 38 40 42-2 -1 0 1 2 A. P. (Le Mans) Theoretical Quantiles Tests non paramétriques. Semestre 1 27 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 28 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 29 / 41

POUR DES DONNÉES APPARIÉES. DÉFINITION (TEST DES RANGS SIGNÉS) Test non paramétrique qui utilise les rangs des données appariées et qui teste H 0 : les données appariées ont des différences qui viennent d une population dont la médiane est nulle. H 1 : les données appariées ont des différences qui viennent d une population dont la médiane n est pas égale à 0. Peut aussi être utilisé pour tester l affirmation qu un échantillon vient d une population avec une médiane spécifique. REMARQUE : existe en une version plus simple (test des signes) qui ne tient pas compte de l amplitude des différences. A. P. (Le Mans) Tests non paramétriques. Semestre 1 30 / 41

STATISTIQUE DE TEST. ÉTAPES DE CALCUL : 1 Calculer la différence pour chaque paire de données. 2 Ignorer les signes des différences, trier les différences par ordre croissant et remplacer les différences par leur rang. En cas d égalité, affecter la moyenne des rangs. 3 Affecter à chaque rang le signe de la différence. 4 Calculer la somme des valeurs absolues des rangs négatifs et la somme des rangs positifs. NOTATIONS : T : plus petite des deux sommes. n : nombre de paires avec une différence non nulle. STATISTIQUE : n 30 : T (loi tabulée ou dsignrank). n > 30 : Z = T n(n+1) 4 (à peu près N (0, 1)). n(n+1)(2n+1) 24 A. P. (Le Mans) Tests non paramétriques. Semestre 1 31 / 41

STATISTIQUE DE TEST. n = 11, seuils 11 et 55. 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Valeurs cohérentes Zone de rejet A. P. (Le Mans) Tests non paramétriques. Semestre 1 31 / 41

EXEMPLE 1 : RENDEMENT DU MAÏS. TEST sur la différence de rendement de graines de maïs. Données appariées. H 0 : pas de différence, autant de plus que de moins. Médiane des différences nulle. H 1 : différence, médiane non nulle. A. P. (Le Mans) Tests non paramétriques. Semestre 1 32 / 41

EXEMPLE 1 : RENDEMENT DU MAÏS. Rendement du maïs pour différentes graines Ordinaires Séchées Différence Rang Rang signé 1903 2009-106 10-10 1935 1915 20 1 1 1910 2011-101 9-9 2496 2463 33 3 3 2108 2180-72 8-8 1961 1925 36 4 4 2060 2122-62 6-6 1444 1482-38 5-5 1612 1542 70 7 7 1316 1443-127 11-11 1511 1535-24 2-2 A. P. (Le Mans) Tests non paramétriques. Semestre 1 32 / 41

EXEMPLE 1 : RENDEMENT DU MAÏS. Somme rangs positifs = 15, somme des rangs négatifs = 51 (valeur absolue). T = 15, n = 11. Seuils = 11 et 55. Conclusion : 11 < T < 55, pas de différence. CODE EN R : à partir des données déjà importées sur R. diffabs<-abs(diff) r<-rank(diffabs) si<-sign(diff) rs<-r*si T<-min(sum(rs[rs>0]),-sum(rs[rs<0])) seuils<-c(qsignrank(0.025,11),qsignrank(0.025,11,lower Pvaleur<-2*psignrank(T,11) wilcox.test(rend.ord,rend.sec,paired=t) A. P. (Le Mans) Tests non paramétriques. Semestre 1 32 / 41

EXEMPLE 2. MÉDIANE SUR UNE POPULATION. EXEMPLE Le jeu de données BTEMP.txt inclut des températures relevées chez des adultes (en degrés Fahrenheit). Utilisez ces 106 températures prises à midi pour tester l affirmation que la médiane est inférieure à 37 C. Pour convertir les degrés Fahrenheit en Celsius, soustraire 32 et diviser par 1,8. Attention : test unilatéral. A. P. (Le Mans) Tests non paramétriques. Semestre 1 33 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 34 / 41

TEST DE WILCOXON AVEC ÉCHANTILLONS INDÉPENDANTS. QUELQUES REMARQUES. Appelé aussi TEST DES SOMMES DES RANGS. Équivalent au TEST DE MANN-WHITNEY. Test plus puissant que Kolmogorov-Smirnov ou signes. IDÉE DU TEST : Rassembler les deux échantillons en un seul. Calculer les rangs du premier échantillon dans ce regroupement. NOTATIONS : n 1 : taille de l échantillon 1. n 2 : taille de l échantillon 2. R = R 1 : somme des rangs de l échantillon 1. R 2 : somme des rangs de l échantillon 2. A. P. (Le Mans) Tests non paramétriques. Semestre 1 35 / 41

STATISTIQUE DE TEST. Donnée par R n 1(n 1 + 1) : loi de Wilcoxon (dwilcox). 2 pour n 1 8 et n 2 8 : Z = R m R, m R = n 1(n 1 + n 2 + 1) n1 n 2 (n 1 + n 2 + 1), s r =. s R 2 12 Sous H 0, approximation gaussienne N (0, 1). TEST DE MANN-WHITNEY. Z = U n 1n 2 2 n 1 n 2 (n 1 +n 2 +1) 12, U = n 1 n 2 n 1(n 1 + 1) 2 R. A. P. (Le Mans) Tests non paramétriques. Semestre 1 36 / 41

EXEMPLE : IMC HOMME-FEMME. À EFFECTUER SOUS R. Récupérer les données IMC homme et femme (fichiers HBIM.txt et FBMI.txt) sur UMTICE. Entrer ce qui suit imc.f<-t(imc.f) imc.h<-t(imc.h) n1<-length(imc.f) n2<-length(imc.h) imc<-c(imc.f, imc.h) r<-rank(imc) R<-sum(r[seq(1,n1,1)]) R2<-sum(r[seq(n1+1,n1+n2,1)]) mr<-n1*(n1+n2+1)/2 sr<-sqrt((n1*n2*(n1+n2+1))/12) A. P. (Le Mans) Tests non paramétriques. Semestre 1 37 / 41

EXEMPLE : IMC HOMME-FEMME. À EFFECTUER SOUS R. Récupérer les données IMC homme et femme (fichiers HBIM.txt et FBMI.txt) sur UMTICE. Entrer ce qui suit Puis faites le test RR<-R-n1*(n1+1)/2 #statistique de wilcox.test seuils<-c(qwilcox(0.025,n1,n2),......qwilcox(0.025,n1,n2,lower.tail=f)) Pvaleur<-pwilcox(RR,n1,n2)......+pwilcox(n1*n2-RR,n1,n2,lower.tail=F) Z<-(R-mR)/sR Pvaleur<-2*pnorm(abs(Z),0,1,lower.tail=F) wilcox.test(imc.f,imc.h,correct=f) A. P. (Le Mans) Tests non paramétriques. Semestre 1 37 / 41

PLAN 1 TEST DU CHI DEUX (χ 2 ) Test d adéquation Test d indépendance 2 TESTS D ADÉQUATION : KOLMOGOROV-SMIRNOV ET SHAPIRO-WILK 3 TESTS BASÉS SUR LES SIGNES ET LES RANGS Test des rangs signés de Wilcoxon pour données appariées Test de Wilcoxon avec échantillons indépendants Test de Kruskal-Wallis A. P. (Le Mans) Tests non paramétriques. Semestre 1 38 / 41

EXTENSION À k > 2 ÉCHANTILLONS. DÉFINITION Parfois appelé test H, ce test est un test non paramétrique qui utilise les rangs de données d échantillon de trois populations indépendantes ou plus. Il est utilisé pour tester l hypothèse nulle H 0 que les échantillons indépendants proviennent de populations avec des médianes égales ; l alternative H 1 est l affirmation qu au moins une des médianes est différente des autres. REMARQUES : Extension de l ANOVA qui suppose des données gaussiennes. Approximation par un χ 2 de paramètre k 1, k est le nombre d échantillons. Chaque échantillon a au moins 5 observations. A. P. (Le Mans) Tests non paramétriques. Semestre 1 39 / 41

STATISTIQUE DE TEST. PROCÉDURE : 1 Combiner tous les échantillons en un seul et affecter un rang à chaque valeur. 2 Pour chaque échantillon, calculer la taille d échantillon et la somme des rangs. 3 Calculer H. NOTATIONS : N : nombre total d observations tous échantillons combinés. k : nombre d échantillons. n i : taille, R i : somme des rangs pour l échantillon i. STATISTIQUE : H = Test bilatéral à droite. H χ 2 (k 1). ( ) 12 R1 2 +... + R2 k 3(N + 1). N(N + 1) n 1 n k A. P. (Le Mans) Tests non paramétriques. Semestre 1 40 / 41

EXEMPLE : TAILLE DES PEUPLIERS. ÉTAPES : 1 Récupérer les données du fichier peupliers.txt 4 colonnes contenant les poids des peupliers suivant traitement reçu : sans, irrigué, fertilisé, irrigué et fertilisé. Par colonne, 20 données : 5 pour le site 1 (riche, humide), l année 1, 5 pour le site 2 (sablonneux, sec), l année 2, 5 pour le site 1, l année 2 et 5 pour le site 2, l année 2. 2 Calculer H en utilisant toutes les données. Vérifier que H = 15, 43 avec un seuil de 7,81 au niveau 5%. Conclure. 3 Calculer H sur les données pour le site 1 l année 1. Conclure 4 Calculer H sur les données pour le site 2 l année 1. Conclure Comparer vos résultats à ceux donnés par kruskal.test. A. P. (Le Mans) Tests non paramétriques. Semestre 1 41 / 41