REVUE DE STATISTIQUE APPLIQUÉE

Documents pareils
La nouvelle planification de l échantillonnage

VI. Tests non paramétriques sur un échantillon

Principe de symétrisation pour la construction d un test adaptatif

Biostatistiques : Petits effectifs

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Introduction à la statistique non paramétrique

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

MATHÉMATIQUES ET SCIENCES HUMAINES

Principe d un test statistique

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

PRIME D UNE OPTION D ACHAT OU DE VENTE

Introduction à l approche bootstrap

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

TESTS D'HYPOTHESES Etude d'un exemple

IFT3245. Simulation et modèles

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Évaluation de la régression bornée

Item 169 : Évaluation thérapeutique et niveau de preuve

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

TABLE DES MATIERES. C Exercices complémentaires 42

La pratique du coaching en France. Baromètre 2010

Pilotage de la masse salariale Déploiement de l outil de budgétisation

Chapitre 3. Les distributions à deux variables

Introduction aux Statistiques et à l utilisation du logiciel R

PASSEPORT INNOVATION Guide de présentation des demandes Janvier 2015

Quantification Scalaire et Prédictive

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Soutenance de stage Laboratoire des Signaux et Systèmes

Le calcul du barème d impôt à Genève

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

: seul le dossier dossier sera cherché, tous les sousdomaines

Estimation et tests statistiques, TD 5. Solutions

Etude Fraude Sociale. Rencontres provinciales printemps 2014

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Disparités entre les cantons dans tous les domaines examinés

Secure Advantage Revenus Garantis

Pompes à Chaleur & environnement acoustique. Recommandations pour la mise en œuvre des pompes à chaleur. Fiche technique n 1

Probabilités conditionnelles Loi binomiale

Les conseils & les astuces de RSA Pour être tranquille sur Internet

FORMATION ECLAIRAGE PUBLIC

L ARCHIVAGE LEGAL : CE QU IL FAUT SAVOIR

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

CAPTEURS - CHAINES DE MESURES

Transfert du patrimoine de l entreprise avec retrait en espèces :

COMPTABILITE SAGE LIGNE 100

Where Business Goes to Grow

PASSEPORT INNOVATION Guide de présentation des demandes Mai 2015

CONDITIONS D OBTENTION DE L ALIAS COMMUN DANS LE CADRE D UNE OFFRE SMS+ CLASSIC

Réaliser la fiche de lecture du document distribué en suivant les différentes étapes de la méthodologie (consulter le support du TD!

ARTICLE 2 FONCTIONNEMENT DE L OFFRE SMS+ CLASSIC

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Objet du document. Version document : 1.00

Tests exacts d indépendance sérielle dans les cas de distributions continues et discrètes

Cours de Tests paramétriques

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

CONVENTION INDIVIDUELLE D HABILITATION. «Expert en automobile indépendant» (convention complète)

Architecture des Systèmes d Information Architecture des Systèmes d Information

QoS Réseaux haut débit et Qualité de service

REPUBLIQUE FRANCAISE. Contentieux n A et A

Probabilités III Introduction à l évaluation d options

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Popsy Financials. Liaison bancaire

BOURSE DE RECHERCHE QUICK : SECURITE ET HYGIENE ALIMENTAIRE

Y a t il une demande de sécurité sanitaire des consommateurs européens?

SERIE OCDE LES PRINCIPES DE BONNES PRATIQUES DE LABORATOIRE ET LA VERIFICATION DU RESPECT DE CES PRINCIPES. Numéro 2 (révisé)

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Essais cliniques de phase 0 : état de la littérature

NON-LINEARITE ET RESEAUX NEURONAUX

Chapitre 2/ La fonction de consommation et la fonction d épargne

45. CONTRIBUTION MUTUALISEE DES CLUBS AU DEVELOPPEMENT REGIONAL (C.M.C.D.)

Animation pédagogique sur l oscilloscope à mémoire Hameg HM 507

CONVENTION INDIVIDUELLE D HABILITATION. «société d assurance indépendante» (Convention complète)

Corps des nombres complexes, J Paul Tsasa

Probabilités sur un univers fini

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Introduction à la théorie des files d'attente. Claude Chaudet

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

INVESTISSEMENTS D AVENIR

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM)

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

NFS Maestro 8.0. Nouvelles fonctionnalités

Ressources APIE. La comptabilisation des frais de R&D. de l immatériel. Pour agir. En bref. Agence du patrimoine immatériel de l État

RÉPUBLIQUE ET CANTON DE GENÈVE Echelle des traitements 2015 Valable dès le Office du personnel de l'etat Indexation de 0.

Convention de «management fees»: qu en est-il aujourd hui?

Délibération n du 27 septembre 2010

Lecture critique et pratique de la médecine

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

RAPPORT FINAL. Étude sur la littératie financière chez les jeunes POR #

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Transcription:

REVUE DE STATISTIQUE APPLIQUÉE E. DEROBERT Un élément de comparaison des tests de Kramer, Friedman, et de la différence des extrêmes. Une étude de la puissance dans un cas particulier Revue de statistique appliquée, tome 36, n o 2 (1988), p. 5359. <http://www.numdam.org/item?id=rsa_1988 36_2_53_0> Société française de statistique, 1988, tous droits réservés. L accès aux archives de la revue «Revue de statistique appliquée» (http://www.sfds.asso.fr/publicat/rsa.htm) implique l accord avec les conditions générales d utilisation (http://www.numdam.org/legal.php). Toute utilisation commerciale ou impression systématique est constitutive d une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright. Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques http://www.numdam.org/

le le le Rev. Statistique Appliquée, 1988, XXXVI 53 UN ÉLÉMENT DE COMPARAISON DES TESTS DE KRAMER, FRIEDMAN, ET DE LA DIFFÉRENCE DES EXTRÊMES UNE ÉTUDE DE LA PUISSANCE DANS UN CAS PARTICULIER E. DEROBERT (Laboratoire SOREDAB, La BoissièreEcole, 78120 Rambouillet) RÉSUMÉ Nous avons effectué une simulation afin d apporter un élément de comparaison de la puissance de trois tests s appuyant sur des méthodes de sommes de rangs, utilisées notamment (mais pas seulement) en dégustation et en analyse sensorielle. Ces trois tests sont : test de KRAMER (utilisé avec les tables correctes calculées par THOMPSON et WILLKE (1963)) test de FRIEDMAN test de la différence des extrêmes. Nous avons choisi d étudier le cas de 5 juges et de 4 produits, qui avantageait (ou plutôt ne désavantageait pas) le test de KRAMER au niveau des risques de première espèce. Malgré cette précaution, le test de KRAMER ne s avère puissant que lorsqu il s agit de séparer un seul produit de tous les autres. Le test de la différence des extrêmes se comporte mieux; il améliore KRAMER en gardant l avantage de la simplicité d utilisation. Le test de FRIEDMAN (le plus ancien), qui utilise le plus d informations, donne, dans l ensemble, les meilleurs résultats. Mots clés : Test de Friedman, Tests de rangs, Puissance Plan 1. Rappel sur les tests de KRAMER, de FRIEDMAN, et de la différence des extrêmes. 1.1. Le test de KRAMER. 1.2. Le test de FRIEDMAN. 1.3. Le test de la différence des extrêmes. 2. Comparaison des trois tests. 2.1. La procédure de simulation. 2.1.1. Les alternatives à l hypothèse nulle. 2.1.2. Le comportement des 5 juges. 2.1.3. Le calcul de la puissance. 2.2. Les résultats de la simulation. Table 1 : Valeurs critiques du test de FRIEDMAN (seuils de 0.05 et 0.01).

54 E. DEROBERT Table II : Valeurs critiques des tests de KRAMER, de FRIEDMAN et de la différence des extrêmes aux seuils de 5 % et 1 % (cas de 5 juges et 4 produits). Table III : La puissance des trois tests (résultats de la simulation). 1. Rappel sur les tests de KRAMER, de FRIEDMAN, et de la différence des extrêmes Décider si certains produits sont préférés à d autres, implique l usage de tests statistiques adaptés. Une procédure classique consiste à faire déguster P produits par J juges et à demander aux J juges de classer par ordre de préférence les P produits. On effectue alors, pour chaque produit, la somme des rangs que lui ont attribués les J juges. Les tests de KRAMER, de FRIEDMAN et de la différence des extrêmes sont basés sur ces sommes de rangs. L hypothèse nulle de ces tests est : «tous les produits sont équivalents» : c estàdire que l on considère, sous cette hypothèse nulle, que les P! classements possibles parmi lesquels choisissent de façon indépendante les J juges, sont équiprobables. L hypothèse alternative est : «il existe au moins un produit dont la qualité est différente de celle des autres» ( ). 1.1. Le test de KRAMER La décision par le test de KRAMER s effectue en considérant seulement la somme des rangs la plus élevée et la somme des rangs la moins élevée. On rejette l hypothèse nulle si la première somme est plus grande qu une certaine valeur ou si la seconde est plus petite qu une autre valeur. Si l on appelle, R,, R2,..., Rp, les sommes des rangs de chaque produit, les deux valeurs limites sont fixées à partir de la distribution conjointe (2) de max (R,) et de min (R,) sous l hypothèse i=i.p i=i.p nulle. Une autre façon de formuler le test de KRAMER est de considérer Les valeurs critiques pour K ont été calculées par THOMPSON et WILLKE (1963) à 1, 3 et 5 % pour toutes les valeurs de J et de P inférieures ou égales à 15. Ces auteurs proposent aussi des résultats asymptotiques. (1) Nous ne traiterons pas ici du test de KRAMER dans le cas où l un des produits est prédéterminé. (2) C est en oubliant cette notion de distribution conjointe que KRAMER a publié des tables unilatérales au lieu de tables bilatérales (KRAMER 1960).

à UN ÉLÉMENT DE COMPARAISON DES TESTS DE KRAMER, FRIEDMAN 55 La statistique utilisée est ici : 1.2. Le test de FRIEDMAN avec OWEN (1962) a calculé la distribution exacte de F pour J = 3, P = 2( 1 ) 15 et J = 4, P = 2(1) 8. Les tables d OWEN ont été contestées par QUADE (1984) qui en a proposé d autres (1972) dans un rapport auquel nous n avons pu accéder. En tout état de cause, la prudence s impose. On trouve aussi les valeurs critiques de ce test 1 et 5 % dans HOLLANDER et WOLFE (1973) et dans la norme AFNOR NF V 09018 (voir Table I). Il y a rejet de l hypothèse nulle lorsque F est supérieur ou égal à ces valeurs critiques. Asymptotiquement la statistique F suit une loi du X2 à P 1 degrés de liberté que l on utilise dans les cas non tabulés. Cette approximation aboutit à des tests conservateurs (FRIEDMAN 1940). Notons qu il existe une correction de F qui améliore la convergence asymptotique voir BRADLEY (1968). 1.3. Le test de la différence des extrêmes Comme le test de KRAMER, ce test s appuie exclusivement sur max R, i=1,p et min Ri. On prend en compte la différence W = max Ri min Ri i=i,p i=l,p i=i,p (ou encore Cette statistique a été tabulée par Mc DONALD et THOMPSON (1967) où elle figure sous le nom de «Wilcoxon multiple comparaison method». Des résultats asymptotiques figurent dans WILCOXON ET WILCOX (1964). Bien entendu le rejet de l hypothèse nulle a lieu quand W dépasse les valeurs critiques de la statistique. 2. Comparaison des trois tests Nous avons voulu estimer la puissance de ces trois tests dans un cas particulier. Nous avons choisi le cas P 4, J 5 qui présentait l avantage = = que, pour le test de KRAMER, les risques réels de 1 ère espèce sont peu éloignés des seuils classiques de 5 % et 1 %. C est en effet un défaut structurel du test de KRAMER que nous n avons pas voulu prendre en compte pour notre simulation que le nombre de valeurs discrètes qu il peut prendre est plus réduit, ce qui implique qu en général on serre de moins près des probabilités fixées à l avance et que, par conséquent, on perd automatiquement en puissance en se voyant obligé de travailler avec un risque de 1 ère espèce plus petit que celui auquel

56 E. DEROBERT TABLE 1 Valeurs critiques du test de FRIEDMAN (seuils de 0,05 et de 0,01) (extrait de la norme NF V 09018 janvier 1987, reproduit de l AFNOR) avec l autorisation

UN ÉLÉMENT DE COMPARAISON DES TESTS DE KRAMER, FRIEDMAN 57 TABLE II Valeurs critiques des tests de KRAMER (K), de FRIEDMAN (F) et de la différence des extrêmes (W) aux seuils de 5 % et 1 % (cas de 5 juges et 4 produits) * La borne supérieure calculée par Mc DONALD et THOMPSON est plus grande que le 0.01 théorique. Mais, à regarder le mode de calcul de cette borne, on peut penser avec les auteurs qu elle est large et que la valeur réelle se situe aux alentours de 0.01. on veut se référer (3). La table II présente les valeurs critiques des trois statistiques ainsi que les risques de 1ère espèce correspondants. 2.1. La procédure de simulation 2.1.1. Les alternatives à l hypothèse nulle Par convention, nous utiliserons, pour l écriture des hypothèses, la méthode classique qui consiste à souligner d un trait les produits identiques. C est ainsi que pour 4 produits, l hypothèse nulle Ho s écrit : 1 2 3 4. Si on supprime les cas symétriques, on peut opposer, à Ho, cinq hypothèses alternatives, de celle qui suppose qu un seul produit est différent des 3 autres, à celle qui suppose que tous les produits sont différents : (3) On peut théoriquement randomiser la décision d acceptation ou de rejet de l hypothèse nulle, mais, dans la pratique, cette solution est rarement adoptée.

Quatre Le 58 E. DEROBERT 2.1.2. Le comportement des cinq juges Pour chacune des cinq hypothèses alternatives à l hypothèse nulle il s agit de simuler le comportement des juges. Nous avons supposé le cas de figure suivant : des cinq juges dégustent convenablement, c estàdire que leurs votes sont compatibles avec l hypothèse testée. Par exemple pour H4, ils votent (de façon équiprobable) 1234 ou 1324. cinquième juge classe les quatre produits n importe comment. Son vote est considéré comme un tirage aléatoire (et équiprobable) parmi les 24 (4!) classements possibles. Nous simulons, par ce biais, un «bruit» qui va nous permettre, de façon toutàfait informelle, d évaluer le comportement de nos trois tests. 2.1.3. Le calcul de la puissance Nous avons considéré une à une les cinq hypothèses présentées cidessus, et réalisé à chaque fois le calcul exact de la puissance des trois tests. Cependant, l hypothèse réellement testée à chaque fois est, elle, toujours la même. L hypothèse Ho étant «les produits sont identiques», l hypothèse testée est son complémentaire Ho, c estàdire «il existe au moins un produit différent des autres». Il est clair que nous avons laissé de côté les éventuelles procédures de sélection et de classification qui peuvent suivre la réalisation d un tel test. Quelle que soit l hypothèse, la puissance est donc toujours la probabilité pour que le test décèle la nonidentité des quatre produits. Les résultats figurent Table III. TABLE III La puissance des trois tests (résultats de la simulation) Pour chacune des hypothèses et chacun des niveaux de risque, le meilleur résultat est en caractères gras.

Analyse Average Non Handbook Distribution Rank Méthodologie Nonparametric Some Rank UN ÉLÉMENT DE COMPARAISON DES TESTS DE KRAMER, FRIEDMAN 59 2.2. Les résultats de la simulation Globalement, c est le test de FRIEDMAN qui se comporte le mieux. Le test de KRAMER se comporte très bien dans le cas où un seul produit est différent de tous les autres (H,). C est même, dans ce cas, le meilleur (sans que la différence avec les autres tests soit énorme). Il se comporte à peu près honorablement dans les cas H3, H4, Hs (encore que dans le cas H3, il y ait un écart de puissance de presque 20 % avec le test de FRIEDMAN). En revanche, il s écroule totalement dans le cas H2 où il s agit de distinguer 2 groupes de 2 produits. Le test de la différence des extrêmes est en général intermédiaire entre FRIEDMAN et KRAMER. Il utilise la même information que le test de KRAMER (le maximum avec le test de et le minimum) mais l exploite mieux, au point qu il fait jeu égal FRIEDMAN dans les cas H3, H4, Hs. Il s avère tout de même un peu faible dans le cas H2, même s il s en tire beaucoup mieux que KRAMER. Références bibliographiques 2014 [1] AFNOR (1987). sensorielle Essai de classement par rangs. Norme NF V 09018. [2] J.V. BRADLEY (1968). free statistical tests. PrenticeHall, Englewood Cliffs, New Jersey. [3] M. FRIEDMAN (1940). A comparaison of alternative tests of significance for the problem of m rankings. Annals of mathematical statistics 11, 8692. [4] M. HOLLANDER, D.A. WOLFE (1973). statistical methods. John Wiley, NewYork. [5] D.N. JOANES (1985). On a rank sum test due to KRAMER. Journal of food science 50, 1 4421 444. [6] M.G. KENDALL (1962). correlation methods (3rd édit.) Griffin, London. [7] A. KRAMER (1960). A rapid method for determining significance of differences from rank sums. Food technology 14, 576581. [8] B.J. Mc DONALD, W.A. THOMPSON (1967). sum multiple comparisons in one and twoway classification. Biometrika 54, 487497. [9] D.B. OWEN (1962). Massachussets. of statistical tables. AddisonWesley, Reading, [10] D. QUADE (1972). internal rank correlation. Report SW 16/72, Mathematical Center, Amsterdam. [11] D. QUADE (1984). parametrics methods in twoway layouts (pages 185228 de Handbooks of statistic vol. 4 de KRISHNAIAH P.R. SEN P.K. Elsevier Science Publishers, Amsterdam). [12] W.A. THOMPSON, T.A. WILLKE (1963). 2014 On an extreme sum test for outliers. Biometrika 50, 375383. [13] F. WILCOXON, R.A. WILCOX (1964). rapid approximate statistical procedures. Lederle Laboratories, Pearl River, NewYork.