Test de Kruskal-Wallis

Documents pareils
Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Leçon N 4 : Statistiques à deux variables

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Annexe commune aux séries ES, L et S : boîtes et quantiles

Biostatistiques : Petits effectifs

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction aux Statistiques et à l utilisation du logiciel R

Chapitre 3. Les distributions à deux variables

Cours 9 : Plans à plusieurs facteurs

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

FONCTION DE DEMANDE : REVENU ET PRIX

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Introduction à la statistique non paramétrique

Calcul élémentaire des probabilités

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Lire ; Compter ; Tester... avec R

3. Caractéristiques et fonctions d une v.a.

TESTS D'HYPOTHESES Etude d'un exemple

Introduction à l approche bootstrap

Analyse de la variance Comparaison de plusieurs moyennes

Régression linéaire. Nicolas Turenne INRA

Application sur le Dispositif en Blocs Complètement Randomisés

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Localisation des fonctions

Exemples d application

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

IFT3245. Simulation et modèles

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Cours de Tests paramétriques

Passons aux épreuves pratiques : Après avoir défini le terme «Fossile», nous passons à leur observation à la loupe binoculaire.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

données en connaissance et en actions?

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Principe d un test statistique

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Moments des variables aléatoires réelles

La nouvelle planification de l échantillonnage

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Logiciel XLSTAT version rue Damrémont PARIS

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

STATISTIQUES. UE Modélisation pour la biologie

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

VI. Tests non paramétriques sur un échantillon

Précision d un résultat et calculs d incertitudes

Document d orientation sur les allégations issues d essais de non-infériorité

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Estimation et tests statistiques, TD 5. Solutions

Hedging delta et gamma neutre d un option digitale

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

NON-LINEARITE ET RESEAUX NEURONAUX

(Exemple ici de calcul pour une Ducati 748 biposto, et également pour un S2R1000, équipé d un disque acier en fond de cloche, et ressorts d origine)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à la Statistique Inférentielle

Limites finies en un point

4. Résultats et discussion

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

DCG 6. Finance d entreprise. L essentiel en fiches

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Evaluation de la variabilité d'un système de mesure

Relation entre deux variables : estimation de la corrélation linéaire

PRIME D UNE OPTION D ACHAT OU DE VENTE

Principe de symétrisation pour la construction d un test adaptatif

Aide-mémoire de statistique appliquée à la biologie

Le Modèle Linéaire par l exemple :

Système de bonus-malus SBM 07 Assurance contre les accidents non professionnels

MODELE A CORRECTION D ERREUR ET APPLICATIONS

BACCALAURÉAT PROFESSIONNEL SUJET

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Statistiques avec la graph 35+

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Initiation aux calculatrices graphiques numériques TI en français TI-82 STATS.fr TI-83 Plus TI-83 Plus SE TI-84 Plus TI-84 Plus SE

Microsoft Excel : tables de données

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Continuité en un point

Table des matières. I Mise à niveau 11. Préface

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

1 Complément sur la projection du nuage des individus

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Etude de fonctions: procédure et exemple

La pratique du coaching en France. Baromètre 2010

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Construction d un cercle tangent à deux cercles donnés.

Évaluation de la régression bornée

La crise économique vue par les salariés français

FORMULAIRE DE STATISTIQUES

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

Comparaison de populations

Règlement interne de la Société suisse de crédit hôtelier

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Transcription:

Frédéric Bertrand 1 & Myriam Maumy 1 1 IRMA, Université de Strasbourg France DUS2 20-06-2011

Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Tests non libres de distribution Certains tests statistiques ne sont valables que sous certaines conditions concernant la distribution de la ou les variable(s). Exemples Le test de Student impose que les deux variables sont issues d une distribution normale, l analyse de la variance également.

Tests libres de distribution D autres tests au contraire sont valables indépendamment de toute distribution. Nous les appelons les tests «libres de distribution» (distribution-free tests). Exemples C est le cas du test du Khi-deux, du test des signes, ou du test du coefficient de Spearman.

Tests paramétriques Certains tests ont pour but de montrer une égalité sur certains paramètres : ce sont les tests paramétriques. Exemples de paramètres 1 La moyenne (test de comparaison de deux moyennes ou plus), 2 la variance (test de comparaison de deux variances ou plus), 3 etc.

Tests non paramétriques D autres tests testent des hypothèses plus générales : ce sont les tests non paramétriques. Exemples 1 Une égalité de lois, 2 l indépendance entre deux variables qualitatives, 3 etc.

Une question naturelle : quel test choisir? Habituellement, les tests paramétriques sont plus puissants. Par conséquent, ils seront choisis plutôt que les tests non paramétriques. De même les tests non libres sont généralement plus efficaces que les tests libres. Cependant, ils sont aussi plus contraignants, car il faut vérifier les conditions d application qui sont plus nombreuses dans ce cas. On choisira généralement un test libre ou non paramétrique lorsque 1 les conditions d application du test ne sont pas vérifiées 2 ou il est impossible de vérifier ces conditions.

Conditions d application Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Conditions d application Introduction Nous observons, de manière indépendante, une variable aléatoire X de loi continue, sur k 3 populations, ou sur une population divisée en k 3 sous-populations. Nous supposons ainsi que nous disposons de k échantillons aléatoires indépendants (X 1,1,..., X 1,n1 ),..., (X k,1,..., X k,nk ) et de k 3 séries d observations (x 1,1,..., x 1,n1 ) pour la première,..., (x k,1,..., x k,nk ) pour la dernière. Nous notons L i (X) la loi de la variable aléatoire X sur la (sous-)population d ordre i avec 1 i k. Sans faire d hypothèses spécifiques, le test de Kruskal-Wallis ne permet pas de tester l égalité des moyennes ni celle des médianes.

Conditions d application Hypothèses du test Le test de Kruskal-Wallis est utilisé pour tester les hypothèses suivantes : H 0 : L 1 (X) = = L i (X) = = L k (X) contre H 1 : Les lois L 1 (X),..., L k (X) ne sont pas toutes identiques.

Statistique de test Règle de décision et conclusion du test Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Statistique de test Règle de décision et conclusion du test Statistique de test Calculons : 1 le rang R i,j de X i,j parmi les n valeurs ; 2 puis la somme des rangs associée à chaque échantillon : n i R i, = R i,j ; j=1 3 la moyenne des rangs de chaque échantillon : R i, = R i, /n i.

Statistique de test Règle de décision et conclusion du test Statistique de test (suite) La statistique de Kruskal-Wallis KW n prend en compte l écart entre la moyenne des rangs de chaque échantillon et la moyenne de tous les rangs, qui vaut (n + 1)/2 : KW n = = 12 n (n + 1) 12 n (n + 1) k i=1 k i=1 ( n i R i, n ) + 1 2 2 R i, 2 n i 3(n + 1).

Statistique de test Règle de décision et conclusion du test Propriétés Lorsque l hypothèse nulle H 0 est vraie, la variable aléatoire KW n a les trois propriétés suivantes. 1 Pour i = 1,..., k, W i = n i R i, est la statistique de Wilcoxon qui compare le i ème traitement aux k 1 autres traitements. Sous l hypothèse nulle H 0, nous en déduisons que E (W i ) = n i (n + 1)/2 et Var (W i ) = n i (n n i )(n + 1)/12. Ainsi par conséquent, nous avons : KW n = 1 k (n n i ) (W i E (W i )) 2 n Var (W i ) i=1

Statistique de test Règle de décision et conclusion du test Propriétés (suite) 2 (Suite) Nous calculons alors l espérance et la variance de KW n sous l hypothèse nulle H 0 : E (KW n ) = k 1, Var (KW n ) = 2(k 1) 2 [ 3k 2 6k + n (2k 2 6k + 1) ] 6 5 k i=1 1 n i 5n (n + 1) 3 Il est possible de déterminer la distribution de KW n bien que le calcul soit complexe. Elle est donc tabulée pour les faibles valeurs des n i.

Statistique de test Règle de décision et conclusion du test Règle de décision et conclusion du test Premier cas : L un des effectifs n i, 1 i k, est inférieur ou égal à 4,. Pour un seuil donné α, des tables de la loi de Kuskal-Wallis nous fournissent une valeur critique c α. Alors nous décidons : { si KWn (obs) c α H 1 est vraie, si KW n (obs) < c α H 0 est vraie. Le niveau de signification réel du test est généralement strictement inférieur à α.

Statistique de test Règle de décision et conclusion du test Règle de décision et conclusion du test (suite) Second cas : Si n i 5, pour tout 1 i k, nous utilisons l approximation KW n χ 2 (k 1). Pour un seuil donné α, des tables de la loi du χ 2 nous fournissent une valeur critique c α telle que P H0 ( c α < Z n1,n 2 < c α ) = 1 α. Alors nous décidons : { si KWn (obs) c α H 1 est vraie, si KW n (obs) < c α H 0 est vraie. Lorsque nous rejetons H 0, nous décidons que H 1 est vraie avec un risque d erreur de première espèce α. Lorsque nous conservons H 0, c est avec un risque d erreur de deuxième espèce β.

Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Présence d ex æquo dans les observations : la méthode des rangs moyens À chaque nombre appartenant à un groupe d ex æquo nous attribuons le rang moyen du groupe auquel il appartient puis nous déterminons la somme T = h l=1 (t3 l t l ) où t l désigne le nombre d éléments du l ème groupe d ex æquo. Il est d usage de substituer à KW n la variable KWn définie par : KW n = 1 KW n. T n 3 n

Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Test de Steel-Dwass-Critchlow-Fligner W ni,n i est la statistique de Wilcoxon qui compare le i ème traitement au i ème traitement. Les observations des deux groupes i et i sont ordonnées puis regroupées en h classes d ex æquo C j, 1 j h. Notons d j le nombre d ex æquo de la classe C j et m i,i = n i + n i.

Test de Steel-Dwass-Critchlow-Fligner (suite) Nous décidons qu au seuil global α deux lois L i (X) et L i (X), parmi les k(k 1) comparaisons que nous allons faire, sont significativement différentes si : W n i,n i n i(m i,i + 1) 2 q ni n i (m i,i + 1) (k; + ; 1 α) 24 ) h j=1 (dj 3 d j 1 mi,i 3 m i,i où q (k; + ; 1 α) est le quantile d ordre 1 α pour la loi du maximum du module studentisé pour k moyennes et + degrés de liberté.

Test de Steel-Dwass-Critchlow-Fligner (suite) Contrairement aux trois autres approches présentées ci-après, le test Steel-Dwass-Critchlow-Fligner n est pas qu une procédure de comparaisons multiples : c est une alternative complète au test de Kruskal-Wallis.

Autres tests de comparaisons multiples Si nous rejetons l hypothèse nulle H 0, nous nous demandons quelles sont les lois L i (X) qui diffèrent. Les formules ci-après sont valables en absence ou en présence d ex æquo. En absence d ex æquo, le terme 1 T /(n 3 n ) est égal à 1.

de la méthode de Sheffé Nous décidons qu au seuil α deux lois L i (X) et L i (X) sont significativement différentes si : ( ) R i, R i, χ 2 n (n + 1) T (k 1; 1 α) 1 12 n 3 n 1 + 1, n i n i où χ 2 (k 1; 1 α) est le quantile d ordre 1 α pour la loi du χ 2 à k 1 degrés de liberté.

de l inégalité de Bonferroni Nous décidons qu au seuil global α deux lois L i (X) et L i (X), parmi les k(k 1) comparaisons que nous allons faire, sont significativement différentes si : R i, R i, u ( 1 ) ( α n (n + 1) 1 k(k 1) 12 1 + 1, n i n i T n 3 n où u(1 α/(k(k 1))) est le quantile d ordre 1 α/(k(k 1)) pour la loi normale centrée-réduite. )

Remarque Il s agit d une application des inégalités de Bonferroni. Cette procédure est plus puissante que la précédente. Il est également possible d utiliser une approche séquentielle comme la procédure de Holm-Bonferroni (test de Dunn) ou de Holm-Sidak.

Analogue de la méthode de Tukey-Kramer Nous décidons qu au seuil global α deux lois L i (X) et L i (X), parmi les k(k 1) comparaisons que nous allons faire, sont significativement différentes si : R i, R i n (n + 1), q(k; + ; 1 α) 12 1 2 ( 1 n i + 1 n i ( 1 T n 3 n où q(k; + ; 1 α) est le quantile d ordre 1 α pour la loi de l étendue studentisée pour k moyennes et + degrés de liberté. ), )

Remarque Il s agit d une procédure analogue à celle de Tukey-Kramer dans le cas paramétrique et valide asymptotiquement. Elle est généralement plus puissante que les deux approches précédentes.

Sommaire 1 Généralités 2 Conditions d application 3 Statistique de test Règle de décision et conclusion du test 4 Présence d ex æquo dans les observations : la méthode des rangs moyens 5 6

Des forestiers ont réalisé des plantations d arbres en trois endroits. Plusieurs années plus tard, ils souhaitent savoir si la hauteur moyenne des arbres est identique dans les trois forêts. Chacune des forêts constitue une population et dans chacune d entre elles, un échantillon d arbres est tiré au sort. Puis la hauteur de chaque arbre est mesurée en mètres. Le tableau ci-après donne les valeurs des mesures de hauteur ainsi que les moyennes et les variances corrigées estimées dans chacun des groupes.

Données Forêt 1 Forêt 2 Forêt 3 23,4 18,9 22,5 Données 24,4 21,1 22,9 expérimentales 24,6 21,1 23,7 (en mètres) 24,9 22,1 24,0 25,0 22,5 24,0 26,2 23,5 24,5 Moyennes 24,750 21,533 23,600 Variances corrigées 0,831 2,487 0,568 La Figure 1 correspond aux boîtes à moustaches de la hauteur en fonction des trois forêts.

Représentation graphique 20 22 24 26 @ @ @ 1 2 3 FIGURE: Boîtes à moustaches (à gauche) (à droite)

Statistique du test Nous sommes en présence d ex æquo, nous devons donc utiliser la statistique de test KW n à la place de la statistique de test KW n. Nous calculons la valeur de KW n sur l échantillon : KW n (obs) = 11, 51.

Règle de décision à l aide d une valeur critique Pour un seuil α = 5% la valeur critique d un Khi-deux à 2 degrés de liberté, est c 0,05 = 5, 99. Comme KW n (obs) c 0,05, nous décidons de rejeter l hypothèse nulle H 0, et que l hypothèse alternative H 1 est vraie. Il y a une influence significative, au seuil α = 5%, de la forêt sur la hauteur des arbres. Le risque associé à cette décision est un risque de première espèce qui vaut α = 5%. Remarque La valeur de KW n (obs) est égale à 11, 48. Nous remarquons la différence apportée par la correction pour prendre en compte les ex æquo.

Règle de décision à l aide d une p-valeur En utilisant un logiciel de statistique nous calculons la p-valeur du test de Kruskal-Wallis. Il faut bien vérifier qu elle tient compte des ex æquo. Elle vaut dans cas 0, 003. Comme la p-valeur est 0, 05, nous décidons, au seuil α = 5%, de rejeter l hypothèse nulle H 0, et que l hypothèse alternative H 1 est vraie. Il y a une influence significative, au seuil α = 5%, de la forêt sur la hauteur des arbres. Le risque associé à cette décision est un risque de première espèce qui vaut α = 5%.