Tests non-paramétriques

Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Suites numériques 4. 1 Autres recettes pour calculer les limites

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Biostatistiques : Petits effectifs

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à la statistique non paramétrique

Analyse de la variance Comparaison de plusieurs moyennes

Moments des variables aléatoires réelles

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Commun à tous les candidats

Chapitre 3. Les distributions à deux variables

VI. Tests non paramétriques sur un échantillon

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

3. Conditionnement P (B)

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Comparaison de fonctions Développements limités. Chapitre 10

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Espérance conditionnelle

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Introduction à l approche bootstrap

Résolution d équations non linéaires

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

3. Caractéristiques et fonctions d une v.a.

Estimation et tests statistiques, TD 5. Solutions

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Lire ; Compter ; Tester... avec R

Leçon 01 Exercices d'entraînement

TD1 Signaux, énergie et puissance, signaux aléatoires

Probabilités III Introduction à l évaluation d options

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

1 Définition de la non stationnarité

MODELE A CORRECTION D ERREUR ET APPLICATIONS

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMULAIRE DE STATISTIQUES

LES MODELES DE SCORE

Programmes des classes préparatoires aux Grandes Ecoles

Table des matières. I Mise à niveau 11. Préface

Que faire lorsqu on considère plusieurs variables en même temps?

STATISTIQUES. UE Modélisation pour la biologie

Limites finies en un point

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Précision d un résultat et calculs d incertitudes

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Le risque Idiosyncrasique

Introduction à la Statistique Inférentielle

Résumé du Cours de Statistique Descriptive. Yves Tillé

Optimisation des ressources des produits automobile première

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 1 Régime transitoire dans les systèmes physiques

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

LES GENERATEURS DE NOMBRES ALEATOIRES

Chapitre 2 Le problème de l unicité des solutions

Principe d un test statistique

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

L Econométrie des Données de Panel

TSTI 2D CH X : Exemples de lois à densité 1

Introduction aux Statistiques et à l utilisation du logiciel R

M2 IAD UE MODE Notes de cours (3)

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Intérêt du découpage en sous-bandes pour l analyse spectrale

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Programmation linéaire

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Initiation à l algorithmique

Cours de méthodes de scoring

Bases : Probabilités, Estimation et Tests.

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

Couples de variables aléatoires discrètes

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

avec des nombres entiers

Correction du Baccalauréat S Amérique du Nord mai 2007

Lagrange, où λ 1 est pour la contrainte sur µ p ).

DCG 6. Finance d entreprise. L essentiel en fiches

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Probabilités sur un univers fini

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Travaux dirigés d introduction aux Probabilités

Cours de Tests paramétriques

Modèles et Méthodes de Réservation

Chapitre VI - Méthodes de factorisation

De la mesure à l analyse des risques

Fonctions de plusieurs variables

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP N 57. Déploiement et renouvellement d une constellation de satellites

Transcription:

Tests non-paramétriques Michaël Genin Université de Lille EA 694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lillefr

Plan 1 Introduction Comparaison de K = échantillons indépendants 3 Comparaison de K = échantillons appariés 4 Corrélation de rangs 5 Comparaison de K > échantillons indépendants Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 1 / 66

Introduction Motivations Motivations - I Tests paramétriques nécessitent des conditions de validité : Hypothèses sur la distribution des observations (ex : X N (µ, σ)) Distributions caractérisées par des paramètres (moyenne, variance, ) Ces paramètres sont estimés Question : Que faire lorsque les conditions de validité ne sont pas respectées? Tests non-paramétriques Distribution free : pas d hypothèse sur la distribution des observations Tests adaptés aux variables quantitatives et qualitatives (nominales et ordinales) La plupart du temps : tests basés sur la notion de rangs Valeur 4 7 8 1 3 5 Rang 3 5 6 1 4 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 4 / 66

Motivations - II Introduction Motivations AVANTAGES Pas d hypothèse sur la distribution champ d application a priori plus large Tests adaptés aux variables ordinales (ex : degré de satisfaction) Robustesse par rapport aux données atypiques Exemple : 4 5 8 7 3 38 x 1 = 108 4 5 8 7 3 6 x = 55 Différence due à une seule observation!! La transformation en rangs permet de gommer cette différence Tests adaptés aux petits échantillons (n < 30) Si pas d hypothèse sur la loi, les tests paramétriques deviennent inopérants! INCONVENIENTS Lorsque les conditions d applications sont vérifiées : Tests NP moins puissants que les tests paramétriques Diffcultés d interprétation : on ne compare plus des paramètres (moyenne, proportion, variance, ) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 5 / 66

Définition Introduction Notion de rangs Considérons groupes G 1 et G de taille n 1 et n sur lesquels est mesuré un caractère X { G 1 : {x 11, x 1,, x 1n1 } G : {x 1, x,, x n } Principe du rang : substituer aux valeurs leur numéro d ordre (rang r) dans l ensemble des données (G 1 G ) Exemple : { G 1 : {10, 14,, 8, 5} G : {6, 9, 4, 3, 7} Groupe 1 Groupe Valeur 10 14 8 5 6 9 4 3 7 r i 7 8 9 5 3 6 1 10 4 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 8 / 66

Introduction Notion de rangs Conséquences de la transformation en rangs La distribution des rangs est symétrique Rôle des valeurs atypiques amoindri Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 9 / 66

Introduction Notion de rangs Traitement des ex-aequo Méthode des rangs moyens Idée : les observations présentant des valeurs identiques se voient attribuer la moyenne de leur rangs Fréquent avec des variables ordinales (Peu de modalités) Exemple { G 1 : {11, 1, 1, 9, 13, 4, 17, 19} G : {1, 4, 5, 15,, 18, 5} Valeurs 4 4 5 9 11 1 1 1 13 15 17 18 19 5 Rangs bruts 1 3 4 5 6 7 8 9 10 11 1 13 14 15 Rangs moyens 15 15 3 4 5 7 7 7 9 10 11 1 13 14 15 Calculs (1 + )/ - (6 + 7 + 8)/3 - Remarque : Impact sur la variance des statistiques de test Correction (Logiciels) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 11 / 66

Comparaison de K = échantillons indépendants Objectif du test Test de Mann-Whitney-Wilcoxon - Objectif Objectif : comparaison de K = échantillons indépendants par rapport à une variable X de nature : Quantitative Qualitative ordinale Ce test regroupe tests équivalents : Test U de Mann-Whitney Test W de Wilcoxon se déduisent l un de l autre Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 14 / 66

Comparaison de K = échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses Soient F 1 (X ) la fonction de répartition de X dans la population 1 F (X ) la fonction de répartition de X dans la population Les hypothèses de test sont : { H 0 : F 1 (X ) = F (X + θ) ; θ = 0 Distributions identiques H 1 : F 1 (X ) = F (X + θ) ; θ 0 Distributions différentes θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 16 / 66

Comparaison de K = échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses Exemple de décalage θ 0 00 0 04 06 08 10 1 00 01 0 03 04 1 4 0 4 4 0 4 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 17 / 66

Comparaison de K = échantillons indépendants Hypothèses Test de Mann-Whitney-Wilcoxon - Hypothèses Idée : G 1 : {x 11, x 1,, x 1n1 } G : {x 1, x,, x n } } = Transformation en rangs (G 1 G ) Soient R(X 1 ) = x les rangs des valeurs du groupe 1 R(X ) = o les rangs des valeurs du groupe configurations extrêmes : x o x o x o x o x o x o x o rangs (1) H 0 vraie (mélange total) x x x x x x x o o o o o o o rangs () H 0 totalement fausse Ecart par rapport à la configuration (1) Rejet de H 0 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 18 / 66

Comparaison de K = échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Rappel : Somme de n premiers entiers 1 + + + n = n(n + 1) Posons S 1 la somme des rangs des observations du groupe 1 Posons U 1 le nombre de couples {(x 1i, x j ) / x 1i > x j } U 1 = S 1 n 1(n 1 + 1) Posons S la somme des rangs des observations du groupe Posons U le nombre de couples {(x 1i, x j ) / x 1i < x j } Statistique de test : U = S n (n + 1) U = min (U 1, U ) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 0 / 66

Comparaison de K = échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Interprétation de la statistique de test H 0 totalement fausse : x x x x x x x o o o o o o o rangs o o o o o o o x x x x x x x rangs U 1 = n1(n1+1) n1(n1+1) = 0 U = n 1 +n i=n 1 +1 r i n (n +1) = n 1 n U 1 = n 1 +n i=n +1 r i n 1(n 1 +1) = n 1 n U = n (n +1) n (n +1) = 0 U = U 1 = 0 U = U = 0 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 1 / 66

Comparaison de K = échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Interprétation de la statistique de test H 0 Vraie (mélange total) : S p (n) = Somme des n premiers entiers pairs S i (n) = Somme des n premiers entiers impairs (1) () { x o x o x o x o x o x o x o rangs { o x o x o x o x o x o x o x rangs U 1 = S i (n 1 ) n 1(n 1 +1) U = S p (n ) n (n +1) U 1 = S p (n 1 ) n 1(n 1 +1) U = S p (n ) n (n +1) Sous H 0, on montre que On peut en déduire que Propriété : U n 1n E[U] = n 1n n V[U] = n 1 n 1 +n +1 1 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 / 66

Comparaison de K = échantillons indépendants Statistique de test Test de Mann-Whitney-Wilcoxon - Statistique de test Distribution sous H 0 de la statistique de test Distribution non connue mais tabulée (probabilités exactes et quantiles) Table des valeurs critiques de U Cas particulier si n 1 et n > 10 : Z = U E[U] V[U] N (0, 1) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 3 / 66

Comparaison de K = échantillons indépendants Région critique Test de Mann-Whitney-Wilcoxon - Région critique n 1 ou n < 10 Valeurs de U 0 U lim n1n Rejet de H 0 Non - rejet de H 0 Valeur de U lim lue dans la table Cas particulier si n 1 et n > 10 Z = U n 1n n 1 n (n 1 +n +1) 1 N (0, 1) N (0, 1) RC : Z z 1 α/ 5% 95% 5% z0975 0 z0975 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 5 / 66

Exemple Comparaison de K = échantillons indépendants Exemple 1 Passage aux rangs G 1 : n 1 = 7 : {11, 1, 1, 5, 5, 71, 79} G : n = 5 : {, 43, 7, 91, 100} Valeurs 11 1 1 5 43 5 71 7 79 91 100 Rangs 1 5 5 4 5 6 7 8 9 10 11 1 Groupe 1 1 1 1 1 1 1 Calcul de U 1 et U U 1 = S 1 n 1(n 1 +1) U 1 = 1 + 5 + 5 + 5 + 7 + 8 + 10 7(7+1) = 8 U = S n (n +1) U = 4 + 6 + 9 + 11 + 1 5(5+1) = 7 3 U = min(u 1, U ) = U 1 = 8 4 U lim = 5 (Table) et U > U lim donc non rejet de H 0 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 7 / 66

Comparaison de K = échantillons indépendants Remarques Remarques - I 1 Equivalence entre les tests de Mann-Whitney et Wilcoxon Test de Wilcoxon basé sur la somme des rangs S S = S 1 si n 1 < n sinon S = S si n 1 = n alors S = S 1 si S 1 < S sinon S = S Les deux tests sont équivalents : n(n + 1) U = n 1n + S }{{ } Non aléatoire Test Mann-Whitney-Wilcoxon plus puissant que test de Student si les distributions ne sont pas gaussiennes Si les distributions sont gaussiennes Test de MWW présente une puissance proche de celle du test de Student (efficacité relative = 3/π 095) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 9 / 66

Comparaison de K = échantillons indépendants Remarques Remarques - II 3 Problème de Behrens - Fisher H 1 stipule un décalage de tendance centrale entre les distributions (θ 0) Cela sous-tend l hypothèse que les dispersions des distributions sont relativement homogènes 00 01 0 03 04 1 4 0 4 Analogie au test paramétrique de Student (σ 1 = σ ) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 30 / 66

Comparaison de K = échantillons indépendants Remarques Remarques - III Problème de Behrens - Fisher Si cette hypothèse n est plus assumée rejet de H 0 n est plus uniquement imputable à un écart de tendance centrale 00 01 0 03 04 1 00 01 0 03 04 1 00 01 0 03 04 1 4 0 4 4 0 4 4 0 4 Dans ce cas de figure le test de MWW n est plus applicable Solution : test de rang robuste de Fligner-Policello Equivalent non-paramétrique du test d Aspin-Welsh Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 31 / 66

Comparaison de K = échantillons appariés Objectif du test Test des rangs signés de Wilcoxon Objectif : Comparaison de échantillons appariés par rapport à une variable Quantitative Qualitative ordinale Exemple : X 1 X Temps Avant Après Remarque : Equivalent non-paramétrique du test de Student pour échantillons appariés Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 34 / 66

Comparaison de K = échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Soient F (X 1 ) la fonction de répartition de X 1 (mesure avant) F (X ) la fonction de répartition de X (mesure après) Les hypothèses de test sont : { H 0 : F (X 1 ) = F (X + θ) ; θ = 0 Distributions identiques (AVANT/APRES) H 1 : F (X 1 ) = F (X + θ) ; θ 0 Distributions différentes (AVANT/APRES) θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 36 / 66

Comparaison de K = échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Idée Posons G 1 : {x 11, x 1,, x 1n } G : {x 1, x,, x n } } = Transformation en rangs (G 1 G ) D = X 1 X 1 Calcul des d i = x 1i x i, i {1,, n} Elimination des observations telles que d i = 0 3 Prise en compte du signe de chaque d i 4 Transformation en rang des d i (r(min i d i ) = 1, r(max i d i ) = n) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 37 / 66

Comparaison de K = échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Exemple : n = 10 Avant Après D signe 1 1 + 4 6-7 3 4 + 8 7 1 + 9 11-10 8 + 1 13 1 + 15 14 1 + 16 16 0? 14 14 0? Calcul des rangs de D et du signe : Valeurs 1 1 1 1 4 Rangs bruts 1 3 4 5 6 7 8 Rangs finaux 5 5 5 5 6 6 6 8 Signes + + - + - - + + Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 38 / 66

Comparaison de K = échantillons appariés Hypothèses Test des rangs signés de Wilcoxon Exemple : n = 10 configurations extrêmes : + + + + + + + rangs D (1) H 0 vraie (mélange total) + + + + + + + rangs D () H 0 totalement fausse Ecart par rapport à la configuration (1) Rejet de H 0 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 39 / 66

Comparaison de K = échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Statistique de test Soit T + la somme des rangs des observations pour lesquelles d i > 0 : T + = i:d i >0 Soit T la somme des rangs des observations pour lesquelles d i < 0 : T = i:d i <0 Remarque : On peut déduire T grâce à T + : T = n(n + 1) r i r i T + Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 41 / 66

Comparaison de K = échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Statistique de test T + grand par rapport à T Les valeurs de X 1 sont stochastiquement plus élevées que celles de X T grand par rapport à T + Les valeurs de X 1 sont stochastiquement plus faibles que celles de X Si H 0 est vraie alors T + = T = 1 ( n(n+1) ) Aussi, la statistique de test a pour expression T = min ( T ; T +) V[T ] = E[T ] = n(n + 1) 4 n(n + 1)(n + 1) 4 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 4 / 66

Comparaison de K = échantillons appariés Statistique de test Test des rangs signés de Wilcoxon Distribution de la statistique de test sous H 0 Distribution non connue mais tabulée (probabilités exactes et quantiles) Table des valeurs critiques de T Cas particulier si n > 0 : Z = T E[T ] V[T ] N (0, 1) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 43 / 66

Comparaison de K = échantillons appariés Région critique Test des rangs signés de Wilcoxon - Région critique n 0 Valeurs de T 0 T lim n1n 4 Rejet de H 0 Non - rejet de H 0 Valeur de T lim lue dans la table Cas particulier si n > 0 Z = U n1n 4 n(n+1)(n+1) 4 N (0, 1) N (0, 1) RC : Z z 1 α/ 5% 95% 5% z0975 0 z0975 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 45 / 66

Comparaison de K = échantillons appariés Région critique Test des rangs signés de Wilcoxon - Région critique Retour à l exemple Valeurs 1 1 1 1 4 Rangs bruts 1 3 4 5 6 7 8 Rangs finaux 5 5 5 5 6 6 6 8 Signes + + - + - - + + T + = 5 + 5 + 5 + 6 + 8 = 15 T = 5 + 6 + 6 = 145 T = min ( T ; T +) = 145 Lecture dans la table : T lim = 4 NS Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 46 / 66

Corrélation de rangs Rappel sur le coefficient de corrélation linéaire de Pearson Rappel - I Soient X et Y deux variables quantitatives Coefficient de corrélation théorique ρ(x, Y ) = σ XY E[XY ] E[X ]E[Y ] = [ 1, 1] σ X σ Y σ X σ Y Si ρ(x, Y ) = 1 alors lien linéaire parfait entre X et Y Si X et Y indépendantes alors ρ(x, Y ) = 0 Estimé par le coefficient de Bravais-Pearson : r = s n xy i=1 = (x i x)(y i ȳ) s x s n y i=1 (x i x) n i=1 (y i ȳ) Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 49 / 66

Corrélation de rangs Rappel sur le coefficient de corrélation linéaire de Pearson Rappel - II Test de nullité de ρ { H 0 : ρ = 0 Pas de corrélation linéaire entre X et Y H 1 : ρ 0 Corrélation linéaire entre X et Y Sous H 0 T = R n 1 R T n Conditions d application : ou X et Y distribuées selon une loi normale n > 30 et VA continues L absence de lien linéaire n implique pas l absence de lien fonctionnel!! Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 50 / 66

Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman Pas d hypothèse de loi Indications Petits échantillons (si on ne peut pas supposer X et Y distribuées normalement) Variables avec peu de valeurs différentes Présence de valeurs extrêmes Variables ordinales La relation n est pas forcément linéaire (exponentiel, puissance, ) Utile lorsque la distribution des variables est asymétrique Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 5 / 66

Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman - Principe 1 Transformation des données de X et Y en rangs, séparément Soient R = (r 1,, r n ), S = (s 1,, s n ) respectivement les rangs de X et Y Remarque importante : Le coefficient de corrélation de Spearman calculé entre X et Y est égal au coefficient de corrélation de Pearson calculé entre R et S Calcul du coefficient de Spearman en utilisant le coefficient de corrélation de Bravais-Pearson entre R et S r s = s rs s r s s = Expression simplifiée : n i=1 (r i r)(s i s) n i=1 (r i r) n i=1 (s i s) r s = 1 n i=1 R is i n(n 1) 3n + 1 n 1 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 53 / 66

Corrélation de rangs Coefficient de Spearman Coefficient de corrélation de Spearman - Principe 3 Test de la nullité de ρ Sous H 0 T = R s n T n 1 R s 4 Interprétation : Si r s = 1 les classements sont identiques Si r s = 1 les classements sont opposés Si r s 0 (statistiquement significatif) les classements sont liés Si X et Y sont indépendantes alors ρ = 0 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 54 / 66

Corrélation de rangs Exemple Coefficient de corrélation de Spearman - Exemple Relation Poids - Taille (n = 15) Taille(cm) Poids(cm) R S 1697 77564 15 14 1539 55000 3 1 169 76657 10 1 1633 6596 11 6 1500 58068 3 1679 7575 14 11 1643 8000 13 15 166 76667 9 13 1543 58060 5 154 71668 4 10 161 68039 8 8 1577 70060 7 9 1557 61689 6 5 1496 67585 1 7 1637 59874 1 4 Calcul du coefficient de Bravais-Pearson entre R et S : r s = 061786 Statistique de test : t = 8330, p = 001410 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 56 / 66

Comparaison de K > échantillons indépendants Objectif et hypothèses du test Test de Kruskal-Wallis Objectif : comparer la distribution d une variable quantitative X entre K groupes indépendants (Extension à plus de groupes du test de Mann-Whitney-Wilcoxon) Equivalent non paramétrique de l ANOVA à un facteur Hypothèses du test Soit F i (X ) la fonction de répartition de X dans la population i, 1 i K Les hypothèses de test sont : { H 0 : F 1 (X ) = F (X + θ) = = F K (X + θ) ; θ = 0 Distributions identiques H 1 : i j/f i (X ) = F j (X + θ); θ 0 Distributions différentes θ paramètre de translation : décalage entre les fonctions de répartition Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 59 / 66

Comparaison de K > échantillons indépendants Statistique de test et région critique Test de Kruskal-Wallis - Statistique de test et région critique 1 Transformation en rangs (r ij rang de l observation x ij parmi les n observations) G 1 : {x 11, x 1,, x 1n1 } G : {x 1, x,, x n } G K : {x K1, x K,, x KnK } Calcul de la moyenne des rangs pour chaque groupe : = Transformation en rangs (G 1 G G K ) w i = 1 n i n i r ij j=1 3 Calcul de la moyenne globale des rangs : w = 1 K K w i i=1 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 61 / 66

Comparaison de K > échantillons indépendants Statistique de test et région critique Test de Kruskal-Wallis - Statistique de test Statistique de test sous H 0 : KW = 1 n(n + 1) K n i ( w i w) χ k 1 Remarque : approximation du χ valable si n i 5, i {1,, K} Si H 0 vraie alors les w i sont proches de w KW tend vers 0 Plus KW s écarte de 0, plus on aura tendance à rejeter H 0 i=1 Région critique : kw > χ k 1 au seuil 1 α Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 6 / 66

Comparaison de K > échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple Mesure de la teneur en calcium de l eau de 3 zones géographiques n 1 = 6, n = 5, n 3 = 6 ; n = n 1 + n + n 3 Zone 1 Zone Zone 3 18 15 15 0 16 0 17 1 5 1 5 3 0 16 19 19 1 Transformation en rangs sur n Valeurs 15 15 16 16 17 18 19 19 0 0 0 1 1 3 5 5 Rgs bruts 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 17 Rgs finaux 15 15 35 35 5 6 75 75 10 10 10 15 15 14 15 165 165 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 64 / 66

Comparaison de K > échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple 1 Transformation en rangs sur n Zone 1 (Rang) Zone (Rang) Zone 3 (Rang) 18 (6) 15 (15) 15 (15) 0 (10) 16 (35) 0 (10) (14) 17 (5) 1 (15) 5 (165) 1 (15) 5 (165) 3 (15) 0 (10) 16 (35) 19 (75) 19 (75) Calcul des moyennes des rangs par zones et moyenne globale des rangs w 1 = 115 w = 65 w 3 = 858 w = 9 3 Calcul de la statistique de test KW = 1 n(n + 1) K n i ( w i w) KW = 1 [ 6 (115 9) + 5 (65 9) + 6 (858 9) ] = 74 17(18) i=1 Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 65 / 66

Comparaison de K > échantillons indépendants Exemple Test de Kruskal-Wallis - Exemple 4 Région critique et conclusion Les n i 5, 1 i 3, donc Le quantile de la loi du χ ddl = 599 KW χ K 1 74 < 599 donc on ne rejette pas H 0 Les teneurs en calcium sont distribuées de la même manière parmi les 3 zones géographiques Michaël Genin (Université de Lille ) Tests non-paramétriques Version - 5 mars 015 66 / 66