Les Tests en Statistique (/) Table des matières 1 Introduction 1 Indices de position.1 Cas de échantillons indépendants..................... Cas de échantillons appariés....................... 3..1 Test des signes........................... 3.. Test des rangs signés de Wilcoxon................. 3 3 Indices de dispersion 4 3.1 Variance des rangs............................. 4 3. Indice de dispersion non paramétrique.................. 4 Le document Les Tests en Statistique (1/) est axé sur une approche paramétrique des statistiques. Nous nous intéressons ici à une approche non paramétrique. Là encore, les principes des tests découlent d idées simples et intuitives. 1 Introduction Soient deux populations P 1 et P dont on tire deux échantillons E 1 et E. On désire simplement savoir, au vu de E 1 et E, et sans faire d hypothèse sur les lois de probabilité attachées à P 1 et P, si ces lois sont identiques ou non. On dit que le test est alors non paramétrique (en anglais distribution free test ). 1
TD Stats - DESS Bioinfo Quelques remarques : Quand il existe un test classique (paramétrique) de comparaison (spécifiant la loi), ce test est plus puissant que le test non paramétrique équivalent. Les tests non paramétriques sont en général de mise en œuvre aisée. Il existe un grand nombre de tests paramétriques ; P 1 et P peuvent être significativement différentes avec un test et pas avec un autre. Il convient donc d essayer plusieurs tests. Indices de position.1 Cas de échantillons indépendants Il s agit de trouver une alternative non paramétrique au test de Student pour la comparaison de moyennes de deux échantillons. On dispose donc ici de deux échantillons de et n B observations provenant de deux populations A et B, respectivement. Le test utilisé est basé sur le classement des + n B observations. Chaque observation est associée à un rang. Question : donner le principe du test et l hypothèse nulle testée. Solution : on calcule la somme des rangs des valeurs d un des deux échantillon et on la compare avec ce qui est attendu sous H 0 : la distribution des valeurs de la population A est centrée sur la même valeur que celle de la population B. Prenons un exemple : dans une étude sur la part génétique de l héritabilité discutée par Margolin [1988], des échantillons d individus appartenant à différents groupes ethniques ont été analysés. Des échantillons de sang ont été collectés. Nous comparons ici l échantillon des Américains Natifs à celui des Caucasiens. Les données sont présentées ici : Américains Natifs : 8.50 9.48 8.65 8.16 8.83 7.76 8.63 Caucasiens : 8.7 8.0 8.5 8.14 9.00 8.10 7.0 8.3 7.70 Questions : Calculer la somme des rangs pour le groupe Américains natifs
TD Stats - DESS Bioinfo. Cas de échantillons appariés Peut-on rejeter H 0 au seuil 5%? (utilisez la table fournie à la fin de ce document) Solution : C C N C C N C C C C N N N N C N 1 3 4 5 6 7 8 9 10 11 1 13 14 15 16 La somme des rangs pour l échantillo est égale à 75. P (SR A > 73) = 0.1. La valeur exacte de la probabilité est 0.114. H 0 n est donc pas rejetée. Lorsque > 10 et n B > 10, l approximation normale SR E(SR) V (SR) est la somme des rang pour A ou B). Question : quelle est l expression de E(SR) Solution : est acceptable (SR est la probabilité d observer une valeur de l échantillon issu de A à n importe quelle position, sous H 0. Donc E(SR) = 1. +... + (n a + n b ).. i=1 i =. (+n B.( +1) =.( +1). = Lorsqu il n y a pas d ex-aequo V (SR) = ( +1)(n B ) 1. En cas d ex-aequo(s), l expression de l espérance reste inchangée mais celle de la variance est modifiée.. Cas de échantillons appariés..1 Test des signes Exemple : L excretion de coproporphyrine, le jour et la nuit, a été mesurée chez 8 patients. Jour 35.3 65.9 73.4 70.6 56.3 73.4 39.3 36.9 Nuit 39.0 58.8 70.6 58.7 53.1 7.6 4. 63.1 Question : proposer un test permettant de tester si l excretion diurne est différente de l excretion nocturne. Solution : test des signes. On reporte le signe de la différence entre jour et nuit pour chaque couple. Sous H 0 : pas de différence entre jour et nuit, le nombre de cas où la 8 différence est positive est distribuée selon une loi B(8, 0.5). Donc P (Z = 3) = 3 ( 1 )3 ( 1 )5. 3
TD Stats - DESS Bioinfo.. Test des rangs signés de Wilcoxon La situation expérimentale est la même que pour le test des signes. À chaque différence (pour chaque individu), on affecte son rang en tenant compte de la valeur absolue de la différence. Ce test est plus sensible que le précédent. Des tables reportant les probabilités d observer les valeurs des sommes des rangs sous H 0, en fonction de l effectif de l échantillon, permettent de refuser ou non l hypothèse nulle. Pour une taille d effectif suffisante, une approximation Gaussienne est acceptée. On a : E(p) = V (p) = n(n + 1) 4 n(n + 1)(n + 1) 4 où p, est la somme des rangs des différences positives et n est la taille de l échantillon. Ces expressions doivent être corrigées s il existe des ex-aequos ou des cas où la différence entre les deux valeurs d un même individu est nulle. Pour l exemple de l excretion de coproporphyrine, la somme des rangs des différences positives est égale à 0. La probabilité d observer cette valeur étant de 0.8438, l hypothèse nulle ne peut pas être rejetée. 3 Indices de dispersion 3.1 Variance des rangs Exemple : 1 1 0 1 1 0 0 1 On veut tester H 0 : la position des 1 dans la séquence est aléatoire contre l hypothèse alternative H 1 : il existe un groupement de 1 au centre ou aux extrémités. Question : proposer une statistique (d) pour tester cette hypothèse Solution : V R = j ω(j N+1 ), ω est l ensemble des rangs des 0 (ou des 1) L approximation est, là encore, acceptable pour des effectifs suffisants. On a : E(d) = V (d) = M(N + 1)(N 1) 1 M(N M)(N + 1)(N + )(N ) 180 4
TD Stats - DESS Bioinfo 3. Indice de dispersion non paramétrique où N est le nombre total d observations et M est le nombre d observation dans un des deux échantillons. 3. Indice de dispersion non paramétrique On désire mesurer l hétérogénéité entre bloc de même taille (K) dans un échantillon systématique en présence-absence. Exemple : 1 0 0 0 0 1 0 1 0 1 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 1 0 1 0 1 0 0 0 1 1 1 0 1 0 1 0 1 1 0 1 0 1 1 1 0 1 0 1 0 1 0 1 0 0 0 1 0 1 0 0 0 0 1 0 1 0 1 0 0 1 0 1 0 1 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 1 0 1 1 0 1 0 0 0 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 0 1 0 1 0 1 1 0 1 1 0 1 0 0 0 1 0 Soient Y 1, Y,..., Y N K les effectifs des N K blocs. On définit DNP ainsi ; DNP = N K i=1 Y i, et (K 1)(M 1) E(DNP ) = M[ + 1] N 1 M(M 1)(K 1)(N K)(N M)(N M 1) V (DNP ) = (N 1) (N )(N 3) où M est le nombre total de 0 (ou de 1) Dans la plupart des cas loi N (0, 1). DNP E(DNP ) V (DNP ) suit une 5