Autres tests : Tests divers et tests non paramétriques. C. Bulot

Autres tests : Tests divers et tests non paramétriques C. Bulot

Objectif du cours du jour Cette année : On voit les calculs pour les tests faciles à réaliser Valables sous certaines conditions Notamment grande taille Si ces conditions ne sont plus réalisées : Il est FAUX de les faire Il existe d autres tests On va les énoncer sans voir forcément les calculs 2 11/10/2017

Introduction Rappel Tests Statistiques On veut mettre en évidence une différence (proportion ou moyenne, ) entre 2 populations 1 ère étape : on pose l hypothèse nulle (H 0 ) : «Il n y a pas de différence» Pour la tester, on extrait 2 échantillons La différence observée (des proportions ou des moyennes, ) entre les échantillons est-elle significative d une vraie différence entre les populations? 3 11/10/2017

Introduction En d autres termes : la différence observée est-elle compatible avec (H 0 )? Est-elle probable si (H 0 ) est vraie? Loi de probabilité 2 ème étape : on définit un paramètre (mettant en jeu la différence observée) 3 ème étape : Choix du seuil a=5% : risque maximal autorisé 4 11/10/2017

Introduction Si on connait la loi de probabilité suivie par ce paramètre : 4 ème étape : Détermination de la région critique (à 5%) 5 ème étape : Calcul du paramètre à partir des valeurs observées. 6 ème étape : Décision Si la valeur du paramètre est dans la région critique : la différence est improbable si (H 0 ) est vraie : on rejette (H 0 ) avec un risque de 1 ère espèce a (la différence est significative) 5 11/10/2017

Introduction Sinon la différence n est pas improbable : on accepte (H 0 ) avec un risque de deuxième espèce Loi suivie par le paramètre? 6 11/10/2017

Introduction Détermination de la loi de probabilité du paramètre Rappel d une propriété des probabilités La somme d'un grand nombre de variables aléatoires indépendantes de lois quelconques suit approximativement une loi normale. Si les échantillons sont grands, on connaît la loi : Approximation par la loi normale de la loi de la v.a. "moyenne" pour les échantillons de taille n 30 Approximation par la loi normale de la loi de la v.a. "proportion" (approximation de la loi binomiale par la loi normale) quand n 30 et np et n(1-p) 5 7 11/10/2017

Introduction Avantages (on connaît la loi) Calculs faciles Si les échantillons sont petits Plus d approximation possible (sinon erreur de calculs) On revient à la vraie loi si on la connaît : Proportion : loi binomiale (lourdeur des calculs) Moyenne : sous certaines conditions Sinon : on ne connaît pas la loi D autres techniques : tests non paramétriques 8 11/10/2017

Introduction Jusqu à présent, vous avez vu : Tests pour de grands échantillons : Variable qualitative : Test du c² si tous les effectifs théoriques 5 (échantillons indépendants) (Variable quantitative : comparaison de 2 moyennes par le Test z avec la loi normale (ou Laplace-Gauss) si les effectifs 30) Que faire dans le cas de petits échantillons (si on n est pas dans ces conditions)? 9 11/10/2017

Plan I. Variable qualitative : comparaison de 2 proportions observées II. Variable quantitative : comparaison de 2 moyennes observées III. Comparaison de plus de 2 moyennes IV. Méthodologie Les parties du cours indiquées par (compléments) et entre [ ] n ont pas à être sues. 10 11/10/2017

I. Variable qualitative : Comparaison de 2 proportions observées On étudie un caractère qualitatif à 2 modalités dans deux populations (Ex : malade non malade chez des exposés et non exposés) On veut comparer deux proportions (proportion de malades) On teste l hypothèse (H 0 ) : «p 1 = p 2» au seuil de signification a (ou «Indépendance entre maladie et exposition») 11 11/10/2017

On extrait 2 échantillons pour tester (H 0 ). 2 cas : Echantillons Indépendants Ou si on peut : échantillons appariés (mêmes individus) Avantage : on observe la différence pour chaque individu On gomme la variabilité individuelle Il est plus puissant qu un test avec des échantillons indépendants Pas toujours possible 12 11/10/2017

1. Echantillons indépendants On extrait 2 échantillons indépendants On établit le tableau de contingence 2x2 et on calcule les effectifs théoriques e t. Si tous les e t 5, on utilise le test du c² d indépendance. Si un des e t <5? 13 11/10/2017

Exemple On observe le développement de tumeurs dans un groupe de 10 rats auquel on a administré une substance chimique et dans un groupe témoin de 10 rats. On obtient le tableau de contingence des effectifs observés: Groupe Avec substance Nb rats sans tumeur Nb rats avec tumeur total 6 4 10 Témoin 8 2 10 Total 14 6 20 14 11/10/2017

On teste (H 0 ) : «la proportion de rats avec tumeur est la même avec ou sans substance» ou «Indépendance entre tumeur et substance» au seuil de signification a=5% Sous (H 0 ), on calcule le tableau de contingence des effectifs théoriques 15 11/10/2017

Groupe Avec substance Nb rats sans tumeur 7 Nb rats avec tumeur e t = 10*6/20 =3 total Témoin 7 3 10 Total 14 6 20 10 2 e t < 5 donc on ne peut pas utiliser le test du c² d indépendance 16 11/10/2017

Dans le cas d une comparaison de 2 proportions avec 2 échantillons indépendants Si un des effectif e t <5 on ne peut plus faire le test du c² d indépendance On revient à la loi binomiale (la vraie loi) : On effectue le Test exact de Fisher (Calculs lourds) [Rque (compléments) : si e t n est pas trop petit (entre 3 et 5), on pourrait encore faire un test du c² avec correction de Yates] 17 11/10/2017

2. Deux proportions liées : Test de McNemar On veut comparer le taux de détection de 2 tests de dépistage d une maladie On teste l hypothèse (H 0 ) : p 1 = p 2 au seuil de signification a On les applique au n mêmes malades. 0 : non détectée - 1 : détectée On a ainsi 2 échantillons de données appariées 18 11/10/2017 Test Mal T1 T2 1 1 1 2 1 0 3 1 1 4 0 1 5 1 1 6 0 0 7 1 1 8 1 0 9 0 1 10 1 1

Si on fait le tableau de contingence classique : 1 0 T1 o 11 o 12 n T2 o 21 o 22 n On ne peut pas faire directement le test du c² d indépendance car on a les mêmes individus pour les 2 lignes. On n a pas 2 séries de données indépendantes On fait le test de McNemar (ou test du c² de McNemar) 19 11/10/2017

[Principe du test (Compléments) Combinaisons possibles : T1 T2 Nombre 1 1 a 1 0 b 0 1 c 0 0 d 20 11/10/2017

Autre présentation du tableau (croisé): T1 1 0 T2 1 a c 0 b d n = b+c paires discordantes (1, 0) et (0, 1) Si la détection est la même on devrait avoir : nb de paires (1, 0) = nb de paires (0, 1) 21 11/10/2017

Tester (H 0 ) revient à tester si la proportion de paires (0, 1) parmi les b+c paires discordantes est égale à 1/2. Paires discordantes (0,1) (0,1) Eff. Observés Eff. théoriques b c b+c (b+c)/2 (b+c)/2 b+c Sous les bonnes conditions (b+c)/2 5 : On conclut par un test d ajustement du c² à 1 ddl] 22 11/10/2017

II. Variable quantitative : Comparaison de 2 moyennes On veut comparer le taux de cholestérol dans 2 populations. Le caractère étudié est quantitatif Comparaison de 2 moyennes Soient 1 et 2 les taux moyens de cholestérol des 2 populations 1 ère étape On formule l'hypothèse nulle (H 0 ) : «1 = 2» «Le taux moyen de cholestérol est égal dans les 2 populations» 23 11/10/2017

On extrait 2 échantillons pour tester (H 0 ). 2 cas : Indépendants Ou si on peut : appariés (mêmes individus) 24 11/10/2017

Tests utilisés : Cas de grands échantillons (n 30) : Test basé sur la loi Normale (test z) Cas de petits échantillons : On veut utiliser le test t avec la loi de Student. Pour cela, on a besoin de l hypothèse de normalité de la distribution de la variable étudiée Si ce n est pas le cas : On ne connaît pas la loi de probabilité On effectue un test non paramétrique 25 (ne 11/10/2017 nécessite aucune condition)

1. Echantillons indépendants On extrait deux échantillons indépendants, E 1 et E 2, de taille N 1 et N 2. Si N 1 et N 2 30, on utilise le test basé sur la loi normale (ou Laplace-Gauss) Si un des effectifs < 30 : petits échantillons La variable aléatoire moyenne ne suit plus approximativement une loi normale (cf probabilité) Ce sera le cas si le caractère étudié se distribue selon une loi normale dans la population 26 11/10/2017

2 cas de figure : a) Le caractère se distribue selon une loi normale (donc la moyenne aussi) : (Rappel : m ) On teste alors l égalité des variances avec le Test de Fisher(-Snedecor) ou test F On teste : (H 0 ) : «s 1 ²= s 2 ² = s 0 ²» (Paramètre : F = s 1 ²/s 2 ²) 27 11/10/2017

Si on a égalité des variances (suite au test de Fisher) : Test t de Student variances égales On estime la variance commune par : s 2 = n 1s 2 1+n 2 s 2 2 = n 1s 2 1+n 2 s 2 2 n 1 1 + n 2 1 n 1 +n 2 2 2 ème étape : Définition du paramètre Sous l hypothèse (H 0 ), le paramètre : T = m 1 m 2 s 1 n1 + 1 n2 suit une loi de Student à n 1 +n 2-2 ddl 28 11/10/2017

3 ème étape : Choix d un seuil a 4 ème étape : Détermination de la région critique -t a,n1+n2-2ddl 0 +t a,n1+n2-2ddl Où t a,n1+n2-2ddl est lue dans la table de Student pour le seuil a et n 1 +n 2-2ddl. 5 ème étape : Calcul du paramètre T à partir des valeurs observées. 29 11/10/2017

6 ème étape : Décision Si le paramètre calculé tombe dans la région critique, on rejette l hypothèse nulle (H 0 ) avec un risque de 1 ère espèce a : la différence entre m 1 et m 2 est significative. Si le paramètre calculé ne tombe pas dans la région critique, on ne peut pas rejeter l hypothèse nulle (H 0 ) au seuil a et on l accepte avec un risque de deuxième espèce. 30 11/10/2017

Si on n a pas égalité des variances (suite au test de Fisher) : Test t de Student variances différentes (ou test de Welsh) : Hors programme 31 11/10/2017

b) Le caractère ne se distribue pas selon une loi normale : Test de Mann-Whitney Si les échantillons sont petits (N 1 et/ou N 2 < 30) et si le caractère ne se distribue pas selon une loi normale : On ne connaît pas alors la loi de probabilité suivie par la moyenne. On ne peut pas faire le test avec la loi de Student On fait le test non paramétrique de Mann Whitney 32 11/10/2017

Idée du test Pas de différence Echantillon 1 Echantillon 2 x 33 Différence On regarde si un échantillon a de "plus grandes valeurs" que l'autre En tenant compte de la taille respective des 2 échantillons Test de rangs Les calculs ne sont pas au programme 11/10/2017 x i

Exemple Pour comparer le taux de cholestérol de deux populations, on extrait respectivement deux échantillons représentatifs indépendants E 1 et E 2. On suppose que la variable aléatoire "Taux de cholestérol" se distribue selon une loi normale. On obtient les résultats suivants : E 1 : n 1 = 8 ; m 1 = 3,4 g/l ; s 1 ² = 0,17 (g/l)² E 2 : n 2 = 8 ; m 2 = 3,0 g/l ; s 2 ² = 0,11 (g/l)² Au seuil a = 5%, le taux moyen de cholestérol est-il différent dans les deux populations? On suppose que les variances ne sont pas significativement différentes 34 11/10/2017

Corrigé Etape 1 : On teste (H 0 ) : «Les taux moyens de cholestérol sont les mêmes» Comparaison de 2 moyennes observées échantillons indépendants n 1 = n 2 = 8 < 30 : petits échantillons Le caractère se distribue selon une loi normale + variances égales (énoncé) Test t de Student 35 11/10/2017

On estime la variance commune par : Soit s = 0,4 s² = n 1s² 1 +n 2 s² 2 n 1 1 +(n 2 1) = 8 0,17+8 0,11 8 1 +(8 1) = 8 0,28 2 7 = 4 0,04 = 0,16 36 11/10/2017

2 ème étape : Définition du paramètre Sous l hypothèse (H 0 ), le paramètre : T = m 1 m 2 s 1 n1 + 1 n2 suit une loi de Student à n 1 +n 2-2 = 14 ddl 37 11/10/2017

3 ème étape : Choix du seuil a=5% 4 ème étape : Détermination de la région critique Dans la table de Student pour le seuil 5% et 14 ddl. t 5%,14ddl = 2,145-2,145 0 +2,145 38 11/10/2017

5 ème étape : Calcul du paramètre T à partir des valeurs observées 3,4 3,0 T = 0,4 1 8 + 1 8 = 0,4 0,4 1 4 = 4 = 2 39 11/10/2017

6 ème étape : Décision T < t 5%,14ddl Le paramètre calculé ne tombe pas dans la région critique, on ne rejette pas l hypothèse nulle (H 0 ) avec un seuil a On l accepte avec un risque de deuxième espèce Le taux moyen de cholestérol n est pas significativement différent 40 11/10/2017

2. Echantillons appariés : Mêmes individus dans les 2 échantillons Ex : On veut comparer la glycémie à jeun et après repas On étudie un caractère quantitatif dans 2 populations P 1 et P 2 de moyennes µ 1 et µ 2 On veut comparer ces 2 moyennes On va tester l hypothèse : (H 0 ): «µ 1 = µ 2» au seuil de signification a Pour la tester, on extrait 2 échantillons appariés (mêmes individus) de taille n Si n 30 : Test basé sur la loi normale 41 11/10/2017

Si n < 30 : a) La différence se distribue selon une loi normale (donc la moyenne des différences aussi) : Test t de Student apparié (calculs Hors Programme) b) La différence ne se distribue pas selon une loi normale : Test de Wilcoxon Si l échantillon est petit (N < 30) et si les différences d i ne se distribuent pas selon une loi normale : On ne peut pas faire le test avec la loi de Student On fait le test non paramétrique de Wilcoxon 42 11/10/2017

Idée du test de Wilcoxon 0 Non rejet de (H 0 ) 0 d i Rejet de (H 0 ) d i "autant" de différences négatives que positives et du même ordre de grandeur Les d i nulles ne jouent pas Les calculs ne sont pas au programme 43 11/10/2017

3.Avantages et Inconvénients des tests non paramétriques Ils ont l'avantage de ne présupposer aucune condition : toujours applicables notamment dans le cas de petits échantillons quand la condition de normalité de la distribution de la variable n'est pas vérifiée Il s applique aussi dans le cas de score (échelles ordinales) Ex : Indice de la douleur : 0 1 2 10 44 11/10/2017

On leur préfère les tests paramétriques quand ceux-ci sont applicables car les tests paramétriques sont : robustes (encore valables lorsqu'il y a un léger écart aux conditions d'application) "meilleurs" car plus puissants : quand on peut les appliquer, ils mettent plus en évidence une différence significative (puissance d un test : capacité du test de rejeter (H 0 ) quand elle est fausse = 1-β). 45 11/10/2017

[4. Normalité d une distribution (compléments) Pour vérifier la normalité : Méthodes descriptives M=m=Mo Droite de Henry Dans les protocoles : tests statistiques 46 11/10/2017

[4. Normalité d une distribution (compléments) Tests statistiques pour vérifier la normalité d'une distribution Test du c² d ajustement à une répartition théorique suivant une loi normale Nécessite d avoir un échantillon assez grand pour avoir des classes d effectifs théoriques 5 Dans le cas de petits échantillons (le cas qui nous intéresse pour les comparaisons de moyennes) : test de Shapiro Wilk] 47 11/10/2017

III. Comparaison de plusieurs Moyennes Analyse de variance (ANOVA) Exemple Lors d une expérience : Un groupe de patients est traité avec 2 comprimés d aspirine Un autre avec un comprimé d aspirine Un troisième par du placebo Les trois groupes ont-ils des pressions sanguines moyennes significativement différentes? 48 11/10/2017

On teste l hypothèse nulle : (H 0 ) : «1 = 2 = 3» au seuil de signification a = 5% Peut-on comparer les moyennes 2 à 2 à l aide des tests vus précédemment (test loi normale ou test t de Student)? Cela reviendrait à tester 3 hypothèses à a =5% : (H 0 ) : «1 = 2» ; (H 0 ) : «1 = 3» ; (H 0 ) : «2 = 3» Le niveau de confiance baisse à 0,95 3 0,857 49 11/10/2017

Si on trouvait une différence significative, l erreur de 1 ère espèce (trouver une différence entre 2 moyennes alors qu il n y en a pas) serait trop importante (elle serait multipliée par le nombre de comparaisons) 3 moyennes à 5% : 15% 4 moyennes à 5% : 26% On fait donc une comparaison globale ANOVA (Analyse de la variance) 50 11/10/2017

Idée Variance groupes Variance totale Moyennes différentes Moyennes égales Moyennes égales si les variances entre groupes et intragroupes sont égales 51 11/10/2017

1. ANOVA L analyse de variance (ANOVA) est une méthode permettant de tester l égalité des moyennes de plusieurs populations en analysant leurs variances (Equivalent du test du c² pour caractères quantitatifs) ANOVA à un facteur : une seule caractéristique sert à catégoriser les populations Paramètre du test ANOVA à un facteur F = variance intergroupe variance intra groupe Basée sur la loi de Fisher-Snedecor 52 11/10/2017

Conditions d application Mêmes conditions que le test t de Student Si n<30 il faut la normalité des distributions [Vérifiée par le test de Shapiro-Wilk (compléments)] Homogénéité des variances [Vérifiée par le Test de Levene ou le test de Bartlett (compléments)] 53 11/10/2017

Le rejet de l égalité des moyennes par une ANOVA ne dit pas entre quelles moyennes se trouve la (les) différences Pour identifier les moyennes spécifiquement différentes : tests de comparaisons multiples : compromis entre trouver une différence sans faire exploser le risque [Ex (compléments) (ou tests post-hoc) 54 : test de Sheffé, de Tukey, de Dunnet ] 11/10/2017

2. Conditions non vérifiées (non normalité ou non homogénéité des variances) (groupes indépendants) On ne peut plus utiliser l ANOVA On utilise un test non paramétrique : [(compléments) test de Kruskall-Wallis] C est une extension du test de Mann-Whitney à plus de 2 moyennes 55 11/10/2017

IV Les Tests en Pratique (Méthodologie) Quel type de tests : Quel type de caractère : qualitatif, quantitatif? Comparaison de proportions, de moyennes Echantillons indépendants ou mêmes individus? Combien d échantillons (1, 2 ou plus)? Conditions? Taille des échantillons, Normalité, égalité des variances, Choix du test 56 11/10/2017

Récapitulatif Nous avons vu les cas de figure suivants : Comparaison de 2 proportions 2 échantillons indépendants (avec calcul) 2 échantillons appariés (sans calcul) Comparaison de 2 moyennes 2 échantillons indépendants (avec calcul) 2 échantillons appariés (sans calcul) Comparaison de plus de 2 moyennes Echantillons indépendants (sans calcul) 57 11/10/2017

Tableau des tests Comparaison de 2 Proportions (Tableau 2x2) Tous les effectifs théoriques 5 Au moins un effectif théorique < 5 2 groupes indépendants Test du χ² d indépendance Test exact de Fisher 2 groupes appariés Test de McNemar En rouge : calculs vus 58 11/10/2017

Tableau des tests Comparaison de Moyennes observées effectifs des échantillons 30 effectifs des échantillons < 30 Normalité des distibutions effectifs des échantillons < 30 Distibutions non normales (Tests non paramétriques) 2 groupes indépendants Test z Loi normale Test t de Student (var= ou var ) Test de Mann-Whitney 2 groupes appariés Test z apparié Test t de Student apparié Test de Wilcoxon Plus de 2 groupes indépendants ANOVA 1 facteur ANOVA 1 facteur (Si variances homogènes) [Test de Kruskall-Wallis] En rouge : calculs vus 59 11/10/2017