2. COMPARAISON DE DEUX GROUPES

Il existe des tests spécifiques pour comparer des proportions comparer des moyennes Données par paires ou non Nécessite éventuellement de comparer préalablement les variances Des conditions d applications doivent être respectées pour réaliser les tests

Comparaison de 2 proportions 2 échantillons aléatoires simples indépendants (pas de correspondances entre les valeurs des 2 groupes) Pour chaque groupe d effectif ni on a xi succès, et donc une proportion pi = xi/ni Test de l hypothèse nulle p1 = p2 Condition : xi et (ni - xi) 5 On peut avoir à calculer les xi à partir de pi et ni

Estimation combinée de p1 et p2, notée p p = (x1 + x2)/(n1 + n2) et q = 1 - p Calcul de la statistique test z z = (p1 - p2)/ (p.q /n1 + p.q /n2) Sous H0, z suit une loi Normale (table de Student avec un nombre infini ("grand") de ddl) On peut calculer l intervalle de confiance de p1 - p2

Quand il ne s agit pas de proportions : 2 groupes d observations indépendantes : 2 échantillons pouvant être Indépendants Appariés H 0 : Les 2 groupes sont issus de la même population, avec donc la même moyenne 2 étapes : Comparaison des variances Comparaison des moyennes

Important de tester préalablement l homogénéité des variances car c est une condition d application de certains tests (tests paramétriques) Sinon, en cas d hétéroscédasticité : test simultané de 2 hypothèses nulles Problème de Behrens-Fisher Le rejet de H 0 peut être due à la différence des moyennes (la seule hypothèse qu on veut tester) ou à celle des variances

Comparaison de 2 variances Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées Statistique F : rapport des variances, tenant compte du nombre d objets par groupes par l intermédiaire des degrés de liberté Si égalité des variances, F doit se situer autour de 1 La variable F obéit à une loi de distribution de F

Pour 2 groupes à n 1 et n 2 objets F = s 2 1 /s2 2 Sous H 0, F suit une loi à (n 1-1) et (n 2-1) ddl Conditions Indépendance des observations Normalité des données

Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution F = plus grande variance/plus petite variance Test unilatéral (souvent) ou bilatéral On peut également tester les écarts-types par un test F Il existe un test non paramétrique permettant de comparer 2 variances en cas de non normalité : test de Fligner-Killeen

Comparaison de 2 moyennes Test t Pour échantillons appariés ou non appariés Test statistique Paramétrique : référence à la loi Normale Comparaison de t au seuil dans une table de Student Par permutations Tests non paramétriques Test U de Wilcoxon-Mann-Whitney (échantillons non appariés) Test des rangs signés de Wilcoxon (échantillons appariés)

Test t pour échantillons indépendants Parfois appelé test Z H 0 : µ 1 = µ 2 Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents t suit une loi de distribution de Student à n 1 +n 2-2 degrés de liberté sous H 0

Conditions d utilisation Variable quantitative Grands échantillons (n i >30) Normalité des données (sauf si test par permutations) Egalité des variances (homoscédasticité) Indépendance des observations

Quand n i < 30, on utilise une statistique t corrigée Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population Test t de certains livres/logiciels

Si les variances sont inégales, il existe également une correction Test t modifié selon Welch Même calcul de la statistique-test Distribution différente : formule pour modifier le nombre de ddl

Test t pour données appariées Correspondance 2 à 2 des observations Mesures avant-après des mêmes sujets Mesures de deux caractères sur les mêmes individus Informations supplémentaires Pas nécessaire de tester l homogénéité des variances Analyse des différences observées pour chaque paire d observations d i = x i1 - x i2

Moyenne des différences = différences des moyennes µ d = µ 1 - µ 2 Erreur-type (écart-type de la moyenne) s d = s d / n Statistique-test t = d /s d Sous H 0 (µ d = 0), t obéit à une loi de Student à (n - 1) ddl, où n est le nombre de paires

Test non paramétrique U de Wilcoxon-Mann-Whitney Pour deux groupes indépendants Données quantitatives Distribution non normale Variances inégales Echantillons trop petits pour test t (ex : n = 3) Données semi-quantitatives Moins puissants que les tests paramétriques Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t Basé sur les rangs

On place l ensemble des valeurs en ordre (les exaequos reçoivent un rang médian) Plus les groupes sont séparés, moins les valeurs seront entremêlées Le test consiste à estimer l écart à un entremêlement moyen des valeurs placées en rang La statistique testée, U, mesure le degré de mélange des deux échantillons (H 0 : pas de différence) Comparaison de la valeur observée par rapport à la valeur critique (Table) Convergence vers une loi Normale quand n augmente

Exemple Groupe 1 : 0,5 2 2,1 (n 1 = 3) Groupe 2 : 0,7 2,2 3 3,1 (n 2 = 4) Valeurs en ordre 1 2 3 4 5 6 7 Provenance 1 2 1 1 2 2 2 U 1 : nombre de fois qu un élément du groupe 2 en précède un du groupe 1 ; U 1 = 0 + 1 + 1 = 2 U 2 : l inverse ; = 1 + 3 + 3 + 3 = 10

Il y a en tout n 1 n 2 comparaisons : 4 x 3 = 12 U 2 = n 1 n 2 - U 1 Si les groupes sont parfaitement séparés U 2 = 0 et U 1 = n 1 n 2, ou l inverse Si les groupes sont parfaitement entremêlés U 1 = U 2 = n 1 n 2 /2 Tester H 0 revient à mesurer l écart du plus petit des U à la valeur n 1 n 2 /2 (valeur sous H 0 ) Statistique-test = min (U 1, U 2 )

Test non paramétrique de Wilcoxon Pour données appariées Mêmes conditions que pour le test U Efficacité (/test t) = 0,95 Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63 Etude des différences entre paires de données H 0 : pas de différence entre les moyennes des groupes

On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d ex-aequo) On attribue à chaque rang le signe de la différence originale On somme les rangs positifs (T+) et les rangs négatifs (T-) Sous H, T+ = T- = n(n + 1)/4 (n excluant les 0 différences nulles) Statistique-test = min (T+, T-)

Comparaison de 2 groupes (pour des échantillons non Données normales? appariés) Oui Non n i petit Test F Succès Normaliser Echec n i > 50? Homoscédasticité Hétéroscédasticité Oui Non Oui n i > 50? Non Test t Welch Test t permutation Homoscédasticité Oui Non Test t paramétrique permutation Succès Homogénéiser les variances Echec Test U (ou si variables semiquantitatives)

Risque relatif (RR) et Rapport de cotes (RC) Mesures de risque Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives

Tableau d'une étude prospective ou rétrospective Maladie Pas de maladie Traité (exposé) a b Non traité (ou placebo ou non exposé) c d RR = (a/(a+b)/(c/(c+d)), que pour études prospectives RC = (a/b)/(c/d) = ad/bc Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre) Possibilité de calcul d'un intervalle de confiance

Risque relatif RR = relative risk Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR

Rapport de cotes RC = odds ratio Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1 En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle