Autres tests statistiques (aperçu non exhaustif) Loïc Desquilbet Département des Sciences Biologiques et Pharmaceutiques Ecole Nationale Vétérinaire d Alfort loic.desquilbet@vet-alfort,fr Module Bases en Biostatistique Semestre S5 (2015-2016) Version v2 Plan I. Non indépendance des individus II. Tests statistiques usuels pour données indépendantes III. Tests statistiques pour données non indépendantes 2
Rappel Les tests du Chi-2 et de Student pour séries non appariées ne sont applicables que si les individus sont indépendants Mais que signifie «indépendant»? 3 Non indépendance des individus? 2 individus i et j sont «non indépendants» si le fait que l individu i présente une caractéristique (quelle qu elle soit) modifie la probabilité que l individu j la présente aussi Exemples de non indépendance des individus - Echantillon de chatons, en sélectionnant plusieurs chatons d une portée 2 chatons appartenant à une même portée se ressemblent forcément plus que 2 chatons de deux portées différentes - Echantillon de vaches, en sélectionnant plusieurs vaches d un même élevage 2 vaches appartenant à un même élevage se ressemblent forcément plus que 2 vaches issues de 2 élevages différents - Echantillon de prélèvements sanguin sur un poulain, en prenant plusieurs prélèvements par poulain, et en prenant un échantillon contenant plusieurs poulains 4
Que faire en cas de non indépendance Si utilisation des tests statistiques classiques, annoncer cette limite de l analyse (par exemple, lors de votre thèse) Utilisation de tests statistiques adaptés, dans des situations simples (cf. plus loin) Utilisation de modèles statistiques prenant en compte cette non indépendance, dans le cas de données plus complexes (Exemples : mixed-effects models, generalized estimated equations (GEE)) Si vous êtes confronté(e) au cours de votre thèse à une situation potentielle de non indépendance, venez me voir! 5 Plan I. Non indépendance des individus II. Tests statistiques usuels pour données indépendantes III. Tests statistiques pour données non indépendantes 6
Tableau récapitulatif Tester l association entre Que fait le test? Nom du test statistique 2 variables binaires Compare 2 % 1 variable binaire x 1 variable qualitative Compare 3 % Chi 2, Fisher 2 variables qualitatives Résultats ininterprétables transformer une des deux variables en une variable binaire 1 variable binaire x 1 variable quantitative 1 variable qualitative x 1 variable quantitative 2 variables quantitatives Compare 2 moyennes Compare 2 médianes Compare 3 moyennes Compare 3 médianes Calcule un coefficient de corrélation (interprétation sujette à caution) Student Mann-Whitney NP ANOVA* Kruskall-Wallis**, NP Corrélation de Pearson Corrélation de Spearman NP * ANOVA = analyse de la variance (nécessite entre autres la normalité de la variable quantitative) ** Même principe de calcul que le test de Mann-Whitney NP = test statistique non paramétrique (ne nécessite pas de faire une hypothèse de distribution de la variable à tester) 7 Carte conceptuelle des tests Carte conceptuelle disponible sur la page du module, sur EVE 8
Carte conceptuelle des tests Carte conceptuelle disponible sur la page du module, sur EVE 9 Le test de l ANOVA Principe sur lequel repose le calcul de l ANalyse Of Variance (ANOVA) Comparer la moyenne d une variable quantitative entre plusieurs groupes Comparer la variabilité (variance) intra-groupe à la celle inter-groupe : variabilité inter-groupe Groupe 1 Groupe 2 Groupe 3 Variabilité intragroupe (pour groupe 4 ici) Groupe 4 10
Le test de l ANOVA Que fait le test de l ANOVA Il compare les 2 types de variances (variances inter et intra-groupe) Si le test est significatif les 2 types de variances sont significativement différents Il existe 1 moyenne(s) significativement différente(s) des autres Conditions de validité du test de l ANOVA Indépendances des individus les uns vis-à-vis des autres La distribution du caractère quantitatif doit suivre une loi normale Les variances intra-groupe ne doivent pas être trop différentes d un groupe à l autre 11 Le test de Mann-Whitney Quand utiliser le test de Mann-Whitney? Quand on ne peut pas comparer deux moyennes (conditions du test de Student non vérifiées) Que fait le test de Mann-Whitney? Il teste la distribution des données en testant la somme des rangs entre les deux groupes comparés On part du principe que si les distributions sont différentes, alors les médianes le sont aussi Conditions de validité du test de Mann-Whitney Indépendances des individus les uns vis-à-vis des autres 12
Le test de Mann-Whitney Illustration sur la croissance pondérale de chatons entre 2 groupes Tri par croissance pondérale croissante Regroupement Le test de Mann-Whitney va tester si 48 et significativement différent de 57 tester si la médiane de 19,2 est significativement différente de 19,8 13 Plan I. Non indépendance des individus II. Tests statistiques usuels pour données indépendantes III. Tests statistiques pour données non indépendantes 14
Situation au programme du module Nombreuses situations de non indépendance des individus Situation au programme : l animal est évalué 2 fois, et l on veut tester si ce qui est mesuré la 2 ème fois est significativement différent de ce qui a été mesuré la 1 ère fois 15 Description générale du protocole N animaux sont vus une 1 ère fois à t 0, on mesure un paramètre (PAR t0 ) Ce paramètre PAR peut être quantitatif ou binaire (par exemple, absence/présence de symptômes) Les N animaux bénéficient d une intervention* juste après t 0 Il est revu une 2 ème fois à t 1, et l on mesure à nouveau ce paramètre (Par t1 ) La «valeur» du paramètre PAR à t 0 est-elle significativement différente de celle à t 1? Valeur PAR t0 Valeur PAR t1 t 0 t 1 t Intervention juste après t 0 * Traitement, opération, 16
Problématique La moyenne, médiane ou % de PAR t0 ne peut pas être testée statistiquement à la moyenne, médiane ou % de PAR t1 à l aide respectivement des tests du Student pour séries non appariées, de Mann-Whitney, ou du Chi-2 car les mesures ont été effectuées un même animal Données non indépendantes * Ou médiane, dans le cas de données distribuées non normalement 17 Solution Variable quantitative distribuée normalement - Test de Student pour séries appariées - La moyenne à t 0 calculée sur les N animaux est comparée à la moyenne à t 1 calculée sur les mêmes N animaux - Principe : la moyenne des différences individuelles entre t 1 et t 0 est testée par rapport à 0 - Exemple : on veut tester l effet d un hypotenseur, on mesure la pression artérielle systolique (PAS) à t 0, on en calcule la moyenne, on traite N animaux pendant 12 jours, on mesure à nouveau la PAS à t 1, on en calcule la moyenne, et on compare la moyenne de la PAS à t 0 à celle à t 1 en utilisant le test de Student pour séries appariées 18
Solution Variable quantitative non distribuée normalement - Test de Wilcoxon pour séries appariées (test non paramétrique) - La médiane à t 0 calculée sur les N animaux est comparée à la médiane à t 1 calculée sur les mêmes N animaux - Principe : ce test travaille sur les rangs des différences individuelles entre t 1 et t 0 - Exemple : on veut tester l effet analgésique, on mesure la douleur à l aide d un score à t 0, on en calcule la médiane, on traite N animaux pendant 30 jours, on mesure à nouveau le score de douleur à t 1, on en calcule la médiane, puis on compare la médiane du score de douleur à t 0 à celle du score de douleur à t 1 en utilisant le test de Wilcoxon pour séries appariées 19 Solution Variable binaire (par exemple, présence/absence de symptômes) - Test de McNemar - Le % d animaux avec symptômes à t 0 est comparée au % d animaux avec symptômes à t 1 - Principe : ce test compare les nombres de paires discordantes +/- et -/+ (respectivement f et g ci-après) 20
Solution Variable binaire (par exemple, présence/absence de symptômes) - Présentation des données Symptômes à t 0 Oui Non Total Symptômes à t 1 Oui e f e+f Non g h g+h Total e+g f+h N - Question : (e+g)/n significativement différent de (e+f)/n? 21