Les approches statistiques de l incertitude : tout ce que vous avez toujours voulu savoir sur les valeurs de p et les intervalles de confiance

Les approches statistiques de l incertitude : tout ce que vous avez toujours voulu savoir sur les valeurs de p et les intervalles de confiance Nous avons déjà défini, dans un précédent Bloc-Notes statistique, différents termes tels que risque d événements dans le groupe expérimental (REE), risque d événements dans le groupe témoin (RET), réduction absolue du risque (RAR) et nombre de sujets à traiter (NST) [1]. Cependant, les estimations telles que la RAR et le NST ne décrivent pas, à eux seuls, l incertitude qui entoure les résultats. La valeur de p et l IC fournissent des informations supplémentaires, permettant de savoir si les résultats sont cliniquement et statistiquement significatifs (Tableau I). La RAR (différence de risque) est estimée à 19,6%, avec un IC à 95% qui va de 5,7% à 33,6%. La valeur de p (0,006) signifie qu une RAR de 19,6% ou davantage ne serait observée que dans 6 essais sur 1 000 si la streptomycine avait la même efficacité que le repos au lit. La valeur de p étant inférieure à 0,05, les résultats sont statistiquement significatifs (c est-à-dire qu il est peu vraisemblable que la streptomycine soit inefficace en termes de prévention des décès). L IC à 95% suggère que le bénéfice réel probable dû à la streptomycine peut n être que de 5,7% ou atteindre 33,6%, mais qu il est peu vraisemblable qu il soit = 0%. Notre meilleure estimation de la RAR est de 19,6%, et le NST est donc de 6 (IC à 95% : 3 à 18). Cela signifie que pour prévenir 1 décès supplémentaire par tuberculose nous pourrions avoir à traiter par streptomycine plutôt que par le seul repos au lit 18 patients au maximum ou 3 au minimum. Tableau I. Résultats de l ECR ayant comparé la streptomycine au seul repos au lit dans le traitement de la tuberculose Intervention Survie Décès Risque de décès RAR IC à 95% Valeur de p Streptomycine (n=55) 51 4 4/55=7,3% (REE) 25,9% - 7,3%=19,6% 5,7% à 33,6% 0,006 Repos au lit (n=52) 38 14 14/52=25,9% (RET) Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. 1

INTRODUCTION Qu est-ce que l incertitude diagnostique? L incertitude statistique est l incertitude (présente même dans un échantillon représentatif) liée à l extrapolation de données observées dans un échantillon à une population plus vaste. Pourquoi faut-il mesurer l incertitude? Il n est généralement pas possible d inclure tous les sujets d une population cible dans une seule étude. Par exemple, il n est pas possible d inclure tous les sujets hypertendus dans un essai comparatif randomisé (ECR) concernant un nouveau traitement de l hypertension artérielle. L alternative est d assigner un échantillon (un petit sous-ensemble de cette population) à recevoir soit le nouveau traitement, soit le traitement standard. Quelles sont les mesures de l incertitude? Le degré d incertitude présent dans une étude peut être quantifié en testant une hypothèse (par le calcul de ka valeur de p) ou à l aide de l intervalle de confiance (IC), mais la préférence est généralement accordée à l IC. POURQUOI LA VALEUR DE 5% (p < 0,05) EST-ELLE UTILISÉE POUR INDIQUER LA SIGNIFICATIVITÉ STATISTIQUE? C est par convention qu une valeur de p < 0,05 indique la significativité statistique. Cependant, il s agit là d un minimum arbitraire, et la valeur de p devrait être beaucoup plus petite, comme dans l étude présentée ci-dessus (p = 0,006), avant que l on puisse considérer qu elle fournit une preuve solide à l encontre de l hypothèse nulle. Il est donc plus utile de rapporter la valeur exacte de p (par exemple, p = 0,027) que de se contenter du constat que le résultat est significatif à 5% (ou à 1% comme dans le cas cidessus). SI UN EFFET EST STATISTIQUEMENT SIGNIFICATIF, CELA SIGNIFIE-T-IL QU IL EST AUSSI CLINIQUEMENT SIGNIFICATIF? Une différence statistiquement significative n est pas nécessairement cliniquement significative (ou cliniquement importante). Dans l exemple ci-dessus, l effet statistiquement significatif (p = 0,006) est aussi cliniquement significatif, car une amélioration même modeste de la survie est importante. Cependant, pour de nombreux effets, il faut que le bénéfice soit Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. 2

nettement supérieur à zéro pour être cliniquement significatif (c est-à-dire pour qu il soit suffisant pour justifier l effort thérapeutique). Dans la Figure 1, alors que les deux études (a) et (c) ont un résultat statistiquement significatif, car les IC ne chevauchent pas la valeur correspondant à l «absence de différence», seule l étude (a) a un résultat correspondant pour le moins (en termes d IC) à une différence minimale cliniquement importante (DMCI). Les études (b) et (d) ne sont pas statistiquement significatives, leur IC recouvrant les valeurs qui correspondent à l absence de différence. EXISTE-T-IL UN RAPPORT ENTRE VALEURS DE p ET INTERVALLES DE CONFIANCE? Alors que les deux approches qui permettent de résoudre le problème de l incertitude sont quelque peu différentes, les valeurs de p et les IC donnent généralement des résultats concordants. Si l effet est statistiquement significatif (au seuil de 5%), l IC à 95% n inclura pas la valeur correspondant à «l absence de différence», et vice versa. Si les IC sont préférables aux valeurs de p pour résumer les résultats d une étude, les deux approches sont couramment utilisées. Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. 3

Comparaison de l utilisation des valeurs de p et des intervalles de confiance dans l inférence statistique POURQUOI FAUT-IL PRENDRE EN COMPTE LA TAILLE DE L ÉCHANTILLON LORSQUE L ON INTERPRÈTE LA VALEUR DE p ET LA LARGEUR DE L IC? Plus l échantillon est important, plus l incertitude est faible, plus l IC est étroit et, par conséquent, plus l effet observé pouvant être déclaré statistiquement significatif (p < 0,05) est petit. Donc, si un échantillon est très important, une différence même minime (qui peut n avoir aucune pertinence clinique) peut être statistiquement significative (cf. l essai (c) dans Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. 4

la Figure 1). La taille de l échantillon, ainsi que son ET, affectent la largeur de l IC. L estimation est d autant plus précise, et de ce fait l IC d autant plus étroit, que l échantillon est plus important (et plus petite sa variance). Un IC large peut donc témoigner soit de la taille limitée de l échantillon, soit de son importante variabilité (cf. essai (b) dans la Figure 1). Tableau II. Erreurs de type I et II Réalité Décision statistique L hypothèse nulle est vraie L hypothèse nulle est fausse Rejet de l hypothèse nulle Erreur de type I Correct (puissance) Non-rejet de l hypothèse nulle Correct Erreur de type II LES CONCLUSIONS DU TEST D UNE HYPOTHESE PEUVENT-ELLES ÊTRE ERRONEES? Le test d une hypothèse étant basé sur des estimations de probabilité, leurs conclusions peuvent être sujettes à erreur. Il existe 2 types d erreur : rejet de l hypothèse nulle alors qu elle est exacte (erreur de type I ; la probabilité de cette erreur est de 5% si le niveau de significativité est fixé à 5%), et non-rejet de l hypothèse nulle alors qu elle est fausse (erreur de type II ; la probabilité de cette erreur est 1 Puissance) (Tableau II). Puissance et taille de l échantillon seront étudiées de façon plus détaillée dans un prochain Bloc-Notes statistique. HELEN DOLL Department of Public Health, University of Oxford, Oxford, Royaume-Uni STUART CARNEY Department of Psychiatry, University of Oxford, Oxford, Royaume-Uni Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. Bloc-Notes publié dans Evidence-Based Medicine 2005;10(5):133-4. 5