Analyse critique d articles à visée diagnostique Alain Venot UFR SMBH, Université Paris 13 LA RECHERCHE CLINIQUE A VISEE DIAGNOSTIQUE... 1 QUELLE METHODOLOGIE POUR DES ETUDES CLINIQUES A VISEE DIAGNOSTIQUE?... 1 COMMENT CHOISIR UNE METHODE DE REFERENCE (GOLD STANDARD)?... 1 LES NOTIONS DE SENSIBILITE, SPECIFICITE, VALEURS PREDICTIVES ET RAPPORTS DE VRAISEMBLANCE... 2 COMMENT CHOISIR LA POPULATION A ETUDIER?... 3 Calcul du nombre de sujets nécessaires... 3 Modalités de recrutement... 3 Critères d inclusion... 4 Critères d exclusion... 4 VALEURS NORMALES ET PATHOLOGIQUES DES EXAMENS UTILISES... 4 MODALITES D INTERPRETATION DES IMAGES... 4 PROCEDURE DIAGNOSTIQUE DE REFERENCE (GOLD STANDARD)... 4 CALCUL DES VALEURS DES INDEX DE PERFORMANCE ET DE LEUR INTERVALLES DE CONFIANCE... 4 L ANALYSE CRITIQUE DES ARTICLES A VISEE DIAGNOSTIQUE... 4 GRILLE D'EVALUATION D'UN ARTICLE CONCERNANT LA VALIDATION D UN TEST DIAGNOSTIQUE... 5 La recherche clinique à visée diagnostique Fréquemment de nouveaux examens complémentaires (dosages, imagerie) que nous appellerons test dans la suite, sont proposés pour faciliter la démarche diagnostique du médecin. L intérêt diagnostique de ces nouveaux tests doit être quantifié par des études cliniques qui doivent reposer sur une méthodologie rigoureuse. L objectif de ces études est de quantifier la performance diagnostique d un nouveau test au regard d une procédure diagnostique qui sert de vérité (gold standard). Par performance diagnostique, on entend la capacité d un nouveau test à détecter les patients atteints d une maladie et à classer comme non malades les patients qui ne sont pas atteints de la maladie. Certaines de ces études visent à comparer les performances de plusieurs tests différents Quelle méthodologie pour des études cliniques à visée diagnostique? Comment choisir une méthode de référence (gold standard)? Il est nécessaire d avoir une procédure diagnostique de référence dénommée gold standard qui va servir tout au long de l étude à classer les sujets en malades (atteints de la maladie que l on cherche à diagnostiquer) et non malades. Il peut s agir d un examen complémentaire ou d une procédure diagnostique plus complexe qui peut faire intervenir plusieurs examens complémentaires ainsi que l évolution de la maladie. 1
Il faut donc se baser sur une procédure diagnostique que l on dénomme «gold standard» et que l on considère comme capable d affirmer ou d éliminer le diagnostic dans tous les cas. Le nouvel examen va être comparé à ce gold standard. Les notions de sensibilité, spécificité, valeurs prédictives et rapports de vraisemblance On doit étudier la validité du test : c est à dire sa capacité à bien classer les sujets normaux et les sujets atteints de la maladie. On peut distinguer des tests dont les résultats sont qualitatifs (ex : signe présent ou absent sur une image radiologique) et des tests dont les résultats sont quantitatifs mais que l on rend qualitatifs grâce à la définition d un seuil de normalité (ex : résultat d un dosage plasmatique dont la valeur est inférieure ou supérieure à une valeur normale). Les performances diagnostiques d un nouveau test vont être quantifiées par la mesure de grandeurs dont les deux principales sont la sensibilité et la spécificité. La sensibilité caractérise la capacité d un test à détecter que le patient est atteint de la maladie La sensibilité d un test est la probabilité que le résultat de ce test soit anormal chez un sujet porteur de la maladie que l on cherche à diagnostiquer. La mesure de la sensibilité d un test nécessite de disposer d un échantillon de patients atteints de la maladie et de regarder sur chaque sujet si le résultat du test est normal ou anormal. La proportion de sujets avec résultat du test anormal dans cet échantillon permet d estimer la sensibilité du test. Cette estimation est d autant plus fiable que la taille de l échantillon de sujets atteints de la maladie est grande. La spécificité caractérise la capacité d un examen à affirmer que le patient est indemne de la maladie La spécificité d un test est la probabilité que le résultat de ce test soit normal chez un sujet indemne de la maladie à diagnostiquer. La mesure de la spécificité d un test nécessite de disposer d un autre échantillon de patients indemnes de la maladie et de regarder sur chaque sujet si le résultat du test est normal ou anormal. La proportion de sujets avec résultat du test normal dans cet échantillon permet d estimer la spécificité du test. Cette estimation est d autant plus fiable que la taille de l échantillon de sujets indemnes de la maladie est grande. Il est classique d exprimer la sensibilité et la spécificité en termes de Vrais et Faux, Positifs et Négatifs (VP, FP, VN, FN) Malades Sains Négatifs FN VN Positifs VP FP Se=VP/(VP+FN) Sp=VN/(VN+FP) 2
Certains auteurs s intéressent aussi à l estimation de grandeurs appelées valeurs prédictives positives et négatives du test. En théorie ces grandeurs dépendent non seulement des sensibilité et spécificité du test mais aussi de l incidence de la maladie. La valeur prédictive positive (VPP) d un test est la probabilité d être atteint de la maladie quand le résultat du test est anormal. La VPP peut être estimée par : VP/(VP+FP) La valeur prédictive négative (VPN) du test est la probabilité d être indemne de la maladie quand le résultat du test est normal. La VPN peut être estimée par : VN/(VN+FN) Enfin, il est aussi possible d exprimer les performances des tests en termes de rapports de vraisemblance Le rapport de vraisemblance positif est le rapport de la probabilité que le test soit anormal quand on est atteint de la maladie sur la probabilité que le test soit anormal quand on est indemne de la maladie : L = P(T+/M+)/P(T+/M-) = Se/(1-Sp) Si L = 3, cela veut dire qu on a trois fois plus de chances d observer un test anormal quand on est atteint (comparé à ce qui est observé quand on est indemne de la maladie). Le rapport de vraisemblance négatif est le rapport de la probabilité que le test soit normal quand on est atteint de la maladie sur la probabilité que le test soit normal quand on est indemne de la maladie : l = P(T-/M+)/P(T-/M-) = (1-Se)/Sp Comment choisir la population à étudier? Calcul du nombre de sujets nécessaires Avant de commencer une étude clinique à visée diagnostique, il est nécessaire de déterminer quelle doivent être les tailles approximatives des échantillons de patients malades et non malades, de telle sorte que la sensibilité et la spécificité puissent être estimées avec suffisamment de précision. C est ce qu on appelle le calcul du nombre de sujets nécessaires pour l étude. Il repose sur le calcul d un intervalle de confiance à 95% d une proportion (la sensibilité et la spécificité) estimée sur un échantillon de patients. On doit faire une hypothèse sur l ordre de grandeur attendu de la sensibilité et de la spécificité (par exemple 70% et 90%) et calculer le nombre de sujets qui permet d obtenir un certain intervalle de confiance pour ces proportions. Modalités de recrutement Les études prospectives sont toujours préférables aux études rétrospectives. Les modalités de recrutement des sujets atteints de la maladie à diagnostiquer et indemnes doivent être déterminées avec précision. Il faut choisir des échantillons de patients correspondant à la population cible pour laquelle on veut utiliser le nouveau test. Le recrutement doit être fait dans un ou plusieurs centres de manière à pouvoir inclure le nombre de patients requis pendant la durée de l étude. Le type d établissement choisi pour recruter les patients est important. Si par exemple, on étudie un nouveau test pour faire le diagnostic d embolie pulmonaire, on ne recrutera pas les mêmes patients si on effectue l étude à partir des patients suspects de cette pathologie aux urgences d un hôpital général ou si l on sélectionne des patients suspects de cette pathologie et admis dans un service de soins intensifs cardiologiques. 3
Dans ce dernier cas, l on a toute chance d avoir à la fin de l étude des patients porteurs d embolies plus étendues et dont le diagnostic sera plus «facile» ce qui aura tendance à augmenter artificiellement la valeur de la sensibilité du nouveau test. Critères d inclusion Il est nécessaire d énoncer avec la plus grande précision quels sont les critères qu un patient doit respecter pour pouvoir être inclus dans l étude : par exemple, quel âge, quel sexe, quelle symptomatologie clinique, quels résultats d examens complémentaires? Critères d exclusion Il est classique d exclure des patients d une étude s ils sont par exemple porteurs d autres affections qui peuvent interférer avec la pathologie étudiée, si la procédure diagnostique de référence ne peut être menée à bien Valeurs normales et pathologiques des examens utilisés Lorsque le nouveau test (dosage plasmatique par exemple) conduit à des résultats quantitatifs, il est nécessaire de préciser quelles sont les valeurs normales et pathologiques utilisées dans l étude. Plus on choisit une plage étendue de valeurs normales, meilleure sera la spécificité du test mais plus faible sera sa sensibilité. Modalités d interprétation des images Au cas où le test étudié est un examen d imagerie qui nécessite une certaine expérience pour l interprétation des images, il est classique étudier la concordance des interprétations entre médecins radiologues. Au cours d une étude clinique il est souhaitable qu au moins deux radiologues interprètent indépendamment les images, sans avoir accès aux autres données du patient. Procédure diagnostique de référence (gold standard) La procédure diagnostique qui conduit à classer les patients, en porteurs ou indemnes de la maladie à diagnostiquer, doit être décrite avec la plus grande précision et autant que faire se peut, correspondre à une méthode reconnue internationalement et validée par des publications. Calcul des valeurs des index de performance et de leur intervalles de confiance Les index de performance retenus doivent être calculés sur l ensemble des patients de l étude. Si plusieurs examens sont comparés, ces calculs (de sensibilité et spécificité) doivent porter sur le même échantillon de patients. Les intervalles de confiance associés à chaque index de performance calculé doivent être calculés. L analyse critique des articles à visée diagnostique La grille de lecture qui suit énonce les principales questions qui peuvent être posées sur une étude clinique à visée diagnostique: 4
Grille d'évaluation d'un article concernant la validation d un test diagnostique Les résultats de l étude sont-ils valides? Le test a-t-il été évalué face à un examen de référence reconnu (comparaison indépendante et en aveugle): L étude de validation a-t-elle inclus un échantillon adapté de patients? (groupes de patients clairement identifiés et similaires pour les critères autres que celui étudié, patients représentatifs de la «population cible» dans laquelle le test sera ensuite utilisé) L'examen testé et l'examen de référence ont-ils été effectués chez tous les sujets? Les résultats du test évalué ont-ils eu une influence sur la décision de réaliser le test de référence? L'examen testé et l'examen de référence ont-ils été réalisés et interprétés indépendamment l un de l autre, et indépendamment du contexte clinique? La fiabilité du test a-t-elle été évaluée? Les erreurs de mesure ont-elles été quantifiées? Une épreuve test-retest a-t-elle été réalisée? Les méthodes de réalisation du test ont-elles été décrites avec suffisamment de précision pour permettre sa reproduction? Les intervalles de confiance ont-ils été calculés pour les critères de sensibilité, de spécificité et pour les autres caractéristiques du test? Un intervalle de «valeurs normales» a-t-il été défini? celui-ci a-t-il été construit de manière appropriée (échantillon issue d une population réellement «normale» et de taille suffisante)? Quels sont les résultats? Les valeurs des sensibilités, spécificités ou rapports de vraisemblance ont ils été calculés? Les résultats sont-ils applicables à certains de mes patients? La place de ce test a-t-elle été déterminée dans le contexte des autres examens utilisables dans la démarche diagnostique suivie dans cette maladie? La reproductibilité du résultat du test et son interprétation sera-t-elle satisfaisante dans mon environnement de pratique médicale? Les résultats sont-ils applicables à certains de mes malades? Les résultats changeront-ils quelque chose dans ma prise en charge? Les résultats du test seront-ils bénéfiques pour mon patient? 5