Principes des études diagnostiques

Contexte Principes des études diagnostiques Caroline Elie URC Paris Centre Hôpital Necker symptômes 1 2 Démarche diagnostique Objectifs d une étude diagnostique Symptômes, histoire de la maladie, ATCD, examens complémentaire Probabilité pré-test = prévalence de la maladie Résultats du test =Evaluation d un nouveau test diagnostique Un préalable = fiabilité (reproductibilité) Apport informationnel = qualité du test : augmenter la certitude de la présence ou de l absence de maladie (validité) Ensuite = apport décisionnel : améliorer la prise en charge clinique et l évolution clinique Probabilité post-test 3 4

Fiabilité Validité Fiabilité = propriété d un test dont les résultats peuvent être reproduits aussi longtemps que les conditions du test ne changent pas = mesure de la concordance entre deux mesures répétées (reproductibilité) : 2 mesures de deux observateurs différents (repro inter-observateurs ) 2 mesures d un même observateur (repro intra-observateur) Validité = propriété d un test qui se définit par la capacité à mesurer ce qu il est censé mesurer (ici la maladie) Comparaison par rapport à un test de référence (appelé «gold standard») 5 6 Etude diagnostique : principe général Symptômes, histoire de la maladie, ATCD, examens Échantillon de patients suspectés d avoir la maladie Une «maladie» : le plus souvent une maladie particulière, mais aussi un stade de maladie, une mutation Nouveau test Confrontation des résultats Test de référence Un «test» : un examen de laboratoire, d'imagerie, des épreuves fonctionnelles, l'anatomopathologie, un signe clinique 7 8

Un exemple Etude diagnostique : résultats Diagnostic de corps étranger intra-bronchique chez l enfant Test de référence Test de référence = endoscopie bronchique (invasif) Nouveau test = le scanner (non invasif mais ne permet pas l extraction) Malade M+ Non malade M- Évaluation des performances du scanner Nouveau test Positif T+ Négatif T- Vrais positifs VP Faux négatifs FN Faux positifs FP Vrais négatifs VN 9 10 Les indices informationnels Les indices informationnels Test de référence Test de référence Nouveau test M+ M- Nouveau test M+ M- T+ VP FP T+ 95 35 T- FN VN T- 10 70 Sensibilité Spécificité Sensibilité Spécificité proportion de tests (+) chez les malades proportion de tests (-) chez les non-malades proportion de tests+ chez les malades proportion de tests- chez les non-malades Se=P(T+/M+) Sp=P(T-/M-) Se=95/(95+10) Sp=70/(70+35) Se=VP/(VP+FN) Sp=VN/(FP+VN) Se=90% Sp=67% 11 12

Interprétation Les indices informationnels Sensibilité = P(T+/M+) : capacité à détecter les malades (dépistage) Spécificité = P(T-/M-) : capacité à détecter les non malades Nouveau test T+ T- Test de référence M+ M- VP FP FN VN Valeur Prédictive Positive proportion de malades parmi les patients ayant un test (+) VPP=P(M+/T+) VPP=VP/(VP+FP) Valeur Prédictive Négative proportion de non-malades parmi les patients ayant un test (-) VPN=P(M-/T-) VPN=VN/(FN+VN) 13 VVP = proba post-test 14 Les indices informationnels Interprétation Nouveau test T+ T- Test de référence M+ M- 95 35 10 70 Valeur Prédictive Positive VPP=95/(95+35) VPP=73% VVP = proba post-test VPP = P(M+/T+) et VPN = P(M-/T-) Probabilités post-test Valeur Prédictive Négative VPN=70/(10+70) VPN=88% 15 16

Test quantitatif (ex: dosage) Courbe ROC Sujets non malades Sujets malades Le nouveau test est une mesure continue (dosage) trouver un seuil VN VP FN FP T- S T+ Valeurs du Test FP FN 17 18 Courbe ROC : exemple Recherche diagnostique (Sackett, BMJ, 2002) 100% 80% 80 40 Exemple : diagnostic de l insuffisance cardiaque gauche par le dosage du BNP sensibilité 60% 40% 200 Phase I : les résultats du test sont-il différents chez les malades et chez les sujets normaux? 20% 0% 0% 20% 40% 60% 80% 100% 1-spécificité 19 20

Recherche diagnostique (Sackett, BMJ, 2002) Recherche diagnostique (Sackett, BMJ, 2002) Phase II : les patients ayant un résultat positif au test sontils plus susceptibles d avoir la maladie que les autres? Phase III : le test permet-il de distinguer les malades des non malades parmi les patients suspects de présenter la maladie? 21 22 Recherche diagnostique (Sackett, BMJ, 2002) Planification de l étude Phase IV : les patients bénéficiant du test seront-ils dans un meilleur état de santé que des patients similaires n ayant pas eu le test? Essais randomisés 1) Population (design, mode de recrutement, nb sujets, spectre ) 2) Le test de référence (choix, propriétés ) 3) Le nouveau test (propriétés, exécution ) 4) Déroulement de l étude (vérification, critère de jugement ) 5) Interprétation des tests (modalités de lecture) 6) Analyse (analyse de sous-groupes, précision, résultats indéterminés, seuil ) 23 24

Population population 1) La population Cas témoins ou étude transversale/cohorte? Nombre de sujets Prospectif ou rétrospectif Sélection des patients : Critères d inclusion, de non inclusion Caractéristiques démographiques Prévalence de la maladie Sévérité de la maladie 25 26 Cas (malades) témoins (non malades) population Cas témoins: problèmes population 2 témoins par cas 1 témoin par cas T+ T- M+ 40 10 M- 40 60 80 70 T+ T- M+ 40 10 M- 20 30 60 40 Choix du rapport cas\témoins (ou prévalence de la maladie) modifie les performances du test 50 100 Sens=80% Spe=60% VPP=50% VPN=86% 150 50 50 Sens=80% Spe=60% 100 VPP=67% VPN=75% Choix des cas et des témoins : Cas très malades (the sickest of the sick) : Se Témoins très normaux (the wellest of the well) : Spe 27 28

Caractéristiques démographiques population Population : résumé population Performances d un test variables en fonction des caractéristiques de la population +++ biais de sélection Représentativité de la population cible ++ Description de la population : au moins age, sexe, symptomatologie, stade de la maladie + variables pertinentes pour maladie étudiée donne une idée de la représentativité des sujets inclus (validité externe) Choix de la population +++ «cohorte» : échantillon représentatif de la population cible du test, patients inclus consécutivement cas témoins : biais +++ Calcul d un nombre de sujets nécessaire Critères d inclusion et de non inclusion pertinents Description de la population +++ 29 32 Choix du test de référence test référence 2) Test de référence («Reference standard», «gold standard») Admis comme la référence pour établir le diagnostic final Bonnes propriétés métrologiques (fiable) Doit pouvoir être appliqué à tous les sujets Identique pour tous les sujets et ne doit pas être modifié en cours d étude Modalités de réalisation standardisées Définition des critères de positivité Fait par ceux qui le font en pratique 33 34

Pas de bon test de référence test référence Solutions test référence Souvent! Si imparfait? Erreurs de classifications Si moins bon que le nouveau test? Erreurs de classifications Si n existe pas? Dans certaines pathologies (psychiatrie, migraine, syndrome, maladies infectieuses ) Si existe mais très invasif? Laparotomie pour douleurs abdominales Critère pragmatique (exple : valeur seuil d un questionnaire mesurant la dépression) Panel d experts indépendants Suivi clinique Autre? 35 36 Le nouveau test nouveau test 3) Le nouveau test («Index test») Bonnes propriétés métrologiques (fiable) Doit pouvoir être appliqué à tous les sujets Identique pour tous les sujets et ne doit pas être modifié en cours d étude Modalités de réalisation standardisées Définition des critères de positivité Entrainement +/- nécessaire 37 38

Test de référence et vérification vérification 4) Déroulement de l étude Biais de vérification («verification bias» ou «work-up bias») Si les deux tests sont effectués à des temps «éloignés» : Evolution propre de la maladie Evolution liée au traitement : le traitement est débuté sur le résultat du test effectué en premier 39 40 Biais de vérification vérification Biais de vérification vérification Si absence de vérification systématique par le test de référence Si une partie des patients seulement sont vérifiés par le test de référence (souvent pas chez les négatifs au nouveau test) Si le test de référence n est pas le même en fonction du résultat du nouveau test Surtout quand le test de référence est invasif : Diagnostic de maladie coronarienne Nouveau test : scintigraphie de perfusion au thallium (non invasif) Référence : coronarographie (invasif) Diagnostic de trisomie 21 Nouveau test : clarté nucale (non invasif) Référence : amniocentèse (invasif) 41 42

Effect of study design on the association between nuchal translucency (NT) measurement and Down syndrome Mol BW, Obstetrics & Gynecology, 1999, 94(5 part 2):864-9. Nuchal translucency measurement and Down syndrome NT NT+ NT- T21 caryotype normal fœtus/bébé T21 normal Études avec biais de vérification (n=10) Études sans biais de vérification (n=15) Problème : si T21, fausses couches spontanées sen spé prév si NT+ : diagnostic posé dans 100% des cas avec biais de vérification 77% 97% 0,4% si NT- : diagnostic posé dans <100% des cas sans biais de vérification 55% 96% 1,1% Biais de vérification vérification Tous les patients doivent avoir le nouveau test ET le test de référence, dans un laps de temps minimum 5) Interprétation Si impossible (trop coûteux ou trop risqué), obtention du diagnostic possible par le suivi, plus ou moins long, des patients 45 46

Lecture des tests interprétation Informations cliniques lecture L interprétation d un test est influencée par le résultat de l autre test (non indépendance de l interprétation des deux tests) Évaluations indépendantes, en «aveugle» Disponibilité et utilisation de l information clinique pour interpréter le nouveau test et\ou le test de référence Modifie le résultat du nouveau test (et du test de référence) mais plus proche de la pratique Contre (évaluation des propriétés du test seul) Pour : «Accuracy of diagnostic test with and without clinical information». Loy CT et al, JAMA 2004 47 48 Précision des indices informationnels 6) Analyse Toujours associer une estimation ponctuelle d un intervalle de confiance Résultats précis : sens = 80% [78-82] Manque de précision : sens = 80% [61-99] 49 50

Résultats indéterminés analyse Résultats indéterminés analyse Parfois informatifs! Nécessitent de répéter le test ou de faire des investigations supplémentaires Ex : patients qui n atteignent pas la FC max lors d une épreuve d effort, gaz digestifs à la radio Fait partie des critères de qualité d un test Préciser leur fréquence Préciser la façon dont ils ont été analysés (si classés + sens et spé, si classés c est l inverse, exclusion des sujets) et\ou analyses de sensibilité (classés + puis -) Pas de biais s ils sont peu nombreux, aléatoires et que le test est répétable 51 52 Analyse par sous-groupes analyse Exemple analyse Présenter les performances dans les sousgroupes appropriés (âge, sévérité ) à moins que le spectre de la maladie soit réduit Recommandé mais Limites des analyses en sous-groupe Préférer la modélisation 53 Courbes ROC de l ACE dans le diagnostic de cancer colorectal 54

Évaluation d une étude diagnostique Évaluation d une étude diagnostique Grille STARD (http://www.stard-statement.org) Éléments devant figurer dans un article rapportant les résultats d une étude diagnostique Exemple Item 4 : Décrire le recrutement des participants : le recrutement était-il fondé sur des symptômes présentés, sur des résultats d'examens antérieurs ou sur le fait que les participants ont subi le nouvel test ou le test de référence? Grille QUADAS (http://www.biomedcentral.com/1471-2288/3/25) Évaluation de la qualité des études diagnostiques à inclure dans les revues systématiques 55 56 STARD STARD METHODES Participants 3 4 5 6 Décrire la population étudiée : les critères d inclusion et d exclusion, la mise en oeuvre, les structures et les lieux où les données ont été collectées le recrutement des participants : était-il fondé sur des symptômes présentés, des résultats d examens antérieurs ou sur le fait que le nouveau test ou le test de référence a été réalisé chez les participants? l échantillonnage des participants : s agissait-il d une série consécutive de participants définis par des critères de sélection des items (3) et (4)? Si non, spécifier la façon dont les patients ont été sélectionnés. la collecte des données : le recueil des données a-t-il été planifié avant que le nouveau test et le test de référence aient été réalisés (étude prospective) ou après (étude rétrospective)? METHODES Méthodes des tests 7 8 9 10 11 Décrire le test de référence et son rationnel les spécifications techniques des matériaux et des méthodes utilisés, y compris comment et quand les mesures ont été réalisées ou/et citer les références utilisées pour le nouveau test et pour le test de référence la définition et le rationnel pour les unités, les seuils et/ou les catégories utilisées pour exprimer les résultats du nouveau test et du test de référence le nombre, la formation et le degré d expertise des personnes (a) réalisant et (b) interprétant le nouveau test et le test de référence si les évaluateurs du nouveau test, respectivement du test de référence, ont réalisé en aveugle (masqués) la lecture de l un, et de l autre test ; et toute autre information clinique dont ils disposaient 57 58

STARD STARD RESULTATS Résultats des tests 17 18 19 20 21 Notifier l intervalle de temps entre la réalisation du nouveau test et du test de référence et tout traitement administrer dans l intervalle la distribution de la sévérité de la maladie (définir des critères) chez ceux qui présentent l affection étudiée ; décrire les autres diagnostics pour les participants ne présentant pas l affection étudiée un tableau croisé des résultats du nouveau test (incluant les données manquantes ou indéterminées) selon les résultats du test de référence ; pour les résultats de variables continues, décrire la distribution des résultats du nouveau test selon les résultats du test de référence tout événement indésirable résultant de la réalisation du nouveau test et du test de référence les estimations de la précision diagnostique et des mesures d incertitude statistique (i.e. intervalles de confiance 95%) 59 RESULTATS Estimation DISCUSSION 22 23 24 25 Notifier comment les résultats indéterminés, les réponses manquantes, et les outliers du nouveau test ont été pris en compte les estimations de la variabilité de la précision diagnostique entre sous-groupes de participants, évaluateurs ou centres, le cas échéant les estimations de la reproductibilité, le cas échéant Discuter de l applicabilité clinique des résultats de l étude 60