EVALUATION DES TESTS DE DIAGNOSTIC Vray M Institut Pasteur 1
Plan de la présentation Introduction Définition Dépistage, D Diagnostique Les ¾ phases de développement d d un d test Phases 1, 2, 3 et 4 Les indices de performances Reproductibilité (Indice Kappa de Cohen, diagramme de Bland et Altman, CCI) Validité (Se, Sp,, VPP, VPN, LR+, LR-) Courbes Roc Les principaux biais Vray M Institut Pasteur 2
Les critères res diagnostiques Ce sont des marqueurs dont les résultats permettent d orienter la décision médicale Deux niveaux: Les tests de dépistage Les tests de diagnostic Comprennent Test médical, m signes cliniques, critères res bactériens, images radiologiques, tests biochimiques.. Vray M Institut Pasteur 3
Un test peut être très s simple par exemple une culture bactérienne pour évaluer une infection Ou plus compliqué par exemple un score clinique à partir d un d questionnaire ou la séquence de procédures spécifiques selon un protocole Vray M Institut Pasteur 4
Dépistage et diagnostic Dépistage Diagnostic exposition Phase pré-clinique Phase clinique Complications Vray M Institut Pasteur 5
Diagnostic et DépistageD Le diagnostic se distingue du dépistage par une caractéristique ristique fondamentale : La motivation de l examenl Réalisé en raison de l él état clinique (sujet malade) diagnostic Réalisé indépendamment de l él état clinique (sujet apparemment sain) dépistage Vray M Institut Pasteur 6
Spécificit cificité des tests de «dépistage» S appliquent à des sujets sains Sur une large échelle Doivent être non invasifs (sans danger et facile à administrer) et peu chers En général, g ils sont suivis par d autres d tests avant de prendre la décision d de traiter Le traitement avant les symptômes doit avoir une meilleure efficacité comparée à un traitement donné après s le début d des symptômes : dépistage d cancer col utérin, cancer du poumon? Vray M Institut Pasteur 7
Dépistage versus Diagnostic Intérêt de tester des populations saines pour traiter précocement Ex: Cancer du sein et mammographie Cholestérol rolémie et HTA pour maladies CV Maladies infectieuses avec traitement disponible (avantage individuel et collectif) Vray M Institut Pasteur 8
L évaluation statistique est identique que ce soit pour un Test de «dépistage» ou un Test de «diagnostic» Vray M Institut Pasteur 9
Critères res pour un test médical m «intéressant» Il doit y avoir un bénéfice b à diagnostiquer la maladie Avant de mettre en place un test il y a des critères res à vérifier La maladie doit être grave conséquences sur la survie ou La qualité de vie La maladie doit être «importante» prévalence élevée e dans la population ciblée e ou contexte épidémique La maladie peut être traitée (guérison ou ralentissement) Vray M Institut Pasteur 10
Si le traitement existe, les malades y ont accès (PED) Définir le bénéficeb apporté par le test au patient Le test ne doit pas être douloureux (bénéfices > inconvénients: nients: coût, déplacement, d inconfort moral, physique etc..) Evaluer comment le test va s intégrer dans la prise en charge de la maladie Le test doit être performant permet de bien classer les sujets en Malades et Non malades Eviter les faux Positifs traités à tort Eviter les faux Négatifs N non traités à tort Vray M Institut Pasteur 11
Les 3/4 phases de développement d un d test diagnostique Vray M Institut Pasteur 12
La phase I (proof-of of-concept) L objectif de cette phase exploratoire est de vérifier v que les résultats r du test sont différents chez les malades et les non malades (conditions «de laboratoire») Vérification du «mécanisme» d action Test dans conditions différentes (températures, humidité..), conditions de recueil Test chez sujets ou échantillons différents (différents niveaux de sévérité de maladie ou de quantité de bactéries ries.) y compris des sujets non malades mais avec des symptômes proches de ceux des sujets malades Test de la reproductibilité Vray M Institut Pasteur 13
Exemple: Bandelettes pour diagnostiquer des shigelles à partir de selles - Vérifier - bandelettes + dans prélèvements contenant des shigelles - Bandelettes - dans prélèvements sans shigelles - Définir les conditions de recueil des selles (délai de recueil et conditions de stérilit rilité..) - Vérifier délai d et conditions de lecture (mode d emploi) d - Vérifier la reproductibilité de la lecture (utiliser 2 bandelettes, lues par deux lecteurs différents) - Faire varier les conditions de stockage des bandelettes (humidité,, température) Vray M Institut Pasteur 14
Cette phase permet de savoir si le test semble suffisamment «fiable» pour pouvoir être utilisé dans les conditions souhaitées Une bonne reproductibilité est nécessaire n Vray M Institut Pasteur 15
La phase II (Etude cas-témoins) L objectif de cette phase de validation est de montrer que - la probabilité d avoir un résultat r + est supérieure chez les malades - la probabilité d avoir un résultat r est supérieure chez les non malades Validité du test dans conditions contrôlées ( conditions de terrain) - Sélectionner les cas et les témoins, t les évaluateurs (médecins, infirmiers, radiologues..) qui peuvent différer du terrain - Définir dans un PROTOCOLE les conditions d utilisation d du test (en essayant d éd éviter les biais) - Tester différentes conditions de recueil (températures, humidité..) - Estimer le % de faux positifs et de faux négatifs n (calcul du NSN et estimations des valeurs acceptables) - Pour les tests quantitatifs,, définir d le cut-off (Courbes( Roc), identifier les facteurs ayant un impact sur le test (ou ceux qui le rendent ininterpr nterprétable) table) Vray M Institut Pasteur 16
Les études de phases I et II sont des études rétrospectives réalisées uniquement dans un but de recherche Le statut du malade est détermind terminé avant par d autres d moyens Vray M Institut Pasteur 17
La phase III (Etude prospective) Objectif principal: Déterminer les performances du test dans les conditions oùo il sera utilisé vérifier que chez les patients chez lesquels il est cliniquement pertinent, les résultats r du test permettent de distinguer les malades des non malades Les performances pourront être comparées à celles d autres d tests Réalisée e dans les conditions pratiques d utilisation d du test S adresse à des sujets dont on ne connaît t pas à l avance l él état (Malade ou Non Malade) Vray M Institut Pasteur 18
Phase IV? Idéalement, il est intéressant de comparer, par un essai randomisé,, l impact l de l introductionl du test par rapport à une prise en charge sans test, dans la pratique courante, sur des critères res de morbi-mortalit mortalité (qualité de vie) et de coûts Permet de savoir si les sujets «testés» se «portent mieux» que les sujets «non testés» Vray M Institut Pasteur 19
Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase I Les patients avec une HVG ont-ils des concentrations de PN supérieures à celles observées es chez des sujets normaux? PN (pg( pg/ml) Patients HVG + Patients HVG - médiane 493.5 129.4 range (248.9-909.0) 909.0) (53.6-159.7) Vray M Institut Pasteur 20
Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase II Les patients avec des concentrations de PN élevées es ont ils plus souvent une HVG que ceux avec des concentrations faibles? PN (pg( pg/ml) Cas (Avec HVG) Témoins T (Sans HVG) Valeurs élevéeses n=39 n=2 Valeurs normales n=1 n=25 Se= = 98% (87-100) VPP=95% (84-99) Sp= = 92% (77-98) VPN=95% (84-99) LR+= = 13 (3.5-50.0) 50.0) LR-= = 0.03 (0.0003-0.19) 0.19) Vray M Institut Pasteur 21
Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase III Parmi les sujets chez qui une suspicion clinique de HVG existe, les taux de PN sont-ils différents entre ceux qui ont une HVG (Echo) et ceux qui n en n n ont n pas? PN (pg( pg/ml) Valeurs élevées es (>=18) n=35 Valeurs normales (<18) n=5 Sujets HVG + Sujets HVG - n=35 n=57 n=5 n=29 Se = 88% (74-94) VPP=38% (29-48) Sp = 34% (25-44) VPN=85% (70-94) LR+= = 1.3 (1.1-1.6) 1.6) LR- = 0.4 (0.2-0.9) 0.9) Vray M Institut Pasteur 22
Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase IV Les sujets chez qui une suspicion clinique de HVG existe et chez qui un dosage de PN a été réalisé ont - ils «un meilleur état de santé» que les sujets qui n ont n pas été testés s? Vray M Institut Pasteur 23
Indices de performances Reproductibilité Validité (Accuracy) Vray M Institut Pasteur 24
Protocole pour évaluer la reproductibilité de la mesure Définir la population à analyser : représenter toute l él étendue des mesures Au moins 2 répétitionsr Résultats indépendants (évaluation( en insu) Vray M Institut Pasteur 25
Type de critères res 1) Variable discrète (2 ou K classes) Coefficient Kappa de Cohen 2) Variable quantitative Diagramme de Bland et Altman et CV ou CCI Vray M Institut Pasteur 26
Critères res qualitatifs Coefficient Kappa de Cohen Vray M Institut Pasteur 27
Le coefficient Kappa L accord observé entre des jugements qualitatifs, résulte r de la somme d une d composante «aléatoire» et d une d composante d accord «véritable» Le coefficient Kappa propose de chiffrer l intensité ou la qualité de l accord l réel r entre des jugements qualitatifs appariés Vray M Institut Pasteur 28
Accord entre 2 évaluations (Exemple : N= 81 sujets évalués) + Evaluation 2-32 (15.95) 2 Evaluation 1 + - (18.05) 6 (22.05) 41 (24.95) Po = (32+41) / 81 = 0.9 Pe = (15.95 +24.95) / 81 = 0.5 Kappa = SE kappa = P o P 1 P e e o n (1 P 0.9 0.5 = 1 0.5 P (1 P ) e o ) (1 P e ) = 0.8 = 0.07 Po = 0.9 IC = Kappa ± 1. 96 SE 95% kappa Pe = 0.5 (chance) Po Pe = 0.4 IC 95 % = 0.8 ± 1.96 0.07 = 0.8 ± 0.14 1 - Pe = 0.5 Vray M Institut Pasteur 29
Il exprime une différence relative entre la proportion d accord observée Po et la proportion d accord d aléatoire atoire Pe (la valeur attendue sous HO d indépendance des jugements) divisée e par la quantité disponible au-del delà de l accord l aléatoire atoire K est un pourcentage de l accord l maximum corrigé de ce qu il serait sous le simple effet du hasard Le coefficient Kappa est un nombre réel, r sans dimension, compris entre -11 et +1 Chi-2 2 de Mac Nemar (qui teste s il y a concordance) n est pas approprié dans ce contexte Utilisation du Kappa pour évaluer la reproductibilité mais aussi la validité (quand le test et le Gold standard ont le même nombre de catégories, notamment 2) Vray M Institut Pasteur 30
Concordance et Kappa «Valeurs de référencer rence» (Landis-Koch, 1977) Kappa peut être testé (Ho: Kappa= 0) mais ce test a peu d intd intérêt en pratique: le kappa s utilise s davantage comme un indicateur descriptif de concordance Vray M Institut Pasteur 31
Concordance et Kappa Cas à K 2 2 catégories Lecture du frottis cervico-utérin chez 761 sujets, méthode Papanicolaou (J. Coste et al, BMJ 2003) 336.4 5.5 7.5 14.6 Po= 448 + 25+ 33+ 86+ 8= 0.79 Pe= 336.4+ 5.5+ 7.5+ 14.6+ 0.8= 0. 48 761 761 Kappa= 1 Po P Pe e = 0.79 0.48= 0.59 1 0.48 0.8 Vray M Institut Pasteur 32
Concordance et Kappa: Les deux paradoxes Dépendance lourde de Kappa vis-à-vis de la fréquence (biais de prévalence = PI) ) des réponses r positives (plus une catégorie est rare, plus le kappa est bas) Problème du biais (BI) lorsque les 2 observateurs Diffèrent dans leur jugement Vray M Institut Pasteur 33
Exemple (1/2) : Problème de prévalence (PI) Tableau 1 Tableau 2 Clinicien 1 Clinicien 1 + - + - Clinicien 2 + 40 9 Clinicien 2 + 5 5-6 45-10 80 Kappa = 0.7 Kappa = 0.32 A concordance constante (ici 85%), le Kappa est d autant plus grand que le pourcentage de diagnostics positifs (ou négatifs) parmi les concordants est proche de 50% Déséquilibre entre les taux de concordance + et - Kappa diminue Vray M Institut Pasteur 34
Exemple (2/2): Biais d interprétationtation entre lecteurs Tableau 1 Tableau 2 Clinicien 1 Clinicien 1 + - + - Clinicien 2 + 45 15 Clinicien 2 + 25 35-25 15-5 35 Kappa = 0.13 Kappa = 0.26 Dans le tableau 1, les deux cliniciens portent le diagnostic avec une fréquence proche (70% pour le clinicien 1 et 60% pour le clinicien 2) Dans le tableau 2, le clinicien 1 porte le diagnostic dans 30% des cas contre 60% pour le clinicien 2. Le Kappa est plus élevé dans le tableau 2 alors que les cliniciens sont le plus en désaccord. Vray M Institut Pasteur 35
Conclusions Calculer Kappa, BI, PI Si BI important il faut essayer de comprendre pourquoi les 2 lecteurs ne cotent pas de la même façon Si PI important et BI faible il est nécessaire n de fournir les valeurs de concordances positives et négatives P neg et P pos Ces données sont particulièrement rement importantes quand on veut comparer les résultats r de plusieurs études Vray M Institut Pasteur 36
Critères res quantitatifs Diagramme de Bland et Altman Coefficient de corrélation intra- classe (CCI) Vray M Institut Pasteur 37
Résultats de la régression linéaire Y b Y b Pente = 1 Surestimation systématique d amplitude b X Pente = 1 Sous estimation systématique d amplitude b X Y X Pente 1 Surestimation jusqu à un seuil Sous estimation à partir d un seuil Vray M Institut Pasteur 38
Une pente = 1 et/ou un coefficient de corrélation entre les deux séries de mesures (x et y) permet de juger d une liaison entre les deux méthodes Les deux méthodes mesurant (a priori) la même chose, on doit observer une liaison Mais ne renseigne pas sur la qualité des deux mesures (ne quantifie pas les écarts entre les 2 méthodes) Vray M Institut Pasteur 39
Etape 2 : Méthode de Altman & Bland Etude du nuage de points avec en abscisse : la moyenne des 2 mesures (x+y)/2 en ordonnée : la différence des 2 mesures (x-y) Cette méthode fait l hypothèse que les différences sont distribuées normalement : d : moyenne des différence (x-y) s d : écart-type des différences (x-y) Compare les différences observées à la distribution statistique attendue Condition d application : nombre de mesures par méthodes n 30 Vray M Institut Pasteur 40
Les différentes étapes Y a-t-il une liaison entre les deux mesures? Coefficient de corrélation Oui Y a-t-il concordance? Y a-t-il indépendance entre la variabilité et le niveau de la mesure? Non Fin d analyse Diagramme de Bland & Altman Oui Coefficient de Corrélation IntraClasse (CCI) Non Coefficient de variation Vray M Institut Pasteur 41
Différence (x-y) d + 1.96 s d d 0 Valeurs moyennes (x+y)/2 d - 1.96 s d Comment juger si la nouvelle méthode est acceptable? C est-à-dire peut remplacer l ancienne, ou si les 2 lecteurs donnent les mêmes résultats - La différence entre les méthodes n augmente pas lorsque les valeurs augmentent (ou diminuent) - La différence entre deux mesures est peu éloignée de la moyenne Vray M Institut Pasteur 42
Différence (x-y) Différence (x-y) d d 0 0 (x+y)/2 (x+y)/2 Indépendance entre la variabilité et le niveau de la mesure Dépendance entre la variabilité et le niveau de la mesure (effet entonnoir) Vray M Institut Pasteur 43
Spécificité de la Reproductibilité d une mesure continue Pour vérifier la reproductibilité d une mesure, on répète la mesure ( 2) sur les mêmes échantillons : - les mesures doivent être indépendantes (TAS) - éviter les facteurs liés à l ordre Vérification de la cohérence en utilisant une régression linéaire : pente = 1 (coefficient de corrélation élevé) doit être observé(e), mais ne renseigne pas sur la reproductibilité Coefficient de corrélation intra-classe (>0.9) ou Coefficient de variation (<0.1) Vray M Institut Pasteur 44
Validité d un test par rapport à un Gold Standard Vray M Institut Pasteur 45
Définition du Gold Standard Caractéristiques des critères permettant d affirmer l existence d une maladie Un critère indiscutable: tuberculose et BK? Tuberculose et IDR+? Critères histo-pathologiques à partir de Biopsies Vray M Institut Pasteur 46
Difficultés s du Gold Standard Pas de gold standard : aucun critère vraiment satisfaisant Ex= test rapide de bandelettes pour diagnostiquer shigelles chez enfants atteints de diarrhée sévère (Coproculture peu sensible, PCR non spécifique) Quand un nouveau test ferait mieux que le standard actuel Ex: bandelettes plus sensibles si lues rapidement Un gold standard ne doit comporter dans sa définition, ni le signe, ni le résultat du test dont on évalue les propriétés diagnostiques Vray M Institut Pasteur 47
Le test Les critères de positivité d un test doivent être connus précisément Décrire les conditions dans lesquelles ils sont mesurés et les règles de conclusion Exemples Utilisation d une bandelette pour diagnostiquer des shigelles dans les selles lecture dans les 15 minutes Mesure de la glycémie: à jeun, post prandiale Examen direct BK (conditions de lecture : nombre de champs microscopiques?) Vray M Institut Pasteur 48
Evaluation d un d nouveau test diagnostic et critères res de performances On peut distinguer - Les tests binaires (oui/non ou positif/négatif ou présent/absent) Ex: Présence de sang dans les urines, sérologie s VIH positive ou négative, BAAR + ou - Les tests quantitatifs: variable continue avec un seuil Ex: bilirubinémie, cholestérol rolémie, taux de PSA,, FibroScan - Les réponses r ordinales Ex: degré de fibrose sur une lame de biopsie, images radiologiques, échelle de BIRADS sur la mammographie analyse peut être abordée e comme du quantitatif En fonction du critère, re, la méthodologie m d éd évaluation sera différente Vray M Institut Pasteur 49
Expressions des résultats r d une d évaluation Signe binaire : Sensibilité,, spécificit cificité Signe avec valeur continue : Courbes ROC Vray M Institut Pasteur 50
Cas des variables binaires Vray M Institut Pasteur 51
Expression des résultats Résultat test + Statut malade M+ Vrai Positif VP non malade M- Faux positif FP test - Faux Négatif FN Vrai Négatif VN On distingue 4 types de sujets -Les vrais positifs (VP) -Les faux positifs (FP) -Les varis négatifs (VN) -Les faux négatifs (FN) Vray M Institut Pasteur 52
Qualités intrinsèques : sensibilité et spécificité M+ M- T + VP FP T - FN VN Sensibilité : probabilité d obtenir un test positif quand le sujet est malade Valeur comprise entre 0 et 1 Se = P (T+ / M+) = VP / VP+FN => c est l aptitude d un test à identifier correctement les individus malades grâce à une réponse positive Vray M Institut Pasteur 53
Qualités intrinsèques : sensibilité et spécificité M+ M- T + VP FP T - FN VN Spécificité : probabilité d obtenir un test négatif quand le sujet est non malade Valeur comprise entre 0 et 1 Sp = P (T- / M- ) = VN / VN+FP => c est l aptitude d un test à identifier correctement les individus non malades grâce à une réponse négative Vray M Institut Pasteur 54
ex : on souhaite déterminer la sensibilité et la spécificité d un nouveau test de dépistage d une maladie. 1000 sujets ont été soumis au test de référence (Gold Standard) supposé parfait : 900 ont fourni une réponse négative et 100 une réponse positive. Parmi les 100 sujets à réponse positive, 90 répondent positivement au nouveau test, et parmi le 900 à réponse négative, 30 ont donné une réponse positive au nouveau test. référence référence + - T + 90 30 120 Se = 90/100 = 0,90 Sp = 870/900 = 0,97 T - 10 870 880 100 900 1000 Vray M Institut Pasteur 55
Se calculée sur une population composée exclusivement de sujets malades => Se ne varie donc pas en fonction de la prévalence de la maladie Sp calculée sur une population composée exclusivement de sujets non malades => Sp ne varie donc pas en fonction de la prévalence de la maladie Pour un test donné : Se et Sp ne dépendent pas de la prévalence de la maladie => qualités «intrinsèques» = dépendant uniquement de facteurs internes (caractéristiques du test ) Vray M Institut Pasteur 56
Relativité de la sensibilité et de la spécificité M+ M VP FP Seuil 1 Seuil 2 Seuil 3 FN VN Se = 0,55 Sp = 0,95 Se = 0,80 Sp = 0,75 Se = 1 Sp = 0,50 FN Se FP Sp Vray M Institut Pasteur 57
Ex: dépistage d cancer du sein HIP Breast Cancer Screening Project 64810 femmes âgées de 40 à 64 ans Ex. physique + mammo. + - Cancer du sein (biopsie ou aspiration) + 132 45-983 63650 1115 63695 177 64633 64810 Sensibilité: : 132/177 = 75% Spécificit cificité: : 63650/64633 = 99% (Shapiro S et al., Am J Epidemiol, 1974) Vray M Institut Pasteur 58
Equilibre entre sensibilité et spécificit cificité On peut parfois être amené à faire des tests en séquence: s Test rapide pour le VIH qui a une très s grande sensibilité,, mais dont la spécificit cificité n est pas parfaite. Un test très s spécifique, mais plus complexe (type Western blot), pour ceux qui ont un résultat positif sur le premier test. Vray M Institut Pasteur 59
Equilibre entre sensibilité et spécificit cificité Selon les cas, on pourra être amené à privilégier une sensibilité ou une spécificit cificité élevée La sensibilité sera privilégi giée dans les cas suivants: Maladie grave (on ne veut pas laisser passer un cas) Maladie transmissible Quand les investigations qui découleront d du dépistage d sont sans danger et peu coûteuses (confirmation d une d hypertension artérielle) rielle) La spécificit cificité sera privilégi giée dans les cas suivants: Quand les investigations qui découleront d du dépistage d sont dangereuses ou coûteuses (angiographie par cathétérisation risation, MDR et traitement) Vray M Institut Pasteur 60
Qualités extrinsèques : Valeur Prédictive Positive (VPP) Valeur Prédictive Négative (VPN) M+ M- T + VP FP T - FN VN VPP = P (M+/T+) = VP / VP+FP probabilité que l individu soit malade quand le test est positif Valeur comprise entre 0 et 1 Vray M Institut Pasteur 61
Qualités extrinsèques : Valeur Prédictive Positive (VPP) Valeur Prédictive Négative (VPN) M+ M- T + VP FP T - FN VN VPN = P (M-/T-) = VN / VN+FN probabilité que l individu soit non malade quand le test est négatif Valeur comprise entre 0 et 1 Vray M Institut Pasteur 62
Suite de l exemple précèdent référence + référence - T + 90 30 120 T - 10 870 880 100 900 1000 VPP = 90/120 = 0,75 VPN = 870/880 = 0,99 Vray M Institut Pasteur 63
VPP et VPN Fonction de Se et Sp du test et de la prévalence de la maladie dans la zone où est employé le test VPP = VP / (VP + FP) et VPN = VN / (VN + FN) M+ M- T + VP FP T - FN VN lorsque Se et Sp sont fixées : si p => VP deviennent majoritaires/fp => VPP => FN deviennent majoritaires/vn => VPN si p => VP deviennent minoritaires/fp => VPP => FN deviennent minoritaires/vn => VPN Vray M Institut Pasteur 64
Conséquences sur l interprétation des résultats En milieu où prévalence élevée: grande confiance / résultat positif (VPP) confiance plus limitée / résultat négatif (VPN) En milieu où prévalence faible: grande confiance / résultat négatif (VPN) confiance plus limitée / résultat positif (VPP) Vray M Institut Pasteur 65
Un même test effectué sur 1000 sujets dans 2 zones différentes (A et B) Zone A M+ M- Zone B M+ M- T+ 190 80 270 T- 10 720 730 200 800 1000 T+ 19 98 117 T- 1 882 883 20 980 1000 Quelles sont les qualités intrinsèques de ce test? Zone A : Se = 190/200 = 95% Sp = 720/800 = 90% Zone B : Se = 19/20 = 95% Sp = 882/980 = 90% Quelle est la prévalence de la maladie dans chaque zone? Que conclure si le test est +? Si le test est -? Zone A => p = 20% Zone B => p = 2% Zone A => VPP = 190/270 = 70% Zone B => VPP = 19/117 = 16% Zone A => VPN = 720/730 = 98.6% Zone B => VPN = 882/883 = 99.8% Vray M Institut Pasteur 66
En résumé : La VPP dépend, notamment de la spécificité du test, mais surtout de la prévalence de la maladie (plus la maladie est rare, plus la VPP est faible). La VPN dépend, notamment de la sensibilité du test, mais surtout de la prévalence de la maladie (plus la maladie et rare, plus la VPN est élevée). Vray M Institut Pasteur 67
Intervalles de confiance (IC) Par convention, intervalle de confiance à 95% IC 95% (Se) = IC 95% (Sp) = Se Sp ± 1.96 ± 1.96 ( Se (1 Se) m ( Sp (1 Sp) n m= nombre de malades n= nombre de non-malades Vray M Institut Pasteur 68
Calcul du nombre de sujets nécessairen Cette formule peut être utilisée e pour calculer le nombre de sujets nécessaire n dans une étude en définissant: d - La Se et la Sp attendues - La précision désird sirée e de ces deux estimateurs n = 2 1.96 2 p q Avec p = Se ou Sp q = 1-p Et = la précision Vray M Institut Pasteur 69
Malades/Total Se (%) IC 95 % 10/20 90 % 71-100 100/200 90 % 84-96 1000/2000 90 % 88 92 Plus le n est grand, plus l IC est étroit Vray M Institut Pasteur 70
Indices de synthèse se Visent à établir la valeur d'un test Exactitude (e) Test de Youden (j) Rapport de vraisemblance (LR+ et LR-) Vray M Institut Pasteur 71
Exactitude Malades Sains Test + Test - VP FN FP VN Exactitude = Sujets Bien classés = (VP+VN) / (VP+VN+FP+FN) % résultats exacts, VP et VN par rapport à la cohorte Varie de 0 à 1 1 correspondant à une absence de FP et de FN Un tirage au sort correspond à 0,5 Vray M Institut Pasteur 72
Indice de Youden (J) Addition des 2 qualités du test : Se et Sp J (en %)= Se +Sp-100 Varie de 1 à 1 0 pas d orientation diagnostique Cet indice est peu utilisé Vray M Institut Pasteur 73
Rapport de vraisemblance positif (Likelihood ratio, LR, en anglais) Définition: rapport de la probabilité d un test positif chez les malades comparés s aux non malades Probabilité d un test positif chez les malades: sensibilité (Se) Probabilité d un test positif chez les non malades: 1-1 spécificit cificité (Sp) Rapport de vraisemblance positif: Se / (1-Sp Sp) Vray M Institut Pasteur 74
Rapport de vraisemblance positif Intérêt: (suite) Intègre à la fois les notions de sensibilité et spécificit cificité Indépendant de la prévalence de la maladie. Permet de calculer la probabilité d être malade chez les sujets ayant un test positif en fonction de la prévalence de la maladie dans la population d éd étude Un test «intéressant» a un rapport de vraisemblance positif > 9 (correspond par exemple à une sensibilité et spécificit cificité de 90%). Vray M Institut Pasteur 75
Rapport de vraisemblance (exemple) Maladie + - Se = 180 / 200 = 90% Test + - 180 20 200 81 1719 1800 261 1739 2000 Sp = 1719/1800 = 95,5% LR+ = Se/(1-Sp) = 0,9 / (0,045) = 20 Vray M Institut Pasteur 76
Nomogramme de Fagan Pre-test odds X LR = post-test odds Prévalence de la maladie dans la population p = 0,10 LR = 20 Pre-test odds = p / (1-p) = 0,1/(1-0,1) = 0,11 Post-test odds = 0,11X 20 = 2,2 Probabilité d être malade (VPP) = post-test odds / (1 + post-test odds) = 2,2/(1+2,2) = 0,69 Vray M Institut Pasteur 77 (Deeks & Altman, BMJ, 2004)
Rapport de vraisemblance négatif Définition: rapport de la probabilité d un test négatif chez les malades comparés aux non malades Probabilité d un test négatif chez les malades: 1- sensibilité (Se) Probabilité d un test négatif chez les non malades: Spécificité (Sp) Rapport de vraisemblance négatif: (1-Se) / Sp Un test intéressant à un rapport de vraisemblance négatif < 0,1. Vray M Institut Pasteur 78
Cas d un d signe avec des valeurs quantitatives Vray M Institut Pasteur 79
Les courbes ROC Lorsqu un un test a des valeurs continues, il existe de nombreuses valeurs Se/Sp Sp important d avoir d tous les spectres des valeurs du test et de ne pas se limiter à certaines valeurs, ou intervalles même si le but final est de définir d un seuil (cut( cut-off) qui présente le meilleur rapport Se/Sp Sp (celui qui nous intéresse et qui dépend d du contexte) La courbe ROC permet d avoir d le tracé des Se et Sp correspondant à toutes les valeurs du test Vray M Institut Pasteur 80
Construction de la courbe ROC On porte - en abscisse, la variable «1 spécificit cificité» = faux positifs parmi les non-malades - en ordonnée la sensibilité = les vrais positifs parmi les malades Un seuil est idéal s il s permet de séparer s totalement les positifs des négatifs, n sans faux positifs ni faux négatifsn Vray M Institut Pasteur 81
Sensibilité (Vrais positifs).1 0.75. 0.50 0.25. 0 0 0.25 0.50. 0.75. 1. 1-Spécificité (Faux positifs) Vray M Institut Pasteur 82
1 0.8 Seuil =0.6 M+ M- p 1 > S VP FP p 1 S FN VN Seuil 0.2 Sensibilité 0.6 0.4 0.2 Seuil =0.4 Seuil =0.2 M+ M- p 1 > S VP FP p 1 S FN VN M+ M- Seuil 0.4 0 0 0.2 0.4 0.6 0.8 1 p 1 > S VP FP p 1 S FN VN Seuil 0.6 1- Spécificit cificité (taux de faux positifs) Vray M Institut Pasteur 83
Construction de la courbe ROC Sensibilité 1 0 A 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 Diagonale passant par 0 test non informatif Un test est d autant meilleur que sa courbe se situera près du point A et loin de la diagonale Minimiser la distance par rapport au point idéal A Se = Sp = 1 1- Spécificit cificité (taux de faux positifs) Vray M Institut Pasteur 84
On calcule AUC= Aire sous courbe (avec IC 95% ) Plus AUC proche de 1 plus le test est performant Vray M Institut Pasteur 85
Avantages des COURBES ROC - Simple et facilement compréhensible graphiquement - Tient compte de l ensemble l des valeurs du test (ne nécessite pas le choix arbitraire d un d seuil) - Totalement indépendante de la prévalence de la maladie dans l él échantillon - Permet une comparaison directe visuelle de plusieurs tests sur une même échelle (+ tests pour comparer AUC) - on peut calculer l IC 95% de l AUCl AUC.. La borne inférieure ne doit pas comprendre 0.5 pour que le test ait un intérêt Vray M Institut Pasteur 86
Les principaux biais Vray M Institut Pasteur 87
Definitions Erreur systematique (Biais) : erreur de raisonnement ou de procédure amenant à une représentation faussée de la réalité. Un biais revêt un caractère systématique et altère l estimation dans un sens donné. Erreur aleatoire : non imputable à une cause décelable et due au hasard. Elle aboutit à une perte de précision de l estimation mais non à sa déviation systématique dans un sens donné. Vray M Institut Pasteur 88
6) Sources de BIAIS. A) Intégrit grité des tests (Integrity( test) B) Le biais de vérification v (Verification( bias) C) Erreurs sur la référence r rence (Errors( in the reference) D) Le biais de recrutement (Spectrum bias) E) Le biais d interprd interprétation tation (Test interpretation bias) F) Les tests ininterprétables tables (Unsatisfactory( tests) G) Le biais d extrapolation d (Extrapolation bias) H) Le biais d incorporation d (Incorporation bias) + biais spécifiques des études de dépistaged I) Le biais du temps d avance d au diagnostic (Lead( Time Bias) J) Le biais de lenteur d éd évolution (Length( Time Bias) K) Le biais de sur-diagnostic (Diagnostic Bias) L) Le bais de sélection s (Selection( Bias) Vray M Institut Pasteur 89
A) Qualité des tests (Integrity( test) Il est nécessaire n que: La connaissance du statut de la maladie (OUI/NON) des sujets n influence n pas l évaluation du test (et vice versa) Par exemple: si un radiologue sait que la mammographie qu il doit évaluer vient d une d femme atteinte d un d K du sein, il pourra être influencé les «opérateurs» qui évaluent le test doivent être à l insu du résultat r du statut de la maladie (vice versa) Souvent procédures d éd évaluation «objectives» et évaluation de la maladie n interfn interfèrent rent pas (questionnaire ou évaluation par un médecin m # test biochimique ou test sur culture) on dit que «the integrity of such test is inherent to its operation» Vray M Institut Pasteur 90
Mais même dans le cas de tests «objectifs»,, il faut se méfier Exemple 1 Si le délai d entre le test et l él évaluation de la maladie est long, il peut y avoir une modification de la prise en charge qui est fonction du résultat r du test et ainsi entraîner ner une modification du diagnostic de la maladie les résultats r seront biaisés Exemple 2 A l inverse, l la connaissance de la maladie peut influencer la façon dont le test sera réalisr alisé les résultats seront biaisés Vray M Institut Pasteur 91
B) Le biais de vérificationv (Verification Bias,Work-up Bias,Referral bias, selection Bias ou Ascertainment Biais ) Dans les études de cohortes, le test T devrait être appliqué à tous les sujets Mais on peut être dans la situation oùo la référence r rence n est n réalisr alisée que si le test est + Si T+ On réalise r un test de référence r rence pour confirmer la maladie Si T - Pas de test de référencer rence Exemple Détection test audition des bébés b à la naissance par DPOAE (Test d éd émission oto-acoustique) - Si le résultat r n est n pas parfait on fait le test de référence r rence VRA (Visual Reinforcement Audiometry) - Si le résultat r est bon on ne fait pas le test VRA qui est cher, long et nécessite n un second RV Vray M Institut Pasteur 92
C) Erreurs sur la référence r rence (Imperfect Reference Test) Pour de nombreuses maladies, il est impossible de déterminer avec certitude le statut de la maladie et les meilleures références r rences peuvent donner des résultats r faux (PBH) Ces erreurs peuvent avoir des conséquences sur l évaluation d un d test diagnostic Ex: - Infection bactérienne: culture à partir d un d prélèvement de sang, urine ou tissu, même si le sujet est infecté,, la culture peut être si le spécimen ne contient pas le germe ou si l él échantillon contient la bactérie mais ne pousse pas - PBH (résultat dépend d de l endroit l oùo le prélèvement est effectué, la taille du prélèvement etc..) Il existe des méthodes m d analyses d (avec( classes latentes) pour évaluer différents tests en cas d absence d de Gold standard Vray M Institut Pasteur 93
D) Le biais de recrutement (Spectrum Bias) Quand les sujets malades ne sont pas représentatifs des sujets malades de la population ou quand les sujets contrôles (non malades ) ne sont pas représentatifs des sujets non malades de la population Erreur classique: sélectionner s des cas «graves» et des contrôles «très s sains» paramètres de validité des tests surestimés Vray M Institut Pasteur 94
E) Le biais d interprd interprétationtation Quand des informations «extérieures» (données cliniques ou résultats r d autres d tests) peuvent influencer la procédure du test à évaluer qui ne sera pas appliquée e ainsi dans la pratique ultérieure Exemple Les résultats r d une d mammographie peuvent influencer l interprl interprétation tation d une d «grosseur» lors d un examen clinique. Si en pratique, l examen l clinique est réalisr alisé sans mammographie, les performances du test peuvent être différentes Vray M Institut Pasteur 95
F) Les biais liés s aux tests ininterprétables tables En pratique les tests ne sont pas applicables à tous les sujets et pour certains sujets ils peuvent être ininterprétables tables Exemples : FibroScan chez sujets obèses Test d audition d chez un enfant agité Ces informations doivent être prises en compte dans l évaluation des tests Si non prises en compte surestimation de la validité du test alors que chez certains sujets la maladie n est n pas détectd tectée A l inverse, l la prise en compte de ces données peut être problématique, par exemple si les «cas non interprétables tables» sont considérés s comme des négatifs n avec en pratique des recommandations faites pour répéter le test Or les performances du test ne sont pas évaluées pour des valeurs répétéesr Vray M Institut Pasteur 96
G) Le biais d extrapolationd Plusieurs facteurs peuvent influencer les performances d un test pour détecter d une maladie Facteurs liés à l opérateur : expérience Facteurs liés s au sujet: : Caractéristiques ristiques démographiquesd Environnement dans lequel le test est réalisr alisé : ressources disponibles, accès s aux traitements, prévalence de la maladie Les performances d un d test réalisr alisé dans une population ne peuvent pas être systématiquement extrapolées es à d autres populations Vray M Institut Pasteur 97
H) Le biais d incorporationd Lorsque le résultat r du test est incorporé dans le diagnostic Par exemple si on veut savoir si la radiographie est un bon marqueur de TB chez les enfants infectés s par le VIH Le test est la radiographie et la référence r rence est le diagnostic de TB défini d par un groupe d experts d qui va statuer sur les signes cliniques, la culture du crachat et la radiographie Vray M Institut Pasteur 98
En résumr sumé le test étudié doit - être fait par ceux qui le feront en routine - être fait à tous les patients étudiés - ne pas être incorporé dans le gold standard - être complètement décritd - être interprété à l aveugle / gold standard, avec ou sans informations cliniques - le taux de résultats r ininterprétables tables doit être fourni Vray M Institut Pasteur 99
Interprétation tation du test Les résultats r intermédiaires ou indétermin terminés s constituent un résultat Pour les résultats r ininterprétables, tables, il faut préciser les conditions et essayer de savoir s il s y a une relation avec le diagnostic Vray M Institut Pasteur 100
Conclusion Pour qu un un critère re devienne un test de dépistage d ou un test diagnostique Nécessité d évaluer la reproductibilité,, les qualités intrinsèques, extrinsèques ques à partir de protocoles réalisr alisés s sans biais en respectant les 3-43 4 phases d éd évaluation Références : Grille STARD & QUADAS Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, et al. (2003) Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Ann Intern Med 138: 40 44. 44. Whiting P, Rutjes A, Reitsma J, Bossuyt P, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic ic accuracy included in systematic reviews. BMC B Medical Research Methodology 2003;3:25. Vray M Institut Pasteur 101
Impact des défauts d de méthodologie m (Reid et al. JAMA, 1995) 112 études de 1978-1993 : 7 standards méthodologiquesm -Définition de la population (âge, sexe, symptômes, critères res d éd éligibilité)) : 27% -Qualité DG dans différents sous-groupes: 8% -Absence de biais de vérification v : 46% -Absence de biais d éd évaluation (test ou référence) r rence) : 38% -Précisions des estimations : 11% -Présentations des résultats r indétermin terminés s : 23% -Reproductibilité du test :23%: Vray M Institut Pasteur 102
Test Performance de plusieurs tests rapides pour le dépistage d de la Dengue Performances déclard clarées Evaluation OMS Se Sp Se Sp Core 100 100 23 99 Diazyme NS NS 18 98 Globalemed 80 >99 63 69 Minerva NS NS 9 100 Panbio 70 100 65 98 Standard 93 100 22 99 Tulip 100 100 6 99 Vray M Institut Pasteur 103
World Health Organization An ideal diagnostic test : ASSURED A = Affordable by those at risk of infection S = Sensitive S = Specific U = User-friendly (simple to perform, minimal training) R = Rapid/robust (enables action at point of care) E = Equipment-free D = Deliverable to those who need it Vray M Institut Pasteur 104