EVALUATION DES TESTS DE DIAGNOSTIC. Vray M Institut Pasteur 1

Documents pareils

Evalua&on tests diagnos&ques. Arnaud Fontanet

Chapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE

Item 169 : Évaluation thérapeutique et niveau de preuve

Principe d un test statistique

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Études épidémiologiques analytiques et biais

Intérêt diagnostic du dosage de la CRP et de la leucocyte-estérase dans le liquide articulaire d une prothèse de genou infectée

Document d orientation sur les allégations issues d essais de non-infériorité

DASES Réseau tuberculose 10 janvier 2006

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

Docteur José LABARERE

ELABORATION DU PLAN DE MONITORING ADAPTE POUR UNE RECHERCHE BIOMEDICALE A PROMOTION INSTITUTIONNELLE

Objectifs pédagogiques Lecture critique d article

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Evaluation d un appareil quantitatif ultrasonore utilisant des matrices (Beam scanner):précision standardisée

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Relation entre deux variables : estimation de la corrélation linéaire

Diagnostic des Hépatites virales B et C. P. Trimoulet Laboratoire de Virologie, CHU de Bordeaux

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

GUIDE DE LECTURE CRITIQUE D'UN ARTICLE MEDICAL ORIGINAL (LCA)

23. Interprétation clinique des mesures de l effet traitement

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

PROGRAMME (Susceptible de modifications)

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chapitre 3. Les distributions à deux variables

ÉVALUATION DE LA PERSONNE ATTEINTE D HYPERTENSION ARTÉRIELLE

Programme «maladie» - Partie II «Objectifs / Résultats» Objectif n 2 : développer la prévention

TEST DE DÉTECTION DE LA PRODUCTION D INTERFÉRON γ POUR LE DIAGNOSTIC DES INFECTIONS TUBERCULEUSES

LECTURE CRITIQUE 1 ER PAS

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86

Que faire devant un résultat positif, négatif ou indéterminé? Elisabeth Bouvet Atelier IGRA VIH JNI Tours 13 Juin 2012

Essais cliniques de phase 0 : état de la littérature

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Evaluation générale de la qualité des données par âge et sexe

Introduction à l approche bootstrap

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

CONTROVERSE : IDR OU QUANTIFERON LORS D'UN CONTAGE EN EHPAD?

I - CLASSIFICATION DU DIABETE SUCRE

Statistiques Descriptives à une dimension

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Cas clinique Enquête autour d un cas IDR vs IGRA Pr Emmanuel Bergot

Séminaire du Pôle Santé

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

HENDRICH FALL RISK MODEL (HFRM)

Apport d un nouveau test Interféron Gamma

VI. Tests non paramétriques sur un échantillon

OUTIL D'EVALUATION DU TEMPS ARC / CHEF DE PROJET PROMOTEUR REQUIS POUR UNE RECHERCHE BIOMEDICALE V 2.3 DE L OUTIL NOTICE D UTILISATION

données en connaissance et en actions?

OUVERTURE ET MISE EN PLACE

Hépatite C une maladie silencieuse..

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Hospital Anxiety and Depression Scale (HADS)

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Brock. Rapport supérieur

Cancer bronchique primitif: données épidémiologiques récentes

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Le dépistage du cancer de la prostate. une décision qui VOUS appartient!

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

INF6304 Interfaces Intelligentes

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Le dépistage des cancers

Critères de Choix d une Echelle de Qualité De Vie. Etudes cliniques dans l autisme. Introduction

Logiciel XLSTAT version rue Damrémont PARIS

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Test de terrain ou test de laboratoire pour la performance en endurance?

GUIDE MÉTHODOLOGIQUE

HEL de Des maladies dépistées grâce aux examens préventifs

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Tests de détection de l interféron γ et dépistage des infections tuberculeuses chez les personnels de santé

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Le dépistage du cancer du sein par mammographie dans la population générale

attitudes envers le dépistage

Représentation d une distribution

Les défibrillateurs cardiaques implantables

ASPECT ECHOGRAPHIQUE NORMAL DE LA CAVITE UTERINE APRES IVG. Dr D. Tasias Département de gynécologie, d'obstétrique et de stérilité

L hépatite C pas compliqué! Véronique Lussier, M.D., F.R.C.P.C. Gastroentérologue Hôpital Honoré-Mercier 16 avril 2015

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

BERTHIER E, CHRISTIANO M, PHILIPPE M O, IEHL J, TATARU N, DECAVEL P, VUILLIER F, ELISEEF A, MOULIN T. Introduction (1). Contexte de l étude

Tuberculose Pr. Jean-Louis Herrmann Service de Microbiologie, Hôpital R. Poincaré, Garches

Chapitre 3 : INFERENCE

Tests rapides de dépistage

DENSITOMÉTRIE OSSEUSE : CE QUE LE RADIOLOGUE DOIT SAVOIR

Sujets présentés par le Professeur Olivier CUSSENOT

CORRELATION RADIO-ANATOMIQUE DANS LE CARCINOME HEPATOCELLULAIRE TRAITE PAR TRANSPLANTATION HEPATIQUE : IMPACT SUR LA RECIDIVE

Mesures et incertitudes

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

La microsimulation à Statistique Canada

RAPPORT D ORIENTATION. Dépistage du cancer de la prostate. Analyse critique des articles issus des études ERSPC et PLCO publiés en mars 2009

PLEINS FEUX SUR LE RC EXAMENS SYSTEMATIQUES ET PREVENTION

L axe 5 du Cancéropole Nord Ouest

CAPTEURS - CHAINES DE MESURES

Transcription:

EVALUATION DES TESTS DE DIAGNOSTIC Vray M Institut Pasteur 1

Plan de la présentation Introduction Définition Dépistage, D Diagnostique Les ¾ phases de développement d d un d test Phases 1, 2, 3 et 4 Les indices de performances Reproductibilité (Indice Kappa de Cohen, diagramme de Bland et Altman, CCI) Validité (Se, Sp,, VPP, VPN, LR+, LR-) Courbes Roc Les principaux biais Vray M Institut Pasteur 2

Les critères res diagnostiques Ce sont des marqueurs dont les résultats permettent d orienter la décision médicale Deux niveaux: Les tests de dépistage Les tests de diagnostic Comprennent Test médical, m signes cliniques, critères res bactériens, images radiologiques, tests biochimiques.. Vray M Institut Pasteur 3

Un test peut être très s simple par exemple une culture bactérienne pour évaluer une infection Ou plus compliqué par exemple un score clinique à partir d un d questionnaire ou la séquence de procédures spécifiques selon un protocole Vray M Institut Pasteur 4

Dépistage et diagnostic Dépistage Diagnostic exposition Phase pré-clinique Phase clinique Complications Vray M Institut Pasteur 5

Diagnostic et DépistageD Le diagnostic se distingue du dépistage par une caractéristique ristique fondamentale : La motivation de l examenl Réalisé en raison de l él état clinique (sujet malade) diagnostic Réalisé indépendamment de l él état clinique (sujet apparemment sain) dépistage Vray M Institut Pasteur 6

Spécificit cificité des tests de «dépistage» S appliquent à des sujets sains Sur une large échelle Doivent être non invasifs (sans danger et facile à administrer) et peu chers En général, g ils sont suivis par d autres d tests avant de prendre la décision d de traiter Le traitement avant les symptômes doit avoir une meilleure efficacité comparée à un traitement donné après s le début d des symptômes : dépistage d cancer col utérin, cancer du poumon? Vray M Institut Pasteur 7

Dépistage versus Diagnostic Intérêt de tester des populations saines pour traiter précocement Ex: Cancer du sein et mammographie Cholestérol rolémie et HTA pour maladies CV Maladies infectieuses avec traitement disponible (avantage individuel et collectif) Vray M Institut Pasteur 8

L évaluation statistique est identique que ce soit pour un Test de «dépistage» ou un Test de «diagnostic» Vray M Institut Pasteur 9

Critères res pour un test médical m «intéressant» Il doit y avoir un bénéfice b à diagnostiquer la maladie Avant de mettre en place un test il y a des critères res à vérifier La maladie doit être grave conséquences sur la survie ou La qualité de vie La maladie doit être «importante» prévalence élevée e dans la population ciblée e ou contexte épidémique La maladie peut être traitée (guérison ou ralentissement) Vray M Institut Pasteur 10

Si le traitement existe, les malades y ont accès (PED) Définir le bénéficeb apporté par le test au patient Le test ne doit pas être douloureux (bénéfices > inconvénients: nients: coût, déplacement, d inconfort moral, physique etc..) Evaluer comment le test va s intégrer dans la prise en charge de la maladie Le test doit être performant permet de bien classer les sujets en Malades et Non malades Eviter les faux Positifs traités à tort Eviter les faux Négatifs N non traités à tort Vray M Institut Pasteur 11

Les 3/4 phases de développement d un d test diagnostique Vray M Institut Pasteur 12

La phase I (proof-of of-concept) L objectif de cette phase exploratoire est de vérifier v que les résultats r du test sont différents chez les malades et les non malades (conditions «de laboratoire») Vérification du «mécanisme» d action Test dans conditions différentes (températures, humidité..), conditions de recueil Test chez sujets ou échantillons différents (différents niveaux de sévérité de maladie ou de quantité de bactéries ries.) y compris des sujets non malades mais avec des symptômes proches de ceux des sujets malades Test de la reproductibilité Vray M Institut Pasteur 13

Exemple: Bandelettes pour diagnostiquer des shigelles à partir de selles - Vérifier - bandelettes + dans prélèvements contenant des shigelles - Bandelettes - dans prélèvements sans shigelles - Définir les conditions de recueil des selles (délai de recueil et conditions de stérilit rilité..) - Vérifier délai d et conditions de lecture (mode d emploi) d - Vérifier la reproductibilité de la lecture (utiliser 2 bandelettes, lues par deux lecteurs différents) - Faire varier les conditions de stockage des bandelettes (humidité,, température) Vray M Institut Pasteur 14

Cette phase permet de savoir si le test semble suffisamment «fiable» pour pouvoir être utilisé dans les conditions souhaitées Une bonne reproductibilité est nécessaire n Vray M Institut Pasteur 15

La phase II (Etude cas-témoins) L objectif de cette phase de validation est de montrer que - la probabilité d avoir un résultat r + est supérieure chez les malades - la probabilité d avoir un résultat r est supérieure chez les non malades Validité du test dans conditions contrôlées ( conditions de terrain) - Sélectionner les cas et les témoins, t les évaluateurs (médecins, infirmiers, radiologues..) qui peuvent différer du terrain - Définir dans un PROTOCOLE les conditions d utilisation d du test (en essayant d éd éviter les biais) - Tester différentes conditions de recueil (températures, humidité..) - Estimer le % de faux positifs et de faux négatifs n (calcul du NSN et estimations des valeurs acceptables) - Pour les tests quantitatifs,, définir d le cut-off (Courbes( Roc), identifier les facteurs ayant un impact sur le test (ou ceux qui le rendent ininterpr nterprétable) table) Vray M Institut Pasteur 16

Les études de phases I et II sont des études rétrospectives réalisées uniquement dans un but de recherche Le statut du malade est détermind terminé avant par d autres d moyens Vray M Institut Pasteur 17

La phase III (Etude prospective) Objectif principal: Déterminer les performances du test dans les conditions oùo il sera utilisé vérifier que chez les patients chez lesquels il est cliniquement pertinent, les résultats r du test permettent de distinguer les malades des non malades Les performances pourront être comparées à celles d autres d tests Réalisée e dans les conditions pratiques d utilisation d du test S adresse à des sujets dont on ne connaît t pas à l avance l él état (Malade ou Non Malade) Vray M Institut Pasteur 18

Phase IV? Idéalement, il est intéressant de comparer, par un essai randomisé,, l impact l de l introductionl du test par rapport à une prise en charge sans test, dans la pratique courante, sur des critères res de morbi-mortalit mortalité (qualité de vie) et de coûts Permet de savoir si les sujets «testés» se «portent mieux» que les sujets «non testés» Vray M Institut Pasteur 19

Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase I Les patients avec une HVG ont-ils des concentrations de PN supérieures à celles observées es chez des sujets normaux? PN (pg( pg/ml) Patients HVG + Patients HVG - médiane 493.5 129.4 range (248.9-909.0) 909.0) (53.6-159.7) Vray M Institut Pasteur 20

Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase II Les patients avec des concentrations de PN élevées es ont ils plus souvent une HVG que ceux avec des concentrations faibles? PN (pg( pg/ml) Cas (Avec HVG) Témoins T (Sans HVG) Valeurs élevéeses n=39 n=2 Valeurs normales n=1 n=25 Se= = 98% (87-100) VPP=95% (84-99) Sp= = 92% (77-98) VPN=95% (84-99) LR+= = 13 (3.5-50.0) 50.0) LR-= = 0.03 (0.0003-0.19) 0.19) Vray M Institut Pasteur 21

Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase III Parmi les sujets chez qui une suspicion clinique de HVG existe, les taux de PN sont-ils différents entre ceux qui ont une HVG (Echo) et ceux qui n en n n ont n pas? PN (pg( pg/ml) Valeurs élevées es (>=18) n=35 Valeurs normales (<18) n=5 Sujets HVG + Sujets HVG - n=35 n=57 n=5 n=29 Se = 88% (74-94) VPP=38% (29-48) Sp = 34% (25-44) VPN=85% (70-94) LR+= = 1.3 (1.1-1.6) 1.6) LR- = 0.4 (0.2-0.9) 0.9) Vray M Institut Pasteur 22

Relation entre le Taux de peptide natriurétique tique (PN) et hypertrophie ventriculaire gauche (HVG) Phase IV Les sujets chez qui une suspicion clinique de HVG existe et chez qui un dosage de PN a été réalisé ont - ils «un meilleur état de santé» que les sujets qui n ont n pas été testés s? Vray M Institut Pasteur 23

Indices de performances Reproductibilité Validité (Accuracy) Vray M Institut Pasteur 24

Protocole pour évaluer la reproductibilité de la mesure Définir la population à analyser : représenter toute l él étendue des mesures Au moins 2 répétitionsr Résultats indépendants (évaluation( en insu) Vray M Institut Pasteur 25

Type de critères res 1) Variable discrète (2 ou K classes) Coefficient Kappa de Cohen 2) Variable quantitative Diagramme de Bland et Altman et CV ou CCI Vray M Institut Pasteur 26

Critères res qualitatifs Coefficient Kappa de Cohen Vray M Institut Pasteur 27

Le coefficient Kappa L accord observé entre des jugements qualitatifs, résulte r de la somme d une d composante «aléatoire» et d une d composante d accord «véritable» Le coefficient Kappa propose de chiffrer l intensité ou la qualité de l accord l réel r entre des jugements qualitatifs appariés Vray M Institut Pasteur 28

Accord entre 2 évaluations (Exemple : N= 81 sujets évalués) + Evaluation 2-32 (15.95) 2 Evaluation 1 + - (18.05) 6 (22.05) 41 (24.95) Po = (32+41) / 81 = 0.9 Pe = (15.95 +24.95) / 81 = 0.5 Kappa = SE kappa = P o P 1 P e e o n (1 P 0.9 0.5 = 1 0.5 P (1 P ) e o ) (1 P e ) = 0.8 = 0.07 Po = 0.9 IC = Kappa ± 1. 96 SE 95% kappa Pe = 0.5 (chance) Po Pe = 0.4 IC 95 % = 0.8 ± 1.96 0.07 = 0.8 ± 0.14 1 - Pe = 0.5 Vray M Institut Pasteur 29

Il exprime une différence relative entre la proportion d accord observée Po et la proportion d accord d aléatoire atoire Pe (la valeur attendue sous HO d indépendance des jugements) divisée e par la quantité disponible au-del delà de l accord l aléatoire atoire K est un pourcentage de l accord l maximum corrigé de ce qu il serait sous le simple effet du hasard Le coefficient Kappa est un nombre réel, r sans dimension, compris entre -11 et +1 Chi-2 2 de Mac Nemar (qui teste s il y a concordance) n est pas approprié dans ce contexte Utilisation du Kappa pour évaluer la reproductibilité mais aussi la validité (quand le test et le Gold standard ont le même nombre de catégories, notamment 2) Vray M Institut Pasteur 30

Concordance et Kappa «Valeurs de référencer rence» (Landis-Koch, 1977) Kappa peut être testé (Ho: Kappa= 0) mais ce test a peu d intd intérêt en pratique: le kappa s utilise s davantage comme un indicateur descriptif de concordance Vray M Institut Pasteur 31

Concordance et Kappa Cas à K 2 2 catégories Lecture du frottis cervico-utérin chez 761 sujets, méthode Papanicolaou (J. Coste et al, BMJ 2003) 336.4 5.5 7.5 14.6 Po= 448 + 25+ 33+ 86+ 8= 0.79 Pe= 336.4+ 5.5+ 7.5+ 14.6+ 0.8= 0. 48 761 761 Kappa= 1 Po P Pe e = 0.79 0.48= 0.59 1 0.48 0.8 Vray M Institut Pasteur 32

Concordance et Kappa: Les deux paradoxes Dépendance lourde de Kappa vis-à-vis de la fréquence (biais de prévalence = PI) ) des réponses r positives (plus une catégorie est rare, plus le kappa est bas) Problème du biais (BI) lorsque les 2 observateurs Diffèrent dans leur jugement Vray M Institut Pasteur 33

Exemple (1/2) : Problème de prévalence (PI) Tableau 1 Tableau 2 Clinicien 1 Clinicien 1 + - + - Clinicien 2 + 40 9 Clinicien 2 + 5 5-6 45-10 80 Kappa = 0.7 Kappa = 0.32 A concordance constante (ici 85%), le Kappa est d autant plus grand que le pourcentage de diagnostics positifs (ou négatifs) parmi les concordants est proche de 50% Déséquilibre entre les taux de concordance + et - Kappa diminue Vray M Institut Pasteur 34

Exemple (2/2): Biais d interprétationtation entre lecteurs Tableau 1 Tableau 2 Clinicien 1 Clinicien 1 + - + - Clinicien 2 + 45 15 Clinicien 2 + 25 35-25 15-5 35 Kappa = 0.13 Kappa = 0.26 Dans le tableau 1, les deux cliniciens portent le diagnostic avec une fréquence proche (70% pour le clinicien 1 et 60% pour le clinicien 2) Dans le tableau 2, le clinicien 1 porte le diagnostic dans 30% des cas contre 60% pour le clinicien 2. Le Kappa est plus élevé dans le tableau 2 alors que les cliniciens sont le plus en désaccord. Vray M Institut Pasteur 35

Conclusions Calculer Kappa, BI, PI Si BI important il faut essayer de comprendre pourquoi les 2 lecteurs ne cotent pas de la même façon Si PI important et BI faible il est nécessaire n de fournir les valeurs de concordances positives et négatives P neg et P pos Ces données sont particulièrement rement importantes quand on veut comparer les résultats r de plusieurs études Vray M Institut Pasteur 36

Critères res quantitatifs Diagramme de Bland et Altman Coefficient de corrélation intraclasse (CCI) Vray M Institut Pasteur 37

Résultats de la régression linéaire Y b Y b Pente = 1 Surestimation systématique d amplitude b X Pente = 1 Sous estimation systématique d amplitude b X Y X Pente 1 Surestimation jusqu à un seuil Sous estimation à partir d un seuil Vray M Institut Pasteur 38

Une pente = 1 et/ou un coefficient de corrélation entre les deux séries de mesures (x et y) permet de juger d une liaison entre les deux méthodes Les deux méthodes mesurant (a priori) la même chose, on doit observer une liaison Mais ne renseigne pas sur la qualité des deux mesures (ne quantifie pas les écarts entre les 2 méthodes) Vray M Institut Pasteur 39

Etape 2 : Méthode de Altman & Bland Etude du nuage de points avec en abscisse : la moyenne des 2 mesures (x+y)/2 en ordonnée : la différence des 2 mesures (x-y) Cette méthode fait l hypothèse que les différences sont distribuées normalement : d : moyenne des différence (x-y) s d : écart-type des différences (x-y) Compare les différences observées à la distribution statistique attendue Condition d application : nombre de mesures par méthodes n 30 Vray M Institut Pasteur 40

Les différentes étapes Y a-t-il une liaison entre les deux mesures? Coefficient de corrélation Oui Y a-t-il concordance? Y a-t-il indépendance entre la variabilité et le niveau de la mesure? Non Fin d analyse Diagramme de Bland & Altman Oui Coefficient de Corrélation IntraClasse (CCI) Non Coefficient de variation Vray M Institut Pasteur 41

Différence (x-y) d + 1.96 s d d 0 Valeurs moyennes (x+y)/2 d - 1.96 s d Comment juger si la nouvelle méthode est acceptable? C est-à-dire peut remplacer l ancienne, ou si les 2 lecteurs donnent les mêmes résultats - La différence entre les méthodes n augmente pas lorsque les valeurs augmentent (ou diminuent) - La différence entre deux mesures est peu éloignée de la moyenne Vray M Institut Pasteur 42

Différence (x-y) Différence (x-y) d d 0 0 (x+y)/2 (x+y)/2 Indépendance entre la variabilité et le niveau de la mesure Dépendance entre la variabilité et le niveau de la mesure (effet entonnoir) Vray M Institut Pasteur 43

Spécificité de la Reproductibilité d une mesure continue Pour vérifier la reproductibilité d une mesure, on répète la mesure ( 2) sur les mêmes échantillons : - les mesures doivent être indépendantes (TAS) - éviter les facteurs liés à l ordre Vérification de la cohérence en utilisant une régression linéaire : pente = 1 (coefficient de corrélation élevé) doit être observé(e), mais ne renseigne pas sur la reproductibilité Coefficient de corrélation intra-classe (>0.9) ou Coefficient de variation (<0.1) Vray M Institut Pasteur 44

Validité d un test par rapport à un Gold Standard Vray M Institut Pasteur 45

Définition du Gold Standard Caractéristiques des critères permettant d affirmer l existence d une maladie Un critère indiscutable: tuberculose et BK? Tuberculose et IDR+? Critères histo-pathologiques à partir de Biopsies Vray M Institut Pasteur 46

Difficultés s du Gold Standard Pas de gold standard : aucun critère vraiment satisfaisant Ex= test rapide de bandelettes pour diagnostiquer shigelles chez enfants atteints de diarrhée sévère (Coproculture peu sensible, PCR non spécifique) Quand un nouveau test ferait mieux que le standard actuel Ex: bandelettes plus sensibles si lues rapidement Un gold standard ne doit comporter dans sa définition, ni le signe, ni le résultat du test dont on évalue les propriétés diagnostiques Vray M Institut Pasteur 47

Le test Les critères de positivité d un test doivent être connus précisément Décrire les conditions dans lesquelles ils sont mesurés et les règles de conclusion Exemples Utilisation d une bandelette pour diagnostiquer des shigelles dans les selles lecture dans les 15 minutes Mesure de la glycémie: à jeun, post prandiale Examen direct BK (conditions de lecture : nombre de champs microscopiques?) Vray M Institut Pasteur 48

Evaluation d un d nouveau test diagnostic et critères res de performances On peut distinguer - Les tests binaires (oui/non ou positif/négatif ou présent/absent) Ex: Présence de sang dans les urines, sérologie s VIH positive ou négative, BAAR + ou - Les tests quantitatifs: variable continue avec un seuil Ex: bilirubinémie, cholestérol rolémie, taux de PSA,, FibroScan - Les réponses r ordinales Ex: degré de fibrose sur une lame de biopsie, images radiologiques, échelle de BIRADS sur la mammographie analyse peut être abordée e comme du quantitatif En fonction du critère, re, la méthodologie m d éd évaluation sera différente Vray M Institut Pasteur 49

Expressions des résultats r d une d évaluation Signe binaire : Sensibilité,, spécificit cificité Signe avec valeur continue : Courbes ROC Vray M Institut Pasteur 50

Cas des variables binaires Vray M Institut Pasteur 51

Expression des résultats Résultat test + Statut malade M+ Vrai Positif VP non malade M- Faux positif FP test - Faux Négatif FN Vrai Négatif VN On distingue 4 types de sujets -Les vrais positifs (VP) -Les faux positifs (FP) -Les varis négatifs (VN) -Les faux négatifs (FN) Vray M Institut Pasteur 52

Qualités intrinsèques : sensibilité et spécificité M+ M- T + VP FP T - FN VN Sensibilité : probabilité d obtenir un test positif quand le sujet est malade Valeur comprise entre 0 et 1 Se = P (T+ / M+) = VP / VP+FN => c est l aptitude d un test à identifier correctement les individus malades grâce à une réponse positive Vray M Institut Pasteur 53

Qualités intrinsèques : sensibilité et spécificité M+ M- T + VP FP T - FN VN Spécificité : probabilité d obtenir un test négatif quand le sujet est non malade Valeur comprise entre 0 et 1 Sp = P (T- / M- ) = VN / VN+FP => c est l aptitude d un test à identifier correctement les individus non malades grâce à une réponse négative Vray M Institut Pasteur 54

ex : on souhaite déterminer la sensibilité et la spécificité d un nouveau test de dépistage d une maladie. 1000 sujets ont été soumis au test de référence (Gold Standard) supposé parfait : 900 ont fourni une réponse négative et 100 une réponse positive. Parmi les 100 sujets à réponse positive, 90 répondent positivement au nouveau test, et parmi le 900 à réponse négative, 30 ont donné une réponse positive au nouveau test. référence référence + - T + 90 30 120 Se = 90/100 = 0,90 Sp = 870/900 = 0,97 T - 10 870 880 100 900 1000 Vray M Institut Pasteur 55

Se calculée sur une population composée exclusivement de sujets malades => Se ne varie donc pas en fonction de la prévalence de la maladie Sp calculée sur une population composée exclusivement de sujets non malades => Sp ne varie donc pas en fonction de la prévalence de la maladie Pour un test donné : Se et Sp ne dépendent pas de la prévalence de la maladie => qualités «intrinsèques» = dépendant uniquement de facteurs internes (caractéristiques du test ) Vray M Institut Pasteur 56

Relativité de la sensibilité et de la spécificité M+ M VP FP Seuil 1 Seuil 2 Seuil 3 FN VN Se = 0,55 Sp = 0,95 Se = 0,80 Sp = 0,75 Se = 1 Sp = 0,50 FN Se FP Sp Vray M Institut Pasteur 57

Ex: dépistage d cancer du sein HIP Breast Cancer Screening Project 64810 femmes âgées de 40 à 64 ans Ex. physique + mammo. + - Cancer du sein (biopsie ou aspiration) + 132 45-983 63650 1115 63695 177 64633 64810 Sensibilité: : 132/177 = 75% Spécificit cificité: : 63650/64633 = 99% (Shapiro S et al., Am J Epidemiol, 1974) Vray M Institut Pasteur 58

Equilibre entre sensibilité et spécificit cificité On peut parfois être amené à faire des tests en séquence: s Test rapide pour le VIH qui a une très s grande sensibilité,, mais dont la spécificit cificité n est pas parfaite. Un test très s spécifique, mais plus complexe (type Western blot), pour ceux qui ont un résultat positif sur le premier test. Vray M Institut Pasteur 59

Equilibre entre sensibilité et spécificit cificité Selon les cas, on pourra être amené à privilégier une sensibilité ou une spécificit cificité élevée La sensibilité sera privilégi giée dans les cas suivants: Maladie grave (on ne veut pas laisser passer un cas) Maladie transmissible Quand les investigations qui découleront d du dépistage d sont sans danger et peu coûteuses (confirmation d une d hypertension artérielle) rielle) La spécificit cificité sera privilégi giée dans les cas suivants: Quand les investigations qui découleront d du dépistage d sont dangereuses ou coûteuses (angiographie par cathétérisation risation, MDR et traitement) Vray M Institut Pasteur 60

Qualités extrinsèques : Valeur Prédictive Positive (VPP) Valeur Prédictive Négative (VPN) M+ M- T + VP FP T - FN VN VPP = P (M+/T+) = VP / VP+FP probabilité que l individu soit malade quand le test est positif Valeur comprise entre 0 et 1 Vray M Institut Pasteur 61

Qualités extrinsèques : Valeur Prédictive Positive (VPP) Valeur Prédictive Négative (VPN) M+ M- T + VP FP T - FN VN VPN = P (M-/T-) = VN / VN+FN probabilité que l individu soit non malade quand le test est négatif Valeur comprise entre 0 et 1 Vray M Institut Pasteur 62

Suite de l exemple précèdent référence + référence - T + 90 30 120 T - 10 870 880 100 900 1000 VPP = 90/120 = 0,75 VPN = 870/880 = 0,99 Vray M Institut Pasteur 63

VPP et VPN Fonction de Se et Sp du test et de la prévalence de la maladie dans la zone où est employé le test VPP = VP / (VP + FP) et VPN = VN / (VN + FN) M+ M- T + VP FP T - FN VN lorsque Se et Sp sont fixées : si p => VP deviennent majoritaires/fp => VPP => FN deviennent majoritaires/vn => VPN si p => VP deviennent minoritaires/fp => VPP => FN deviennent minoritaires/vn => VPN Vray M Institut Pasteur 64

Conséquences sur l interprétation des résultats En milieu où prévalence élevée: grande confiance / résultat positif (VPP) confiance plus limitée / résultat négatif (VPN) En milieu où prévalence faible: grande confiance / résultat négatif (VPN) confiance plus limitée / résultat positif (VPP) Vray M Institut Pasteur 65

Un même test effectué sur 1000 sujets dans 2 zones différentes (A et B) Zone A M+ M- Zone B M+ M- T+ 190 80 270 T- 10 720 730 200 800 1000 T+ 19 98 117 T- 1 882 883 20 980 1000 Quelles sont les qualités intrinsèques de ce test? Zone A : Se = 190/200 = 95% Sp = 720/800 = 90% Zone B : Se = 19/20 = 95% Sp = 882/980 = 90% Quelle est la prévalence de la maladie dans chaque zone? Que conclure si le test est +? Si le test est -? Zone A => p = 20% Zone B => p = 2% Zone A => VPP = 190/270 = 70% Zone B => VPP = 19/117 = 16% Zone A => VPN = 720/730 = 98.6% Zone B => VPN = 882/883 = 99.8% Vray M Institut Pasteur 66

En résumé : La VPP dépend, notamment de la spécificité du test, mais surtout de la prévalence de la maladie (plus la maladie est rare, plus la VPP est faible). La VPN dépend, notamment de la sensibilité du test, mais surtout de la prévalence de la maladie (plus la maladie et rare, plus la VPN est élevée). Vray M Institut Pasteur 67

Intervalles de confiance (IC) Par convention, intervalle de confiance à 95% IC 95% (Se) = IC 95% (Sp) = Se Sp ± 1.96 ± 1.96 ( Se (1 Se) m ( Sp (1 Sp) n m= nombre de malades n= nombre de non-malades Vray M Institut Pasteur 68

Calcul du nombre de sujets nécessairen Cette formule peut être utilisée e pour calculer le nombre de sujets nécessaire n dans une étude en définissant: d - La Se et la Sp attendues - La précision désird sirée e de ces deux estimateurs n = 2 1.96 2 p q Avec p = Se ou Sp q = 1-p Et = la précision Vray M Institut Pasteur 69

Malades/Total Se (%) IC 95 % 10/20 90 % 71-100 100/200 90 % 84-96 1000/2000 90 % 88 92 Plus le n est grand, plus l IC est étroit Vray M Institut Pasteur 70

Indices de synthèse se Visent à établir la valeur d'un test Exactitude (e) Test de Youden (j) Rapport de vraisemblance (LR+ et LR-) Vray M Institut Pasteur 71

Exactitude Malades Sains Test + Test - VP FN FP VN Exactitude = Sujets Bien classés = (VP+VN) / (VP+VN+FP+FN) % résultats exacts, VP et VN par rapport à la cohorte Varie de 0 à 1 1 correspondant à une absence de FP et de FN Un tirage au sort correspond à 0,5 Vray M Institut Pasteur 72

Indice de Youden (J) Addition des 2 qualités du test : Se et Sp J (en %)= Se +Sp-100 Varie de 1 à 1 0 pas d orientation diagnostique Cet indice est peu utilisé Vray M Institut Pasteur 73

Rapport de vraisemblance positif (Likelihood ratio, LR, en anglais) Définition: rapport de la probabilité d un test positif chez les malades comparés s aux non malades Probabilité d un test positif chez les malades: sensibilité (Se) Probabilité d un test positif chez les non malades: 1-1 spécificit cificité (Sp) Rapport de vraisemblance positif: Se / (1-Sp Sp) Vray M Institut Pasteur 74

Rapport de vraisemblance positif Intérêt: (suite) Intègre à la fois les notions de sensibilité et spécificit cificité Indépendant de la prévalence de la maladie. Permet de calculer la probabilité d être malade chez les sujets ayant un test positif en fonction de la prévalence de la maladie dans la population d éd étude Un test «intéressant» a un rapport de vraisemblance positif > 9 (correspond par exemple à une sensibilité et spécificit cificité de 90%). Vray M Institut Pasteur 75

Rapport de vraisemblance (exemple) Maladie + - Se = 180 / 200 = 90% Test + - 180 20 200 81 1719 1800 261 1739 2000 Sp = 1719/1800 = 95,5% LR+ = Se/(1-Sp) = 0,9 / (0,045) = 20 Vray M Institut Pasteur 76

Nomogramme de Fagan Pre-test odds X LR = post-test odds Prévalence de la maladie dans la population p = 0,10 LR = 20 Pre-test odds = p / (1-p) = 0,1/(1-0,1) = 0,11 Post-test odds = 0,11X 20 = 2,2 Probabilité d être malade (VPP) = post-test odds / (1 + post-test odds) = 2,2/(1+2,2) = 0,69 Vray M Institut Pasteur 77 (Deeks & Altman, BMJ, 2004)

Rapport de vraisemblance négatif Définition: rapport de la probabilité d un test négatif chez les malades comparés aux non malades Probabilité d un test négatif chez les malades: 1- sensibilité (Se) Probabilité d un test négatif chez les non malades: Spécificité (Sp) Rapport de vraisemblance négatif: (1-Se) / Sp Un test intéressant à un rapport de vraisemblance négatif < 0,1. Vray M Institut Pasteur 78

Cas d un d signe avec des valeurs quantitatives Vray M Institut Pasteur 79

Les courbes ROC Lorsqu un un test a des valeurs continues, il existe de nombreuses valeurs Se/Sp Sp important d avoir d tous les spectres des valeurs du test et de ne pas se limiter à certaines valeurs, ou intervalles même si le but final est de définir d un seuil (cut( cut-off) qui présente le meilleur rapport Se/Sp Sp (celui qui nous intéresse et qui dépend d du contexte) La courbe ROC permet d avoir d le tracé des Se et Sp correspondant à toutes les valeurs du test Vray M Institut Pasteur 80

Construction de la courbe ROC On porte - en abscisse, la variable «1 spécificit cificité» = faux positifs parmi les non-malades - en ordonnée la sensibilité = les vrais positifs parmi les malades Un seuil est idéal s il s permet de séparer s totalement les positifs des négatifs, n sans faux positifs ni faux négatifsn Vray M Institut Pasteur 81

Sensibilité (Vrais positifs).1 0.75. 0.50 0.25. 0 0 0.25 0.50. 0.75. 1. 1-Spécificité (Faux positifs) Vray M Institut Pasteur 82

1 0.8 Seuil =0.6 M+ M- p 1 > S VP FP p 1 S FN VN Seuil 0.2 Sensibilité 0.6 0.4 0.2 Seuil =0.4 Seuil =0.2 M+ M- p 1 > S VP FP p 1 S FN VN M+ M- Seuil 0.4 0 0 0.2 0.4 0.6 0.8 1 p 1 > S VP FP p 1 S FN VN Seuil 0.6 1- Spécificit cificité (taux de faux positifs) Vray M Institut Pasteur 83

Construction de la courbe ROC Sensibilité 1 0 A 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 Diagonale passant par 0 test non informatif Un test est d autant meilleur que sa courbe se situera près du point A et loin de la diagonale Minimiser la distance par rapport au point idéal A Se = Sp = 1 1- Spécificit cificité (taux de faux positifs) Vray M Institut Pasteur 84

On calcule AUC= Aire sous courbe (avec IC 95% ) Plus AUC proche de 1 plus le test est performant Vray M Institut Pasteur 85

Avantages des COURBES ROC - Simple et facilement compréhensible graphiquement - Tient compte de l ensemble l des valeurs du test (ne nécessite pas le choix arbitraire d un d seuil) - Totalement indépendante de la prévalence de la maladie dans l él échantillon - Permet une comparaison directe visuelle de plusieurs tests sur une même échelle (+ tests pour comparer AUC) - on peut calculer l IC 95% de l AUCl AUC.. La borne inférieure ne doit pas comprendre 0.5 pour que le test ait un intérêt Vray M Institut Pasteur 86

Les principaux biais Vray M Institut Pasteur 87

Definitions Erreur systematique (Biais) : erreur de raisonnement ou de procédure amenant à une représentation faussée de la réalité. Un biais revêt un caractère systématique et altère l estimation dans un sens donné. Erreur aleatoire : non imputable à une cause décelable et due au hasard. Elle aboutit à une perte de précision de l estimation mais non à sa déviation systématique dans un sens donné. Vray M Institut Pasteur 88

6) Sources de BIAIS. A) Intégrit grité des tests (Integrity( test) B) Le biais de vérification v (Verification( bias) C) Erreurs sur la référence r rence (Errors( in the reference) D) Le biais de recrutement (Spectrum bias) E) Le biais d interprd interprétation tation (Test interpretation bias) F) Les tests ininterprétables tables (Unsatisfactory( tests) G) Le biais d extrapolation d (Extrapolation bias) H) Le biais d incorporation d (Incorporation bias) + biais spécifiques des études de dépistaged I) Le biais du temps d avance d au diagnostic (Lead( Time Bias) J) Le biais de lenteur d éd évolution (Length( Time Bias) K) Le biais de sur-diagnostic (Diagnostic Bias) L) Le bais de sélection s (Selection( Bias) Vray M Institut Pasteur 89

A) Qualité des tests (Integrity( test) Il est nécessaire n que: La connaissance du statut de la maladie (OUI/NON) des sujets n influence n pas l évaluation du test (et vice versa) Par exemple: si un radiologue sait que la mammographie qu il doit évaluer vient d une d femme atteinte d un d K du sein, il pourra être influencé les «opérateurs» qui évaluent le test doivent être à l insu du résultat r du statut de la maladie (vice versa) Souvent procédures d éd évaluation «objectives» et évaluation de la maladie n interfn interfèrent rent pas (questionnaire ou évaluation par un médecin m # test biochimique ou test sur culture) on dit que «the integrity of such test is inherent to its operation» Vray M Institut Pasteur 90

Mais même dans le cas de tests «objectifs»,, il faut se méfier Exemple 1 Si le délai d entre le test et l él évaluation de la maladie est long, il peut y avoir une modification de la prise en charge qui est fonction du résultat r du test et ainsi entraîner ner une modification du diagnostic de la maladie les résultats r seront biaisés Exemple 2 A l inverse, l la connaissance de la maladie peut influencer la façon dont le test sera réalisr alisé les résultats seront biaisés Vray M Institut Pasteur 91

B) Le biais de vérificationv (Verification Bias,Work-up Bias,Referral bias, selection Bias ou Ascertainment Biais ) Dans les études de cohortes, le test T devrait être appliqué à tous les sujets Mais on peut être dans la situation oùo la référence r rence n est n réalisr alisée que si le test est + Si T+ On réalise r un test de référence r rence pour confirmer la maladie Si T - Pas de test de référencer rence Exemple Détection test audition des bébés b à la naissance par DPOAE (Test d éd émission oto-acoustique) - Si le résultat r n est n pas parfait on fait le test de référence r rence VRA (Visual Reinforcement Audiometry) - Si le résultat r est bon on ne fait pas le test VRA qui est cher, long et nécessite n un second RV Vray M Institut Pasteur 92

C) Erreurs sur la référence r rence (Imperfect Reference Test) Pour de nombreuses maladies, il est impossible de déterminer avec certitude le statut de la maladie et les meilleures références r rences peuvent donner des résultats r faux (PBH) Ces erreurs peuvent avoir des conséquences sur l évaluation d un d test diagnostic Ex: - Infection bactérienne: culture à partir d un d prélèvement de sang, urine ou tissu, même si le sujet est infecté,, la culture peut être si le spécimen ne contient pas le germe ou si l él échantillon contient la bactérie mais ne pousse pas - PBH (résultat dépend d de l endroit l oùo le prélèvement est effectué, la taille du prélèvement etc..) Il existe des méthodes m d analyses d (avec( classes latentes) pour évaluer différents tests en cas d absence d de Gold standard Vray M Institut Pasteur 93

D) Le biais de recrutement (Spectrum Bias) Quand les sujets malades ne sont pas représentatifs des sujets malades de la population ou quand les sujets contrôles (non malades ) ne sont pas représentatifs des sujets non malades de la population Erreur classique: sélectionner s des cas «graves» et des contrôles «très s sains» paramètres de validité des tests surestimés Vray M Institut Pasteur 94

E) Le biais d interprd interprétationtation Quand des informations «extérieures» (données cliniques ou résultats r d autres d tests) peuvent influencer la procédure du test à évaluer qui ne sera pas appliquée e ainsi dans la pratique ultérieure Exemple Les résultats r d une d mammographie peuvent influencer l interprl interprétation tation d une d «grosseur» lors d un examen clinique. Si en pratique, l examen l clinique est réalisr alisé sans mammographie, les performances du test peuvent être différentes Vray M Institut Pasteur 95

F) Les biais liés s aux tests ininterprétables tables En pratique les tests ne sont pas applicables à tous les sujets et pour certains sujets ils peuvent être ininterprétables tables Exemples : FibroScan chez sujets obèses Test d audition d chez un enfant agité Ces informations doivent être prises en compte dans l évaluation des tests Si non prises en compte surestimation de la validité du test alors que chez certains sujets la maladie n est n pas détectd tectée A l inverse, l la prise en compte de ces données peut être problématique, par exemple si les «cas non interprétables tables» sont considérés s comme des négatifs n avec en pratique des recommandations faites pour répéter le test Or les performances du test ne sont pas évaluées pour des valeurs répétéesr Vray M Institut Pasteur 96

G) Le biais d extrapolationd Plusieurs facteurs peuvent influencer les performances d un test pour détecter d une maladie Facteurs liés à l opérateur : expérience Facteurs liés s au sujet: : Caractéristiques ristiques démographiquesd Environnement dans lequel le test est réalisr alisé : ressources disponibles, accès s aux traitements, prévalence de la maladie Les performances d un d test réalisr alisé dans une population ne peuvent pas être systématiquement extrapolées es à d autres populations Vray M Institut Pasteur 97

H) Le biais d incorporationd Lorsque le résultat r du test est incorporé dans le diagnostic Par exemple si on veut savoir si la radiographie est un bon marqueur de TB chez les enfants infectés s par le VIH Le test est la radiographie et la référence r rence est le diagnostic de TB défini d par un groupe d experts d qui va statuer sur les signes cliniques, la culture du crachat et la radiographie Vray M Institut Pasteur 98

En résumr sumé le test étudié doit - être fait par ceux qui le feront en routine - être fait à tous les patients étudiés - ne pas être incorporé dans le gold standard - être complètement décritd - être interprété à l aveugle / gold standard, avec ou sans informations cliniques - le taux de résultats r ininterprétables tables doit être fourni Vray M Institut Pasteur 99

Interprétation tation du test Les résultats r intermédiaires ou indétermin terminés s constituent un résultat Pour les résultats r ininterprétables, tables, il faut préciser les conditions et essayer de savoir s il s y a une relation avec le diagnostic Vray M Institut Pasteur 100

Conclusion Pour qu un un critère re devienne un test de dépistage d ou un test diagnostique Nécessité d évaluer la reproductibilité,, les qualités intrinsèques, extrinsèques ques à partir de protocoles réalisr alisés s sans biais en respectant les 3-43 4 phases d éd évaluation Références : Grille STARD & QUADAS Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, et al. (2003) Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Ann Intern Med 138: 40 44. 44. Whiting P, Rutjes A, Reitsma J, Bossuyt P, Kleijnen J. The development of QUADAS: a tool for the quality assessment of studies of diagnostic ic accuracy included in systematic reviews. BMC B Medical Research Methodology 2003;3:25. Vray M Institut Pasteur 101

Impact des défauts d de méthodologie m (Reid et al. JAMA, 1995) 112 études de 1978-1993 : 7 standards méthodologiquesm -Définition de la population (âge, sexe, symptômes, critères res d éd éligibilité)) : 27% -Qualité DG dans différents sous-groupes: 8% -Absence de biais de vérification v : 46% -Absence de biais d éd évaluation (test ou référence) r rence) : 38% -Précisions des estimations : 11% -Présentations des résultats r indétermin terminés s : 23% -Reproductibilité du test :23%: Vray M Institut Pasteur 102

Test Performance de plusieurs tests rapides pour le dépistage d de la Dengue Performances déclard clarées Evaluation OMS Se Sp Se Sp Core 100 100 23 99 Diazyme NS NS 18 98 Globalemed 80 >99 63 69 Minerva NS NS 9 100 Panbio 70 100 65 98 Standard 93 100 22 99 Tulip 100 100 6 99 Vray M Institut Pasteur 103

World Health Organization An ideal diagnostic test : ASSURED A = Affordable by those at risk of infection S = Sensitive S = Specific U = User-friendly (simple to perform, minimal training) R = Rapid/robust (enables action at point of care) E = Equipment-free D = Deliverable to those who need it Vray M Institut Pasteur 104