FACULTE DE MEDECINE D ANGERS. Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant

FACULTE DE MEDECINE D ANGERS Polycopié de cours pour les 1 e et 2 e cycles des études médicales Préparation à l examen national classant Année scolaire 2007-2008 SANTE PUBLIQUE ET MEDECINE SOCIALE Responsable de la discipline : Pr. Serge FANELLO Enseignant : Dr Elsa PAROT-SCHINKEL Partie I.Module 1.Item 4. Evaluation des examens complémentaires

1.1.4. Evaluation des examens complémentaires Objectifs : Savoir interpréter un tableau de contingence. Savoir comment se définissent les qualités intrinsèques d un test diagnostique Savoir que les valeurs prédictives positives et négatives d un test diagnostique ne dépendent pas que des qualités intrinsèques du test, mais aussi de la prévalence de la maladie. Savoir calculer et comparer les indices de performance des tests. Déduire de ces notions les éléments qui influencent l utilité d un examen complémentaire Sommaire : I. CONCEPTS GENERAUX... 3 II. QUALITE INTRINSEQUE DU TEST DIAGNOSTIQUE... 3 A. TEST QUALITATIF... 3 1) Sensibilité... 4 2) Spécificité... 4 3) Rapport de vraisemblance positive... 4 4) Autres indices... 4 B. TEST QUANTITATIF... 5 C. COURBES ROC... 5 III. QUALITE EXTRINSEQUE DU TEST DIAGNOSTIQUE... 7 A. VALEURS PREDICTIVES... 7 B. REPRODUCTIBILITE ET CONCORDANCE... 8 1) Test Qualitatif... 8 a. Coefficient de concordance (Cc)... 8 b. Coefficient Kappa (К)... 8 2) Test Quantitatif... 9 a. Coefficient de corrélation intra-classe... 9 b. Méthode de Bland et Altman... 9 IV. REFERENCES... 9

I. CONCEPTS GENERAUX Le diagnostic est une démarche probabiliste. La réalisation d examens complémentaires aide à connaître au mieux la probabilité d une maladie. Un examen complémentaire inutilement prescrit n est pas éthique, est irrationnel et induit un gaspillage. Les examens complémentaires (tests cliniques, imagerie, tests biologiques, ) peuvent être évalués à partir de l analyse décisionnelle et de l épidémiologie analytique; on juge ainsi de leur degré de pertinence absolu et/ou dans une situation clinique spécifique (population déterminée, formes cliniques, ). La validité du test dépend essentiellement de sa capacité discriminante, de sa valeur prédictive et de sa reproductibilité. Les coûts directs et indirects d une stratégie diagnostique sont étudiés au moyen d études médicoéconomiques : minimisation des coûts, coût-efficacité, coût-utilité, coût bénéfice. II. QUALITE INTRINSEQUE DU TEST DIAGNOSTIQUE A. Test Qualitatif Un test qualitatif repose sur la reconnaissance binaire de la présence ou de l absence d un signe clinique, d imagerie ou biologique. Pour juger sa qualité intrinsèque, les résultats qu il génère doivent être comparés à ceux obtenus par un examen de référence (maladie présente / maladie absente). En appliquant un test qualitatif à une population, on obtient quatre sous groupes (tableau I) : - le groupe des personnes saines reconnues comme telles = les vrais négatifs (VN) ; - le groupe des personnes saines avec un test positif = les faux positifs (FP) ; - le groupe des personnes malades reconnues comme telles = les vrais positifs (VP) ; - le groupe des personnes malades avec un test négatif = les faux négatifs (FN). Tableau I : Tableau de contingence d un test diagnostique Maladie présente (M+) Maladie absente (M-) Test positif (T+) VP FP Test négatif (T-) FN VN VP + FN FP + VN La qualité du test dépend de sa capacité à bien classer les sujets et donc à minimiser les faux positifs et les faux négatifs, situations dans lesquelles la patient est lésé. Les faux positifs sont des personnes chez qui on va prolonger des investigations inutiles, coûteuses, voire risquées et / ou à qui on va annoncer à tort un diagnostique avec toutes les conséquences psychologiques que cela suppose.

Les faux négatifs sont des malades chez qui on va retarder la prise en charge efficace, que l on va rassurer à tort, et chez qui on réduit les chances de guérison ou de stabilisation (perte de chances). Sensibilité, spécificité, efficacité diagnostiques sont des mesures de fréquence ou des proportions témoignant de la qualité intrinsèque du test. Elles peuvent s exprimer sous la forme de valeurs ponctuelles ou sous la forme d intervalle de confiance (avec un risque α en général de 5 %). 1) Sensibilité La sensibilité du test (Sen) mesure sa capacité à désigner correctement les malades. Elle se calcule en faisant le rapport des vrais positifs (VP) par le total des malades soumis au test (VP + FN). Sen= = ( VP VP + FN) M VP + 2) Spécificité La spécificité du test (Spé) mesure sa capacité à désigner correctement les personnes saines. Elle se calcule en faisant le rapport des vrais négatifs (VN) par le total des personnes saines soumis au test (VN + FP). Spé = VN ( VN + FP) = VN M 3) Rapport de vraisemblance positive Quand on dispose de plusieurs tests diagnostiques, de nature qualitative ou quantitative on peut établir une hiérarchie entre eux en recourant à la notion de rapport de vraisemblance (likehood ratio). Le rapport de vraisemblance positif (RVP) est plus généralement utilisé : c est le rapport de la probabilité d être malade sur la probabilité de ne pas l être. RVP= Sen ( 1 Spé) Si le RVP d un test est égal à 1, ce test n a pas d utilité diagnostique. Plus le RVP est supérieur à 1 et plus un test à résultat positif est en faveur d une confirmation diagnostique. Plus le RVP est inférieur à 1 et plus un test à résultat positif est en faveur d une infirmation du diagnostique. 4) Autres indices L efficacité diagnostique (EDg) est un indicateur composite renseignant sur la performance globale du test, sa capacité à «bien classer». Elle se calcule en faisant le rapport de la somme des «biens classés» (VP + VN) par le total des personnes testées (VP + VN + FP + FN).

( VN+ VP) EDg= ( VN+ VP+ FP+ FN) B. Test Quantitatif Le test quantitatif repose sur la mesure continue d un paramètre (taille d une lésion, poids, flux physiologique, dosages biologiques, ). En fonction du seuil choisi, les valeurs de sensibilité et de spécificité du test vont varier en sens inverse (valeurs antagonistes). L exemple en physiologie cardiaque ci-dessous (tableau II) illustre bien ce fait : - si on choisit un seuil de 200 ACI PVS (cm.s -1 ) la sensibilité est de 91,3 % et la spécificité de 95 %. - Si on choisit un seuil de 125 ACI PVS (cm.s -1 ) la sensibilité monte à 100 % et la spécificité descend à 85,5 %. Tableau II : Variations de la sensibilité et de la spécificité du pic de vitesse systolique selon le seuil choisi. En pratique : Paramètre : ACI PVS (cm.s -1 ) Sensibilité (%) Spécificité (%) 100 100 76,7 Source [1] 125 100 85,5 150 95,7 89,9 175 93,5 91,8 200 91,3 95 225 89,1 96,9 250 78,3 98,1 275 69,6 98,7 300 65,2 98,7 350 41,3 99,4 400 26,1 100 - pour des pathologies très lourdes à gérer sur le plan thérapeutique (traitement au long cours, risques graves) on exige du test une très forte spécificité ; - pour des pathologies dont l ignorance peut conduire à une absence de prévention ou de surveillance ou pour un dépistage, on privilégie la sensibilité. C. Courbes ROC Les courbes ROC (Receiver Operating Characteristic Curves) sont établies en reportant en ordonnée la sensibilité attachée à chaque seuil diagnostique et en abscisse le pourcentage de faux positifs (1- Spé). On visualise ainsi un graphe convexe vers le haut et à gauche.

Les courbes ROC ont un double intérêt dans l évaluation des tests diagnostiques quantitatifs : - ce sont des outils d analyse décisionnels qui permettent d identifier le seuil diagnostique à choisir pour obtenir un rapport optimal entre sensibilité et spécificité. Graphiquement, il faut retenir les coordonnées du point d inflexion de la courbe comme couple (sensibilité, spécificité) idéal : le point le plus proche du coin en haut à gauche. - La surface sous la courbe renseigne sur la capacité discriminante globale du test : si elle est égale à 0,5 le test ne fait pas mieux que le hasard, plus elle tend vers 1 et plus le test a de l intérêt. Par le calcul de surface, on peut donc comparer les capacités discriminantes de plusieurs tests diagnostiques concurrents. Exemple : Sur la figure 1 sont représentées les courbes ROC de deux tests A et B. Dans cet exemple, le test A est meilleur que le test B quelque soit le domaine de la courbe. Dans l'exemple de la figure 2, le test A sera meilleur dans un but de diagnostic. Pour un dépistage, nous préférerons la courbe en pointillé puisqu'elle est meilleure dans le domaine de bonne sensibilité. Figure 1 : Comparaison de deux tests Figure 2 : Comparaison de tests à l'aide de courbes ROC A - - - - B Source [2] A - - - - B

III. QUALITE EXTRINSEQUE DU TEST DIAGNOSTIQUE A. Valeurs prédictives Quand un test sort du cadre de l expérimentation pour s appliquer à la population générale ou à une population ciblée, il est nécessaire de disposer d indicateurs renseignant sur le degré de confiance à accorder au résultat du test. Les valeurs prédictives positives et négatives (VPP et VPN) sont des probabilités conditionnelles. Elles se calculent à l aide des mesures de qualité intrinsèque du test (Sensibilité-Sen et Spécificité- Spé) et de la prévalence (P) de la pathologie recherchée. La valeur prédictive positive (VPP) est la probabilité d être malade quand le test est positif. VPP= Sen P [ Sen P+ ( 1 Spé) (1 P) ] La valeur prédictive négative (VPN) est la probabilité d être sain quand le test est négatif. VPN = Spé (1 P) [ Spe (1 P) + (1 Sen) P] Les valeurs prédictives dépendent directement de la prévalence de la maladie, au contraire des mesures de qualité intrinsèque du test qui sont invariantes quelle que soit la prévalence. La VPP est une fonction croissante de la prévalence ; inversement, la VPN (valeur antagoniste) est une fonction décroissante de la prévalence : - en situation de dépistage en population générale (faible prévalence), la VPP sera faible en raison d un grand nombre de faux positifs (FP). Quand le test est négatif, on peut rassurer sur l absence de maladie au risque d erreur connu lié au test appliqué ; en revanche un résultat positif est peu contributif ; - en situation de diagnostique dans un service spécialisé (forte prévalence), la VPN sera faible en raison d un grand nombre de faux négatifs (FN). Quand le test est positif, il possède une grande valeur diagnostique ; en revanche quand il est négatif on ne peut pas exclure le diagnostique.

B. Reproductibilité et concordance La qualité d un test dépend aussi de ses propriétés de reproductibilité et de concordance. La concordance (mesure de la variabilité inter-opérateur) : deux personnes appliquant le test à un même patient doivent obtenir en principe le même résultat. La reproductibilité : une personne à qui on fait passer le test à deux moment différents, dans des conditions identiques, doit présenter un résultat identique. En fait la constance des résultats est exceptionnelle, il y a très souvent une déviance dont on peut apprécier l ampleur à l aide d indicateurs statistiques. 1) Test Qualitatif Expérimentateur B Expérimentateur A Lecture test (+) Lecture test (-) Lecture test (+) a c Σ T + A Lecture test (-) b d Σ T - A Σ T + B Σ T - B Σ des examens comparés a. Coefficient de concordance (Cc) Cc = ExamensConcordants( a + d ) ExamensComparés b. Coefficient Kappa (К) Soit le coefficient de concordance (Cc) et le coefficient de concordance attendue (Ca) : Κ = ( Cc Ca) ( 1 Ca) Ca = ( T + A T + B) + ( T A T B) ExamensComparés La valeur de К varie de 1 (concordance parfaite) à 0 (désaccord total). Arbitrairement, on estime qu un kappa supérieur à 80 % est satisfaisant.

2) Test Quantitatif L évaluation de la concordance et de la reproductibilité d un test quantitatif est plus complexe et fait appel à des analyses statistiques ou graphiques élaborées. a. Coefficient de corrélation intra-classe ρ = ( VarianceBio log iquevraie)² ( VarianceBio logiquevraie)² + ( VarianceLiéeInstrumentMesure)² ρ évalue la corrélation des mesures itératives chez un même sujet ; sa valeur est comprise entre 0 et 2. Arbitrairement, on estime qu un ρ 0,8 est satisfaisant. b. Méthode de Bland et Altman Il s agit d une méthode graphique où sont reportées : - en abscisse, la moyenne arithmétique des lectures ( des mesures / des observateurs) - en ordonnée, les différences de mesures entre les observateurs. Le nuage de points obtenu permet dévaluer le degré de fiabilité de lecture d un test quantitatif, la variabilité entre les observateurs. IV. REFERENCES Référence Préparation à l examen national classant 2 e cycle des études médicales La revue du praticien Editions J.B. Baillière. Epidémiologie Abrégés connaissances et pratique - P. Czernichow, J. Chaperon, X. Le Coutour Editions MASSON. [1] M. Righini, A. Mossaz, H. Bounameaux. «Quantification des sténoses carotidiennes : revue des différents critères à la lumière des études cliniques sur l endartérectomie». Sang, thrombose, vaisseaux. Vol. 13, numéro 5, 5 mai 2001 : 263-72. [2] Biostatistique Clinique, Epidémiologie et Essais cliniques. Faculté de Médecine Necker - Enfants Malades 2002.