Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr
Plan 1 Introduction 2 Evaluation d un test diagnostique 3 Concordance Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 1 / 35
Introduction Motivations 1 Evaluation d un nouveau test : Référence (Gold Standard) binaire Malade (M) / Non malade ( M) Nouveau test M / M Quantifier le pouvoir diagnostic du nouveau test 2 Variable numérique (ex : dosage biologique) On désire utiliser cette variable pour séparer les M des M Déterminer un seuil optimal Quantifier le pouvoir discriminant de X 3 2 tests destinés à classer les patients (M et M) Evaluation de la concordance = similitude entre les 2 tests Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 3 / 35
Définitions Définitions 1 On cherche à séparer les malades (M) des non-malades ( M) 2 On dispose d une référence qui permet de les classer de manière certaine (Gold Standard) Considérons un test : T + : test positif en faveur de M T : test négatif en faveur de M Considérons N patients N M : nombre de malades (référence) N M N T + N T : nombre de non-malades (référence) : nombre de tests positifs : nombre de tests négatifs M M T + vp fp N T + T fn vn N T N M N M N vp : vrai-positifs vn : vrai-négatifs fp : faux-positifs fn : faux négatifs Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 6 / 35
Définitions Définitions - Validité intrinsèque du test (Probabilités pré-test) Le pourcentage de bien classés défini par vp+vn N ne reflète pas les 2 types d erreurs qui peuvent avoir des conséquence très 1 Dire que le patient est non-malade à tort (fn) 2 Dire que le patient est malade à tort (fp) Ces 2 types d erreur sont quantifiés par Sensibilité (Se) Pourcentage de vrai-positifs (vp) chez les malades : vp N M = P(T + /M) Spécificité (Sp) Pourcentage de vrai-négatifs (vn) chez les non-malades : vn N M = P(T / M) Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 7 / 35
Définitions Un test est caractérisé par ces deux paramètres (Se,Sp) Remarque 1 Les tests très sensibles sont utiles pour s assurer que la maladie n est pas présente (peu de faux négatifs) La maladie est grave et ne doit pas être ignorée Les tests très spécifiques sont utiles pour s assurer que la maladie est bien présente (peu de faux positifs) Maladie incurable, traitement lourd Remarque 2 Ces 2 paramètres sont indépendants de la prévalence de la maladie pas besoin de respecter la prévalence de la population (échantillon représentatif) En général, on trouve 100 M et 100 M Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 8 / 35
Définitions Définitions - Validité extrinsèque du test (Probabilités post-test) Valeur Prédictive Positive (VPP) Probabilité qu un individu soit réellement malade sachant que le test est positif : Valeur Prédictive Négative (VPN) P(M/T + ) = vp N T + Probabilité qu un individu soit réellement non-malade sachant que le test est négatif : P( M/T ) = vn N T Très important en situation clinique car on ignore très souvent le diagnostic de référence Ces formules sont utilisables lorsque l échantillon est représentatif de la population!! Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 9 / 35
Définitions Remarque 1 Une VPP faible examens supplémentaires lourds chez des non-malades Une VPN faible rassurer des patients à tort Indice de fiabilité du test Remarque 2 Ces deux paramètres dépendent de l échantillon étudié (prévalence de la maladie) Donc si l échantillon n est pas représentatif (prévalence) : Calcul de VPP et VPN en utilisant une formule faisant intervenir Se, Sp et prévalence de la maladie (Formule de Bayes) Un prévalence importante va améliorer la VPP mais diminuer la VPN Un prévalence faible va diminuer la VPP mais améliorer la VPN Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 10 / 35
Définitions Exemple : Se = 08 et Sp = 09 Echantillon 1 M M T + 80 10 90 T 20 90 110 100 100 200 Echantillon 2 M M T + 160 10 170 T 40 90 130 200 100 300 VPP = 80 90 089 VPN = 90 110 082 VPP = 160 170 094 VPN = 90 130 069 Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 11 / 35
Définitions En situation clinique, on ne dispose pas du diagnostic de référence mais on dispose de Sensibilité et Spécificité du test La prévalence de la maladie dans la population (P(M) = p) On souhaite calculer la VPP et la VPN en utilisant ces informations : VPP = P(M/T + ) = P(T + /M)P(M) P(T + ) VPP = = P(T + /M)P(M) P(T + /M)P(M) + P(T + / M)P( M) Sep Sep + (1 Sp)(1 p) VPN = P( M/T ) = P(T / M)P( M) P(T ) VPN = = P(T / M)P( M) P(T / M)P( M) + P(T /M)P(M) Sp(1 p) Sp(1 p) + (1 Se)p Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 12 / 35
Analyse ROC Problématique On dispose d une variable quantitative X (ex : dosage biologique) On souhaite : Déterminer le seuil optimal (pour séparer les M des M) Quantifier le pouvoir diagnostic de X Le seuil optimal est celui qui sépare au mieux les M des M en respectant les deux types de risques (fp,fn) max(se, Sp) Problème : les deux paramètres varient en sens contraire!! Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 14 / 35
Analyse ROC Exemple - 2 cas extrêmes vp pour s 1 M M vn pour s 1 s 1 fp pour s 1 X Seuil s 1 : Si X < s 1 alors M (pas de fn) Si X s 1 alors M et M (bcp de fp) Se = 1 mais Sp mauvaise M M T + (X s 1) vp fp T (X < s 1 ) 0 vn Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 15 / 35
Analyse ROC Exemple - 2 cas extrêmes fn pour s 2 M M vp pour s 2 Seuil s 2 : vn pour s 2 Si X < s 2 alors M et M (bcp de fn) Mais si X s 2 alors M (pas de fp) Sp = 1 mais Se mauvaise X s 2 M M T + (X s 2 ) vp 0 T (X < s 2 ) fn vn Nécessité de trouver un compromis!! Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 16 / 35
Analyse ROC Courbe ROC (Receiver Operating Characteristic) Se 00 02 04 06 08 10 Point idéal (0,1) s2 s1 00 02 04 06 08 10 Objectif : déterminer le seuil s qui sépare au mieux les M des M 1 Sp Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 17 / 35
Analyse ROC Courbe ROC (Receiver Operating Characteristic) Se 00 02 04 06 08 10 Point idéal (0,1) s2 Seuil s optimal s1 00 02 04 06 08 10 1 Sp Solution : déterminer le seuil s qui minimise la distance euclidienne du point (0, 1) d((0, 1), s) = (0 x s ) 2 + (1 y s ) 2 Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 18 / 35
Analyse ROC Courbe ROC (Receiver Operating Characteristic) La courbe ROC présente 2 intérêts : Choix du meilleur seuil Permet de visualiser puis quantifier le pouvoir discriminant de X Calcul de l aire sous la courbe ROC (AUC) Se 00 02 04 06 08 10 00 02 04 06 08 10 1 Sp Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 19 / 35
Analyse ROC Courbe ROC (Receiver Operating Characteristic) Se 00 02 04 06 08 10 Se 00 02 04 06 08 10 Se 00 02 04 06 08 10 00 02 04 06 08 10 1 Sp 00 02 04 06 08 10 1 Sp 00 02 04 06 08 10 1 Sp Discrimination 05 AUC 1 Discrim parfaite Se = 1, Sp = 1 AUC = 1 Discrimination AUC = 05 Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 20 / 35
Analyse ROC Courbe ROC (Receiver Operating Characteristic) Remarques : AUC Discrimination 05 Nulle 07-08 Acceptable 08-09 Excellente > 09 Exceptionnelle Si AUC = 05 alors on classe de manière complètement aléatoire les observations Si AUC > 09 le classement est très bon, voire trop bon, il faut évaluer s il y a overfitting Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 21 / 35
Concordance Introduction Objectif Evaluer la concordance (accord, similitude, ) entre 2 techniques 2 jugements 2 tests par rapport à un critère quantitatif Mesure biologique faite avec 2 appareils différents qualitatif Tests vivant/décès Cette notion inclue celle de reproductibilité (ex : p mesures avec le même appareil validation de l appareil) Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 24 / 35
Concordance Introduction Différence entre concordance et liaison Exemple : Accord entre 2 radiologues R 1 et R 2 sur une même série de radiographies R 1 \R 2 Malade Non-Malade Malade 95 8 Non-Malade 5 92 Pour évaluer la concordance entre R 1 et R 2 un test du χ 2 n est pas suffisant car : L existence d une liaison entre R 1 et R 2 n implique pas forcément la concordance entre eux R 1 \R 2 Malade Non-Malade Malade 10 95 Non-Malade 105 20 En revanche, une concordance importante un liaison significative Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 25 / 35
Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Considérons 2 tests A et B effectués un échantillon de N individus A\B T + T T + a b n A + T c d n A n B + n B N Idée : La concordance entre A et B peut être décomposée en 1 Une concordance aléatoire (liée au hasard) 2 Une concordance réelle La concordance observée est définie par p o = a + d N Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 27 / 35
Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Sous l hypothèse d indépendance des tests, on peut reconstituer le tableau des effectifs théoriques : A\B T + T T + n A + n B + N T n A n B + N n A + n B N n A + n A n B N n A n B + n B N Et ainsi en déduire la concordance due au hasard : n A + n B + N + n A n B N p c = N Il faut corriger la concordance observée (p o ) en tenant compte de celle qui serait due au hasard (p c ) Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 28 / 35
Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa On définit ainsi le coefficient kappa k : k = p o p c 1 p c Interprétation en termes de concordance : k 02 Négligeable 02 < k 04 Faible 04 < k 06 Moyenne 06 < k 08 Bonne 08 < k 1 Excellente On montre que E[K] = κ V[K] = p o(1 p o ) N(1 p c ) 2 Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 29 / 35
Concordance Coefficient kappa Concordance entre 2 jugements catégoriels : Coefficient Kappa Exemple Effectifs observés A\B T + T T + 45 15 60 T 5 35 40 50 50 100 Effectifs théoriques A\B T + T T + 30 30 60 T 20 20 40 50 50 100 p o = 45 + 35 100 = 08 p c = k = p o p c 08 05 = = 06 1 p c 05 30 + 20 100 = 05 Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 30 / 35
Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Condition d application : N 30 Les hypothèses de test sont les suivantes : { H 0 : κ = 0 Concordance aléatoire p o = p c H 1 : κ > 0 Concordance non aléatoire p o > p c Sous H 0, E[K] = 0 et p o = p c donc V[K] = p o(1 p o ) N(1 p c ) 2 = p c(1 p c ) N(1 p c ) 2 = p c N(1 p c ) Sous H 0, pour N 30, la statistique de test est Z = K E[K] = K N (0, 1) V[K] V[K] Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 32 / 35
Concordance Test de significativité du coefficient Test de significativité du coefficient kappa Retour à l exemple : p c = 05 s 2 k = 05 100 05 = 01 z = k s k = 06 01 = 6 Donc rejet de H 0 concordance statistiquement significative Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 33 / 35
Concordance Intervalle de confiance du coefficient Intervalle de confiance du coefficient kappa Si test est NS STOP Sinon nous devons donner une estimation de la vraie valeur κ IC L intervalle de confiance de κ au niveau de confiance 1 α est donné par : ] IC 1 α p o (1 p o ) κ = [k ± z 1 α/2 N(1 p c ) 2 Retour à l exemple : p o = 08, p c = 05, N = 100, k = 06 [ ] IC 95% 08 02 κ = 06 ± 196 100 (1 05) 2 IC 95% κ = [04432; 07568] Michaël Genin (Université de Lille 2) Evaluation d un test diagnostique - Concordance Version - 8 avril 2015 35 / 35