Université de Montréal ANALYSE DES COURBES DE LA ARACTÉRISTIQUE OPÉRATIONNELLE DU RÉSULTAT (COR). Jean-François Allaire

Documents pareils
Chapitre 2 Le problème de l unicité des solutions

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

1. Vocabulaire : Introduction au tableau élémentaire

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Complément d information concernant la fiche de concordance

Introduction à la Statistique Inférentielle

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Résolution d équations non linéaires

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Evaluation de la variabilité d'un système de mesure

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Statistiques Descriptives à une dimension

Chapitre 1 Régime transitoire dans les systèmes physiques

Annexe commune aux séries ES, L et S : boîtes et quantiles

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

NOTIONS DE PROBABILITÉS

Chapitre 3. Les distributions à deux variables

Fonctions de plusieurs variables

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Texte Agrégation limitée par diffusion interne

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

FORMULAIRE DE STATISTIQUES

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

LES GENERATEURS DE NOMBRES ALEATOIRES

Marchés oligopolistiques avec vente d un bien non homogène

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

CHAPITRE VIII : Les circuits avec résistances ohmiques

6. Les différents types de démonstrations

Pourquoi l apprentissage?

Comment tracer une droite représentative d'une fonction et méthode de calcul de l'équation d'une droite.

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Probabilités sur un univers fini

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Probabilités sur un univers fini

Cours 02 : Problème général de la programmation linéaire

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

CAPTEURS - CHAINES DE MESURES

Structures algébriques

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

CHAPITRE IX : Les appareils de mesures électriques

INF6304 Interfaces Intelligentes

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Relation entre deux variables : estimation de la corrélation linéaire

La classification automatique de données quantitatives

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

TSTI 2D CH X : Exemples de lois à densité 1

modélisation solide et dessin technique

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1

Chapitre 4: Dérivée d'une fonction et règles de calcul

Les mesures à l'inclinomètre

DOCM Solutions officielles = n 2 10.

La polarisation des transistors

Etude de fonctions: procédure et exemple

G.P. DNS02 Septembre Réfraction...1 I.Préliminaires...1 II.Première partie...1 III.Deuxième partie...3. Réfraction

Correction de l examen de la première session

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Coup de Projecteur sur les Réseaux de Neurones

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Notion de fonction. Série 1 : Tableaux de données. Série 2 : Graphiques. Série 3 : Formules. Série 4 : Synthèse

OPTIMISATION À UNE VARIABLE

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

chapitre 4 Nombres de Catalan

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Exercices - Polynômes : corrigé. Opérations sur les polynômes

23. Interprétation clinique des mesures de l effet traitement

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Carl-Louis-Ferdinand von Lindemann ( )

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Introduction à l approche bootstrap

Précision d un résultat et calculs d incertitudes

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

BACCALAUREAT GENERAL MATHÉMATIQUES

Simulation de variables aléatoires

Moments des variables aléatoires réelles

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

LE PROBLEME DU PLUS COURT CHEMIN

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Analyse de la variance Comparaison de plusieurs moyennes

Transcription:

Université de Montréal ANALYSE DES COURBES DE LA ARACTÉRISTIQUE OPÉRATIONNELLE DU RÉSULTAT (COR). Jean-François Allaire Département de mathématiques et de statistique Faculté des arts et des sciences Mémoire présenté à la Faculté des études supérieures en vue de l'obtention du grade de Maître ès sciences (M.Sc.) en statistique Avril 1997 @ JEAN-FRANÇOIS ALLAIRE, MCMXCVII

Université de Montréal Faculté des études supérieures Ce mémoire intitulé ANALYSE DES COURBES DE LA CARACTÉRISTIQUE OPÉRATIONNELLE DU RÉSULTAT (COR). présenté par Jean-François Allaire a été évalué par un jury composé des personnes suivantes : (2' Yves Lepage ( d F de recherche) P+7 membre du jury) Mémoire accepté le : a& cf6-7

SOMMAIRE Ce mémoire porte sur l'étude des courbes de la caractéristique opérationnelle du résultat (COR). Dans un premier temps, nous définissons une courbe COR et nous présentons différentes méthodes de construction. Nous introduisons également l'aire sous une courbe COR comme une mesure de la performance d'un test diagnostique ainsi qiie plusieurs méthodes d'estimation de cette aire. Dans un second temps, nous présentons des tests statistiques permettant de comparer les courbes COR. Finalement, une étude comparative des différentes méthodes d'estimation de l'aire sous une courbe COR est effectuée par une simulation de type Monte Carlo. Une étude expérimentale du niveau et de la puissance des tests statistiques proposés est également effectuée par simulation. Des conclusions sont tirées afin de choisir le meilleur estimateur ainsi que le meilleur test statistique dans certaines situations concrètes.

SOMMAIRE ii REMERCIEMENTS LISTE DES TABLEAUX iii... Vlll LISTE DES FIGURES INTRODUCTION CHAPITRE 1. PRINCIPES DE BASE 1.1. CONTEXTE 1.3. CONSTRUCTION 1.3.1. Nature des données

1.3.1.1. Données dichotomiques 1.3.1.2. Données discrètes 1.3.1.3. Données continues 1.3.2. Représentation graphique 1.3.2.1. Courbe COR 1.3.2.2. Courbe COR binormale 1.4. INDICES DE PERFORMANCE 1.5. ESTIMATION DE L'AIRE SOUS LA COURBE 1.5.1. Méthode des trapèzes 1.5.2. Méthode analytique 1.5.3. Méthode paramétrique (binormale)

2.2. MÉTHODES DE HANLEY ET MCNEIL 2.2.1. Courbes indépendantes 2.2.2. Courbes dépendantes 2.4. MÉTHODE DE METZ ET KRONMAN 2.4.1. Test statistique pour une courbe COR binormale 2.4.2. Test statistique pour k courbes COR binormales indépendantes 3.1. ETUDE COMPARATIVE DES ESTIMATEURS 3.1.1. Méthode de calcul des estimateurs 3.1.2. Description de la méthode 3.1.3. Résultats numériques 3.2. ETUDE COMPARATIVE DES TESTS STATISTIQUES 3.2.1. Description de la méthode

LZT POT!!A

3.26 Résultats pour 6 lorsque X:0,90N(0,5;1)+0,10N(3;16) en catégories et 8=0,6510 98 3.27 Résultats pour s2(8) lorsque X:O,9ON(O,5;1) + 0,10N(3;16) en caté- gories 98 3.28 Résultats pour 6 lorsque X:0,90N(5,5;16)+0,10N(10;36) en catégo- ries et 8=0,9130 99 3.29 Résultats pour s2(8) lorsque ~:0,90~(5,5;16)+0,~0~(10;36) en Ca- tégories 99 3.30 Niveau expérimental pour deux courbes COR indépendantes lors- que ~('):~(0,5;1) et ~(~):~(0,5;1) 108 3.31 Niveau expérimental pour deux courbes COR indépendantes lors- que X('):N(2;1) et ~ (~):~(2;1) 108 3.32 Niveau expérimental pour deux courbes COR indépendantes lors- que ~('):0,9~(0,5;1)+0,1~(3,16) et ~(~):0,9~(0,5;1)+0,1~(3,16) 108 3.33 Niveau expérimental pour deux courbes COR indépendantes lors- que ~(~):0,9~(2;1)+0,1~(5;16) et ~(~):0,9~(2;1)+0,1~(5;16) 108 3.34 Niveau expérimental pour deux courbes COR dépendantes lorsque x('):n(i;~) et ~(~):N(l;l) 109

3.35 Niveau expérimental pour deux courbes COR dépendantes lorsque x(l):~(2;1) et ~ (~):~(2;1) 3.36 Niveau expérimental pour deux courbes COR dépendantes lorsque ~('1: 0,9N(0,9;1)+0,1N(5;1) et ~ ( ~ 0,9N(0,9;1)+0,1N(5;1) 1 : 110 3.37 Niveau expérimental pour deux courbes COR dépendantes lorsque ~('1: 0,9N(2;1)+O,lN(6;1) et ~ ( ~ 0,9N(2;1)+0,1N(6;1) 1 : 3.38 Niveau expérimental pour deux courbes COR indépendantes lors- que x(l):~(0,5;1) et ~(~):~(0,5;1) en catégories 3.39 Niveau expérimental pour deux courbes COR indépendantes lors- que ~('):~(2;1) et ~ (~):~(2;1) en catégories 111 3.40 Niveau expérimental pour deux courbes COR indépendantes lors- que ~(~):0,9~(0,5;1)+0,1~(3;16) et ~(~):0,9~(0,5;1)+0,1N(3;16) en catégories 3.41 Niveau expérimental pour deux courbes COR indépendantes lors- que ~(~):0,9~(2;1)+0,1~(5;16) et ~(~):0,9~(2;1)+0,1~(5;16) en catégories 11 2 3.42 Niveau expérimental pour deux courbes COR dépendantes lorsque x('):n(l;l) et ~ (~):~(1;1) en catégories

xii 3.43 Niveau expérimental pour deux courbes COR dépendantes lorsque ~('):~(2;1) et ~ (~):~(2;1) en catégories 113 3.44 Niveau expérimental pour deux courbes COR dépendantes lors- que ~('1: 0,9N(0,9;1)+0,1N(5;1) et ~ ( ~ 0,9N(0,9;1)+0,1N(5;1) 1 : en catégories 114 3.45 Niveau expérimental pour deux courbes COR dépendantes lors- que ~('1: O19N(2;1)+0,1N(6;1) et ~ ( ~ 0,9N(2;1)+O,lN(6;1) 1 : en catégories 115 3.46 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~('):~(1;1) et ~(~):~(0,35;1) 121 3.47 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~('):~(2,3; 1) et x(~):n(~,2; 1) 121 3.48 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~(~):0,9~(0,9;1)+0,1~(5,9) et ~ ( ~ 019N(013;1)+0,1N(319) 1 : 121 3.49 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~('):0,9~(2,5;1)+0,1~(5;16) et ~(~):0,9~(1,2;1)+0,1~(4;16) 121 3.50 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~('):~(1,55;1) et ~ (~):~(1;1) 122

3.51 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~('):~(2,5;1) et ~(~):~(1,55;1) 122 3.52 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~ ('1: 0,9N(1,4;1)+0,1N(5;1) et ~ ( ~ 0,9N(O;9;1)+0,1N(4;1) 1 : 123 3.53 Puissance expérimentale pour deux courbes COR dépendantes lors- que x('): 0,9N(2,4;1)+0,1N(6;1) et ~ ( ~ 0,9N(l,4;1)+011N(5;1) 1 : 123 3.54 Puissance expérimentale pour deux courbes COR indépendantes lorsque x('):n(~; 1) et ~ (~):~(0,35; 1) en catégories 124 3.55 Puissance expérimentale pour deux courbes COR indépendantes lorsque x('):n(2,3; 1) et x(~):n(~,2; 1) en catégories 124 3.56 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~('):0,9~(0,9;1)+0,1~(5,9) et ~ ( ~ 0,9N(0,3;1)+0,1N(3,9) 1 : en catégories 124 3.57 Puissance expérimentale pour deux courbes COR indépendantes lorsque ~('1: 0,9N(2,5;1)+0,1N(5;16) et ~ ( ~ O,gN(1,2;1)+0,1N(4;16) 1 : en catégories 124 3.58 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~('):~(1,55;1) et ~(~):~(1;1) en catégories 125

xiv 3.59 Puissance expérimentale pour deux courbes COR dépendantes lors- que x(l):~(2,5;1) et ~(~):~(1,55;1) en catégories 125 3.60 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~('1: 0,9N(1,4;1)+O,lN(5;1) et ~ ( ~ 0,9~(0,9;1)+0,1N(4;1) 1 : en catégories 126 3.61 Puissance expérimentale pour deux courbes COR dépendantes lors- que ~('1: 0,9N(2,4;1)+0,1N(6;1) et ~ ( ~ 0,9N(1,4;1)+0,1N(5;1) 1 : en catégories 126

LISTE DES FIGURES 1.1 Deux distributions représentant les statuts négatifs (à gauche) et les statuts positifs (à droite) avec les fréquences relatives corres- pondant à une valeur de seuil critique S. 10 1.2 Courbe de la caractéristique opérationnelle du résultat (COR) et droite de la non-information. 1.3 Deux courbes COR représentées en coordonnées binormales. 1.4 Deux courbes COR binormales: la courbe supérieure a une pente de 1 et la courbe inférieure a une pente de 0,7. 36

INTRODUCTION Dans le domaine de la santé, nous sommes souvent intéressés à mesurer le degré d'efficacité d'un test diagnostique. Par exemple, nous pouvons souhaiter remplacer un test existant par un test plus récent ou bien ajouter un nouveau test à une batterie de tests déjà existants. Nous pouvons également vouloir éliminer des tests dont la qualité du diagnostic est cliniquement insuffisante. La performance d'un test diagnostique peut être décrite au moyen de l'exactitude du diagnostic qu'il permet de poser. Au cours des dernières années, l'émergence de nouveaux tests diagnostiques a forcé l'apparition de méthodes statistiques afin d'évaluer cette performance. En conséquence, un nombre considérable de travaux sur ce sujet ont été effectués. Dans ces travaux, une méthode statistique gagne en popularité. Cette méthode consiste à utiliser la courbe de la caractéristique opérationnelle du résultat (COR) d'un test diagnostique afin d'aider le chercheur à trouver la meilleure solution possible.

Jusqu'à ce jour, aucun travail de synthèse n'a été publié sur la méthodologie des courbes COR. De plus, plusieurs résultats importants n'ont jamais été rigoureusement démontrés. Par conséquent, le premier chapitre de ce mémoire porte sur la méthodologie des courbes COR. Entre autres, nous présentons la définition de ces courbes, les méthodes de construction et nous introduisons l'aire sous la courbe comme mesure de la performance d'un test diagnostiqiie. Enfin, on inventorie les diverses méthodes permettant de calculer l'aire sous la courbe. Le deuxième chapitre est consacré à une revue de la littérature des différents tests statistiques permettant de comparer les courbes COR. En premier lieu, les méthodes dlhanley et IVIcNeil (1982,1983) sont présentées. On introduit ensuite la méthode de Delong, Delong et Clarke-Pearson (1988) ainsi que la méthode de Metz et Kronman (1980). Le troisième chapitre présente deux études comparatives. Dans un premier temps, une étude comparative des différentes méthodes d'estimation de l'aire sous une courbe COR est effectuée par une simulation de type Monte Carlo. A l'aide du biais, de la variance et de l'écart quadratique moyen, les différentes méthodes d'estimation considérées sont examinées et une analyse critique de ces méthodes en fonction de la distribution des résultats des tests diagnostiques et de la taille des échantillons est présentée. Des conclusions sont tirées à partir des résultats de la simulation afin de choisir le meilleur estimateur dans ces situations. Puisque le comportement de certains estimateurs n'a jamais été étudié, notre première

3 étude comble plusieurs lacunes de la littérature. Dans un second temps, nous retrouvons une étude comparative des tests statistiques présentés au chapitre deux. Une simulation de type Monte Car10 est également utilisée dans le but de comparer des tests statistiques quant au niveau et à la puissance. Des conclusions sont tirées afin de choisir le meilleur test statistique dans des situations concrètes. Comme pour la première étude, nous innovons car aucun auteur n'a jusqu'ici comparé tous ces tests statistiques entre eux.

CHAPITRE 1 PRINCIPES DE BASE Dans le domaine de la santé, la performance d'un test de laboratoire peut être décrite au moyen de l'exactitude du diagnostic qu'il permet de poser. Cette exactitude réside dans le fait de pouvoir classer correctement les sujets souffrant d'une maladie ou d'un problème de nature psychologique, physiologique ou autres et les sujets en santé selon le résultat du diagnostic. Les courbes de la caractéristique opérationnelle du résultat (COR) sont utilisées afin d'évaluer la performance d'un test à faire la distinction entre un individu qui n'est pas affecté par le problème ou la maladie (sujet normal) et un individu qui en est atteint (sujet anormal). En outre, les courbes COR ont été conçues afin d'évaluer des tests dans le but de trouver le plus performant. La méthodologie des courbes COR a été développée dans le contexte de la détection des signaux électroniques. En effet, les systèmes diagnostiques (tests) de plusieurs sortes sont utilisés dans le but de distinguer deux classes d'événements:

5 les signaux et les bruits. Dans le domaine médical, nous parlons plutôt de diagnostics positifs et négatifs. En somme, la méthodologie des courbes COR repose sur le diagnostic (positif ou négatif) du test étant donné le statut (positif ou négatif) du sujet. En fait, la méthodologie des courbes COR permet de vérifier la performance discriminatoire d'un test pour lequel deux conclusions différentes sont possibles. Avec deux possibilités pour le statut (la vérité) et deux possibilités pour le diagnostic correspondant, les données sont regroupées dans un tableau de contingence de dimension 2x2. Dans le tableau 1.1, le statut est considéré soit positif ou négatif et le diagnostic correspondant est positif ou négatif. Nous trouvons deux cellules où le statut et le diagnostic concordent, les vrais-positifs (cellule comptant a sujets) et les vrais-négatifs (cellule comptant d sujets), deux cellules où il y a discordance, les faux-positifs (cellule comptant b sujets) et les faux-négatifs (cellule comptant c sujets). Enfin, la somme du nombre de sujets de ces quatre cellules est égale au nombre de sujets dans l'échantillon (N). TABLEAU 1.1. Tableau de contingence 2x2 Statut Positif Négatif Diagnostic Positif Négatif a c b d a+b c+d a+c b+d a+b+c+d=n

Nous pouvons aussi considérer la fréquence relative plutôt qiie la fréquence absolue de chaque cellule. Lorsque le statut est positif, le diagnostic peut être positif ou négatif. Ainsi, nous définissons la fraction des faux-négatifs (FFN) et son complément, la fraction des vrais-positifs (FVP), par c FFN = - - a+c Nombre de faux diagnostics négatifs (FN) Nombre de statuts positifs a Nombre de vrais diagnostics positifs (VP) FVP = - a+c - Nombre de statuts positifs De façon similaire, lorsque le statut est négatif, le diagnostic peut être positif ou négatif. Ainsi, nous définissons la fraction des vrais-négatifs (FVN) et son complément, la fraction des faux-positifs (FFP), par d FVN = - b+d - Nombre de vrais diagnostics négatifs (VN) Nombre de statuts négatifs b Nombre de faux diagnostics positifs (FP) FFP = - b+d - Nombre de statuts négatifs Dans le langage médical, le terme sensibilité est utilisé pour désigner la fraction des vrais-positifs (FVP) et le terme spécificité représente la fraction des vrais-négatifs (FVN). De même, le terme fausse alarme est employé au lieu de la fraction des faux-positifs (FFP).

Par ailleurs, toute l'information pertinente à la performance du test peut être obtenue en utilisant seulement un membre de chacune des paires de fractions complémentaires. Le choix usuel est d'utiliser la ligne supérieure du tableau 1.1, c'est-à-dire la fraction des vrais-positifs (FVP) et la fraction des faux-positifs (FFP). D'autre part, une autre proportion peut être définie. Il s'agit de la fraction de l'échantillon étudié qui est correctement classifiée (FCC). Elle est définie de la façon suivante (voir Metz (1978)): Nombre de diagnostics corrects a + d FCC = - Nombre de sujets N ' Alors, nous obtenons FCC =FVP x +FVN x Nombre de statuts positifs (a + c) Nombre de sujets (N) Nombre de statuts négatifs (b + d) Nombre de sujets (N) Finalement, la prédominance de la maladie dans l'échantillon utilisé avec le test est définie par (a + c)/n, c'est-à-dire la fréquence relative des sujets de l'échantillon dont le statut est positif. De la même façon, (b+d)/n représente la fréquence relative des sujets de l'échantillon dont le statut est négatif. Bien que d'autres proportions peuvent être calculées à partir du tableau 1.1, celles décrites précédemment sont les plus importantes et les plus appropriées pour mesurer la performance décisionnelle d'un test.

Les résultats d'un test se présentent toujours sous forme d'une variable continue ou d'une variable discrète. La plupart des données provenant de tests de laboratoire sont le produit de variables continues. Par exemple, un appareil qui mesure la quantité d'enzymes ou la concentration d'un produit quelconque fournit des résultats sous la forme d'une variable continue. Par contre, dans le domaine de l'imagerie médicale (radiologie) et de la psychologie, les résultats des tests peuvent être présentés sous la forme d'une variable discrète nominale ou ordinale. Si nous examinons séparément la distribution des résultats d'un test pour les sujets ayant un statut positif de ceux ayant un statut négatif, trois situations différentes peuvent se présenter. Premièrement, si les distributions sont identiques, alors les résultats du test ne font aucune discrimination entre les deux statuts, la performance du test est nulle. En second lieu, si l'intersection entre le support de chacune des distributions est égale à l'ensemble vide, alors il y a une discrimination parfaite. La performance du test est à son maximum. Par exemple, la distribution des résultats des sujets ayant un statut positif peut prendre des valeurs élevées tandis que celle pour les résultats des sujets ayant un statut négatif des valeurs faibles. D'ailleurs, nous associons en général un résultat de test dont la valeur est élevée avec un diagnostic positif. La convention opposée existe mais, comme il est toujours possible d'inverser l'échelle des résultats afin

d'associer la maladie avec un résultat élevé du test, nous ne considérons pas ce cas. Troisièmement, l'intersection entre le support de chacune des distributions peut ne pas être égale à l'ensemble vide sans toutefois que les distributions soient identiques. Dans cette situation, les distributions se chevauchent. Lorsqu'il y a un chevauchement des distributions, une question se pose. A partir de quelle valeur un résultat de test sera déclaré positif? Nous devons alors définir un seuil critique qui correspond à la valeur du test à partir de laquelle tous les sujets ayant une valeur supérieure ou égale seront diagnostiqués positifs. Par conséquent, un sujet ayant un résultat inférieur à cette valeur sera diagnostiqué négatif. Toutefois, étant donné que les résultats des tests peuvent prendre plusieurs valeurs, comment la sensibilité (FVP) et la spécificité (FVN) se comportent-elles avec les différents choix de seuils critiques? Pour répondre à cette question, nous présentons dans la figure 1.1 un exemple de distributions de résultats de test qui se chevauchent. A gauche, nous représentons celle des statuts négatifs et à droite, celle des statuts positifs. De plus, nous identifions sur la figure une valeur de seuil critique s et les fréquences relatives des quatre cellules du tableau 1.1, correspondant à cette valeur. La région hachurée verticalement représente la fraction des sujets ayant un statut positif qui ont un diagnostic positif (FVP) et la région hachurée horizontalement représente la fraction des sujets ayant un statut négatif qui ont un diagnostic négatif (FVN). De même, la région hachurée

FIGURE 1.1. Deux distributions représentant les statuts négatifs (à gauche) et les statuts positifs (à droite) avec les fréquences relatives correspondant à une valeur de seuil critique S. obliquement et située à droite du seuil critique représente la fraction des sujets ayant un statut négatif qui ont un diagnostic positif (FFP) et la région hachurée obliquement et située à gauche du seuil critique représente la fraction des sujets ayant un statut positif qui ont un diagnostic négatif (FFN). En augmentant la valeur du seuil critique, la fraction des faux-positifs (FFP) et la fraction des vrais-positifs (FVP) diminuent mais, la fraction des vraisnégatifs (FVN) et la fraction des faux-négatifs (FFN) augmentent. D'autre part, en diminuant la valeur du seuil critique, c'est la situation inverse qui se produit. En somme, les composantes du couple (fausse alarme (FFP), sensibilité (FVP)) varient dans le même sens; il en est de même pour le couple (fraction des fauxnégatifs (FFN), spécificité (FVN)). Les fréquences relatives sont donc influencées si nous déplaçons le seuil critique.

Etant donné cette influence, comment devons-nous choisir la valeur du seuil critique? Si nous choisissons une valeur faible, alors il y aura plus de sujets ayant un vrai diagnostic positif et malheureusement, il y aura plus de faux diagnostics positifs. Par exemple, dans le domaine médical, une faible valeur pour le seuil critique signifie que la majorité des statuts positifs subiront un traitement mais, il y aura plusieurs sujets qui seront traités malgré un statut négatif. Est-il alors plus important d'avoir une sensibilité (FVP) élevée en dépit d'une fausse alarme (FFP) élevée ou bien une fausse alarme (FFP) faible en dépit d'une sensibilité (FVP) faible? Est-il plus important de traiter la majorité des sujets malades (sensibilité (FVP) élevée) ou bien de ne pas traiter inutilement les sujets ayant un statut négatif (fausse alarme (FFP) faible)? La décision appartient au spécialiste du domaine. C'est ce dernier qui est le plus apte à décider en analysant toutes les répercussions associées à une décision. En effet, traiter un sujet qui n'est pas malade est coûteux, mais ne pas traiter un sujet qui est malade est très grave. Un autre exemple concernant l'influence du seuil critique est tiré du domaine météorologique. Prévoir une tempête qui n'aura pas lieu (faux-positifs) a un coût plus petit que celui de ne pas prévoir une tempête qui aura vraiment lieu (fauxnégatifs). Dans cette situation, la valeur du seuil critique choisie sera faible de façon à garder la fraction des vrais-positifs (FVP) élevée et la fraction des fauxnégatifs (FFN) faible en dépit d'une fausse alarme (FFP) élevée.

12 En résumé, le chercheur du domaine d'application doit examiner les différentes valeurs de seuils critiques et les répercussions associées à ces dernières. Ces répercussions peuvent se présenter sous forme de coût, de perte de vie ou de problèmes divers. L'objectif du chercheur est donc d'obtenir un bon compromis entre la sensibilité (FVP) et la fraction des faux-positifs (FFP) tout en tenant compte des répercussions associées à son choix. Avoir une sensibilité (FVP) élevée et une fausse alarme (FFP) faible est sans aucun doute la situation désirée. Pour faciliter la décision du chercheur, l'approche suivante est proposée. En faisant varier le seuil critique à plusieurs reprises, nous obtenons des paires différentes de sensibilité (FVP) et de fausse alarme (FFP). Ces deux valeurs sont placées sur un graphique avec coordonnées y et x respectivement. Le domaine de définition du graphique est le carré [O,l]x[O,l]. En reliant les différents points, une courbe peut être tracée. Cette courbe est appelée la "courbe de la caractéristique opérationnelle du résultat (COR)" pour un test diagnostique. Dans la figure 1.2, nous présentons un exemple d'une courbe COR. Elle permet au chercheur de visualiser les différentes valeurs de sensibilité (FVP) et de fausse alarme (1-spécificité) associées à des niveaux de seuils critiques différents. Ces courbes doivent inévitablement passer par le coin inférieur gauche (FFP = O, FVP = 0) car tous les sujets peuvent être diagnostiqués négatifs et par le coin supérieur droit (FFP = 1, FVP = 1) car tous les sujets peuvent être diagnostiqués positifs. Comme nous avons mentionné précédemment, le but premier de

Fausse alarme (FFP) FIGURE 1.2. Courbe de la caractéristique opérationnelle du résultat (COR) et droite de la non-information. l'expérimentateur est d'avoir une sensibilité (FVP) élevée et une fausse alarme (FFP) faible. Cette situation correspond à un point sur la courbe situé près du coin supérieur gauche de l'espace COR qui correspond au carré unité. Par ailleurs, un test qui est parfaitement discriminatoire (distributions distinctes), à une sensibilité (FVP) qui vaut 1 pour toutes les valeurs de fausse alarme (FFP) comprises dans l'intervalle (0'11. Lorsque la fausse alarme (FFP) vaut O, la sensibilité (FVP) varie entre O et 1. Cette situation est représentée par une courbe qui est située sur l'axe vertical gauche et l'axe horizontal supérieur de l'espace COR. Ainsi, plus un test est performant, plus la courbe s'approche de ces axes.

Par contre, si nous avons la sensibilité (FVP) égale à la fraction des fauxpositifs (FFP) pour toutes les valeurs du seuils critiques, alors nous dirons que le test est non-informatif. Dans un contexte théorique, cela signifie que pour toutes les valeurs du seuil critique, la probabilité que le diagnostic du test soit positif est la même quel que soit le statut du sujet. Les résultats du test sont alors comparables à un test dont le diagnostic est basé sur le hasard. Cette situation est représentée par la droite diagonale passant par le point (0'0) et le point(1,l). Cette droite est appelée la droite de la non-information ou la droite diagonale de la chance. Cette droite est tracée à l'aide de tirets dans la figure 1.2. De plus, comme la sensibilité (FVP) et la fraction des faux-positifs (FFP) sont obtenues séparément, en utilisant les résultats d'un test à partir de deux groupes distincts (statut positif et statut négatif), alors ces deux mesures sont indépendantes de la prédominance de la maladie. Cela signifie qu'elles ne dépendent pas de la fréquence relative des sujets dont le statut est positif ou négatif. Par ailleurs, le choix de la valeur du seuil critique d'un test peut dépendre de la prédominance de la maladie. En effet, si la fréquence relative des sujets ayant un statut positif est faible, le chercheur devrait choisir une valeur élevée pour le seuil critique sinon, plusieurs sujets seront faussement diagnostiqués positifs. De cette façon, le chercheur s'assure de garder la fraction des faux-positifs (FFP) faible. Cette situation correspond à l'utilisation d'un point avec une fausse alarme (FFP) près de O, en dépit d'une sensibilité (FVP) plus faible. En général, ce point se trouve sur la portion de la courbe qui est située près de l'axe vertical gauche de l'espace

15 COR où les différents points sont obtenus par des valeurs de seuil critique élevées. Cependant, si la prédominance de la maladie est forte, le chercheur devrait choisir une valeur faible pour le seuil critique. De cette façon, presque tous les sujets ayant un statut positif seront diagnostiqués positifs. Ainsi, il garde la fraction des vrais-positifs (FVP) élevée en dépit d'une fraction des faux-positifs (FFP) élevée. En général, ce point se trouve sur la portion de la courbe qiii est située près de l'axe horizontal supérieur de l'espace COR où les différents points sont obtenus par des valeurs de seuil critique faibles. Donc, selon la prédominance de la maladie, le chercheur peut choisir une valeur de seuil critique (faible ou élevée) qui répond aux caractéristiques de son domaine. Essentiellement, une courbe COR décrit un compromis entre la sensibilité (FVP) et la fraction des faux-positifs (FFP). Elle donne un aperçu de l'ensemble de toutes les paires de sensibilité (FVP) et de fausse alarme (FFP) pour un test diagnostique. Elle représente l'habilité du test à faire une discrimination selon des valeurs différentes de seuils critiques.

1.3.1. Nature des données Dans la plupart des domaines où on utilise des tests diagnostiques, les résultats sont le produit d'une variable dichotomique, catégorielle ordinale ou continue. Dans les prochaines sections, nous décrirons selon la nature des données, la méthode à utiliser afin d'obtenir des points dans l'espace COR. 1.3.1.1. Données dichotomiques Dans le domaine de l'imagerie médicale, les tests diagnostiques sont générale- ment interprétés par des observateurs (radiologistes, médecins,...) qui fournissent des résultats sous forme dichotomique (positif ou négatif). L'observateur regarde une à une, les images obtenues à partir d'un échantillon de sujets. Pour chacune de ces images, il pose un diagnostic (positif ou négatif). Aucun autre diagnostic n'est permis. Par exemple, l'observateur ne peut répondre '(je ne sais pas". Cette procédure est appelée "méthode oui/nonn ou "méthode dichotomique".

17 Pour mesurer la performance d'un test diagnostique, nous devons connaître le statut de chacun des sujets. Ce dernier doit être obtenu par un moyen indépendant du test diagnostique qui est évalué. Evidemment, cette étape est effectuée à l'insu de l'observateur. Avec le statut de chacun des sujets, nous pouvons calculer la sensibilité (FVP) et la fraction des faux-positifs (FFP) afin d'obtenir un point sur le graphique. Pour obtenir plusieurs points, l'observateur regarde la même série d'images à plusieurs reprises. Pour chacune des séries, l'observateur varie la sévérité de son jugement. Il fait en quelque sorte varier le seuil critique. De cette façon, nous obtenons plusieurs couples (FFP,FVP) qui permettent, en les reliant, d'obtenir une courbe COR. Toutefois, cette approche est inefficace sur le plan pratique car elle exige que l'observateur regarde la série d'images M fois pour obtenir M points sur le graphique. 1.3.1.2. Données discrètes En psychologie expérimentale, il est fréquent que les tests diagnostiques fournissent des résultats qui sont le produit d'une variable discrète. Ces tests se ramènent à fournir une catégorie parmi plusieurs (K). Par exemple, les catégories peuvent être représentées par une échelle ordinale; (1) définitivement négatif, (2) probablement négatif, (3) indécis, (4) probablement positif, (5) définitivement positif et l'observateur assigne une valeur de l'échelle à chacun des sujets.

18 Pour établir une courbe COR, il faut procéder de la façon suivante. Premièrement, seulement les résultats de la catégorie correspondant aux sujets définitivement positifs (catégorie 5) sont considérés positifs tandis que les autres sont tous considérés négatifs. Avec le statut de chaque sujet obtenu préalablement, nous obtenons la sensibilité (FVP) et la fraction des faux-positifs (FFP). Ce couple correspond à l'utilisation d'une valeur de seuil critique élevée, c'est-à-dire que les sujets sont considérés positifs si l'observateur est certain que les sujets étudiés sont positifs. Ensuite, les sujets positifs sont définis par les sujets qui correspondent aux deux catégories les plus fortement positives (catégories 4 et 5). La sensibilité (FVP) et la fraction des faux-positifs (FFP) sont calculées et nous obtenons un point correspondant à une valeur de seuil critique moins élevée. Cette procédure est répétée en prenant les trois catégories les plus fortement positives, ensuite en retenant les quatre catégories les plus fortement positives,.... Finalement, tous les résultats sont considérés positifs et dans ce cas, la sensibilité (FVP) et la fraction des faux-positifs (FFP) sont égales à 1. En procédant de cette façon, nous trouvons K-1 points différents à partir d'une échelle de K catégories en plus du point (0'0) et du point (1'1). L'utilisation d'une échelle ordinale de K catégories est préférable à l'utilisation d'une échelle dichotomique car la méthode à utiliser avec une échelle ordinale exige que l'observateur analyse seulement une fois l'ensemble des sujets. De plus, la méthode précédente possède l'avantage d'aider à assurer une meilleure répartition des points sur le graphique étant donné les catégories de classement.