Théorie classique des tests. Modèles de réponse à l item

Théorie classique des tests Modèles de réponse à l item 1

Plan Contexte Exemple Cohérence interne d un test Modèles de réponse à l item Applications 2

Théorie classique des tests Psychométrie Niveau de mesure Fiabilité/reproductibilité Validité Sensibilité au changement Acceptabilité Domaines d application multiples 3

Théorie classique des tests Niveau de mesure d un test Ordinal Intervalle Cardinal 4

Fiabilité / reproductibilité / précision / fidélité Propriété d un test à produire le même résultat tant que les conditions de la mesure ne changent pas. Défaut de fiabilité : Erreurs aléatoires (dans les deux sens) biais Imprécision de la mesure Propriété purement métrologique Modalités : intra-juge (test-retest) ou interjuge 5

Validité Propriété d un test à mesurer ce qu il est censé mesurer et à varier avec ce mesure. Défaut de validité : erreur systématique (biais) Propriété métrologique ET conceptuelle Modalités : Méthode de référence = validité sur critère Sinon : Validité de contenu Validité de construction 6

Validité de contenu Adéquation du test au domaine évalué Etape conceptuelle : définition et formalisation des concepts à mesurer Etape qualitative Etape de génération d items Recours aux experts 7

Validité de construction Propriété du test à mesurer le concept dans sa diversité et sa cohérence Validité de structure interne : cohérence interne (uni vs multi-dimensionnalité) Validité de construction externe : association entre les résultats du test et d autres méthodes (proximité : validité convergente et distance : validité divergente / matrice multitrait-multiméthode) Validité longitudinale : sensibilité au changement 8

Plan Contexte / problématique Exemple Cohérence interne d un test Modèles de réponse à l item Applications 9

Exemple PACES : UE 4 (janvier 2013) Effectif : 1463 étudiants Biostatistiques 2 évaluation des performances d un test diagnostique tests statistiques d hypothèse 7 QCM (QCM 14 à 20) 1 = réponse correcte 0 = réponse fausse ou non renseignée 10

Médiane (25-75 ème percentile) : 4 (2-6) Moyenne (écart-type) : 3.8 (2.2) Biostatistique 2 (%) 20 15 13.06 16.27 15.04 13.19 11.76 11.48 11.48 10 7.724 5 0 0 1 2 3 4 5 6 7 Note biostatistique 2 (étendue, 0 à 7) 11

Réussite au QCM (%) Note Effectif QCM14 QCM15 QCM16 QCM17 QCM18 QCM19 QCM20 0 113 0 0 0 0 0 0 0 1 191 22 9 6 12 19 27 5 2 172 30 16 17 32 46 45 13 3 168 43 30 30 50 64 63 20 4 168 55 47 49 71 71 76 31 5 238 67 48 68 92 84 92 49 6 220 87 66 85 96 90 99 76 7 193 100 100 100 100 100 100 100 0-7 1463 55 43 49 62 64 68 41 12

Plan Exemple Cohérence interne d un test Modèles de réponse à l item Format de réponse / barème 13

Cohérence interne / unidimensionnalité d un test Rappel Var(QCM 1 + QCM 2 ) = Var(QCM 1 ) + Var(QCM 2 ) + 2 Cov(QCM 1, QCM 2 ) Coefficient alpha de Cronbach α = k k ( 1) var ( QCM1 +... + QCM k ) [ var( QCM1) +... + var( QCM k )] var( QCM +... + QCM ) 1 k Étendue : 0 (QCM indépendants) > 070-0,90 (cohérence interne, test unidimensionnel) NB : dépend du nombre de QCM 14

item-note Corrélation item-autres items alpha QCM 14 0,60 0,43 0,75 QCM 15 0,59 0,41 0,76 QCM 16 0,68 0,53 0,73 QCM 17 0,72 0,58 0,72 QCM 18 0,63 0,47 0,75 QCM 19 0,66 0,52 0,74 QCM 20 0,65 0,49 0,74 QCM 14-20 - - 0,77 15

Plan Exemple Cohérence interne d un test Modèles de réponse à l item 1 paramètre : difficulté (Rasch) 2 paramètres : difficulté et discrimination (Birnbaum) Applications 16

Modèles de réponse à l item Réponses des étudiants aux QCM dépendent des : Caractéristiques des étudiants trait latent (θ): aptitude, compétence Caractéristiques des QCM difficulté (δ) propriété de discrimination (α) 17

Modèle à 1 paramètre (Rasch) P j ( θ) = ( θ ) 1+ e 1 δ j Probabilité de réponse correcte au QCM j pour un étudiant possédant le niveau de compétence θ Niveau de compétence θ (trait latent) Difficulté du QCM j 18

Probabilité de réussite 1.9.8.7.6.5.4.3.2.1 0 Modèle à 1 paramètre (Rasch) δ QCM19 = - 1,11 δ QCM20 = 0,56-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 19

Modèle à 1 paramètre (Rasch) QCM Réussite (%) Difficulté (δ) 14 55-0,29 15 43 0,43 16 49 0,06 17 62-0,72 18 64-0,85 19 68-1,11 20 41 0,56 20

Modèle à 2 paramètres (Birnbaum) Probabilité de réponse correcte au QCM j pour un étudiant possédant le niveau de compétence θ P j ( θ) = α ( θ ) 1+ e 1 j δ j Paramètre de discrimination du QCM j Niveau de compétence θ (trait latent) Difficulté du QCM j 21

Modèle à 2 paramètres (Birnbaum) 1.9.8.7.6.5.4.3.2.1 0 α QCM15 = 0,98 α QCM20 = 1,44-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 22

Réussite au QCM (%) Note Effectif QCM14 QCM15 QCM16 QCM17 QCM18 QCM19 QCM20 0 113 0 0 0 0 0 0 0 1 191 22 9 6 12 19 27 5 2 172 30 16 17 32 46 45 13 3 168 43 30 30 50 64 63 20 4 168 55 47 49 71 71 76 31 5 238 67 48 68 92 84 92 49 6 220 87 66 85 96 90 99 76 7 193 100 100 100 100 100 100 100 0-7 1463 55 43 49 62 64 68 41 Discrimination 1,25 0,98 1,54 2,05 1,23 1,61 1,44 23

7 6 Modèle à 2 paramètres (Birnbaum) Note (étendue, 0 à 7) 5 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (Compétence [théta]) 24

Médiane (25-75 ème percentile) : 2 (1-3) 6 Moyenne (écart-type) : 2.2 (1.4) Note à l'épreuve (étendue, 0 à 6) 5 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (compétence [Théta]) 25

.8 QCM 17 Courbe d information des QCM Information du QCM.6.4.2 QCM 15 0-6 -4-2 0 2 4 6 Trait latent (Compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 26

Courbe d information de l épreuve de biostat. 2 5 Information de l'épreuve 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) 27

Courbe d information de l épreuve 4 Information de l'épreuve 3 2 1 0-8 -6-4 -2 0 2 4 6 8 Trait latent (compétence [théta]) 28

Plan Exemple Cohérence interne d un test Modèles de réponse à l item Applications 29

QCM 1 Le test du Khi² : Réponse : A C A. sert à tester si deux pourcentages mesurés sur deux échantillons indépendants diffèrent. B. doit être remplacé par la probabilité exacte de Fisher en cas d effectif observé inférieur à 5 dans une des cellules du tableau de contingence. C. sert à tester s il existe une association entre deux variables qualitatives. D. doit être remplacé par le test de Student si l effectif d un des deux échantillons est inférieur à 30. E. Les items A, B, C et D sont faux. 79% 38% 73% 8% 1%

QCM 1 Le test du Khi² : Réponse : A C Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/ b 37,29 66,83 13,17 53,66 5,07

QCM 2 Réponse : A Le risque d erreur statistique de première espèce (alpha) consenti pour un test de comparaison de deux pourcentages : A. est fixé a priori à 5% (0,05) en santé et en biologie. B. correspond au degré de signification (valeur de p). C. est égal à 1 moins la puissance statistique. D. est lu a posteriori sur une table du khi² après avoir calculé la valeur du test. E. Les items A, B, C et D sont faux. 96% 8% 8% 16% 1%

QCM 2 Réponse : A Le risque d erreur statistique de première espèce (alpha) consenti pour un test de comparaison de deux pourcentages : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/ b 73,84 93,66 46,10 47,56 2,03

QCM 11 Les performances diagnostiques du dosage sanguin de différents marqueurs biochimiques ont été évaluées pour le diagnostic de l infarctus du myocarde (la nécrose [mort] du muscle cardiaque par défaut d apport en oxygène). Figure 1. Performances diagnostiques du dosage sanguin de marqueurs biochimiques pour le diagnostic d infarctus du myocarde Abréviations : TnT = troponine T, Cop = copeptine, Myo = myoglobine, CKMB = fraction MB de la créatine kinase.

QCM 11 Sur la figure 1 : Réponse : A B C A. l aire située sous chaque courbe a pu être estimée à l aide de la méthode trapézoïdale. B. la sensibilité et la spécificité sont corrélées négativement pour chaque marqueur biochimique. C. l aire située sous chaque courbe quantifie la performance en termes de discrimination d un marqueur biochimique. D. le dosage combiné de la troponine T et de la copeptine (TnT+Cop) constituait la méthode pour établir le diagnostic de référence d infarctus du myocarde. E. Les items A, B, C et D sont faux. 91% 50% 85% 59% 1%

QCM 11 Sur la figure 1 : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/b 16,25 30,98 4,15 26,83 7,47

QCM 11 Sur la figure 1 : A. chaque courbe a pu être établie à l aide de la méthode trapézoïdale. Vrai B. la sensibilité et la spécificité sont corrélées négativement pour chaque marqueur biochimique. Vrai C. l aire située sous chaque courbe quantifie la performance en termes de discrimination d un marqueur biochimique. Vrai D. le dosage combiné de la troponine T et de la copeptine (TnT+Cop) constituait la méthode pour établir le diagnostic de référence d infarctus du myocarde. Faux (la méthode de référence est une variable binaire classant les sujets en M+ ou M-)

QI. En tant qu étudiant en médecine, au cours de mes stages cliniques, je dois : A. prendre l'habitude de questionner mes patients sur leur activité professionnelle au même titre que je les interroge sur leur situation familiale ou leurs antécédents B. me poser la question d'un lien possible entre l'activité professionnelle et la maladie C. me poser la question de l'impact possible de la maladie sur l'activité professionnelle afin d'envisager un éventuel problème de maintien dans l'emploi D. inscrire ces éléments dans mon observation clinique E. Les items A, B, C et D sont faux 100% 100% 98% 96% 0%

QI. En tant qu étudiant en médecine, au cours de mes stages cliniques, je dois : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/b 94 96 88 88 1,09

QI. L autopsie judiciaire : A. ne peut être faite qu à la demande de la justice B. peut être pratiquée par tout médecin C. ses résultats font partie du dossier médical du patient D. peut être complétée par des examens toxicologiques E. Les propositions A, B, C et D sont fausses Réponse : A D Défaut d enchainement avec l énoncé

Q3. Le critère de jugement principal était : A. composite B. clinique C. assigné par un comité d'adjudication indépendant D. évalué en aveugle du groupe d'étude E. identique pour les deux groupes d'étude ou binaire Réponse : A B C D E L item aborde 2 notions différentes : à éviter

Références 1. Crocker L, Algina J. Introduction to classical and modern test theory. Orlando: Harcourt Brace Jovanovitch Inc., 1986. 482 p 2. Van der Linden W, Hambleton RK. Handbook of modern item response theory. New York: Springer- Verlag, 2010. 510 p 3. Carmines EG, Zeller RA. Reliability and validity assessment. New York: Sage, 1979. 70 p 4. Andrich D. Rasch models for measurement. New York: Sage, 1988. 94 p 5. Hardouin JB. Rasch analysis: estimation and test with raschtest. Stata Journal 2007;7(1):22-44 6. Weesie J. Can Stata estimate a Rasch model? http://www.stata.com/support/faqs/statistics/raschmodel/ 43