Théorie classique des tests. Modèles de réponse à l item

Documents pareils
Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

23. Interprétation clinique des mesures de l effet traitement

Principe d un test statistique

Item 169 : Évaluation thérapeutique et niveau de preuve

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

TESTS D'HYPOTHESES Etude d'un exemple

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Représentation d une distribution

Chapitre 1 Evaluation des caractéristiques d un test diagnostique. José LABARERE

Votre guide des définitions des maladies graves de l Assurance maladies graves express

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Lois de probabilité. Anita Burgun

Introduction à l approche bootstrap

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Observation statistique

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2),

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Docteur José LABARERE

MonUPMC vue par l enseignant

Construire un QCM (un questionnaire qui ne comporte uniquement ce type de questions)

Mesure et gestion des risques d assurance

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

Statistiques Descriptives à une dimension

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction aux Statistiques et à l utilisation du logiciel R

Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

compaction ventriculaire gauche sur la fonction ventriculaire chez l adulte

Hospital Anxiety and Depression Scale (HADS)

Stage Intra Entreprise Personnalisé. Tarif : Intra-entreprise : 1200 / groupe Inter-entreprise : 200 / stagiaire

La politique européenne de la Mutualité Française en matière de dispositifs médicaux

DASES Réseau tuberculose 10 janvier 2006

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Licence professionnelle Assistant juridique

REFERENTIEL D AUTO-EVALUATION DES PRATIQUES EN ODONTOLOGIE

Biostatistiques : Petits effectifs

Revue des données probantes l utilité et les limites des différentes approches

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

LA MESURE DE PRESSION PRINCIPE DE BASE

Marche à suivre pour importer votre base de données Guide santé CV MC ) (Réservé à l usage de Clinemetrica)

La construction du nombre en petite section

LE BILAN PEDAGOGIQUE ET FINANCIER

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Critères de Choix d une Echelle de Qualité De Vie. Etudes cliniques dans l autisme. Introduction

Comparaison de fonctions Développements limités. Chapitre 10

BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

MASTER PROFESSIONNEL (2 ème année)

La Dysplasie Ventriculaire Droite Arythmogène

Communiqué de presse Nos très chères banques

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Les formes cliniques. Maxime Breban

PROGRAMME (Susceptible de modifications)

GUIDE DU TUTEUR ACCUEIL D UN ETUDIANT EN BTS MUC. Management des Unités Commerciales. Stage de 1ère année

Le Test d effort. A partir d un certain âge il est conseillé de faire un test tous les 3 ou quatre ans.

SECTION II RELATIVE AU PRÉLEVEUR

Licence professionnelle Gestion de l'économie sociale et solidaire et entrepreneuriat

Application des courbes ROC à l analyse des facteurs pronostiques binaires

Licence professionnelle Systèmes informatiques et logiciels spécialité développement d'applications Internet/Intranet

Licence professionnelle Systèmes Informatiques (SIL) spécialité multimédia

Améliorer les performances du site par l'utilisation de techniques de Web Mining

GYMNASTIQUE ACROBATIQUE

REGLEMENT D ETUDES PREMIERE ANNEE COMMUNE AUX ETUDES DE SANTE

Chapitre 2 Le problème de l unicité des solutions

Analyse de la variance Comparaison de plusieurs moyennes

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Sang, plasma, plaquettes...

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Nouvelles caméras CZT cardiaques: une seconde vie pour le thallium 201?

DIPLÔME INTERUNIVERSITAIRE D ECHOGRAPHIE. Examen du Tronc Commun sous forme de QCM. Janvier h à 16 h

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

UN NOUVEAU MODÈLE ÉCONOMIQUE. pour développer et pérenniser les centres de santé

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

MORPHO CRIMINAL JUSTICE SUITE

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Séminaires Paris le 14 et 15 mars 2007 Grenoble le 21 et 22 Mars 2007

Schéma National de Formation des Sapeurs-Pompiers

FICHE 9 TECHNIQUE DU CHANGEMENT LE PLUS SIGNIFICATIF

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

TABLE DES MATIÈRES PREMIÈRE PARTIE L ENGAGEMENT D UNE PROTECTION CLASSIQUE DE L INDIVIDU À TRAVERS L ACTION EN PROTECTION DIPLOMATIQUE...

Croissance et vieillissement cellulaires Docteur COSSON Pierre Nb réponses = 81 sur 87. Résultats des questions prédéfinies

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Enquête d'insertion. Master 2 - Gestion d'actifs Asset Management 222

DE L ÉVALUATION DE LA COMPRÉHENSION DE L ÉCRIT

Invalidité et incapacité permanente dans la fonction publique. Direction générale de l administration et de la fonction publique

BACCALAURÉAT PROFESSIONNEL SUJET

Lecture critique et pratique de la médecine

MIEUX TRAVAILLER AVEC L ÂGE

CAP ESTHETIQUE COSMETIQUE PARFUMERIE. Secteur d activité : ENTREPRISES DE SOINS ESTHETIQUES

Règlement spécifique des examens des Diplômes Européens de Compétences Professionnelles (D.E.C.P.)

Correction du baccalauréat STMG Polynésie 17 juin 2014

Mobilité de l enseignement supérieur

UE 4 Comptabilité et audit 2 Identification du candidat (prénom, nom) :

Transcription:

Théorie classique des tests Modèles de réponse à l item 1

Plan Contexte Exemple Cohérence interne d un test Modèles de réponse à l item Applications 2

Théorie classique des tests Psychométrie Niveau de mesure Fiabilité/reproductibilité Validité Sensibilité au changement Acceptabilité Domaines d application multiples 3

Théorie classique des tests Niveau de mesure d un test Ordinal Intervalle Cardinal 4

Fiabilité / reproductibilité / précision / fidélité Propriété d un test à produire le même résultat tant que les conditions de la mesure ne changent pas. Défaut de fiabilité : Erreurs aléatoires (dans les deux sens) biais Imprécision de la mesure Propriété purement métrologique Modalités : intra-juge (test-retest) ou interjuge 5

Validité Propriété d un test à mesurer ce qu il est censé mesurer et à varier avec ce mesure. Défaut de validité : erreur systématique (biais) Propriété métrologique ET conceptuelle Modalités : Méthode de référence = validité sur critère Sinon : Validité de contenu Validité de construction 6

Validité de contenu Adéquation du test au domaine évalué Etape conceptuelle : définition et formalisation des concepts à mesurer Etape qualitative Etape de génération d items Recours aux experts 7

Validité de construction Propriété du test à mesurer le concept dans sa diversité et sa cohérence Validité de structure interne : cohérence interne (uni vs multi-dimensionnalité) Validité de construction externe : association entre les résultats du test et d autres méthodes (proximité : validité convergente et distance : validité divergente / matrice multitrait-multiméthode) Validité longitudinale : sensibilité au changement 8

Plan Contexte / problématique Exemple Cohérence interne d un test Modèles de réponse à l item Applications 9

Exemple PACES : UE 4 (janvier 2013) Effectif : 1463 étudiants Biostatistiques 2 évaluation des performances d un test diagnostique tests statistiques d hypothèse 7 QCM (QCM 14 à 20) 1 = réponse correcte 0 = réponse fausse ou non renseignée 10

Médiane (25-75 ème percentile) : 4 (2-6) Moyenne (écart-type) : 3.8 (2.2) Biostatistique 2 (%) 20 15 13.06 16.27 15.04 13.19 11.76 11.48 11.48 10 7.724 5 0 0 1 2 3 4 5 6 7 Note biostatistique 2 (étendue, 0 à 7) 11

Réussite au QCM (%) Note Effectif QCM14 QCM15 QCM16 QCM17 QCM18 QCM19 QCM20 0 113 0 0 0 0 0 0 0 1 191 22 9 6 12 19 27 5 2 172 30 16 17 32 46 45 13 3 168 43 30 30 50 64 63 20 4 168 55 47 49 71 71 76 31 5 238 67 48 68 92 84 92 49 6 220 87 66 85 96 90 99 76 7 193 100 100 100 100 100 100 100 0-7 1463 55 43 49 62 64 68 41 12

Plan Exemple Cohérence interne d un test Modèles de réponse à l item Format de réponse / barème 13

Cohérence interne / unidimensionnalité d un test Rappel Var(QCM 1 + QCM 2 ) = Var(QCM 1 ) + Var(QCM 2 ) + 2 Cov(QCM 1, QCM 2 ) Coefficient alpha de Cronbach α = k k ( 1) var ( QCM1 +... + QCM k ) [ var( QCM1) +... + var( QCM k )] var( QCM +... + QCM ) 1 k Étendue : 0 (QCM indépendants) > 070-0,90 (cohérence interne, test unidimensionnel) NB : dépend du nombre de QCM 14

item-note Corrélation item-autres items alpha QCM 14 0,60 0,43 0,75 QCM 15 0,59 0,41 0,76 QCM 16 0,68 0,53 0,73 QCM 17 0,72 0,58 0,72 QCM 18 0,63 0,47 0,75 QCM 19 0,66 0,52 0,74 QCM 20 0,65 0,49 0,74 QCM 14-20 - - 0,77 15

Plan Exemple Cohérence interne d un test Modèles de réponse à l item 1 paramètre : difficulté (Rasch) 2 paramètres : difficulté et discrimination (Birnbaum) Applications 16

Modèles de réponse à l item Réponses des étudiants aux QCM dépendent des : Caractéristiques des étudiants trait latent (θ): aptitude, compétence Caractéristiques des QCM difficulté (δ) propriété de discrimination (α) 17

Modèle à 1 paramètre (Rasch) P j ( θ) = ( θ ) 1+ e 1 δ j Probabilité de réponse correcte au QCM j pour un étudiant possédant le niveau de compétence θ Niveau de compétence θ (trait latent) Difficulté du QCM j 18

Probabilité de réussite 1.9.8.7.6.5.4.3.2.1 0 Modèle à 1 paramètre (Rasch) δ QCM19 = - 1,11 δ QCM20 = 0,56-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 19

Modèle à 1 paramètre (Rasch) QCM Réussite (%) Difficulté (δ) 14 55-0,29 15 43 0,43 16 49 0,06 17 62-0,72 18 64-0,85 19 68-1,11 20 41 0,56 20

Modèle à 2 paramètres (Birnbaum) Probabilité de réponse correcte au QCM j pour un étudiant possédant le niveau de compétence θ P j ( θ) = α ( θ ) 1+ e 1 j δ j Paramètre de discrimination du QCM j Niveau de compétence θ (trait latent) Difficulté du QCM j 21

Modèle à 2 paramètres (Birnbaum) 1.9.8.7.6.5.4.3.2.1 0 α QCM15 = 0,98 α QCM20 = 1,44-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 22

Réussite au QCM (%) Note Effectif QCM14 QCM15 QCM16 QCM17 QCM18 QCM19 QCM20 0 113 0 0 0 0 0 0 0 1 191 22 9 6 12 19 27 5 2 172 30 16 17 32 46 45 13 3 168 43 30 30 50 64 63 20 4 168 55 47 49 71 71 76 31 5 238 67 48 68 92 84 92 49 6 220 87 66 85 96 90 99 76 7 193 100 100 100 100 100 100 100 0-7 1463 55 43 49 62 64 68 41 Discrimination 1,25 0,98 1,54 2,05 1,23 1,61 1,44 23

7 6 Modèle à 2 paramètres (Birnbaum) Note (étendue, 0 à 7) 5 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (Compétence [théta]) 24

Médiane (25-75 ème percentile) : 2 (1-3) 6 Moyenne (écart-type) : 2.2 (1.4) Note à l'épreuve (étendue, 0 à 6) 5 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (compétence [Théta]) 25

.8 QCM 17 Courbe d information des QCM Information du QCM.6.4.2 QCM 15 0-6 -4-2 0 2 4 6 Trait latent (Compétence [théta]) qcm_14 qcm_16 qcm_18 qcm_20 qcm_15 qcm_17 qcm_19 26

Courbe d information de l épreuve de biostat. 2 5 Information de l'épreuve 4 3 2 1 0-6 -4-2 0 2 4 6 Trait latent (compétence [théta]) 27

Courbe d information de l épreuve 4 Information de l'épreuve 3 2 1 0-8 -6-4 -2 0 2 4 6 8 Trait latent (compétence [théta]) 28

Plan Exemple Cohérence interne d un test Modèles de réponse à l item Applications 29

QCM 1 Le test du Khi² : Réponse : A C A. sert à tester si deux pourcentages mesurés sur deux échantillons indépendants diffèrent. B. doit être remplacé par la probabilité exacte de Fisher en cas d effectif observé inférieur à 5 dans une des cellules du tableau de contingence. C. sert à tester s il existe une association entre deux variables qualitatives. D. doit être remplacé par le test de Student si l effectif d un des deux échantillons est inférieur à 30. E. Les items A, B, C et D sont faux. 79% 38% 73% 8% 1%

QCM 1 Le test du Khi² : Réponse : A C Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/ b 37,29 66,83 13,17 53,66 5,07

QCM 2 Réponse : A Le risque d erreur statistique de première espèce (alpha) consenti pour un test de comparaison de deux pourcentages : A. est fixé a priori à 5% (0,05) en santé et en biologie. B. correspond au degré de signification (valeur de p). C. est égal à 1 moins la puissance statistique. D. est lu a posteriori sur une table du khi² après avoir calculé la valeur du test. E. Les items A, B, C et D sont faux. 96% 8% 8% 16% 1%

QCM 2 Réponse : A Le risque d erreur statistique de première espèce (alpha) consenti pour un test de comparaison de deux pourcentages : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/ b 73,84 93,66 46,10 47,56 2,03

QCM 11 Les performances diagnostiques du dosage sanguin de différents marqueurs biochimiques ont été évaluées pour le diagnostic de l infarctus du myocarde (la nécrose [mort] du muscle cardiaque par défaut d apport en oxygène). Figure 1. Performances diagnostiques du dosage sanguin de marqueurs biochimiques pour le diagnostic d infarctus du myocarde Abréviations : TnT = troponine T, Cop = copeptine, Myo = myoglobine, CKMB = fraction MB de la créatine kinase.

QCM 11 Sur la figure 1 : Réponse : A B C A. l aire située sous chaque courbe a pu être estimée à l aide de la méthode trapézoïdale. B. la sensibilité et la spécificité sont corrélées négativement pour chaque marqueur biochimique. C. l aire située sous chaque courbe quantifie la performance en termes de discrimination d un marqueur biochimique. D. le dosage combiné de la troponine T et de la copeptine (TnT+Cop) constituait la méthode pour établir le diagnostic de référence d infarctus du myocarde. E. Les items A, B, C et D sont faux. 91% 50% 85% 59% 1%

QCM 11 Sur la figure 1 : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/b 16,25 30,98 4,15 26,83 7,47

QCM 11 Sur la figure 1 : A. chaque courbe a pu être établie à l aide de la méthode trapézoïdale. Vrai B. la sensibilité et la spécificité sont corrélées négativement pour chaque marqueur biochimique. Vrai C. l aire située sous chaque courbe quantifie la performance en termes de discrimination d un marqueur biochimique. Vrai D. le dosage combiné de la troponine T et de la copeptine (TnT+Cop) constituait la méthode pour établir le diagnostic de référence d infarctus du myocarde. Faux (la méthode de référence est une variable binaire classant les sujets en M+ ou M-)

QI. En tant qu étudiant en médecine, au cours de mes stages cliniques, je dois : A. prendre l'habitude de questionner mes patients sur leur activité professionnelle au même titre que je les interroge sur leur situation familiale ou leurs antécédents B. me poser la question d'un lien possible entre l'activité professionnelle et la maladie C. me poser la question de l'impact possible de la maladie sur l'activité professionnelle afin d'envisager un éventuel problème de maintien dans l'emploi D. inscrire ces éléments dans mon observation clinique E. Les items A, B, C et D sont faux 100% 100% 98% 96% 0%

QI. En tant qu étudiant en médecine, au cours de mes stages cliniques, je dois : Taux de réussite Taux de réussite du 1/3 des meilleurs étudiants a Taux de réussite du 1/3 des derniers étudiants b a-b a/b 94 96 88 88 1,09

QI. L autopsie judiciaire : A. ne peut être faite qu à la demande de la justice B. peut être pratiquée par tout médecin C. ses résultats font partie du dossier médical du patient D. peut être complétée par des examens toxicologiques E. Les propositions A, B, C et D sont fausses Réponse : A D Défaut d enchainement avec l énoncé

Q3. Le critère de jugement principal était : A. composite B. clinique C. assigné par un comité d'adjudication indépendant D. évalué en aveugle du groupe d'étude E. identique pour les deux groupes d'étude ou binaire Réponse : A B C D E L item aborde 2 notions différentes : à éviter

42

Références 1. Crocker L, Algina J. Introduction to classical and modern test theory. Orlando: Harcourt Brace Jovanovitch Inc., 1986. 482 p 2. Van der Linden W, Hambleton RK. Handbook of modern item response theory. New York: Springer- Verlag, 2010. 510 p 3. Carmines EG, Zeller RA. Reliability and validity assessment. New York: Sage, 1979. 70 p 4. Andrich D. Rasch models for measurement. New York: Sage, 1988. 94 p 5. Hardouin JB. Rasch analysis: estimation and test with raschtest. Stata Journal 2007;7(1):22-44 6. Weesie J. Can Stata estimate a Rasch model? http://www.stata.com/support/faqs/statistics/raschmodel/ 43