Méthodes psychométriques utilisées dans le cadre des évaluations des élèves



Documents pareils
MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Les jeunes économistes

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Mesure avec une règle

Remboursement d un emprunt par annuités constantes

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Dirigeant de SAS : Laisser le choix du statut social

TD 1. Statistiques à une variable.

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Editions ENI. Project Collection Référence Bureautique. Extrait

Montage émetteur commun

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Exercices d Électrocinétique

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

STATISTIQUE AVEC EXCEL

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Prêt de groupe et sanction sociale Group lending and social fine

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

santé Les arrêts de travail des séniors en emploi

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Le Prêt Efficience Fioul

Système solaire combiné Estimation des besoins énergétiques

Terminal numérique TM 13 raccordé aux installations Integral 33

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Grandeur physique, chiffres significatifs

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

La Quantification du Risque Opérationnel des Institutions Bancaires

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

hal , version 1-14 Aug 2009

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Généralités sur les fonctions 1ES

Professionnel de santé équipé de Médiclick!

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Paquets. Paquets nationaux 1. Paquets internationaux 11

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

Prise en compte des politiques de transport dans le choix des fournisseurs

Stéganographie Adaptative par Oracle (ASO)

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

1. Les enjeux de la prévision du risque de défaut de paiement

Pour plus d'informations, veuillez nous contacter au ou à

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

INTERNET. Initiation à

L ABC du traitement cognitivo-comportemental de l insomnie primaire

Interface OneNote 2013

Page 5 TABLE DES MATIÈRES

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Pro2030 GUIDE D UTILISATION. Français

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Pratique de la statistique avec SPSS

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Projet de fin d études

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

THESE. Khalid LEKOUCH

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

22 environnement technico-professionnel

TABLEAU DE BORD DE L ÉVOLUTION DES EFFECTIFS D ÉLÈVES DE L ENSEIGNEMENT PRIMAIRE PUBLIC À UN NIVEAU LOCAL. Choisir une commune

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Étranglement du crédit, prêts bancaires et politique monétaire : un modèle d intermédiation financière à projets hétérogènes

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Driss HARRIZI. MOTS CLES : contrôle de gestion - système d'éducation et de formation système d information - établissement public.

MINISTERE DE L ECONOMIE ET DES FINANCES

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

ACTE DE PRÊT HYPOTHÉCAIRE

Transcription:

MESURE DES COMPÉTENCES Méthodes psychométrques utlsées dans le cadre des évaluatons des élèves Therry Rocher MENESR-DEPP, bureau de l évaluaton des élèves Cet artcle présente les méthodes psychométrques qu sont généralement employées dans les programmes d évaluatons standardsées des compétences des élèves, au nveau natonal et au nveau nternatonal. Nous proposons un panorama de ces méthodes, de façon pédagogque, mas également technque. Leurs fondements théorques ans que leurs hypothèses sous-acentes sont présentés. Nous montrons leur ntérêt d un pont de vue pratque, mas également leurs lmtes. Enfn, une descrpton des analyses psychométrques réalsées dans le cadre d une évaluaton du cycle Cedre est proposée. Les programmes d évaluatons standardsées réalsés à la DEPP ont pour obectf de mesurer le nveau des acqus des élèves, à dfférents moments de la scolarté. Ces évaluatons s ntéressent aux élèves comme éléments d une populaton ; elles n ont pas vocaton à rendre compte de leurs résultats au nveau ndvduel. Elles se stuent donc à un nveau global et dovent permettre d apprécer les résultats du système éducatf et leur évoluton dans le temps [Salnes et Vrgnaud, 2001 ; Bottan et Vrgnaud, 2005 ; Trosselle et Rocher, dans ce numéro, p. 15]. D un pont de vue méthodologque, elles reposent sur des échantllons représentatfs [Garca, Le Cam et Rocher, dans ce numéro, p. 101] et suvent des procédures standardsées afn de lmter l erreur de mesure à tous les nveaux (passaton, correcton, etc.). Ces évaluatons se dstnguent d autres enquêtes notamment à travers l emplo d un ensemble de méthodes relevant du domane de la psychométre, c est-à-dre de la mesure de dmensons psychologques, et qu a donné nassance au domane de l édumétre dans le champ de l éducaton. Ces méthodes restent relatvement méconnues 37

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 en France. Largement employées dans les évaluatons natonales ou nternatonales, elles sont peu dffusées, que ce sot dans le monde académque, le monde éducatf ou encore celu de la statstque publque. Cet artcle a pour obectf de dresser un panorama des méthodes psychométrques employées dans les programmes d évaluatons standardsées et de présenter de manère pédagogque leurs fondements théorques et leurs aspects pratques. Nous présentons tout d abord le cadre conceptuel de la mesure des compétences des élèves, qu consste à consdérer que les performances observées aux tems d une évaluaton sont les manfestatons d une varable latente, non observable drectement. Après avor ntrodut quelques éléments descrptfs, nous présentons les modélsatons habtuellement employées, à savor les modèles de réponse à l tem. Nous montrons l ntérêt de ces modèles, à la fos sur le plan théorque et sur le plan pratque, et nous étudons les hypothèses fondamentales sur lesquelles ls reposent. Enfn, nous décrvons le déroulement des analyses psychométrques qu sont réalsées dans le cadre d une évaluaton Cedre (cycle des évaluatons dscplnares réalsées sur échantllons). CADRE GÉNÉRAL Mesurer une varable latente Les programmes d évaluaton des acqus des élèves, tels que PISA ou Cedre, se stuent au carrefour de deux tradtons méthodologques : celle de la psychométre, pour ce qu relève de la mesure de dmensons psychologques, en l occurrence des acqus cogntfs ; celle des enquêtes statstques pour ce qu a trat aux procédures de recuel des données. C est la nature de la varable mesurée qu dstngue prncpalement les programmes d évaluaton d autres enquêtes statstques. En effet, l est convenu que les compétences des élèves ne s observent pas drectement. Seules les manfestatons de ces compétences sont observables, par exemple à travers les résultats obtenus à un test standardsé. L exstence supposée de la compétence vsée est alors matéralsée dans la réusste au test. D une certane manère, on pourrat avancer que c est l opératon de mesure elle-même qu défnt concrètement l obet de la mesure, d où le célèbre ped de nez d Alfred Bnet, en réponse à la queston «qu est-ce que l ntellgence?» : «c est ce que mesure mon test». Ans, le terme de «construt» est souvent employé pour désgner l obet de la mesure. Ben entendu, toute statstque peut être consdérée comme un construt, pas seulement celles ayant trat à l évaluaton. Cependant, des degrés sont sans doute à dstnguer, en len avec le caractère tangble de la varable vsée. Par exemple, la réusste scolare peut-être appréhendée par la varable «réusste au baccalauréat» qu est mesurable drectement, car elle est sanctonnée par un dplôme, donnant leu à un acte admnstratf que l on peut comptablser. Le «décrochage scolare», quant à lu, est un concept qu dot reposer sur une défnton précse, chose parm un ensemble de défntons possbles, ce chox fasant acte de constructon. Une fos la défnton étable, le calcul repose le plus souvent sur l observaton de varables admnstratves, telles que la non-rénscrpton dans un établssement scolare. En comparason, la mesure des compétences se présente comme une démarche 38

MESURE DES COMPÉTENCES de constructon assez partculère. L dée sous-acente de la psychométre consste à postuler qu un test mesure des performances qu sont la manfestaton d un nveau de compétence, non observable drectement. Ans, l obet de la mesure est une varable latente. Notons que cette approche n est pas propre au domane de la cognton. On retrouve ce type de varable en économe avec par exemple la noton de propenson, en scences poltques avec la noton d opnon ou encore en médecne avec la noton de qualté de ve [vor par exemple : Falssard, 2008]. Envsager les résultats à une évaluaton comme résultant d un processus de mesure d une varable latente ne s mpose pas de lu-même. En effet, l est tout à fat possble de consdérer unquement le nombre de ponts obtenus à un test et de ne pas donner plus de sgnfcatons à cette statstque qu un score observé à un test. Mas cette démarche est très fruste d un pont de vue théorque et trouve vte des lmtes en pratque, notamment en termes de comparablté entre dfférentes populatons ou entre dfférentes épreuves. Le cadre conceptuel de la mesure d une varable latente est plus adapté à la problématque de l évaluaton des acqus des élèves, comme nous le verrons dans cet artcle. Un exemple ntroductf Avant d entrer dans des consdératons plus technques, nous présentons tout d abord un exemple d applcaton qu a pour seul obectf d llustrer de façon pédagogque les grandes notons de psychométre. Cet exemple porte sur la talle des ndvdus. La stuaton est la suvante : nous n avons aucun moyen de mesurer drectement la talle des ndvdus d un échantllon donné. Mas nous avons la possblté de proposer un questonnare, composé de questons appelant une réponse bnare (ou/non) et n évoquant pas drectement la talle. Nous nous plaçons ans artfcellement dans le cas de la mesure d une varable latente que nous cherchons à approcher à l ade d un questonnare, sot un dspostf de mesure apparemment comparable à celu d une évaluaton standardsée. Ce cas d école est depus longtemps utlsé aux Pays-Bas dans les cours de psychométre : Glas [2008] en donne quelques llustratons. Dans cet esprt, nous avons de notre côté élaboré un questonnare de 24 tems, nécesstant smplement d ndquer l accord ou le désaccord avec une sére d affrmatons. Voc un extrat de ce questonnare : 1. Je dos souvent fare attenton à ne pas me cogner la tête 2. Pour les photos de groupe, on me demande souvent d être au premer rang 3. On me demande souvent s e fas du basket-ball 4. Dans la plupart des votures, e sus mal asss(e) 5. Je dos souvent fare fare les ourlets quand achète un pantalon 6. Je dos souvent me basser pour fare la bse 7. Au supermarché, e dos souvent demander de l ade pour attraper des produts en haut des gondoles 8. À deux sous un paraplue, c est souvent mo qu le tens Ce questonnare a été proposé va Internet à un échantllon composé de 276 adultes dans un réseau à la fos professonnel et personnel. L échantllon est plutôt eune (55 % sont âgés de mons de 30 ans) et fémnn (65 % de femmes), mas la queston de la représentatvté n est pas mportante au regard de notre propos qu concerne les problématques de mesure. 39

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 Une noton fondamentale en psychométre est celle de la valdté : le test mesure-t-l ben ce qu l est censé mesurer? Dans le cadre de notre exemple, nous pouvons approcher la valdté assez drectement pusque la dernère queston demande aux enquêtés d ndquer leur talle 1. Nous avons calculé un score de façon très smple à partr des 24 questons en attrbuant 1 pont pour chacune d entre elles, en foncton de la modalté assocée à une talle plus élevée : par exemple, les ndvdus obtennent un pont s ls répondent ou à la premère queston, 0 snon ; et nversement, pour la deuxème queston. Il est alors possble d analyser la relaton entre ce score et la talle déclarée : le coeffcent de corrélaton lnéare de 0,85 ndque un len postf et fort entre le score construt et la talle. De ce pont de vue, nous pouvons conclure à la valdté de notre questonnare, même s l ampleur de la corrélaton observée peut être largement dscutée. En matère d évaluaton standardsée, nous ne dsposons évdemment pas d une varable de référence, telle que la talle réelle, pusque précsément les compétences sont nobservables drectement. La queston de la valdté d une évaluaton devent alors une queston complexe. La lttérature abonde de références dans ce domane [vor par exemple Newton et Shaw, 2014 ; en franças, Laveault et Grégore, 2002]. En résumé, dfférents types de valdté sont généralement dstngués : valdté de contenu, de construt, crtérée, etc. Dans le cas de Cedre par exemple, la valdté est prncpalement assurée à travers une valdté dte de contenu : un groupe de concepteurs composé d ensegnants, d nspecteurs, de formateurs est garant, sur la base de leur propre expertse, de l adéquaton du contenu de l évaluaton avec les programmes scolares, les nstructons offcelles et les pratques de classes. Ans, un nveau de performance observé à l évaluaton de mathématques est censé tradure un nveau de compétence, au regard des attendus en mathématques. Au-delà de la valdté, une queston centrale de psychométre est celle de la dmensonnalté d un ensemble d tems. Nous calculons un score, mas cela n a de sens que sous l hypothèse que les tems mesurent la même dmenson, que le test est undmensonnel. Cependant, l est clar que les tems présentés c ne mesurent pas purement la dmenson talle, mas nterrogent chacun une multplcté de dmensons. L dée est qu un facteur commun prépondérant rele ces tems, facteur lé à la talle. Ans, la maorté des évaluatons rend compte des résultats à travers un score global, selon un cadre undmensonnel. L exemple nous permet également d llustrer la noton de fonctonnements dfférentels d tems ou FDI, qu est lée à la queston de la dmensonnalté. Un FDI apparaît entre des groupes d ndvdus dès lors qu à nveau égal sur la varable latente mesurée, la probablté de réussr un tem donné n est pas la même selon le groupe consdéré. Cela sgnfe qu une autre varable, lée au groupe, est ntervenue, au-delà de la dmenson vsée. Un fonctonnement dfférentel se tradut souvent par une dfférence de réponse entre les groupes plus mportante à l tem consdéré qu en moyenne sur l ensemble des tems. Par exemple, à la queston «À deux sous un paraplue, c est souvent mo qu le tens», 89 % des hommes répondent ou contre 1. Il ne s agt donc pas de la talle exacte mas de la talle déclarée, ce qu peut ntrodure un décalage, par le eu des arronds que les personnes font naturellement concernant leur talle : par exemple, on observe certanes concentratons, autour de 165 cm, mas peu de valeurs telles que 163 cm... Nous supposerons cependant c que la talle est déclarée sans erreur. 40

MESURE DES COMPÉTENCES 52 % des femmes, sot un écart de 37 ponts, alors qu en moyenne sur l ensemble des tems, la dfférence entre les hommes et les femmes est de 20 ponts. Cet écart de 20 ponts renvoe à ce qu on appelle l mpact, c est-à-dre la dfférence entre les deux groupes sur la varable latente, en l occurrence la dfférence de talle entre hommes et femmes. Un écart addtonnel renvoe à un fonctonnement dfférentel. À talle égale, les hommes dsent tenr le paraplue plus souvent que les femmes. Une autre dmenson que la talle, lée au genre, a oué dans la réponse. La queston est alors dte «basée» selon le genre 2. L étude des FDI est fondamentale en matère de comparason temporelle ou nternatonale des acqus des élèves. Nous revenons plus en détal sur cette noton par la sute. De manère pratque, un concept mportant est celu de la fdélté du test. Le score calculé comporte une part d erreur de mesure. En effet, on peut consdérer que les tems d un test ont été échantllonnés dans l «unvers» possble des tems censés mesurer la dmenson vsée par le test. Dès lors, un autre ensemble d tems n aurat pas condut exactement aux mêmes scores. Le test est dt fdèle lorsque l erreur de mesure est rédute. Le coeffcent α de Cronbach, présenté plus lon, est un ndcateur de fdélté du test. En l occurrence, pour le questonnare sur la talle, l a pour valeur 0,80, ce qu est satsfasant. Au-delà de cet ndce global, l est ntéressant d étuder les tems eux-mêmes. Les taux de réponse observés aux dfférentes modaltés proposées c, ou ou non sont ben entendu des ndcateurs essentels. Par exemple, dans le cas d une évaluaton, les tems peuvent être comparés en termes de dffculté, qu est apprécée par le pourcentage de bonnes réponses. Une autre noton mportante est celle de pouvor dscrmnant de chaque tem, qu renvoe au len avec les résultats obtenus à l ensemble du test. En effet, s l tem mesure ben la dmenson qu l est censé mesurer, alors l dscrmnera ben les personnes selon cette dmenson. Une manère de vérfer qu l mesure ben la dmenson supposée est d examner les corrélatons de l tem avec d autres tems censés mesurer la même dmenson. Concernant le questonnare sur la talle, les corrélatons tems-test, c est-à-dre les corrélatons entre la réusste à un tem donné et le score aux autres tems, sont assez élevées, à l excepton d un tem dont la corrélaton tem-test est nulle. Il s agt d un tem reprs de l artcle de Glas [2008] : «Dans un lt, a souvent frod aux peds.» Utlsé aux Pays-Bas, cet tem dot donc être dscrmnant selon la talle des Néerlandas, mas ce n est pas le cas sur notre échantllon franças. Nous supposons qu l s agt d une dfférence culturelle lée aux habtudes de border les draps ou la couette, forte en France et absente aux Pays-Bas où le problème d avor frod aux peds la nut se pose sans doute pour les personnes de grande talle. Ans, cet tem ne mesure pas la dmenson talle en France, mas plutôt une autre dmenson décorrélée, telle que la frlosté... Pour fnr avec le cas d école, nous abordons la noton d échelle. Avant tout, notons que le questonnare ne nous permet pas de connaître la talle des ndvdus. Il nous permet smplement de classer avec plus ou mons de fablté les ndvdus 2. Une autre queston présente un fonctonnement dfférentel du même ordre : «Au supermarché, e dos souvent demander de l ade pour attraper des produts en haut des gondoles». Aucun homme ne répond ou à cette queston, alors qu un ters des femmes répond postvement, en len avec leur talle... Nous lassons c au lecteur le son de formuler sa propre nterprétaton. 41

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 selon leur talle, et d ntrodure une métrque. Ans, le score smple que nous avons calculé, comprs entre 0 et 24, de moyenne 11,0 et d écart-type 4,3, est une échelle de mesure, sur laquelle l est possble d établr un classement des ndvdus ans que des dstances entre eux. Il s agt d une échelle dte d ntervalle, qu autorse la comparason des ntervalles de scores entre ndvdus. Autrement dt, les rapports entre ntervalles ne sont pas modfés par transformaton lnéare 3. L orgne et l unté peuvent donc être transformées, et ce de manère arbtrare. Dans notre exemple, nous pouvons rendre compte des résultats sur l échelle des scores observés, de moyenne 11,0 et d écart-type 4,3, mas également sur une échelle standardsée, de moyenne 0 et d écart-type 1, ou de moyenne 250 et d écart-type 50 comme dans Cedre, ou encore de moyenne 500 et d écart-type 100 comme dans PISA. Autrement dt, les valeurs elles-mêmes n ont pas de sgnfcatons, au-delà du classement et de la dstance entre ndvdus. APPROCHE CLASSIQUE Dans un premer temps, nous posons quelques notatons et nous présentons les prncpales statstques descrptves utlsées pour décrre un test, ssues de la «théore classque des tests» que nous évoquons rapdement. Réusste et score On note n le nombre d élèves ayant passé une évaluaton composée de J tems. On note Y la réponse de l élève ( = 1,..., n ) à l tem ( = 1,..., J ). Dans notre cas, les tems sont dchotomques, c est-à-dre qu ls ne prennent que deux modaltés (la réusste ou l échec) : Y ìï 1 s l'élève réusst l'tem = ï í ïï 0 s l'élève échoue à l'tem î (1) Le taux de réusste à l tem est la proporton d élèves ayant réuss l tem. Il est noté p : 1 n p = Y å (2) n = 1 Le taux de réusste d un tem renvoe à son nveau de dffculté. C est certanement la caractérstque la plus mportante, qu permet de construre un test de nveau adapté à l obectf de l évaluaton, en s assurant que les dfférents nveaux de dffculté sont balayés. 3. C est le cas par exemple des échelles de température. S l fat 20 C à Pars, 30 C à Grenoble et 40 C à Rome, l écart de température entre Rome et Pars est deux fos plus grand que celu entre Grenoble et Pars. C est également vra en Fahrenhet, après transformaton lnéare. En revanche, on ne peut pas dre qu l fat deux fos plus chaud à Rome qu à Pars, cela dépend de l échelle utlsée. Seules les échelles dtes de rapport (pods, talle, revenu, etc.) permettent des comparasons de rapports. 42

MESURE DES COMPÉTENCES Le score observé à l évaluaton pour l élève, noté S, correspond au nombre d tems réusss par l ndvdu : S J = åy = 1 La théore classque des tests a précsément pour obet d étude le score S obtenu par un élève à un test. Elle postule notamment que ce score observé résulte de la somme d un score «vra» nobservé et d une erreur de mesure. Un certan nombre d hypothèses portent alors sur le terme d erreur [pour plus d nformatons, vor par exemple Laveault et Grégore, 2002]. (3) Fdélté Dans le cadre de la théore classque des tests, la fdélté (relablty) est défne comme la corrélaton entre le score observé et le score vra : le test est fdèle, lorsque l erreur de mesure est rédute. Une manère d estmer cette erreur de mesure consste par exemple à calculer les corrélatons entre les dfférents sous-scores possbles : plus ces corrélatons sont élevées, plus le test est dt fdèle 4. Le coeffcent a de Cronbach est un ndce destné à mesurer la fdélté de l épreuve. Il est comprs entre 0 et 1. Sa verson «standardsée» s écrt : Jr a = 1 + ( J - 1) r où r est la moyenne des corrélatons nter-tems. De ce pont de vue, cet ndcateur rensegne sur la consstance nterne du test. En pratque, une valeur supéreure à 0,8 témogne d une bonne fdélté 5. (4) Indces de dscrmnaton Des ndces mportants concernent le pouvor dscrmnant des tems. Nous présentons c l ndce «r-bs pont» ou coeffcent pont-bséral qu est le coeffcent de corrélaton lnéare entre la varable ndcatrce de réusste à l tem Y et le score S. Appelé également «corrélaton tem-test», l ndque dans quelle mesure l tem s nscrt dans la dmenson générale. Une autre manère de l envsager consste à le formuler en foncton de la dfférence de performance constatée entre les élèves qu réussssent l tem et ceux qu échouent. En effet, on peut montrer que : S - S r ( ) corr( Y, S) p (1 p ) ( 1) ( 0) = = - bs-pont ss où S( 1) est le score moyen sur l ensemble de l évaluaton des élèves ayant réuss l tem, S celu des élèves ayant échoué à l'tem et s ( 0) S est l écart-type des scores. (5) 4. Notons au passage que la nassance des analyses factorelles est en len avec ce suet : Charles Spearman cherchat précsément à dégager un facteur général à partr de l'analyse des corrélatons entre des scores obtenus à dfférents tests. 5. La lttérature ndque plutôt un seul de 0,70 [Peterson, 1994]. Cependant, comme le montre la formule c-dessus, le coeffcent a est lé au nombre d tems, qu est mportant dans les évaluatons condutes par la DEPP afn de couvrr les nombreux éléments des programmes scolares. Des facteurs de correcton exstent néanmons et permettent de comparer des tests de longueurs dfférentes. 43

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 C est donc ben un ndce de dscrmnaton, entre les élèves qu réussssent et ceux qu échouent à l tem. En pratque, on préfère s appuyer sur les r bs pont corrgés, c est à dre calculés par rapport au score à l évaluaton prvée de l tem consdéré. Une valeur nféreure à 0,2 ndque un tem peu dscrmnant [Laveault et Grégore, 2002]. MODÈLES DE RÉPONSE À L ITEM (MRI) Dans la pratque, l approche classque comporte certanes lmtes. En se concentrant sur l analyse du score observé, c est-à-dre du nombre de bonnes réponses aux tems d un test donné, les résultats dépendent de l ensemble des tems consdérés. L approche classque permet donc dffclement de dstnguer ce qu relève de la dffculté du test de ce qu relève du nveau de compétence des élèves. Le recours à une modélsaton plus adaptée, qu se stue au nveau des tems eux-mêmes et non au nveau du score agrégé, est apparu nécessare. En partculer, les modèles de réponse à l tem (MRI), nés dans les années 1960, se sont mposés dans le champ des évaluatons standardsées à grande échelle. Nous présentons quelques-uns de ces modèles. Présentaton générale Les MRI sont une classe de modèles probablstes. Ils modélsent la probablté qu un élève donne une certane réponse à un tem, en foncton de paramètres concernant l élève et l tem. De manère très générale, les MRI peuvent être présentés de la manère suvante : PY ( = k, θξ) = F(, θξ, k) (6) La probablté qu un élève donne la réponse k à l tem Y dépend de caractérstques θ concernant l élève et de caractérstques ξ concernant l tem Y. La foncton F est typquement une foncton de répartton, à valeur dans ]0, 1[. En comparason de la théore classque des tests, ces modèles ont l avantage de séparer ce qu relève des élèves de ce qu relève des tems, la réponse résultant d une nteracton entre ces deux composantes. Les MRI ont un ntérêt pratque pour la constructon de tests et que nous détallons par la sute : s le modèle est ben spécfé sur un échantllon donné, les paramètres des tems en partculer leurs dffcultés peuvent être consdérés comme fxes et applcables à d autres échantllons dont l sera alors possble de dédure les paramètres relatfs aux élèves en partculer, leur nveau de compétence. Les modèles de réponse à l tem ont donné leu à une lttérature extrêmement fourne. Le lecteur ntéressé est nvté à consulter, par exemple, Embretson et Rese [2000] ou ben, en franças, Bertrand et Blas [2004]. Notre attenton va se concentrer sur le cas où θ est un scalare (un nombre réel), c est-à-dre que le MRI est dt undmensonnel. En outre, nous nous restregnons c au cas d tems dchotomques ( k Î {0,1} ). Des extensons exstent, mas leur présentaton sort du cadre de cet artcle. 44

MESURE DES COMPÉTENCES Modèle de Rasch (1PL) Proposé par Rasch [1960], le modèle le plus smple, appelé auss MRI «à un paramètre» (1PL pour One-Parameter Logstc) s écrt de la manère suvante : q -b e P = PY ( = 1 q, b) = 1 + e q-b (7).e. la probablté P que l élève réusssse l'tem est une foncton sgmoïde 6 du nveau de compétence de l élève et du nveau de dffculté b de l tem. La foncton sgmoïde étant une foncton crossante, l ressort que la probablté de réusste augmente lorsque le nveau de compétence de l élève augmente et dmnue lorsque le nveau de dffculté de l tem augmente, ce qu tradut à l évdence les relatons attendues entre réusste, dffculté et nveau de compétence. L ntérêt de ce type de modélsaton, et ce qu explque son succès, c est de séparer deux concepts-clé, à savor la dffculté de l tem et le nveau de compétence de l élève. Autre avantage : le nveau de compétence des élèves et la dffculté des tems sont placés sur la même échelle, par le smple fat de la soustracton ( q - b ). Cette proprété permet d nterpréter le nveau de dffculté des tems par rapprochement avec le contnuum de compétence. Ans, les élèves stués à un nveau de compétence égal à b auront 50 % de chances de réussr l tem, ce que tradut vsuellement la représentaton des courbes caractérstques des tems (CCI) selon ce modèle Fgure 1. Fgure 1 Modèle de réponse à l tem 1 paramètre 1 P ( Y/θ, b ) 0,5 0 Compétence θ tem 1 tem 2-4 b 2 b 1 4 Note de lecture : la probablté de réussr l tem (en ordonnées) dépend du nveau de compétence (en abscsse). Par défnton, le paramètre de dffculté d un tem correspond au nveau de compétence ayant 50 % de chances de réussr l tem. Ans, l tem 1 en trat fn est plus dffcle que l tem 2 en trat plen. La probablté de le réussr est plus élevée quel que sot le nveau de compétence. x e 6. La foncton sgmoïde est défne par : " xfx, ( ) =, à valeur dans ]0, 1[. x 1 + e 45

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 Modèle à deux paramètres (2PL) Brnbaum [1968] a proposé d ntrodure un deuxème paramètre, dt de dscrmnaton : 1,7 a( q-b) e ( 1 q,, ) 1,7 a( q-b) P = PY = a b = 1 + e (8) où a ( a > 0 ) représente la pente au pont d nflexon de la courbe caractérstque de l tem qu vare d un tem à l autre et la constante 1,7 est ntrodute pour rapprocher la foncton sgmoïde de la foncton de répartton de la lo normale Fgure 2. Pour un tem très dscrmnant, la probablté de le réussr sera très fable en deçà d un certan nveau de compétence et très élevée au-delà de ce même nveau. Ans, une fable dfférence de nveau de compétence peut condure à des probabltés de réusste très dfférentes. C est le cas de l tem 2 sur la fgure 2. De son côté, un tem peu dscrmnant pourra condure à de fables dfférences de probablté de réusste, pour un écart de nveau de compétence mportant. Cet ndce de dscrmnaton peut ans être nterprété en termes de quantté d nformaton portée par l tem. Nous ne développons pas cette noton statstque c, mas l dée est la suvante : un élève qu réusst un tem très dscrmnant se stue très certanement au-dessus du nveau de dffculté de l tem sur l échelle de compétence, alors que pour un tem de dscrmnaton fable, l ncerttude est plus grande quant à la poston de l élève sur l échelle. De ce pont de vue, un tem dscrmnant apporte de l nformaton. Fgure 2 Modèle de réponse à l tem 2 paramètres 1 P ( Y/θ, a, b ) a 0,5 2 a 1 tem 1 tem 2 0-4 b 2 b 1 4 Compétence θ Note de lecture : la probablté de réussr l tem (en ordonnées) dépend du nveau de compétence (en abscsse). L tem 1 en trat fn est plus dffcle que l tem 2 en trat plen ( b 1 > b 2 ), et l est mons dscrmnant ( a < a ). 1 2 46

MESURE DES COMPÉTENCES Par rapport au cadre du modèle de Rasch, l estmaton des paramètres est plus complexe (vor annexe p. 57). Mas au-delà des aspects technques, certanes proprétés ne sont plus valables dans le cas du modèle à deux paramètres. C est le cas de la proprété dte d «obectvté spécfque», qu pourrat se résumer au fat que dans le modèle de Rasch, la probablté de réussr un tem d un certan nveau de dffculté est touours nféreure à la probablté de réussr un tem plus dffcle. Mas dans le cas du modèle à deux paramètres, les courbes caractérstques peuvent se croser : un tem peut alors apparaître plus facle ou plus dffcle selon le nveau de compétence consdéré. Selon certans auteurs, la proprété d obectvté spécfque conférerat à l opératon de mesure en scences socales des proprétés équvalentes à celles prévalant en scences physques [Andrch, 2004]. Les tenants de cette vson sont donc partsans de construre l nstrument de mesure en foncton des proprétés du modèle de Rasch : les caractérstques du test dovent satsfare les exgences du modèle, d où l appellaton de théore de réponse à l tem (Item Response Theory) 7. Cependant, en pratque, l égalté des dscrmnatons mposée par le modèle de Rasch est une contrante très exgeante : elle revent à élmner de nombreux tems après avor estmé leur adéquaton au modèle. En effet, la prse en compte de la dscrmnaton permet de meux modélser le fonctonnement des tems et revent fnalement à donner un pods plus mportant aux tems les plus dscrmnants. Notons enfn que les modèles présentés ne sont pas dentfables (vor annexe p. 57). Il est nécessare de fxer des valeurs arbtrares concernant la moyenne et l écarttype des q. Ans que nous l avons évoqué dans l exemple ntroductf, le contnuum q peut s apparenter à une échelle de température sur laquelle l est possble d opérer des transformatons. Autres MRI Ces modèles admettent de nombreuses varantes qu sortent du cadre de cet artcle. Ans, une extenson «naturelle» des modèles présentés précédemment vers une représentaton multdmensonnelle consste à supposer que q n est plus une seule varable latente, mas un vecteur de dmenson D. Des dstnctons concernent alors la nature compensatore ou non des dmensons. Une autre approche assez courante consste à ntrodure un trosème paramètre, dt de pseudo-chances (guessng). Il s agt d une asymptote horzontale non nulle à la courbe caractérstque de l tem : la probablté de réusste pour les fables nveaux de compétence ne tend plus vers 0, mas vers une certane valeur postve, qu dépend de l tem, et qu représente la chance de réusste «au hasard». Enfn, nous ne développons pas le cas d tems polytomques mas des extensons exstent selon que l on consdère que les réponses possbles sont un nombre de ponts attrbués du fat de la maîtrse de dfférents aspects partal credt models ou ben que l on consdère que les réponses sont hérarchsées en nveaux plus ou mons corrects mbrqués les uns dans les autres graded response models. 7. C'est d'alleurs la termnologe la plus répandue dans la lttérature en langue anglase, ben qu'elle sot crtquée, notamment par Goldsten [1989] qu consdère qu'l ne s'agt pas d'une théore mas ben d'une modélsaton. 47

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 APPLICATIONS Les MRI ont de nombreux avantages pratques. Nous donnons un aperçu de quelques applcatons montrant l ntérêt d avor recours à ces modèles. Ben entendu, leur mse en œuvre est soumse au respect de certanes hypothèses que nous décrvons dans la secton suvante. Assurer la comparablté Les MRI sont très utles dès lors qu l s agt de comparer les nveaux de compétence de dfférents groupes d élèves. Par exemple, dans le cadre de comparasons temporelles, la reprse à l dentque de l ensemble des tems passés lors de la précédente enquête n est pas forcément pertnente, au regard de l évoluton des programmes scolares, des pratques, de l envronnement, etc. Certans tems dovent être retrés, d autres aoutés. Par conséquent, les élèves des deux cohortes passent une épreuve en parte dfférente. Dès lors, comment assurer la comparablté des résultats? Cette problématque renvoe à la noton d austement des métrques ou de parallélsaton des épreuves (en anglas : equatng). Il s agt de postonner sur la même échelle de compétence les élèves de dfférentes cohortes, à partr de leurs résultats observés à des évaluatons dfférentes. De nombreuses technques exstent et sont couramment employées dans les programmes d évaluatons standardsées. Typquement, les comparasons sont étables à partr d tems communs, reprs à l dentque d un moment de mesure à l autre. Les modèles de réponse à l tem fournssent alors un cadre appropré, dans la mesure où ls dstnguent les paramètres des tems, qu sont consdérés comme fxes, des paramètres des élèves, consdérés comme varables. Pluseurs stratéges d estmaton sont possbles. La premère vse à estmer les paramètres des tems la dffculté b et les dscrmnatons a pour un MRI à deux paramètres à partr des données de la premère cohorte, en fxant la moyenne et l écart-type des nveaux de compétence * a = a q /, Apar exemple à 0 et à 1 respectvement. Les valeurs des paramètres des tems communs sont consdérées comme fxes et elles sont utlsées pour estmer les q de la deuxème cohorte. Une autre possblté consste à estmer * q = Aqles + Bparamètres des tems sur chacun des groupes prs séparément. Les paramètres des tems communs sont alors «algnés» * de manère à en dédure a = a les / A dfférences de compétences entre groupes. En effet, dans le cas du modèle à deux paramètres par exemple, les modfcatons ne modfent pas la probablté de réusste. L equatng consste alors à détermner les coeffcents A et B tels que les paramètres des tems communs aux deux évaluatons soent proches, selon qu ls sont estmés sur qun = groupe Aq + Bou sur un autre. Pus, * * * l austement des métrques b = Ab se + Bdédut en applquant q = Aq + B, c est-à-dre une transformaton lnéare, de la même manère que l on passe des degrés Celsus aux degrés Fahrenhet. De nombreuses méthodes ont été proposées pour estmer A et B [Kolen et Brennan, 2004] 8. * b = Ab + B * 8. Par exemple, une méthode très smple, dte mean/mean, consste tout smplement à remplacer les a et les a * * par leurs moyennes respectves a et a pour calculer A, pus à remplacer les b et les b par leurs moyennes respectves * b et b * pour calculer B. De leur côté, Stockng et Lord [1983] ont proposé une procédure plus complexe qu consste à mnmser une foncton de perte pour trouver A et B. 48 * * * q = Aq + B, b = Ab + B et a = a / A (9)

MESURE DES COMPÉTENCES Une perspectve dfférente, appelée «estmaton concourante», envsage toutes les données de manère smultanée en autorsant des dfférences de nveau de compétence entre groupes. Les réponses des élèves aux tems qu ls n ont pas vus sont tratées comme des valeurs manquantes par l algorthme d estmaton (vor annexe). C est la stratége qu est retenue dans Cedre, dans la mesure où elle condut aux résultats les plus stables, ans que le rapporte le plus souvent la lttérature scentfque sur le suet. Dans tous les cas, l hypothèse est fate que les tems communs «fonctonnent» de la même manère, quel que sot le groupe d élèves consdéré. Cela sgnfe que leur dffculté n est pas altérée d un groupe d élèves à l autre. Cette hypothèse est fondamentale et renvoe à la noton de fonctonnements dfférentels d tems que nous développons plus lon. Quelques varantes Nous avons présenté le prncpe de l equatng entre deux groupes d élèves à partr d tems communs. La même démarche peut être employée pour estmer des nveaux de compétence comparables, pour les mêmes élèves, à dfférents moments de mesure. Par exemple, dans le cadre de l évaluaton de l ensegnement ntégré de scence et technologe (EIST), les élèves ont été suvs de la sxème à la trosème et ont passé cnq évaluatons [Le Cam et Cosnefroy, dans ce numéro, p. 283]. Deux évaluatons successves comportent des tems communs, ce qu a perms de calculer des scores sur une échelle commune aux cnq temps de mesure, facltant ans l analyse des progressons des élèves au cours du collège. La même méthode a été applquée aux données du panel d élèves de sxème pour suvre l évoluton des acqus des élèves entre la sxème et la trosème, à partr d tems reprs entre les deux évaluatons [Ben Al et Vourc h, dans ce numéro, p. 211]. Une autre applcaton du prncpe d equatng consste à auster les métrques va les élèves et non plus va les tems. Par exemple, pour la reprse de l évaluaton Lre, écrre, compter en CM2 [Rocher, 2008], l épreuve de calcul de 2007 a reprs des tems de l évaluaton de 1987, mas également des tems d une autre évaluaton sur échantllon, datant de 1999. Il n y avat aucun tem commun entre l épreuve de 1987 et celle de 1999, mas grâce à la reprse des deux épreuves en 2007, l est possble d estmer les paramètres de l ensemble des tems et d en dédure les nveaux de compétences postonnés sur la même échelle, quelle que sot l année consdérée. Un autre dspostf, courant en matère de tests de langues, consste à estmer au fur et à mesure les paramètres des tems, afn de consttuer une banque d tems dans laquelle l sera possble de pocher pour proposer aux canddats des épreuves dfférentes, selon les moments, selon les pays, afn d évter les rsques d exposton et de trches tout en garantssant l établssement de scores comparables quelle que sot l épreuve passée. Cette mécanque repose parfos sur la geston de «flux» d tems. Par exemple, un canddat passe une épreuve dont une parte est composée d tems sélectonnés dans une banque dont on connaît les paramètres et l autre parte est consttuée d tems non calbrés, qu ne sont pas prs en compte dans le calcul du score pour ce canddat, mas les données recuelles servront à estmer les paramètres de ces nouveaux tems. 49

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 Ce même prncpe dt de pré-test/post-test a été applqué pour les évaluatons natonales exhaustves de CE1 et de CM2 ayant eu leu entre 2009 et 2012 afn de comparer l évoluton des scores d une année sur l autre, alors que les épreuves étaent entèrement renouvelées chaque année, afn d évter les rsques de bachotage 9. Évaluatons adaptatves Un cadre d applcaton très mportant des MRI est celu des évaluatons dtes «adaptatves». Le prncpe est le suvant : chaque élève passe une premère épreuve ; s l échoue, une épreuve plus facle lu est proposée ; s l réusst, l passera une épreuve plus dffcle. Ce processus tératf condut à une estmaton plus précse et plus rapde du nveau de compétence de chaque élève. En outre, proposer aux élèves des tems de dffculté adaptée à leur nveau peut apparaître comme un lever pour favorser la motvaton des élèves par rapport à la stuaton d évaluaton [Keskpak et Rocher, dans ce numéro, p. 119]. Avec le développement de l nformatque, cette procédure s est répandue dans le domane de l évaluaton [Waner, 2000]. À chaque tem, selon la réponse de l élève, son nveau de compétence est réestmé et l ordnateur propose un nouvel tem dont la dffculté correspond à ce nveau. En postonnant sur la même échelle les paramètres de dffculté des tems et les nveaux de compétences des élèves, les modèles de réponse à l tem sont partculèrement prsés dans le domane des tests adaptatfs. La prncpale contrante de ce type de procédure est qu l est nécessare d avor estmé au préalable le nveau de dffculté d un grand nombre d tems 10. Cela suppose que chaque tem at été passé par un échantllon représentatf de la populaton vsée, que sa dffculté at été estmée et enregstrée dans une banque d tems, dans laquelle l sera possble de chosr le plus appropré lors de la procédure de test adaptatf. La consttuton d une telle banque mplque un coût fnancer très mportant, qu lmte la mse en pratque des tests adaptatfs 11. Il exste d autres stratéges d adaptaton, mons exgeantes. C est le cas par exemple des procédures d orentaton (mult-stage testng) utlsées dans les enquêtes auprès des adultes IVQ et Paac [Murat et Rocher, dans ce numéro, p. 83]. L adaptaton des tems n est pas fate ndvduellement mas pour des groupes de suets détermnés en foncton de leurs résultats à un test d orentaton. Cette procédure est mons contragnante en pratque. Le recours à l ordnateur n est pas requs. Elle a l avantage de pouvor être applquée pour une passaton collectve de tests paper-crayon, comme ce fut le cas par exemple avec les ancens tests de la Journée d appel de 9. Pour cette approche, pluseurs approches ont été mses en concurrence, dont les modèles de réponse à l'tem. D'alleurs, après analyse, et pour des rasons pratques, ce ne sont fnalement pas les modèles de réponse à l'tem qu ont été retenus mas une approche non paramétrque [Rocher, 2011]. En effet, les comparasons de résultats entre les années pouvaent être réalsées drectement après la passaton, dans ces écoles, sur la base des scores observés (nombre de bonnes réponses). L'approche non paramétrque a ans perms d'établr des règles smples de passage entre les scores, permettant ans à chaque école d'assurer la comparablté temporelle des résultats. Cela montre que les MRI, ben que très adaptés à ces problématques, ne sont pas nécessarement ncontournables et que d'autres méthodes sont envsageables, selon les contrantes des évaluatons. 10. En fasant l'hypothèse sans doute assez forte que le nveau de dffculté de l'tem exste ndépendamment du test dans lequel l se stue. 11. Autre dffculté, l faut auss que la réponse du suet sot corrgée mmédatement, ce qu rend dffcle le recours à un codage manuel et mpose une procédure d'estmaton des compétences ntégrée à l'outl de collecte. 50

MESURE DES COMPÉTENCES préparaton à la défense [Rvère, De La Haye et al, 2010]. Elle ne nécesste pas d estmer au préalable la dffculté des tems et donne potentellement des résultats plus précs que ceux obtenus par un seul test, dans le cas où les nveaux de compétence sont très dspersés (cf. une applcaton aux données d IVQ : Murat et Rocher, 2009]. Au-delà des aspects pratques, cette procédure se ustfe également sur le plan théorque. Les dmensons cogntves ntéressantes à évaluer ne sont pas forcément les mêmes selon les nveaux de compétences. Pour les personnes en dffculté face à l écrt, l peut être ntéressant d nsster sur les processus de bas nveaux comme le décodage des mots, alors que pour les autres personnes, dfférents aspects de la compréhenson pourront être plus fnement évalués. Ans, ce n est pas seulement la dffculté du test qu est adaptée, mas la nature même de ce qu l est censé mesurer. Cahers tournants Nous présentons un autre cas pratque d utlsaton des MRI avec la méthode dte des «cahers tournants». Cette méthode est utlsée pour évaluer un nombre mportant d tems sans allonger le temps de passaton. Elle consste à répartr les tems dans des cahers dfférents qu comportent des tems communs. Cette répartton dot répondre à certanes contrantes 12. Par exemple, pour l évaluaton Cedre en scences expérmentales de 2013 en trosème, l équvalent de sx heures et deme d évaluaton ont été créées. En effet, Cedre a pour obectf d évaluer les acqus des élèves au regard des programmes scolares. L «unvers» des tems est donc très large. Le matérel a été répart dans 13 blocs d une dem-heure chacun. Ces blocs ont été ensute réparts dans 13 cahers dfférents, chaque caher contenant 4 blocs. Ans, les élèves sont soums à deux heures d évaluaton, ce qu est rasonnable. La manère d agencer les 13 blocs dans les 13 cahers «tournants» répond à pluseurs contrantes : chaque bloc se retrouve le même nombre de fos au total, afn d équlbrer le «pods» de chaque bloc ; chaque assocaton de blocs (chaque pare) se trouve au mons une fos dans un caher, afn de pouvor calculer toutes les corrélatons nter-tems ; un bloc se retrouve à chacune des dspostons possbles : le bloc 1 apparaît en premère poston dans un des cahers, en deuxème poston dans un autre caher, etc. Le tableau 1 p. 52 donne la répartton des blocs dans les cahers, pour l évaluaton Cedre de trosème en scences expérmentales en 2013. Le plan de rotaton respecte les prncpes énoncés c-dessus. Par alleurs, cette évaluaton est composée pour près de la moté de blocs d tems reprs de l évaluaton de 2007 afn d établr des comparasons. Les procédures d estmaton des MRI permettent faclement de gérer les valeurs manquantes aléatores ndutes par la méthode des cahers tournants. En outre, l obectf est ben de rendre compte de la dstrbuton des nveaux de compétences de manère globale, et non pas de manère ndvduelle, pour chaque élève, qu n a pas passé les mêmes tems que son vosn. 12. Cette méthode est en réalté une adaptaton de procédures d'analyse de varance dans le cas de plans d'expérence ncomplets [Cochran et Cox, 1950]. 51

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 Tableau 1 Répartton des blocs dans les cahers pour l évaluaton Cedre scences expérmentales 2013 Cahers Séquence 1 Séquence 2 Séquence 3 Séquence 4 1 SVT 1* SVT 3 SVT 4* PHY B* 2 SVT 2 SVT 4* SVT 5 PHY C 3 SVT 3 SVT 5 SVT 6* PHY D* 4 SVT 4* SVT 6* PHY A PHY E 5 SVT 5 PHY A PHY B* PHY F* 6 SVT 6* PHY B* PHY C MIX* 7 PHY A PHY C PHY D* SVT 1* 8 PHY B* PHY D* PHY E SVT 2 9 PHY C PHY E PHY F* SVT 3 10 PHY D* PHY F* MIX* SVT 4* 11 PHY E MIX* SVT 1* SVT 5 12 PHY F* SVT 1* SVT 2 SVT 6* 13 MIX* SVT 2 SVT 3 PHY A Note de lecture : le caher 1 est composé de quatre blocs : SVT 1*, SVT 3, SVT 4* et PHY B*. Les blocs étolés sont les blocs reprs de 2007. HYPOTHÈSES L hypothèse d undmensonnalté L undmensonnalté est une hypothèse fondamentale des modèles présentés précédemment. Seul le nveau de compétence q explque la réusste à un tem de dffculté et de dscrmnaton données. Le respect de cette hypothèse est une condton préalable à la mse en œuvre de ces modèles. S d autres facteurs entrent en lgne de compte dans la probablté de réusste aux tems par exemple une compétence dfférente de celle vsée, l hypothèse d undmensonnalté dot être reetée et le modèle ne peut être applqué. Ben que fondamentale, cette hypothèse est rarement testée statstquement. Pour cause, la noton d undmensonnalté a longtemps souffert d une absence de défnton formelle. Ans, une quantté mpressonnante d ndces ont été ms au pont et vsent à évaluer l mportance d une dmenson prncpale. Mas la plupart d entre eux souffrent d un manque de fondement théorque ans que de fablesses technques [Hatte, 1985]. Il faut attendre Stout [1987] pour poser une défnton plus formelle de l undmensonnalté, à partr de la noton d ndépendance locale, c est-à-dre l ndépendance des réusstes entre deux tems, condtonnellement à la dmenson vsée. En effet, là encore, s une corrélaton est constatée entre tems, après avor contrôlé du nveau à l ensemble du test, c est qu une deuxème dmenson est ntervenue dans la réusste à ces deux tems. Notons que l undmensonnalté strcte n exste probablement pas. Les processus ms en œuvre pour réussr un ensemble d tems sont complexes et varent selon les élèves et les contextes. Dès lors, l est dffclement concevable que ces processus se rédusent rgoureusement à une seule et même dmenson [Goldsten, 1980]. C est pourquo, en pratque, évaluer l undmensonnalté revent en fat à évaluer l exstence d une dmenson domnante [Blas et Laurer, 1997] 13. 13. Cela reont la démarche en analyse factorelle exploratore qu consste à comparer les valeurs propres des dfférents facteurs. D'alleurs, les MRI peuvent être vus comme des analyses en facteurs communs [Rocher, 2013]. 52

MESURE DES COMPÉTENCES Les fonctonnements dfférentels d tems Nous l avons évoqué avec le questonnare sur la talle : un fonctonnement dfférentel d tem (FDI) apparaît entre des groupes d ndvdus dès lors qu à nveau égal sur la varable latente mesurée, la probablté de réussr un tem donné n est pas la même selon le groupe consdéré. La queston des FDI est mportante, car elle renvoe à la noton d équté entre les groupes : un test ne dot pas rsquer de favorser un groupe par rapport à un autre. Ans, aux États-Uns, quantté de tests sont passés au crble dans le but de détermner la présence d éventuels bas d tems («Male/ Female», «Black/Whte», etc.) surtout s les résultats ont des conséquences sur le devenr des ndvdus, comme pour les tests de sélecton d entrée à l unversté, les tests de recrutement, etc. Les évaluatons standardsées à grande échelle sont également concernées, en partculer les évaluatons nternatonales qu dovent assurer la comparablté des dffcultés des tems d un pays à l autre [Vrgnaud, 2002]. C est en effet l hypothèse forte qu est fate dans le cadre des évaluatons nternatonales : l opératon de traducton ne modfe pas la dffculté de l tem. Or, des analyses montrent que la hérarche de dffculté des questons posées est à peu près conservée pour des pays partageant la même langue, mas qu elle peut être bouleversée entre deux pays ne parlant pas la même langue [Rocher, 2003]. Une défnton formelle du FDI peut s envsager à travers la proprété d nvarance condtonnelle : à nveau égal sur la compétence vsée, la probablté de réussr un tem donné est la même quel que sot le groupe de suets consdéré. Formellement, un fonctonnement dfférentel se tradut donc par : PYZG (, ) ¹ PYZ ( ) (10) où Y est le résultat d une mesure de la compétence vsée, typquement la réponse à un tem ; Z est un ndcateur du nveau de compétence des suets ; G est un ndcateur de groupes de suets. La probablté de réusste, condtonnellement au nveau mesuré, est dentque pour tous les groupes de suets. En réalté, deux condtons sont nécessares et suffsantes pour qu un FDI se manfeste : l tem est sensble à une seconde dmenson dstncte de la dmenson prncpale vsée par le test et les groupes se dfférencent sur cette seconde dmenson condtonnellement à la dmenson prncpale. En guse d llustraton, consdérons un tem, dans une épreuve de mathématques, qu nécesste la lecture d un texte. Cet tem est donc sensble à une dmenson paraste. En outre, les flles ont de melleures performances en lecture, et ce à nveau égal en mathématques. L tem est fortement susceptble de présenter un fonctonnement dfférentel selon le genre. Ce smple exemple permet d entrevor le len entre dmensonnalté et fonctonnement dfférentel, len qu peut être formellement démontré [Rocher, 2013] et qu dot condure à envsager les FDI de manère plus large que des ndcateurs de bas. Ans, une analyse de FDI qu ntègre des éléments d nterprétaton apporte des rensegnements préceux au chercheur qu s nterroge sur les dfférences entre groupes de suets, sur la dmensonnalté ou sur le caractère unversel de certans concepts [Vrgnaud, 2002]. Les bas ne sont alors plus envsagés comme des nusances dans le processus de mesure, mas comme des éléments explcatfs, au servce d une démarche heurstque. En pratque, de très nombreuses méthodes ont été proposées afn d dentfer les FDI. Ces méthodes ont chacune des avantages en matère d nvestgaton des dfférents 53

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 éléments pouvant condure à l apparton de ces FDI [Rocher, 2013]. Dans le cas des évaluatons standardsées menées à la DEPP, l s agt avant tout d dentfer les fonctonnements dfférentels pouvant apparaître entre deux moments de mesure, s agssant des tems reprs à l dentque. Dans ce cas, les dfférentes méthodes d dentfcaton donnent des résultats relatvement proches. Une stratége très smple, employée dans Cedre, consste donc à comparer les paramètres de dffculté des tems reprs, estmés de façon séparée pour les deux années. S la dffculté d un tem a évolué, comparatvement aux autres tems, c est le sgne d un fonctonnement dfférentel, qu peut être lé par exemple à un changement de programmes ou de pratques, comme nous le montrons dans l llustraton présentée dans la secton suvante. MÉTHODOLOGIE SUIVIE POUR LES ÉVALUATIONS CEDRE En écho aux éléments théorques exposés, nous présentons concrètement dans cette dernère parte la méthodologe suve, en matère d analyse psychométrque, par les évaluatons Cedre. Cedre a pour obet de mesurer les acqus des élèves au regard des programmes scolares, à partr d évaluatons réalsées par des échantllons représentatfs d élèves, en CM2 et en trosème [vor Trosselle et Rocher, dans ce numéro, p. 15]. Chaque année, une dscplne dfférente est évaluée et des comparasons sont effectuées tous les cnq ou sx ans. L exemple retenu est celu de l évaluaton des compétences des élèves de trosème en scences expérmentales qu a établ une comparason à sx ans d ntervalle, entre 2007 et 2013. Les grandes lgnes de la méthodologe employée sur les aspects psychométrques sont présentées. Pour plus de détals, le lecteur est nvté à consulter le rapport technque dsponble sur Internet [Bret, Garca et al, 2015]. Le matérel d évaluaton En 2007, les élèves avaent passé 207 tems au total dont 103 ont été reprs pour l évaluaton de 2013 et 104 non reprs. Cette sélecton repose sur des crtères statstques ans que pédagogques. En partculer, des tems peuvent ne pas être retenus pour des rasons lées à l évoluton des programmes ou des pratques. En 2012, lors de l expérmentaton 14, 106 tems ont été testés sur un échantllon d envron 3 500 élèves. Après analyse, 72 tems ont été retenus pour l évaluaton de 2013. Cette sélecton repose prncpalement sur l examen de statstques descrptves concernant les tems tels que la répartton des réponses données, le taux de réusste, le taux de non-réponse, le pouvor dscrmnant (le «r-bs pont»). Une vérfcaton est fate quant à la précson des tems sélectonnés selon le nveau de compétence 15, afn de s assurer que le contnuum est ben couvert. Au fnal, en 2013, les élèves ont passé 175 tems, dont 103 étaent des tems reprs de 2007 et 72 des tems nouveaux. Ces tems ont été réparts en 13 blocs, ventlés dans 13 cahers selon le schéma présenté dans le tableau 1 : 7 blocs ont été reprs à l dentque 14. Chaque évaluaton est précédée d'une phase expérmentale l'année n-1. 15. D'un pont de vue technque, la précson d'un tem est l'nverse de la racne carrée de l'nformaton de Fsher. 54

MESURE DES COMPÉTENCES de l évaluaton de 2007 et 6 blocs nouveaux ont été ntégrés en 2013. Notons enfn que sur les 72 nouveaux tems ntroduts en 2013, 32 tems sont des questons ouvertes appelant une réponse rédgée et nécesstant la mse en œuvre de procédures standardsées de correcton (supervson, correctons multples, etc.). Chacun des deux formats de questons QCM et questons ouvertes présentent des avantages et des nconvénents : les premères forcent les chox de réponse mas garantssent l obectvté du codage, tands que les secondes permettent l authentcté des réponses mas leur correcton nécesste d être très contrôlée [Vrgnaud, 2003]. Les étapes Les prncpales étapes de l analyse psychométrque sont les suvantes : 1. Analyse «classque» des tems 2. Étude de la dmensonnalté 3. Détecton des fonctonnements dfférentels d tems (avec le cycle précédent) 4. Étude de la qualté d austement des tems au modèle de réponse à l tem (MRI) 5. Applcaton du MRI 6. Equatng : ancrage avec le cycle précédent pour assurer la comparablté des scores. Sute à l analyse «classque» menée sur l ensemble des élèves (de 2007 et de 2013), 33 tems ont été supprmés pour cause de mauvase dscrmnaton (r-bs < 0,2) : 19 tems de 2007, 13 tems communs et 1 de 2013. Il apparaît que cette suppresson concerne pour l essentel des tems construts en 2007, ce qu renvoe en effet à des nveaux de dscrmnaton mons robustes pour cette évaluaton, déà observés en 2007 mas au-dessus du seul de 0,3 à l époque. En revanche, nous pouvons observer que l expérmentaton de 2012 a ben oué son rôle pusqu un seul tem présente une mauvase dscrmnaton. Au fnal, les analyses portent donc sur une évaluaton composée de 85 tems de 2007 non reprs en 2013, de 90 tems de 2007 reprs en 2013 et de 71 tems nouveaux en 2013. L étude dmensonnelle a montré une forte undmensonnalté. Ans, sur les tems passés en 2013, l analyse factorelle des tems sur la base des coeffcents de corrélatons tétrachorques 16 a révélé une premère valeur propre de 32,9 contre 3,6 pour la deuxème, ce qu témogne de la présence d une dmenson prncpale prépondérante. En partculer, les tems reprs de 2007 et les tems nouveaux de 2013 peuvent être consdérés comme relevant d une même dmenson. L analyse des FDI a perms de détecter 5 tems (la règle retenue est celle d un écart de paramètres de dffculté b d au mons 0,5) : 3 tems en faveur de 2007, 2 tems en faveur de 2013. Tous ces tems sont des tems de physque-chme. Ils ont été élmnés des calculs. L évoluton des programmes est susceptble de produre des FDI. Ans, les 3 tems présentant un FDI en défaveur des élèves de 2013 sont des tems de physque-chme portant sur la combuston. Or, par le bas de changements de programmes, l se trouve que la combuston n est plus abordée en trosème. S 16. Le coeffcent de corrélaton tétrachorque entre deux tems est le coeffcent de corrélaton estmé entre les deux varables normales latentes qu condtonnent la réusste à chacun des tems. Il est mons sensble aux effets seul et plafond que le coeffcent de corrélaton lnéare, ou F, dans le cas d'tems dchotomques [Rocher, 1999]. 55

ÉDUCATION & FORMATIONS N 86-87 MAI 2015 ce type d analyse peut souvent se révéler pertnent 17, l arrve qu aucune explcaton ne sot trouvée à l apparton de FDI. Le calcul des scores L estmaton des paramètres des tems et des scores a été réalsée sur l ensemble des élèves des deux années 2007 et 2013. Un modèle de réponse à l tem à deux paramètres a été employé. Ce chox se ustfe par la varablté des tems en matère de pouvor dscrmnant. Le modèle présente de bons crtères d austement aux données. D alleurs, les tems présentent tous un ndce dt de «FIT» acceptable, c est-à-dre que leurs paramètres estmés permettent de rendre compte correctement des données. Les scores estmés sont alors standardsés de sorte que les élèves de 2007 aent une moyenne de 250 et un écart-type de 50. Pus, la dstrbuton des scores est «découpée» en sx groupes de la manère suvante : nous détermnons le scoreseul en deçà duquel se stuent 15 % des élèves (groupes 0 et 1), nous détermnons le score-seul au-delà duquel se stuent 10 % des élèves (groupe 5). Entre ces deux nveaux, l échelle a été scndée en tros partes d ampltudes de scores égales correspondant à tros groupes ntermédares. Ces chox sont arbtrares et ont pour obectf de décrre plus précsément le contnuum de compétence. En effet, les modèles de réponse à l tem ont l avantage de postonner sur la même échelle les scores des élèves et les dffcultés des tems. Ans, chaque tem est assocé à un des sx groupes, en foncton des probabltés estmées de réusste selon les groupes. Un tem est dt «maîtrsé» par un groupe dès lors que l élève ayant le score le plus fable du groupe a au mons 50 % de chance de réussr l tem. Les élèves du groupe ont alors plus de 50 % de chance de réussr cet tem. À partr de cette correspondance entre les tems et les groupes, une descrpton qualtatve et synthétque des compétences maîtrsées par les élèves des dfférents groupes est proposée. Ces prncpaux résultats sont présentés dans une Note d nformaton [Bret, Garca, Roussel, 2014]. Perspectves Les prncpes méthodologques présentés sont auourd hu prédomnants dans le domane des évaluatons standardsées. Ce type d approche comporte cependant des lmtes. Par exemple, les modèles de réponse à l tem sont des outls pussants, d un pont de vue pratque, mas ls reposent sur des hypothèses fortes. En partculer, l hypothèse d undmensonnalté est évdemment contestable lorsqu on sat la multplcté des compétences mses en eu lors de la résoluton d une tâche. Comme nous l avons évoqué, des modélsatons permettent de prendre en compte la multdmensonnalté, mas le plus souvent ces modèles sont mult-undmensonnels, chaque tem se rapportant à une seule dmenson. C est cette structure smple qu est le plus souvent consdérée alors que c est sans doute une structure complexe 17. Un autre exemple tré de Cedre hstore-géographque et éducaton cvque en trosème entre 2006 et 2012 : les tems proposés ayant trat à la connassance des règles électorales ont présenté des FDI en faveur des élèves de 2012 par rapport aux élèves de 2006. En effet, l'évaluaton de 2012 s'est déroulée au mos de ma, en plene pérode d'électons. 56