Année universitaire 2012-2013 Diplôme Inter Universitaire de pédagogie médicale «Concordance auto évaluation et évaluation par un tiers pour les clichés biométriques d échographie de dépistage du deuxième et troisième trimestre de la grossesse» Mémoire présenté par : DAHER Alain
Résumé : Objectif de l étude : montrer l existence ou non d une concordance entre l autoévaluation et l évaluation par un tiers, des clichés biométriques d échographie de dépistage du deuxième et du troisième trimestre de la grossesse. Matériels et méthodes : il s agit d une étude prospective randomisée sur une période d inclusion allant du 25 juillet 2012 au 18 juin 2013. Nous nous sommes intéressés aux résultats préliminaires d un essai randomisé en cours et qui va étudier l impact sur les pratiques professionnelles de l autoévaluation des clichés de biométrie fœtale au 2ème et 3ème trimestre comparée à une évaluation par un tiers (Audit Evaluation des Pratiques Professionnelles de biométrie). L échantillon est composé de 112 opérateurs qui avaient envoyé via le site internet du Collège Français d Echographie Fœtale (CFEF) au moins un premier paquet de 30 clichés biométriques [10 clichés pour la mesure du diamètre bipariétal (BIP) et le périmètre crânien (PC), 10 autres clichés pour la mesure du périmètre abdominal (PA) et 10 clichés pour la mesure de la longueur fémorale (LF)], issus de 10 examens consécutifs d échographie de dépistage au deuxième ou au troisième trimestre de la grossesse réalisés sur des fœtus sans malformation évidente. Les 30 clichés de chaque opérateur ont été sujets à une auto évaluation ainsi qu à une évaluation par un tiers. Un score moyen (sur 10) par paquet de 30 clichés et par type de cliché biométrique (BIP/PC, PA ou LF), ainsi que le nombre de clichés satisfaisant tous les critères (CST) par paquet ont été calculés. Pour les différents critères, la concordance entre l auto et l hétéro évaluation a été analysée par le coefficient de kappa de Cohen. La concordance des scores moyens et des CST a été analysée par le test de t apparié. Nous avons aussi calculé le delta score (score auto score hétéro évaluation), le delta CTS (nombre CTS auto nombre CTS hétéro évaluation) et analysé la distribution du delta. Résultats : le pourcentage de concordance auto/hétéro évaluation, tous critères confondus, est de 84,74%. Le coefficient de Kappa, mesurant la concordance entre l auto et l hétéro évaluation pour les 19040 critères confondus est de 0,286. Il n existe pas de différence significative entre auto et hétéro évaluation, tous critères confondus, concernant le score total moyen et le score moyen des clichés de BIP/PC, alors que cette différence est significative pour le score moyen des clichés du PA, le score moyen des clichés de la LF et le nombre de CST total. Conclusion : tous critères confondus, on note une concordance entre l auto évaluation et l hétéro évaluation chez la majorité des opérateurs. Une réponse à la question de l impact sur les pratiques professionnelles de l autoévaluation des clichés de biométrie fœtale au 2ème et 3ème trimestre est attendue après la fin de l Audit d EPP de biométrie. Mots clés : autoévaluation ; cotateurs ; concordance ; biométrie ; dépistage ; échographie ; deuxième trimestre ; troisième trimestre ; grossesse
Introduction : Le domaine de la santé doit faire face aujourd hui à la nécessité de délivrer des soins de qualité croissante. Ceci nécessite une démarche qualité globale qui permettra de structurer les soins. L échographie prénatale n échappe pas à ce besoin vital de contrôle de qualité. La croissance fœtale est estimée le plus souvent par les mesures effectuées sur le fœtus au deuxième et au troisième trimestre. Le dépistage et le diagnostic d une croissance fœtale anormale demeurent des objectifs prioritaires de la médecine fœtale. La macrosomie comme le retard de croissance sont associés à un risque accru de morbidité et de mortalité périnatale [1,2]. La découverte d une biométrie anormale doit conduire à vérifier la mesure qui doit être faite selon des critères de qualité strictes (contrôle de qualité). La qualité des mesures fœtales repose d abord sur la qualité des coupes réalisées et le bon placement des repères par l échographiste (approche qualitative du contrôle de qualité), ensuite, sur la bonne adéquation de la technique de mesure et de la population échographiée avec les courbes de références utilisées (approche quantitative du contrôle de qualité)et enfin, sur la qualité du système de mesure implanté sur la machine d échographie, dépendant du constructeur et des services de maintenance de l échographe [3]. Le contrôle de qualité dans son approche qualitative, permet d identifier les erreurs et de suivre les progrès d échographistes en formation et semble peu à peu s imposer auprès de tous les praticiens. C est par le biais de l échographie du premier trimestre et en particulier par la mesure de la clarté nucale [4,5] que le contrôle de qualité est entré dans notre quotidien. Les biométries sont déterminées sur des coupes échographiques standardisées dont la qualité va influencer la qualité de la mesure elle-même. Les critères spécifiques pour l évaluation objective de chaque type de mesure ont été décidés sur la base des références de biométrie fœtale (Cf. Annexes - tableau 1) [6-9]. Concernant l évaluation objective, Salomon et collaborateurs [10], ont développé et évalué une méthode basée sur un score (grille d évaluation) pour apprécier la qualité des images de biométrie prises à 20-24 SA (évaluation objective comparable à celle développée par Herman et al pour la nuque au premier trimestre). Cette évaluation objective consistait à noter les images en fonction de critères prédéfinis, détaillés dans le tableau 1. Cette approche a été comparée avec une simple évaluation subjective de chaque image (image acceptable ou non) qui correspond à ce que nous faisons souvent en pratique lorsque nous regardons le compte rendu d une échographie réalisée par un collègue. Ils ont démontré que l approche subjective était peu reproductible, aussi bien en intra qu en inter juge, et ne permet pas d améliorer les pratiques car elle n aboutit pas à des commentaires ciblés et constructifs qui pourraient permettre d améliorer la qualité. A l inverse, la notation sur un score (évaluation
objective) était très reproductible aussi bien en intra qu en inter juge et permettait d apporter de l objectivité dans le jugement d une image. Cette approche objective est un bon outil pour évaluer les performances d un échographiste car elle permet en outre d identifier et de corriger certaines imprécisions ou encore de suivre les progrès d un échographiste en formation. Puisqu il existe une possibilité de coter de façon reproductible les clichés de biométrie, cette méthode objective a été utilisée dans notre étude afin de montrer l existence ou non d une concordance entre l auto évaluation et l évaluation par un tiers des clichés de biométrie. Dans notre étude, on s est intéressé au rôle de l auto évaluation dans le contrôle de qualité. Cela a plusieurs avantages puisque, sur le plan technique les programmes d évaluation des pratiques professionnelles (EPP) nécessitent de mobiliser des moyens financiers et humains importants et donc on ne peut pas se permettre de répéter de façon indéfinie les évaluations d un échographiste donné afin qu'il maintienne ou qu il améliore son taux de clichés conformes dans le temps. D autre part, sur le plan pédagogique, l'auto-évaluation permet d'autonomiser l'échographiste qui devient ainsi son propre auditeur en portant systématiquement un œil critique sur chacun de ses clichés. Un essai prospectif randomisé contrôlé en aveugle est en cours (Audit EPP de biométrie) pour étudier l impact sur les pratiques professionnelles de l autoévaluation des clichés de biométrie fœtale au 2ème et 3ème trimestre comparée à une évaluation par un tiers. L objectif principal sera de chercher à savoir si l'auto-évaluation permet aux échographistes d'améliorer aussi bien leur taux de clichés conformes qu'une EPP standard avec une hétéro-évaluation. S il n y a de différence significative entre les deux groupes on pourrait envisager de s affranchir des hétérocotations qui sont consommatrices de ressources humaines et financières pour les évaluations dans le cadre du développement professionnel continu par la mise au point d un outil internet d auto évaluation fiable. Les évaluations par un tiers seraient limitées aux procédures de certification. L objectif de notre étude, qui porte sur les résultats préliminaires de cet essai prospectif randomisé, est de montrer l existence ou non d une concordance entre l autoévaluation et l évaluation par un tiers, des clichés biométriques d échographie de dépistage du deuxième et ceux du troisième trimestre de la grossesse.
Matériels et Méthodes : Il s agit d une étude prospective randomisée sur une période d inclusion allant du 25 juillet 2012 au 18 juin 2013. Durant cet essai d audit d EPP de biométrie qui est toujours en cours, nous avons recruté via le site Internet du Collège Français d Echographie Fœtale (CFEF), des échographistes volontaires (sages-femmes, gynécologues, obstétriciens, radiologues, généralistes), pour envoyer via Internet un paquet de 30 clichés biométriques [10 clichés pour la mesure du diamètre bipariétal (BIP) et le périmètre crânien (PC), 10 autres clichés pour la mesure du périmètre abdominal (PA) et 10 clichés pour la mesure de la longueur fémorale (LF)], issus de 10 examens consécutifs d échographie de dépistage au deuxième ou au troisième trimestre de la grossesse réalisés sur des fœtus sans malformation évidente. Le terme de chaque fœtus sera renseigné ainsi que les dates du premier et du dernier examen. Les critères démographiques recueillis pour chaque échographiste sont : l âge, le sexe, l appartenance ou non au collège français d échographie fœtale (CFEF), l exclusivité de la pratique de l échographie fœtale, le nombre d années de pratique, et la catégorie (diagnostic, dépistage ). Les clichés sont alors gardés anonymes et évalués par plusieurs cotateurs. Un score moyen par paquet de 30 clichés et par type de cliché biométrique (BIP/PC, PA ou LF), ainsi que le nombre de clichés satisfaisant tous les critères (CST) par paquet ont été calculés. Les échographistes sont ensuite tirés au sort : -Le groupe A reçoit un rapport d évaluation didactique. -Le groupe B ne reçoit pas le rapport de l évaluation par le cotateur. Il est sollicité pour réaliser une autoévaluation via internet avec réception d un rapport didactique d autoévaluation automatiquement généré. Trois mois plus tard, tous les échographistes sont sollicités pour envoyer un deuxième paquet de 30 clichés réalisés et évalués de la même manière.
1er envoi de 30 clichés (issus de 10 examens T2/T3 normaux consécutifs) via Internet RANDOMISATION GROUPE A GROUPE B Evaluation par Cotateur Rapport d Evaluation Evaluation par Cotateur Pas de Rapport Cotateur + Auto Evaluation Rapport Auto-Evaluation 3 mois plus tard, 2 ème envoi de 30 clichés via Internet Evaluation par Cotateur Rapport d Evaluation Evaluation par Cotateur Rapport d Evaluation Delta de progression Delta de progression La grille d évaluation de chaque type de cliché biométrique, utilisée dans notre étude, était semblable à celle publiée par Salomon et collaborateurs en 2006 [10], et dont la bonne concordance inter et intra-cotateur a été démontrée. D après Salomon et al, la grille des coupes du BIP/PC ainsi que celle de la coupe du PA comporte chacune 6 critères et la grille de la coupe de la LF comporte 4 critères. Concernant la grille de la coupe du BIP/PC utilisée dans notre étude, et afin d amplifier le but pédagogique du rapport d évaluation, on a divisé le 6ème critère d évaluation selon Salomon et al ( repères et ellipse correctement placés) en deux, critère 6 ( position des curseurs) et critère 7 ( position de l ellipse). [Cf. Annexes - critères d évaluation de chaque type de cliché biométrique (BIP/PC), PA, LF]. Le score était calculé en attribuant un point chaque fois qu un des critères morphologiques est présent. Pour un cliché de BIP/PC, le score va de 0 à 6 (il faut que les deux critères 6 et 7 soient présents pour avoir 1 point à l évaluation de ces deux critères), pour celui du PA, il va de 0 à 6 et pour celui de la LF, le score va de 0 à 4. A chaque critère d évaluation, une fiche d aide en ligne a été conçue, permettant à l échographiste de s auto évaluer conformément aux référentiels du comité national technique de l échographie de dépistage prénatal (CNTEDP). [Cf. Annexes - Exemple d une fiche d aide en ligne concernant le critère n 2 (Thalami visibles) de la coupe du BIP/PC].
Nous nous sommes intéressés dans notre étude aux résultats préliminaires de cet essai randomisé et spécifiquement au 1 er envoi de 30 clichés via internet du groupe B dans le but de savoir s il existe une concordance entre l auto et l hétéro évaluation des clichés biométriques d échographie de dépistage du deuxième et troisième trimestre de la grossesse. EPP de 10 examens consécutifs : BIP/PC, PA et Fémur 1 er envoi de 30 clichés via Internet RANDOMISATION GROUPE A GROUPE B Evaluation par Cotateur Pas de Rapport Cotateur + Auto Evaluation Rapport Auto-Evaluation Concernant l analyse statistique, les résultats de la base de données ont été transférés sur Excel. Un score moyen (sur 10) par paquet de 30 clichés et par type de cliché biométrique (BIP/PC, PA ou LF), ainsi que le nombre de clichés satisfaisant tous les critères (CST) par paquet ont été calculés. Pour les différents critères, la concordance entre l auto et l hétéro évaluation a été analysée par le coefficient de kappa de Cohen. La concordance des scores moyens et des CST a été analysée par le test de t apparié. Nous avons aussi calculé le delta score (score auto score hétéro évaluation), le delta CTS (nombre CTS auto nombre CTS hétéro évaluation) et analysé la distribution du delta.
Résultats : A- Descriptif de l échantillon d opérateurs: Le groupe B comportait 132 opérateurs qui ont été tirés au sort dans le bras auto évaluation + hétéro évaluation sans envoi du rapport et qui avaient envoyé via le site internet du CFEF au moins un premier paquet de 30 clichés entre le 25/07/2012 et le 18/06/2013. 20 échographistes ont été exclus de l étude à cause de 11 hétéro évaluations ainsi que 9 auto évaluations non faites jusqu au 18/06/2013. L échantillon de notre étude est alors constitué de 112 opérateurs qui ont eu une première double évaluation après leur premier envoi de 30 clichés via internet, ce qui correspond à 1120 examens échographiques consécutifs et à un total de 3360 clichés analysés. Groupe B 132 opérateurs 11 hétéro évaluations non faite 112 opérateurs ont eu une première double évaluation 9 autoévaluations non faite Soit 1120 examens = 3360 clichés analysés Les évaluations par un tiers étaient réparties sur 5 cotateurs. Des 112 échographistes, 47% environ sont membres du CFEF, ce qui signifie que cette évaluation a intéressé aussi les échographistes qui ne sont pas sollicités régulièrement par les programmes de formation médicale continue et d EPP proposés par le CFEF. 56% de ces échographistes sont des femmes. Leur âge moyen est aux alentours de 51 ans et le nombre moyen d années d expérience est de 19 ans. 25% des opérateurs pratiquent l échographie en exclusif. 87,5% pratiquent l échographie obstétricale de dépistage, dont 10,71% de sage femme, alors que 12,5% pratiquent l échographie obstétricale de diagnostic. Les clichés biométriques envoyés par les échographistes concernaient le deuxième ou le troisième trimestre de la grossesse, avec un nombre plus important d examens effectués au 2ème trimestre ce qui correspond à une moyenne de distribution des examens échographiques à des âges gestationnels aux alentours de 26,5 SA pour la totalité des clichés [Cf. Annexes - Graphe 1 : Distribution des examens échographiques selon les âges gestationnels].
B- Concordance auto/hétéro évaluation : 1- Concordance à l échelle de tous les clichés confondus [Cf. Annexes - tableau 2 et graphe 2] : La concordance entre l auto et l hétéro évaluation à l échelle de tous les critères confondus, a été étudiée par le test paramétrique de Kappa de Cohen. - Le nombre total de critères est de 19040 correspondants à 7840 critères pour les clichés de BIP/PC, 6720 pour ceux du PA et 4480 critères pour les clichés de la LF. - Le pourcentage de présence des critères en auto/hétéro évaluation a été calculé. Ce pourcentage est de 90,04% en auto évaluation pour les clichés du BIP/PC (v/s 91,17% en hétéro évaluation) et de 84,60% pour les clichés de la LF (v/s 92,10% en hétéro évaluation). Pour les clichés du PA le pourcentage est de 85,86% en auto évaluation (v/s 82,59% en hétéro évaluation). - En prenant en compte tous les critères de tous les clichés, le pourcentage de critères sous évalués est de 8.17% et celui des critères sur évalués de 7.09% - Le pourcentage de concordance auto/hétéro évaluation, tous critères confondus, est de 84,74%. Ceci signifie que dans 84,74% des cas, les échographistes étaient, par leur auto évaluation, concordant à celle menée par les cotateurs, alors qu ils étaient les moins concordants avec les cotateurs en auto évaluant les clichés du PA (% de concordance à 80,51%) par rapport à l auto évaluation des clichés du BIP/PC (% de concordance à 87,90%) et de la LF (% de concordance à 85,58%). - Le coefficient Kappa pour les 19040 critères confondus, est de 0,286. Ceci correspond à un degré de concordance modéré entre l auto et l hétéro évaluation d après le classement proposée par Landis et Koch [11]. 2- Concordance à l échelle des scores moyens : 2.1- Score total moyen : - Le test t pour échantillons appariés a été utilisé afin de démontrer s il existe une concordance entre le score total moyen (pour les 30 clichés) obtenu par auto évaluation et celui obtenu par hétéro évaluation. Le score total moyen à l hétéro évaluation est de 8,69/10. Le score total moyen à l auto évaluation est de 8,58/10.
- Le p du test de t apparié est égal à 0,1705 (>0,05), ce qui signifie qu il n y a pas de différence significative entre les valeurs du score total moyen obtenues par auto évaluation et celles par hétéro évaluation. - La répartition des échographistes selon le Delta score total moyen sur 10, est représentée sur le graphe ci-dessous. On constate que environ 85% des échographistes (n=95) ont une différence entre les 2 cotations (auto et hétéro évaluation) 1 en valeur absolue, ce qui signifie que 85% des échographistes sont évalués d une manière presque identique, concernant le score total moyen, en auto qu en hétéro évaluation à +/- 10% de différence, ce qui correspond à +/- 1 point/10 du score total. 2.2- Score moyen de BIP/PC : - Le score moyen BIP/PC à l hétéro évaluation est de 8,76/10. Le score moyen BIP/PC à l auto évaluation est de 8,64/10 Le p du test de t apparié est égal à 0,17 (>0,005) ce qui signifie qu il n y a pas de différence significative entre les valeurs des scores BIP/PC moyens obtenues par auto évaluation et celles obtenues par hétéro évaluation. - La répartition des échographistes selon le Delta score moyen BIP/PC sur 10, est représentée sur le graphe ci-dessous.
Environ 80% des échographistes (n=89) ont une différence entre les 2 cotations 1 en valeur absolue, ce qui signifie que 80% des échographistes sont évalués d une manière presque identique en auto qu en hétéro évaluation à +/- 1 point/10 du score moyen du BIP/PC. 2.3- Score moyen du PA: - Le score moyen du PA à l hétéro évaluation est de 8,26/10.Le score moyen du PA à l auto évaluation est de 8,59/10. - Le p du test de t apparié est égal à 0,002(<0,005), ce qui signifie qu il existe une différence significative entre les valeurs des scores moyens du PA obtenues par auto évaluation et celles par hétéro évaluation. - Le Delta score moyen PA égal à +0,33, ce qui signifie que les échographistes ont tendance à se surévaluer en évaluant le score moyen sur les clichés du PA. En regardant la répartition des échographistes selon le delta score moyen PA/10, on constate qu environ 71% des échographistes sont évalués d une manière presque identique en auto qu en hétéro évaluation à +/- 1 point/10, et qu un pourcentage important, correspondant à 22% environ se sont surévalués de >1point/10 ( >1) [Cf. graphe cidessous].
2.4 - Score moyen de la LF : - Le score moyen de la LF à l hétéro évaluation est de 9,21/10. Le score moyen de la LF à l auto évaluation est de 8,46/10. - Le p du test de t apparié est < à 0,0001 (<0,05), ce qui signifie qu il existe une différence statistiquement significative entre les valeurs des scores moyens de la LF obtenues par auto évaluation et celles par hétéro évaluation. - Le delta score moyen LF égale à -0,75, ce qui signifie que les échographistes ont tendance à se sous évaluer en évaluant le score moyen sur les clichés de la LF. Concernant le score moyen de la LF, environ 64% des échographistes sont évalués d une manière presqu identique en auto qu en hétéro évaluation à +/- 1 point/10, alors qu un pourcentage important correspondant à 32% environ (36/112), se sont sous évalués de plus d 1 point/10. (Cf. graphe ci-dessous).
3- Concordance à l échelle du nombre total moyen de clichés satisfaisant tous les critères : Le même test t pour les échantillons appariés a été utilisé afin de démontrer une concordance entre le nombre total moyen de CST (pour les 30 clichés) obtenu par auto ou hétéro évaluation. - Le nombre total moyen de CST à l hétéro évaluation est de 16,65 /30. Le nombre total moyen de CST à l auto évaluation est de 14,48 /30. - Le p du test de t apparié est égale à 0,001 (<0,005), ce qui signifie qu il existe une différence significative entre le nombre total moyen de CST obtenu par auto évaluation et celui par hétéro évaluation. - Le delta nombre total moyen de CST est égal à -2,17, ce qui signifie que les échographistes ont tendance à se sous évaluer en évaluant le nombre de CST sur l ensemble des 30 clichés. - La répartition des échographistes selon le Delta du nombre total moyen de CST, est représentée sur le graphe ci-dessous. On constate que seulement 34% des échographistes sont évalués d une manière presqu identique en auto qu en hétéro évaluation à +/- 3CST/30 (-3 delta 3), alors que la majorité estimée à 44% environ, se sous évalue de plus de 3 CST/30.
Discussion: Le thème de l auto-évaluation est une préoccupation de grande actualité, qui a fait l objet de plusieurs contributions récentes dans la littérature scientifique en pédagogie universitaire, particulièrement dans le champ de l éducation des sciences de la santé [12-17]. Il est généralement abordé en lien avec le concept de l autonomie considérée comme finalité de la démarche éducative, ce qui conduit à examiner la place de l auto évaluation à la fois dans la perspective de l apprentissage auto dirigé ou dans celle de la pratique professionnelle autorégulée. En éducation médicale, plusieurs auteurs se sont intéressés à l auto évaluation. Ward et al, en 2002 [14], ont identifié l auto évaluation comme étant «la capacité à évaluer correctement ses propres forces et faiblesses». Colthart et al, qui sont les auteurs de la dernière revue systématique consacrée à l efficacité de l auto évaluation, publiée en 2008 [17], ont accordé une définition opérationnelle à l auto évaluation, comme étant «une évaluation personnelle de ses caractéristiques et capacités professionnelles par rapport aux normes perçues». La majorité des définitions, envisagent l auto évaluation comme une stratégie consciente d évaluation de ses compétences et de ses lacunes, visant principalement à optimiser l apprentissage. Il s agit d un processus de régulations dynamiques et interactives de formation prenant une dimension formatrice ne se réduisant pas à une simple instrumentation externe aux mains d un enseignant comme c est le cas pour l hétéro évaluation. Dans le domaine de l échographie obstétricale, et spécifiquement concernant les clichés de biométrie fœtale, l impact pédagogique d une évaluation que ce soit une auto ou une hétéro évaluation n a jamais été testé. Une étude menée par Jaudi et al, en 2012 [18], a étudié l impact pédagogique d une hétéroévaluation des clichés des quatre cavités cardiaques fœtales au 2ème trimestre sur la pratique des échographistes, ainsi que la faisabilité d une EPP sur ces clichés à grande échelle via internet. Ils ont recruté dans cette étude prospective randomisée 287 échographistes volontaires qui ont envoyé via internet 10 clichés des quatre cavités issus d échographies de dépistage au 2ème trimestre de la grossesse sur une période de sept mois et ont été randomisés pour recevoir ou non un retour d information sous forme d un rapport d évaluation. Les clichés ont été évalués via internet grâce à une grille de cotation par un seul cotateur. Une moyenne des scores sur 20 et un pourcentage de clichés techniquement insuffisants (CTI) ont été calculés. Trois mois plus tard, chaque participant a envoyé 10 nouveaux clichés qui ont été à nouveau évalués de la même manière. Cette étude a conclu, d une part que l hétéro évaluation des clichés des quatre cavités fœtales au 2ème trimestre améliore la conformité de ce cliché aux recommandations et que cette
amélioration est d autant plus importante lorsque l échographiste reçoit un rapport d évaluation didactique, et d autre part, qu une EPP à grande échelle sur ce cliché via internet est faisable. Avant notre travail, il n existait pas d études portant sur l auto évaluation et sa concordance avec l hétéro évaluation en ce qui concerne les clichés biométriques d échographie de dépistage du deuxième et du troisième trimestre de la grossesse. Ainsi, notre étude a permis d établir des conclusions sur plusieurs niveaux. Afin d étudier la concordance entre l auto et l hétéro évaluation des clichés biométriques plusieurs paramètres ont été calculés. Tout d abord, le pourcentage de concordance à l échelle de tous les critères confondus était de 84,74%, ce qui signifie que les échographistes étaient, par leur auto évaluation des critères, concordant avec les cotateurs dans 84,74% des cas. A noter qu ils étaient moins concordants en auto évaluant les clichés du PA par rapport aux clichés du BIP/PC et de la LF. Ensuite, afin de mesurer la concordance et de chiffrer l accord entre les deux juges (auto et hétéro évaluation), éléments qui permettent d établir un contrôle de qualité des deux techniques, le coefficient de Kappa de Cohen pour les 19040 critères confondus a été calculé. La valeur de Kappa était de 0,286, ce qui signifie, d après le classement proposé par Landis et Koch [11] à un degré de concordance modéré entre l auto et l hétéro évaluation en tenant compte de l effet du hasard. Accord Kappa, selon Landis et Koch : Excellent > 0,81 Bon 0,80-0,61 Modéré 0,60-0,21 Mauvais 0,20-0,0 Très mauvais < 0,0 Des résultats similaires concernant la concordance entre auto/hétéro évaluation en éducation médicale ont été publiés par Gordon en 1991[13]. En effet, dans sa revue, Gordon a montré que les futurs professionnels en cours de formation médicale et para médicale ne sont pas performant en termes d exactitude de leurs auto évaluations lorsque celles-ci sont comparées à des évaluations externes (examens écrits, évaluations de superviseurs ). Les coefficients de corrélation entre les auto évaluations et les évaluations externes sont de l ordre de 0,3. Davis et al,
dans leur revue systématique conduite en 2006 [19], portant sur les travaux consacrés à l exactitude des auto évaluations de médecins diplômés, ont trouvé des résultats similaires, à savoir qu une majorité d études rapporte une corrélation nulle ou faible des auto évaluations par rapport aux évaluations externes. Une analyse critique des méthodes utilisées dans les études portant sur l auto évaluation a été effectuée par Ward et al [14] qui ont mis en évidence un certain nombre de faiblesses. La majorité des études ont mesuré la capacité d auto évaluation au niveau du groupe et non de l individu, ce qui est le cas dans notre étude. Certains individus pourraient avoir de très bonnes capacités d auto évaluation sans que cela ne ressorte dans les résultats. D autre part, la majorité des études comparaient l auto évaluation à une évaluation externe qui n est souvent ni valide, ni fidèle, ce qui n est pas le cas dans notre étude puisque, l évaluation (auto ou hétéro) est une évaluation objective basée sur la notation par un score et dont la reproductibilité a été mise en évidence par Salomon et ses collaborateurs [10]. Enfin, l instrument utilisé pour l auto évaluation dans la majorité des études est une échelle sans indicateurs descriptifs précis, laissant ainsi à l individu toute liberté d interprétation de la compétence représentée par chaque point de l échelle. Par contre, dans notre étude, la grille de cotation de chaque critère biométrique comportait plusieurs paramètres dont une explication par des schémas et des exemples de coupes biométriques échographiques interprétant l évaluation de chacun de ces critères. [Cf. Annexes - Exemple d une fiche d aide en ligne concernant le critère n 2 (Thalami visibles) de la coupe du BIP/PC]. Concernant le score total moyen, il n existait pas de différence significative entre les valeurs obtenues par auto ou hétéro évaluation, avec 85% des échographistes, évalués d une manière presqu identique aussi bien en auto qu en hétéro évaluation à +/- 10% de différence correspondant à +/- 1point/10 du score total. Par ailleurs, concernant le nombre total moyen de CST, il existait une différence significative entre le nombre de CST obtenu par auto et celui par hétéro évaluation avec seulement, 34% des échographistes, évalués d une manière presqu identique en auto qu en hétéro évaluation à +/- 3 CST/30. Cette différence au niveau des résultats concernant le score total moyen et le nombre total moyen de CST peut être expliquée par le fait qu il suffit qu il y ait une discordance ou un désaccord sur l évaluation d un seul critère entre un échographiste et un cotateur pour que le cliché soit considéré comme non satisfaisant, alors que cette discordance sur un seul critère influence légèrement le score total moyen.
Conclusion: Notre étude préliminaire de l essai prospectif en cours est l une des premières dans son genre à évaluer la concordance entre l auto et l hétéro évaluation. D après les différentes analyses, le pourcentage de concordance auto/hétéro évaluation, tous critères confondus, est de 84,74%. Ce qui signifie que la majorité des échographistes étaient concordant par leur auto-évaluation à celle menée par les cotateurs. Il n existe pas de différence significative entre auto et hétéro évaluation, tous critères confondus, concernant le score total moyen et le score moyen des clichés de BIP/PC, alors que cette différence est significative pour le score moyen des clichés du PA, le score moyen des clichés de la LF et le nombre de CST total. La concordance entre l auto et l hétéro évaluation pour les clichés biométriques étant modérée, il est légitime de se poser la question de l effet de l auto évaluation sur le progrès des échographistes par le biais de l augmentation du taux de clichés conformes et de l impact sur la sensibilité du dépistage du RCIU. La réponse est attendue après la fin de l Audit d EPP de biométrie.
Références: 1- O REILLY-GREEN, C. P. and M. Y. DIVON (1999). Receiver operating characteristic curves of ultrasonographic estimates of fetal weight for prediction of fetal growth restriction in prolonged pregnancies. Am J Obstet Gynecol 181 (5 Pt 1): 1133-8. 2- SOKOL, R. J., L. CHIK, et al. (2000). Correctly identifiying the macrosomic fetus : improving ultrasonography-based prediction. Am J Obstet Gynecol 182(6): 1489-95. 3- DUDLEY N. J. and E. CHAPMAN (2002), The importance of quality management in fetal measurement, Ultrasound Obstet Gynecol, 19 (2) : 190-6. 4- HERMAN A., R. MAYMON, et al. (1998), Nuchal translucency audit: a novel image-scoring method, Ultrasound Obstet Gynecol, 12 (6) : 398-403. 5- HERMAN A., R. MAYMON, et al. (1999), Utilization of the nucal translucency image-scoring method during training of new examiners, Fetal Diagn Ther, 14 (4) : 234-9. 6- CHITTY L. S., D. G. ALTMAN et al. (1994), Charts of fetal size: 2. Head measurements, Br J Obstet Gynaecol, 101 (1) : 35-43. 7- CHITTY L. S., D. G. ALTMAN et al. (1994), Charts of fetal size: 3. Abdominal measurements, Br J Obstet Gynaecol, 101 (2) : 125-3. 8- CHITTY L. S., D. G. ALTMAN et al. (1994), Charts of fetal size: 4. Femur length, Br J Obstet Gynaecol, 101 (2) : 132-5. 9- SNIJDERS R. J. M. and K. H. NICOLAIDES (1994), Fetal biometry at 14-40 weeks gestation, Ultrasound Obstet Gynecol, 4 : 34-48. 10- SALOMON L. J.,J. P. BERNARD, M. DUYME, B. DORIS, N. MAS and Y. VILLE. (2006), Feasibility and reproductibility of an image-scoring method for quality control of fetal biometry in the second trimester, Ultrasound Obstet Gynecol 2006 ; 27 : 34-40. 11- LANDIS JR, KOCH GG - The measurement of observer agreement for categorical data. Biometrics 1977a ; 33 : 159-174] 12- BOUD D, FALCHIKOV N. (1989), Quantitative studies of student self assessment in higher education: a critical analysis of findings. Higher Education 1989;18:529-59. 13- GORDON MJ.(1991). A review of the validity and accuracy of self assessments in health professions training. Acad Med 1991;66:762-9. 14- WARD M, GRUPPEN L, REGEHR G. (2002) Measuring self assessment: current state of the art. Adv Health Sci Educ Theory Pract 2002;7:63-80. 15- EVA KW, REGEHR G.(2005) Self-assessment in the health professions: a reformulation and research agenda. Acad Med 2005;80(10 Suppl):S46-S54. 16- EVA KW, REGEHR G.(2008) I ll never play professional football and other fallacies of selfassessment. J Contin Educ Health Prof 2008;28:14-9.
17- COLTHART I, BAGNALL G, EVANS A, ALLBUTT H, HAIG A, ILLING J et al. (2008) The effectiveness of self-assessment on the identification of learner needs, learner activity, and impact on clinical practice: BEME Guide no. 10. Med Teach 2008;30:124-45. 18- JAUDI S, GRANGER B, HERPIN CN, FRIES N, MONTCEL ST, DOMMERGUES M. Online audit and feedback improve fetal second-trimester four-chamber view images: a randomized controlled trial. Prenat Diagn.2013 Jun 5:1-6. doi: 10.1002/pd.4173. [Epub ahead of print] 19- DAVIS DA, MAZMANIAN PE, FORDIS M, VAN HARRISON R,THORPE KE, PERRIER L. Accuracy of physician self assessment compared with observed measures of competence: a systematic review. JAMA 2006; 296:1094-102.
Annexes : Tableau 1- Les critères, spécifiques pour l évaluation objective de chaque type de mesure avaient été décidés préalablement par l ensemble des trios juges en fonction des standards définies dans les articles de références de biométrie fœtale (Chitty, Altman et al. 1994 ; Snijders and Nicolaides 1994). Critères Image céphalique Image d abdomen Image de fémur 1 Coupe symétrique Coupe symétrique Deux extrémités clairement identifiables 2 Thalami visibles Estomac visible Angle < 45 avec l horizontale 3 Cavum septi pellucidi visible Sinus portal visible Coupe fémorale occupant plus de la moitié de l image globale 4 Cervelet non visible Reins non visibles Repères correctement placés 5 Coupe céphalique occupant plus de la moitié de l image globale 6 Repères et ellipse correctement placés Coupe abdominale occupant plus de la moitié de l image globale Repères et ellipse correctement placés
Critères d évaluation de chaque type de cliché biométrique (BIP/PC), PA, LF : Les 7 critères d évaluation de la coupe du BIP/PC 1- Coupe symétrique 2- Thalami visibles 3- Cavum du Septum Lucidum visible 4- Cervelet non vu 5- Taille de l image 6- Position des curseurs 7- Position de l ellipse Les 6 critères d évaluation de la coupe du PA 1- Coupe symétrique 2- Estomac visible 3- Sinus Porte visible 4- Reins non visibles 5- Taille de l image 6- Position de l ellipse
Les 4 critères d évaluation de la coupe de la LF 1- Les 2 extrémités clairement visibles 2- Angle < 45 avec l horizontale 3- Taille de l image 4- Position des curseurs
Exemple d une fiche d aide en ligne concernant le critère n 2 (Thalami visibles) de la coupe du BIP/PC : COUPE du Diamètre Bipariétal et du Périmètre Céphalique AIDE EN LIGNE Critère 2 : THALAMI VISIBLES A) Coter «oui» quand les thalami sont visibles sur le plan de coupe Exemples :
B) Coter «non >> quand la coupe ne passe pas par les thalami Exemple I : coupe trop haute.
Exemple 2:Coupe trop basse. C) Coter «Impossible à évaluer» (score 0) en l absence de repère anatomique permettant d évaluer ce critère. En effet, les éléments dont vous disposez sur le cliché ne vous permettent pas de répondre à la question.
nombre de foetus Graphe 1 : Distribution des examens échographiques selon les âges gestationnels : Distribution des ages gestationnels 350 300 250 200 150 100 50 0 NR 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 semaines d'aménorrhée Tableau 2 : Concordance auto/hétéro évaluation : Par critères Total BIP/PC PA LF Nombre de clichés 3360 1120 1120 1120 Nombre de critères 19040 7840 6720 4480 % présence hétéro 88,36% 91,17% 82,59% 92,10% % présence auto 87,28% 90,04% 85,86% 84,60% % concordance Auto/Hétéro évaluation 84,74% 87,90% 80,51% 85,58% % surévaluation par l'auto évaluation 7,09% 5,48% 11,38% 3,46% % sous évaluation par l'auto évaluation 8,17% 6,62% 8,11% 10,96% KAPPA 0,286 0.289 0.268 0.309
Graphe 2 : Concordance auto/hétéro évaluation : Par critères