11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant le moyen le plus fiable pour évaluer l effet d un traitement. Cependant, en pratique, tous les essais réalisés ne suivent pas au mieux les contraintes méthodologiques et leurs défauts plus ou moins importants réduisent la fiabilité du résultat. Ainsi, il serait commode de pouvoir mesurer la qualité méthodologique des essais afin de distinguer les plus fiables de ceux dont la moindre qualité fait courir le risque de résultats biaisés. Dans ce but, de nombreuses échelles ont été développées afin de synthétiser en un indice la qualité méthodologique des essais. En pratique elles sont cependant d un maniement délicat. Dans une méta-analyse, le problème de l évaluation de la qualité méthodologique apparaît à trois ou quatre niveaux: lors du processus d inclusion-exclusion des essais, lors de la description des caractéristiques des essais, qui comprend une description des facteurs de qualité des essais, dans des analyses stratifiées (en sous-groupe) et des analyses de sensibilité pour dépister d éventuelles modifications des résultats, en fonction de la qualité des essais, éventuellement, une analyse peut être réalisée utilisant un indice de qualité comme pondération. Avant d envisager les modalités pratiques de ces approches, nous allons passer en revue les éléments qui permettent d évaluer la qualité méthodologique d un essai thérapeutique. 11.1. Les marqueurs de qualité Les éléments discutés dans ce chapitre le sont de façon relativement succincte, car une présentation détaillée de ce sujet dépasserait largement le cadre de cet ouvrage. Le lecteur désireux d aller plus loin sur ce point peut se référer à un ouvrage de méthodologie des essais contrôlés.

106 Evaluation de la qualité des essais Il est important de rappeler qu une publication ne permet pas d apprécier directement la qualité d un essai, mais plutôt la qualité du couple essai-publication [118]. L image d un essai correct peut être altérée par une publication médiocre. D autre part, la taille restreinte des textes demandée par les éditeurs font que des informations importantes pour l évaluation de la qualité n apparaissent pas dans les publications, ce qui gêne le processus d évaluation de la qualité. Les marqueurs de qualité ne sont rien de plus que les impératifs méthodologiques minimisant le risque de biais dans l essai. A) Allocation aléatoire des traitements L allocation aléatoire des traitements (ou randomisation) permet d obtenir deux groupes de patients initialement comparables en tout point (en fait cette comparabilité est obtenue en moyenne, et comme dans tout phénomène statistique il est possible, avec une faible probabilité, que l allocation aléatoire des traitements conduise à des groupes dissemblables). Cette randomisation permet non seulement l égale répartition des facteurs pronostiques connus entre les deux groupes, mais aussi celle de tous les facteurs inconnus. Après administration du traitement étudié, ces deux groupes ne se différencieront que par la nature du traitement reçu. B) Absence de facteur de confusion dans le suivi et l évaluation des résultats La randomisation produit deux groupes comparables (en moyenne). Il est important que durant la phase de suivi cette comparabilité soit maintenue. Agissent à ce niveau l évaluation objective des critères de jugement et l utilisation de traitements concomitants, identiques quel que soit le groupe. Ces points sont obtenus par le suivi en double insu d une part et par analyse en intention de traiter d autre part. Ainsi, en cas de différence observée, celle-ci pourra être reliée de façon forte à la seule différence existant entre ces deux groupes : le traitement. Il devient alors possible de conclure à la relation de causalité (probabiliste) entre l administration du traitement et le résultat observé. C) Absence de perdus de vue et analyse en intention de traiter Toutes les unités informatives (patients) incluses dans l essai, c est à dire soumises au processus d allocation aléatoire, doivent être analysées en les prenant en considération dans le groupe où elles ont été allouées par la randomisation. Par exemple, l arrêt du traitement de l étude pour un patient recevant le traitement étudié peut être lié à un échec de la thérapeutique. Ne pas considérer ce patient dans l analyse entraîne une perte d information, biaisant éventuellement le résultat. L intention de

L évaluation de la qualité pour la sélection 107 traiter évite ce problème et de plus corrige le biais entraîné par les changements de groupes intentionnels. 11.2. L évaluation de la qualité pour la sélection Le but est d exclure les essais dont la mauvaise qualité méthodologique fait courir le risque de résultats biaisés, l inclusion de ces essais pouvant entraîner à son tour un biais dans le résultat de la méta-analyse. L objet de cette étape est donc de définir les critères qui garantissent raisonnablement l absence de biais trop importants. Cette sélection ne devra cependant pas être trop sévère au risque d éliminer beaucoup trop d informations pertinentes (cf. chapitre 10). Néanmoins, s il s avère a posteriori que les résultats de la méta-analyse sont variables en fonction de l inclusion ou de l exclusion des essais de plus faible qualité (cf. 11.4), il sera difficile d exploiter les conclusions de la méta-analyse (cf. 11.4.D). Un choix rigoureux des critères de qualité méthodologique des essais à inclure dans une méta-analyse réalisé a priori lors de la définition du protocole est le meilleur garant contre ce problème. Pour faire cette sélection, une façon de procéder est de classer les essais en fonction de leur qualité méthodologique, par exemple, en trois classes [119]: essais de bonne qualité, essais de qualité moyenne, essais de qualité insuffisante. Les essais dont la qualité est insuffisante sont exclus. Les essais des deux premières classes sont pris en considération pour la méta-analyse et une analyse de sensibilité teste les conséquences de l éventuelle inclusion d essais de qualité moyenne aux cotés de ceux de bonne qualité (cf 11.4.B). Pour effectuer cette classification en trois classes, le respect de chaque principe méthodologique (cf. 11.1) est noté de la façon suivante : Note A Note B Note C Principe entièrement respecté et réalisation satisfaisante Principe partiellement respecté ou description insuffisante Principe non appliqué ou réalisation érronée Les principes méthodologiques qui pourront être ainsi notés sont entre autres : allocation aléatoire des traitements, contrôle des facteurs de confusion dans le suivi et l évaluation des résultats (double ou simple aveugle), absence de perdu de vue et disponibilité des données pour réaliser une analyse en intention de traiter,

108 Evaluation de la qualité des essais absence d autres biais (en fonction de la situation). C est le protocole qui définit précisément les points sur lesquels portera cette analyse (cf. chapitre 14). Les classes sont ensuite constituées en fonction des critères suivants : Classe Bonne qualité Qualité moyenne Qualité insuffisante Critère Tous les principes sont notés A Au moins un principe est noté B Au moins un principe est noté C La qualité de l allocation aléatoire garantissant l impossibilité de découvrir la nature du traitement que devrait recevoir un patient, apparaît être le point le plus important pour garantir l absence de biais. Schulz et coll. ont montré que les essais, dans lesquels ce point méthodologique n était pas respecté ou non suffisamment décrit, conduisaient à une surestimation de la taille de l effet de 30 à 40% par rapport à celle obtenue avec des essais où la qualité de l allocation aléatoire était irréprochables [120]. Dans cette étude, les moyens suivants d allocation aléatoire étaient retenus comme satisfaisants : randomisation centralisée, boite de traitement numérotée (de façon continue ou non), traitement fabriqué par la pharmacie, enveloppes scellées et opaques. Les moyens jugés inadéquates furent : allocation en alternance, en fonction du numéro de dossier ou de la date de naissance. Il convient donc d être particulièrement attentif sur la qualité de l allocation des traitements et de facilement noter ce point «C» en cas de doute. Cette démarche conduit à exclure un essai, lorsqu il existe de façon claire au moins une des conditions suivantes : allocation non aléatoire (ou allocation aléatoire incorrecte), biais majeur dans le suivi, données en intention de traiter non disponibles ou non reconstituables. 11.3. Description de la qualité Cette étape est la moins problématique de toutes celles impliquant l évaluation de la qualité méthodologique. Bien que l on puisse simplement rapporter un indice synthétique de qualité, il est préférable de détailler dans un tableau les diverses composantes vues précédemment (cf. 11.1). Cette description doit être faite pour les essais inclus mais aussi pour ceux qui ont été exclus.

Analyse en fonction de la qualité 109 Ces tableaux pourront, par exemple, comporter les éléments suivants : type de l allocation aléatoire: allocation centralisée, par enveloppe, par boites numérotées, etc., type de l insu : en double insu, en simple insu, type de l évaluation des critères de jugement : en insu ou non de la nature du traitement reçu, analyse en intention de traiter, nombre de perdus de vue, utilisation des traitements concomitants identiques, Si une grille de cotation (cf. 11.5) a été utilisée, l indice de qualité de chaque étude est aussi rapporté en plus de ces éléments. 11.4. Analyse en fonction de la qualité Il est possible de montrer qu une relation existe entre la qualité des essais et la taille de l effet traitement qu ils montrent [120 123]. En général, plus l essai est de qualité médiocre plus il montrera un effet traitement important. Les causes de cette observation empirique sont certainement multiples. Mais il est facile d imaginer que lorsqu il existe un manque de rigueur, l évaluation des critères de jugement peut favoriser le groupe expérimental et qu un suivi trop laxiste conduise à l élimination des mauvais résultats dans le groupe du traitement testé. A) Sous-groupes Le regroupement des essais en fonction de leur qualité méthodologique permet de vérifier si la taille de l effet du traitement varie en fonction de la qualité des essais. Ces analyses en sous groupes, basées sur le test d hétérogénéité, apportent des renseignements complémentaires à ceux des analyses de sensibilité. B) Analyses de sensibilité Les analyses de sensibilité ont pour but de s assurer de la stabilité des résultats, suivant que l on inclut ou non les études de qualité moyenne. Cela revient à réaliser plusieurs fois les calculs de méta-analyse : tout d abord en incluant toutes les études, celles de bonne et de moins bonne qualité, ensuite en refaisant les calculs sans prendre en compte les études de moins bonne qualité. La séparation des essais suivant leur qualité peut se faire en deux groupes ou plus. Cependant, lorsque ce

110 Evaluation de la qualité des essais nombre dépasse trois il est difficile d obtenir une discrimination suffisante entre les niveaux de qualité pour garantir la constitution de groupes homogènes. Fig. 11.1. Analyse en sous-groupes et analyse de sensibilité. En outre, ces analyses de sensibilité permettent de s assurer que le fait d éliminer une part de l information, même si celle-ci n est pas très fiable, n entraîne pas de modification importante du résultat de la méta-analyse, surtout en terme qualitatif : changement de la signification statistique. En cas de différence avec et sans les études de moins bonne qualité, se pose le problème d identifier son origine parmi les deux cas possibles : les essais de moins bonne qualité sont biaisés et leur introduction dans la méta-analyse biaise son résultat. La bonne estimation de l effet traitement est celle obtenue en les excluant. Les essais de faible qualité surestimant l effet du traitement, l analyse restreinte aux essais de bonne qualité ne met pas en évidence l effet du traitement, tandis que celle incluant tous les essais montre un effet à tort. l exclusion des essais de moins bonne qualité est trop sévère et prive la méta-analyse d une quantité d information pertinente. La méta-analyse sur l ensemble des essais atteint une puissance suffisante pour conclure à un effet du traitement tandis que l analyse restreinte aux essais de meilleure qualité manque de puissance. C) Pondération en fonction de la qualité Il a été proposé d utiliser un indice de qualité comme coefficient de pondération (cf. 18.4) [124]. Cette pondération s ajoute à la pondération standard par l inverse de la variance (cf. chapitre 18). Ainsi, meilleure est la qualité d un essai, plus impor-

Les échelles de mesure 111 tante est sa contribution à l estimation de l effet traitement commun. Ce principe est séduisant mais se heurte à une difficulté théorique. Pour que ce système soit entièrement satisfaisant, il conviendrait que l on dispose d une véritable métrique de la qualité, c est à dire que tout le long de l échelle un changement d une unité corresponde au même changement dans le risque d existence d un biais. Or une telle métrique n existe pas. Avec les échelles actuelles (cf. infra), rien ne permet de dire, si un essai obtient un score deux fois supérieur à celui d un autre, qu il doit contribuer deux fois plus à l estimation globale. En outre il n existe pas de standard. D) Analyse cumulative Une analyse cumulative 20 en fonction de la qualité méthodologique peut apporter des renseignements sur l inf luence des essais de faible qualité sur l estimation de l effet commun. Pour cela, les essais sont classés suivant une échelle de qualité (cf. 11.5) par ordre croissant ou décroissant. L ordre décroissant donne cependant des résultats plus faciles à interpréter. Si les résultats de faible qualité ne sont pas biaisés, l estimation de l effet traitement commun sera stable et aucune évolution en fonction de la qualité des essais ne sera notée. Dans le cas contraire où les essais de faible qualité sont biaisés, l analyse cumulative montrera une tendance à la dérive de l estimation de l effet traitement commun en fonction de la qualité. Par exemple, la taille de cet effet commun augmentera au fur et à mesure où les essais de faible qualité seront ajoutés. Dans cette situation, l analyse cumulative mettra donc en évidence le fait que des résultats variables peuvent être obtenus en fonction de l inclusion ou du rejet de certaines études de faible qualité. En fait, l analyse cumulative est un moyen élégant de réaliser toutes les analyses possibles de sensibilité, de façon séquentielle, en rajoutant à chaque fois un nouvel essai. Il est cependant dangereux de déterminer a posteriori les essais à retenir dans la méta-analyse à partir du résultat que l on obtient. Dans les situations où existent des grandes différences dans les résultats, il est conseillé de présenter l analyse cumulative telle quelle, puis de discuter l influence de la qualité des essais sur le résultat. 11.5. Les échelles de mesure De nombreuse échelles mesurant la qualité méthodologique d un essai ont été développées [125]. Dans une récente revue de la littérature, D. Moher et coll. ont retrouvé 25 échelles et 9 listes de contrôle («check-list») [126]. Les échelles débouchent 20 La méta-analyse cumulative est décrite au chapitre 27.

112 Extraction des données sur un score global, tandis que les listes de contrôle aident seulement à identifier des lacunes méthodologiques. Une telle profusion de propositions pour un même point laisse présager qu aucune solution entièrement satisfaisante n a été trouvée. Les limites de ces échelles sont les suivantes : les coefficients utilisés pour noter chaque item méthodologique sont choisis de façon arbitraire car il est impossible de prévoir les conséquences du respect ou non d un impératif méthodologique en terme de degré de biais, ces échelles ont été construites sans faire appel à des techniques de construction d échelle de mesure. Un certain nombre d entre elles ref lètent simplement les convictions de leurs auteurs ou sont le résultat d une démarche empirique [126], suivant les échelles, certains domaines sont plus ou moins privilégiés, par exemple l analyse statistique dans l échelle de Chalmers [127], les échelles conduisent pour la plupart à un indice unique, facile à manipuler, mais qui fait disparaître les différentes composantes de la qualité méthodologique, sauf pour certaines méthodes qui utilisent des sous-notes pour chaque grande composante. Il est à noter que ces échelles font presque toutes intervenir la qualité de l analyse statistique (test approprié, nombre de sujets garantissant une puissance correcte, etc.). Cependant, en méta-analyse la qualité de cette phase de l essai thérapeutique n a que très peu de retentissement direct sur la qualité de la méta-analyse. En effet, la méta-analyse prélève ses données en amont du processus d analyse. Une analyse médiocre ne perturbera pas le résultat de la méta-analyse, sauf pour la méthode des votes ou celle de combinaison des degrés de signification. Néanmoins, un défaut de qualité à ce niveau laisse planer un doute sur tout l essai.