Essais thérapeutiques d équivalence et de non infériorité Sandra DAVID TCHOUDA Cellule innovation CHU Grenoble Plan Bref rappel sur l essai de supériorité Introduction aux essais de non inf. / équ. Calcul du nombre de sujet dans l essai de non inf. / équ. Population d analyse et autres aspects du protocole dans l essai de non inf. / équ. Seuil de non infériorité / marge d équivalence Comparaison indirecte et essais de non inf. / équ. Exemple : l harpagophyton dans l arthrose Inconvénients/ contraintes d un essai de non inf. / équ. BPC des essais de non inf. / équ. Bibliographie 2 1
Rappel sur l essai de supériorité 3 L essai de supériorité (1) : but / limites LE Gold Standard des études en recherche clinique : Essai randomisé, contrôlé versus Placebo (ou ttt de ref), en double aveugle, multicentrique. Pourquoi le contrôle? l'évolution spontanée de la maladie, la régression vers la moyenne, l'effet placebo. Permet, avec une taille d'échantillon minimale (différentiel d'efficacité maximisée sup), de démontrer la supériorité de l'intervention testée. Mais problèmes éthiques et pratiques : Biais de déception : recrutement difficile quand le patient sait qu'il peut être dans un bras «placebo», Arrêts de traitement plus fréquents si inefficacité perçue. 4 2
L essai de supériorité (2) : design habituel contrôle Biais d'attrition ITT Grp T Critère Randomisation Groupe comparable Maintien de la comparabilité Grp C Critère Biais de sélection Biais de réalisation Biais de subjectivité Randomisation Double aveugle 5 L essai de supériorité (3) : Test statistique : interprétation Différence observée Test p < 5% p > 5% Il est peu probable que la différence observée soit due au hasard Différence significative la probabilité que la différence observée soit due au hasard est forte Différence non significative (NS) 6 3
L essai de supériorité (4) : Test statistique : différence NS? Résultat NS Absence réelle d'effet? Manque de puissance Impossible de conclure Bcp de sujets, faible variabilité alors absence d effet probable mais non démontré Peu de sujets et / ou forte variabilité : on ne peut rien dire sinon qu il ne fallait pas faire l étude dans ces conditions (échec programmé ) L absence de preuve n est pas une preuve de l absence d effet thérapeutique... 7 Alternatives à l essai de supériorité Essai de supériorité : B est plus efficace que A. L'essai de supériorité demande de définir une différence minimale d'efficacité sup que l'on veut mettre en évidence avec une puissance suffisante (calcul de taille d'échantillon). Essai d'équivalence : B et A sont thérapeutiquement équivalents. Essai de non-infériorité : B n'est pas plus «mauvais» que A. Ce type d essai demande de définir une marge d'équivalence à partir d'une grandeur eq qui correspond à la plus grande perte d'efficacité que l'on peut tolérer pour conclure que l'un des traitements n'est pas inférieur à l'autre. eq < sup. 8 4
Introduction à l essai de non inf. / équ. 9 Introduction à l Essai de Non-Inf. / Eq.(1) Les essais de non infériorité («non-inferiority trial»), parfois appelé par abus de langage essais d équivalence («equivalence trial»), sont de plus en plus fréquents dans l évaluation clinique des nouveaux ttts. Malgré tout, méthodologie et techniques statistiques relativement peu connu depuis 30 ans (Blackwelder 1982). De fait, des nouveaux traitements peuvent être acceptés sur la base d essai «d équivalence» discutable par méconnaissance des pièges et des spécificités de ce type d étude (Jones 1996). En particulier, le processus décisionnel nécessite l introduction d un seuil d équivalence choisi arbitrairement. Or de la valeur de ce seuil dépend le résultat de l essai. 10 5
Introduction à l Essai de Non-Inf. / Eq. (2) L essai de «non infériorité» ne permet pas de conclure que le nouveau ttt a une efficacité identique à celle du ttt de référence mais simplement qu il a une efficacité «suffisante». L essai de non inf. permet d exclure que le nouveau ttt entraine une perte d efficacité sup. à une certaine limite, fixée a priori et qui est devrait être la plus grande perte d efficacité cliniquement négligeable On peut seulement raisonnablement éliminer la possibilité que le nouveau ttt soit significativement moins efficace que le ttt de référence. 11 Introduction à l Essai de Non-Inf. / Eq. (3) A l issu d un essai de non inf. concluant, rien ne permet d exclure que le nouveau ttt soit en réalité moins efficace que le ttt de référence. seule chose acquise (avec un risque α de 5%) : la perte d efficacité est inf. à la limite que les investigateurs ont choisis et sont donc prêts à perdre compte tenu des avantages qu offre le nouveau ttt par ailleurs. 12 6
Justification d'un Essai de Non-Inf. / Eq. Préalable : Il existe un traitement comparateur de référence ayant fait la preuve de son efficacité contre placebo. L'innovation n'est pas supérieure en efficacité, mais apporte d'autres avantages : Avantage en terme de tolérance Fréq. des effets secondaires moindre, ou moins graves Facilité d utilisation plus grande : voie d adm. plus simple (par exemple orale vs IV ) dose unique à la place d un ttt de plusieurs jours absence d ajustement de dose Inconvénients plus faibles : ttt médical à la place d un ttt chirurgical chirurgie moins délabrante / radiothérapie moins prolongée Coût plus faible 13 Essai de non infériorité (1) : hypothèses On veut montrer que deux traitements sont comparables, mais on accepte que le nouveau ttt fasse un peu moins bien que celui de référence : = µ 1 -µ 0 > - eq. H0: - eq (ttt innovant inférieur à la référence). H1: > - eq (non-infériorité du ttt innovant). 14 7
Essai de non infériorité (2) : démonstration et son IC On «déplace» la valeur de référence de notre échelle : ce n est plus «0», c est «- eq» 15 Essai d équivalence (3) : hypothèses On veut montrer que = µ 1 -µ 0 < eq H0 : - eq ou eq (non équivalence de l innovation). H1 : - eq < < eq (équivalence). Essai de non infériorité «bilatéral» 16 8
Essai d équivalence (4) : démonstration 17 Calcul du nombre de sujet 18 9
Paramètres nécessaires au calcul du nb de sujet dans l Essai de Non-Inf. / Eq. Le calcul dépend : Du risque d erreur α de rejeter H0 à tort, Du défaut de puissance ß ( puissance = 1 ß) à montrer l'équivalence/non-infériorité quand elle existe, De la différence δ d'efficacité entre les deux traitements (en général, on postule δ = 0), De la variabilité de cette différence σδ (dans le cas d une variable continue), De la marge d'équivalence choisi : eq. 19 Formules nécessaires au calcul du nb de sujet dans l Essai de Non-Inf. / Eq. Dans le cas d'une différence de moyennes : Supériorité : N = 2 σ² / sup² (Z 1-α/2 + Z 1-ß )² Equivalence : N = 2 σ² / ( eq-δ)² (Z 1-α + Z 1-ß /2 )² Non-infériorité : N = 2 σ² / ( eq-δ)² (Z 1-α + Z 1-ß )² Comme sup >> eq, les tailles d'échantillon sont plus importantes en non-infériorité qu'en supériorité. 20 10
Exemple calcul du nb de sujet dans l Essai de Non-Inf. / Eq (1) Etude Telediab 3 Démontrer que le recours à une plateforme en TM pour l échange d informations entre diabétologue et patient DID1 n est pas inférieur à une prise en charge conventionnelle (consultations itératives) Critère de jugement : HbA1c à 12 mois (var continue) Le seuil de non infériorité = 0,15%, pour une HbA1c attendue de 8,5 % à 12 mois (ET=0,5%). (logiciel NQuery) 21 Exemple calcul du nb de sujet dans l Essai de Non-Inf. / Eq (2) Nbre pour essai de non inf (Etude Telediab 3) 1 2 3 Test significance level, alpha (one-sided) 0,050 0,050 0,025 Equivalence limit difference, D 0 0,000 0,000 0,000 Expected difference, D 1 0,150 0,150 0,150 D 0 -D 1-0,150-0,150-0,150 Common standard deviation, s 0,500 0,500 0,500 Effect size, d= D 0 -D 1 /s 0,300 0,300 0,300 80 90 80 N per group 139 191 176 22 11
Exemple calcul du nb de sujet dans l Essai de Non-Inf. / Eq (3) Nbre pour essai d équivalence (Etude Telediab 3) 1 2 3 alpha (one-sided) 0,050 0,050 0,025 Lower equivalence limit, DL -0,150-0,150-0,150 Upper equivalence limit, DU 0,150 0,150 0,150 Expected difference 0,000 0,000 0,000 Common standard deviation, s 0,500 0,500 0,500 Power ( % ) 80 90 90 n per group 191 242 290 23 Exemple calcul du nb de sujet dans l Essai de Non-Inf. / Eq (4) Ex fictif avec une variable qualitative : (Calcul http://www.spc.univ-lyon1.fr/mfcalc/ sous explorer basée sur l'utilisation de la différence des risques) Soit 45 % le taux de succès attendu avec un ttt A de référence On veut démontrer qu un ttt innovant B ne sera pas inférieur à A en acceptant une limite de non infériorité de 10 % (RRR de 25% ) Alpha = 0,05 (one-sided par défaut), puissance 90% (80%) N= 424 sujets (307 sujets par groupe) par groupe 24 12
Population d analyse et autres aspects du protocole dans l essai de non inf. / equ. 25 Population d analyse de l Essai de Non-Inf. / Eq. (1) Analyse en Intention de Traiter (ITT) : tous les patients randomises, dans leur groupe de randomisation. Recommandée pour l'essai de supériorité, déconseillée en équivalence. Analyse Per Protocole (PP) : analyse sur les patients n'ayant pas eu de changement/arrêt de traitement, ni violation de protocole. Recommandée en équivalence, et à compléter par une analyse ITT 26 13
Population d analyse de l Essai de Non-Inf. / Eq. (2) : justif. ITT : déviations au protocole semblables -en principe- dans les 2 groupes homogénéisation des réponses diminution de l'efficacité estimée. Souhaitable en supériorité (attitude la plus conservatrice). PP augmentation du contraste entre les groupes attendue. Souhaitable (attitude la plus conservatrice) en équivalence. Avec le risque de surestimation de l'efficacité d'un ttt où les nonrépondeurs arrêteraient systématiquement (i.e. risque de conclure à la non-infériorité alors qu'il y avait infériorité : inflation du risque d erreur) Les essais d'équivalence/non-infériorité doivent se faire en PP, et il est primordial de décrire cette population PP aussi 27 Aspects du protocole de l Essai de Non-Inf. / Eq. Essais très sensibles à la qualité du protocole. Calquer l'essai qui a établi la supériorité du ttt de référence (démontrer l'équivalence du nouveau ttt dans le contexte où on sait le ttt de référence efficace). Mêmes critères d'inclusion, mêmes patients que dans l essai de supériorité, même critère de jugement, Bon choix du traitement de référence, Bon choix de la marge d'équivalence eq. Objectifs secondaires sur la supériorité du nouveau ttt (EI, facilité, cout ) +++ Pose le problème des tests multiples Augmenter la puissance peut pallier l inflation possible du risque alpha 28 14
Rappel Critère clinique - critère intermédiaire Hypertension Objectif thérapeutique Prévenir les accidents cardiovasculaires Critère clinique accidents cardiovasculaires pression artérielle = critère intermédiaire (critère de substitution) 29 Dogme Passage non-infériorité supériorité : Non-infériorité démontrée, δ > 0 (par intervalle de confiance, ou par test statistique de supériorité ). Le mettre en objectif secondaire Passage supériorité non-infériorité : jamais. 30 15
Seuil de non infériorité / marge d équivalence 31 Seuil de non-infériorité / marge d équ. eq La signification du seuil est importante: Il s agit de la plus grande perte d efficacité par rapport au ttt de référence que l on consent. Par exemple, un seuil relatif de 10% signifie que l on considérera le nouveau ttt comme «équivalent» (non inférieur) tant que son efficacité ne sera pas inférieure, en relatif, de 10% à celle du ttt de référence. Au maximum, le nouveau ttt, déclaré comme «équivalent», pourra entraîner une augmentation relative de la fréquence du critère de jugement de 10%. Apparaît ici l ambiguïté du terme «non inférieur» (ou équivalent). Si le seuil choisi correspond à une perte importante d efficacité, dire que le nouveau ttt est «non inférieur» est un abus de langage. Admettre «l équivalence ou la non inf.» de deux traitements, c est accepter que le nouveau ttt soit d une efficacité potentiellement inférieure à celle du ttt de référence. 32 16
Choix de eq Détermination de la borne eq Certains pense qu il est préférable d exprimer eq non pas en différence absolue mais en risque relatif Ex : hypothèse de 5 % d échecs, borne eq identique mais exprimée différemment en : En différence absolue : eq = + 1% En risque relatif eq = +1% de 5% = 6%/5% = 20 % d augmentation du risque, soit RR = 1,2. De fait, le RR tient compte des incidences réellement observées 33 Choix de la marge d équivalence (1) : qui? Bouvenot & Villani : La méthode consiste à faire définir par les cliniciens (et non par les statisticiens), une zone dite d'équivalence, c'est-à dire un intervalle dans lequel il est raisonnable que se situe la différence d'effet observée entre les deux ttts, si l'on admet qu'ils sont également efficaces. D'Agostino : To the dismay of some (clinicians?), the statisticians seem to have taken control of this issue. EMEA* : The selection of the non-inferiority margin is based upon a combination of statistical reasoning and clinical judgement. *EMEA : Agence Européenne du médicament (EMEA) 34 17
Choix de la marge d équivalence (2) : comment? Deux contraintes : Montrer que le traitement évaluée à une efficacité non nulle (i.e. supériorité par rapport au placebo) étape statistique inutile si validation interne (bras placebo), Montrer qu'il n'est pas inférieur au traitement de référence étape clinique : eq doit être «cliniquement négligeable» En pratique, énorme variabilité dans les méthodes de détermination de eq. et dans les recommandations officielles sur ces méthodes 35 Interprétation des résultats d un essai de Non-Inf. / Eq. La décision de conclure à la non-infériorité (du nouveau ttt par rapport au ttt de référence), s effectuera en comparant la borne «adéquate» de l IC avec le seuil de non-infériorité choisi. Un IC unilatéral à 97.5% est utilisé. Cet ICcorrespond à un risque alpha de 2.5% (ou 5% one-sided). Cohérence avec l essai de supériorité. En effet avec un test bilatéral et un risque alpha de 5% (test classiquement utilisée pour les essais de supériorité), le risque alpha rattaché à la conclusion de supériorité est de 2.5% (cf. test unilatéraux/bilatéraux). Avec un intervalle unilatéral à 97.5% dans l essai de non infériorité, le risque de conclure à tort à la non infériorité est donc aussi de 2.5%, ce qui assure une cohérence entre les 2 approches. 36 18
Extrapolation à l essai de non inf. / équ. Par comparaison indirecte 37 Comparaison indirecte et essai de non inf. (1) L interprétation du résultat d un essai de non-infériorité peut se ramener à un problème de comparaison indirecte. Cette approche de l équivalence consiste à extrapoler l efficacité du nouveau ttt par rapport au placebo (putatif) à partir de 2 essais. l estimation de l efficacité du ttt de référence par rapport au placebo (essai de supériorité ou d équivalence) l estimation de l efficacité du nouveau ttt par rapport au traitement de référence (essai de supériorité non concluant). Cette efficacité extrapolée permet ensuite: de s assurer que le nouveau traitement fait mieux que le placebo. de comparer le nouveau ttt au ttt de référence, en termes d équivalence. 38 19
Comparaison indirecte et essai de non inf. (2) : exemple Extrapolation à partir des var(log RR) : var(log RR N vs PBO ) = var(log RR C vs PBO ) + var(log RR N vs C ) RR (IC à 95%) log(rr) var(log RR) Comparateur vs placebo (C vs PBO) 0,70 (0,55;0,89) -0,357 0,0149 Nouveau ttt vs comparateur (N vs C) 1,02 (0,87;1,20) 0,020 0,0065 (N vs PBO) (extrapolation) 0,71 (0,54;0,95) -0,337 0,0214 39 Comparaison indirecte et essai de non inf. (3) : exemple C vs PBO N vs C N vs PBO 0.40 0.60 0.80 1.00 1.20 1.40 Risque relatif Ce graphique montre ainsi, que le nouveau ttt est supérieur au placebo. Son efficacité est très certainement proche de celle du ttt de référence. Mais il n est pas possible d exclure avec certitude une efficacité moindre, visualisée par une borne supérieure de l IC du nouveau traitement plus élevée que celle du traitement de référence (0,95 à la place de 0,89). À partir de là, calcul possible de la perte réelle d efficacité 40 20
Comparaison indirecte et essai de non inf. (3) : calcul de la perte réelle d efficacité RRR de N = 5% (100-0,95) (borne sup IC 0,95) RRR de C = 11% (100-0,89) RRR de N représente 45% de la RRR de C (5/11=45%), soit une perte de 55% de l efficacité de C. On ne peut raisonnablement exclure que le N ne développe que 45% de l efficacité du traitement de référence C vs PBO N vs PBO RRR 11% 5% 1.00 Perte d efficacité consentie 41 Exemple d un essai de non inf. : l'harpagophyton dans l'arthrose 42 21
Exemple : Harpagophyton equ. Trial (1) Extrait de l article : Leblan D, Chantre P, Fournié B. Harpagophytum procumbens in the treatment of knee and hip osteoarthritis. Fourmonth results of a prospective, multicenter, double-blind trial versus diacerhein. Joint Bone Spine. 2000;67(5):462-7 Laboratoires Arkopharma, Carros, France. OBJECTIVE: To evaluate the efficacy and safety of Harpagophytum in the treatment of hip and knee osteoarthritis comparatively with the slow-acting drug for osteoarthritis, diacerhein. primary evaluation criterion was the pain score on a visual analog scale PATIENTS AND METHODS: A multicenter, randomized, double-blind, parallel-group study was conducted in 122 patients with hip and/or knee osteoarthritis. Treatment duration was four months Harpagophytum 2,610 mg per day vs diacerhein 100 mg per day. 43 Exemple : Harpagophyton equ. Trial (2) Le but de cet essai était démontrer l efficacité de l'harpagophyton dans l'arthrose sur une durée de ttt suffisamment longue = quatre mois. pas de groupe placebo dans cette étude (arguments des auteurs: il est souvent difficile de recruter des patients lorsqu'ils sont informées du risque -égal à 50 %- d'être dans un groupe placebo, et ce d'autant plus que la durée de traitement est particulièrement longue ) ttt de ref? Il a donc été choisi comme traitement comparateur un antiarthrosique d'effet différé et prolongée de référence : la diacerhéine, qui a fait l'objet de nombreux essais cliniques, démontrant son efficacité à la fois dans des études contre placebo ou contre AINS 44 22
Exemple : Harpagophyton equ. Trial (3) L'hypothèse principale à tester était la suivante : essai d'équivalence unilatérale ou de non infériorité de l'harpagophyton par rapport a la diacerhéeine sur la douleur spontanée mesurée a l'aide d'une EVA (100 mm). En posant l'hypothèse que la différence vraie entre les traitements était nulle avec un eq de 10 mm (sur l EVA) et un écart type de σ 18 mm, un test d'équivalence unilatéral avec un risque α à 0,05, un risque ß à 0,10, nécessitait l'inclusion de 56 patients par groupe : n = 2 σ² / ( eq-δ)² (Z1-α+ Z1-ß)² = 2(18)² / 10² (1,64+1,28)² = 55,5 Sur NQuery : 70 sujets par groupe 122 patients ont été randomisées dont 92 ont terminée l'essai conformément au protocole. 45 Exemple : Harpagophyton equ. Trial (4) Les auteurs ont mesuré l'évolution de la douleur entre l'inclusion et M3. Comme une différence négative indique une diminution de la douleur, un δ négatif indique qu'harpagophyton est plus efficace que la Diacerhéeine pour diminuer la douleur. La non-infériorité est rejetée si l'intervalle de confiance coupe la valeur eq = +10. Analyse Harpagophyton Diacerhéeine δ IC90% PP -30,6 mm -25,5 mm -5,1 (-13,1 ; 3,0) ITT -28,8 mm -22,1 mm -6,7 (-14,2 ; 0,9) CONCLUSION: In this study, Harpagophytum was at least as effective as a reference drug (diacerhein) in the treatment of knee or hip osteoarthritis and reduced the need for analgesic and nonsteroidal anti-inflammatory therapy 46 23
Exemple : Harpagophyton equ. Trial (5) RESULTS: After four months, considerable improvements in osteoarthritis symptoms were seen in both groups, with no significant differences for pain, functional disability, or the Lequesne score. However, use of analgesic (acetaminophen-caffeine) and nonsteroidal anti-inflammatory (diclofenac) medications was significantly reduced in the Harpagophytum group, which also had a significantly lower rate of adverse events. Avantages comparés Significativement moins d'ains dans le groupe harpagophyton. Significativement moins de patients avec EI dans le groupe harpagophyton. 47 Conclusion: les contraintes à retenir 48 24
Inconvénients de l essai de Non-Inf. (1) Un essai d équivalence ou de non infériorité nécessite un plus grand nombre de patients, simplement pour le critère principal Les objectifs secondaires peuvent aussi faire croitre les effectifs Il est moins spectaculaire Difficulté à publier 49 Inconvénients de l essai de Non-Inf. (2) Un essai d équivalence ou de non infériorité au niveau du critère principal impose un test de supériorité sur un critère secondaire Il doit mettre en avant l avantage du nouveau ttt EX : équivalence sur le contrôle tensionnel en CJP Gain sur la qualité de vie, les coûts, les effets secondaires en CJS 50 25
rappel sur les tests multiples Aux dés, la probabilité d obtenir un six est plus forte avec 3 dés qu avec un seul Test 1 Test 2 Test 3 Test 4 Risque de conclure à tort à une différence = 5% Risque de conclure à tort à une différence = 5% Risque de conclure à tort à une différence = 5% Risque de conclure à tort à une différence = 5% n risque global 2 0.10 3 0.13 5 0.23 Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%. Inflation du risque alpha 10 0.40 51 Contraintes de l essai de Non-Inf. (3) Un essai d équivalence ou de non infériorité doit a priori s analyser en per protocole plutôt qu en intention de traiter L analyse en intention de traiter minimise la différence entre A et B C est un atout en essai de supériorité C est un biais possible en équivalence Il suffit de saborder la prise en charge du groupe de référence pour démontrer la non infériorité 52 26
BPC des essai de non inf. / equ. 53 Essai de non inf / revue littérature : Le Henanff, A. et al. JAMA 2006;295:1147-1151 Methodological Quality of Reports of Randomized Controlled Trials of Noninferiority or Equivalence Copyright restrictions may apply. 54 27
Le Henanff, A. et al. JAMA 2006;295:1147-1151 (suite et fin) Practical Recommendations for Planning and Reporting the Analysis of Data From Noninferiority or Equivalence Trials. Copyright restrictions may apply. 55 CONSORT Group Consolidated Standards of Reporting Trials» un panel d experts en méthodologie des essais cliniques Première version en 1996 rédigée par le Groupe CONSORT http://www.consort-statement.org 56 28
Bibliographie du cours Bibliographie Les essais thérapeutiques (définition et lecture critique) www.spc.univ-lyon1.fr/lecture-critique D'Agostino RB, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues - the encounters of academic consultants in statistics. Statist. Med. 2003;22:169-86. Elie C, De Rycke Y, Jais JP, et al. Aspects méthodologiques et statistiques des essais d'équivalence et de non-infériorité. RESP. 2008;56:267-77. EMEA/CHMP. Points to consider on switching between superiority and noninferiority. July 2000. EMEA/CHMP. Guideline on the choice of the non-inferiority margin. July 2005 Je remercie les 3 personnes suivantes pour leurs enseignements relatifs à l essai d équivalence ou de non infériorité dont je me suis inspiré : Jean-Luc BOSSON (CIC Grenoble) Michel CUCHERAT (HCL Lyon) www.spc.univ-lyon1.fr/lecture-critique Lionel RIOU FRANCA (Inserm U669) 57 29