28. Méta-analyse sur données individuelles

28. Méta-analyse sur données individuelles La méta-analyse sur données individuelles regroupe les fichiers de données des essais. La méta-analyse est donc réalisée directement à partir des informations concernant les individus eux-mêmes et non plus à partir de données résumées relatives à des groupes de sujets [202, 203]. 28.1. Techniques statistiques d analyses Les méta-analyses sur données individuelles avec critère de jugement binaire peuvent être réalisées en utilisant différents types de méthodes statistiques. La régression logistique permet de combiner des données d essais où le critère de jugement est mesuré sans tenir compte de leur moment de survenue dans le suivi (par exemple la mortalitéà 6 mois regroupe sans distinction des décès survenus à 5 jours ou à 2mois). Lorsque l on souhaite tenir compte de la chronologie de survenue des événements, une technique d analyse des données de survie, comme le test du logrank stratifié ou le modèle de ox, est utilisable. Quelle que soit la technique choisie, elle peut être utilisée pour rechercher l effet traitement (régression univariée) et des interactions de l effet traitement avec des covariables (recherche des répondeurs, analyse multivariée). Dans les sections suivantes, nous démontrons tout d abord que ces techniques permettent bien de combiner des résultats d essais, en prenant l exemple de la régression logistique. Il est aussi montré que, dans ce cas, la régression logistique sur données individuelles se ramène à la méta-analyse sur données résumées. A) Régression logistique La réalisation d une méta-analyse sur données individuelles avec la régression logistique consiste à faire une analyse stratifiée sur l essai, afin de prendre en compte une variabilité du risque de base entre les essais. La probabilitép G i de survenue d un événement dans le groupe de traitement G 2(;T) dui-ème essai s exprime à l aide du modèle logistique par : p G i 1 p G i exp( i+ G)

288 Méta-analyse sur données individuelles i représente une constante caractéristique dui-ème essai, qui s obtient, en fait, à l aide dei variables indicatricese i («dummy variables»); pour lei-ème essai, E i 1etE j6i 0, donc i 1E 1 +:::+ ie i +:::+ ke k. Pour 3 essais, les valeurs des variables indicatrices sont les sui- Exemple 28.1 vantes : et l équation du modèle s écrit 40 : Essai E 1 E 2 E 3 1 1 0 0 2 0 1 0 3 0 0 1 logit p G E1;E2;E3 1E 1 + 2E 2 + 3E 3 + G En codant l appartenance au groupe contrôle par G 12 et celle au groupe expérimental parg 12, la probabilité de survenue d un événement dans le groupe contrôle et dans le groupe expérimental dui-ème essai sont : p i 1 p i p T i 1 p T i exp( i 2) (28.1) exp( i+ 2) (28.2) En partant de ce modèle, le rapport des cotes s écrit : R i pt i (1 pt i ) p i (1 p i ) exp( i + 2) exp( i 2) exp[( i+ 2) ( i 2)] exp( ) e résultat bien connu montre qu il existe une relation étroite entre le coefficient de la variable codant pour le traitement dans un modèle logistique et le rapport des cotes calculé à partir de la table 2 2. La régression logistique permettra donc d estimer par un rapport des cotes un effet traitement global, supposé identique pour chaque essai (modèle fixe). 40 La fonction logit(p) est équivalente à p(1 p).

Techniques statistiques d analyses 289 B) Relation entre régression logistique et méthodes pour données résumées Dans la régression logistique, l estimation des coefficients des variables du modèle s effectue par le maximum de vraisemblance. En notant, respectivement, parx i et x T i le nombre d événements du groupe contrôle et celui du groupe expérimental, et parn i etn T i les effectifs de ces deux groupes, la vraisemblance du modèle calculée à partir dek essais est : V ; i;x ky i ;xt i V ; i;x ; i;x i V T i i1 (28.3) x ky 1Q x T 1Q exp( i 2) exp( i+ 2) i1 n 1Q n T 1Q 1+exp( i 2) 1+exp( i+ 2) (28.4) (28.4) s obtient facilement en exprimant la vraisemblance d une loi binomiale, à partir d un échantillon rapportant x événements codés 1 sur un total de n observations [204]. Les événements survenant avec la probabilité p, la vraisemblance de l échantillon est la probabilité d observer x événements et n x non événements, soit : V(p;x) xy ny p (1 p) (28.5) i1 ix+1 Dans le modèle logistique p 1/1+exp(À) où À représente la combinaison linéaire des variables explicatives. En effet, (28.1) est par exemple équivalent à : p i exp( i 2) 1+exp( i 2) (28.5) devient donc : V(p;x) xy i1 1 1+exp(À) ny ix+1 µ 1 xy exp(à), n Y (1+exp(À)) 1 1+exp(À)

290 Méta-analyse sur données individuelles Un peu d algèbre permet de réécrire (28.4) : # x P 1 exp" V ; i;x ky ( i 2) i ;xt i (1+exp[ i 2]) n i i1 exp " x T 1 P i+ 2 # (1+exp[ i+ 2]) nt i ky exp x i ( i 2)+x T i ( i + 2) (1+exp[ i 2]) n i (1+exp[ i+ 2]) nt i Pk exph x i +x T i i+ x T i x i 2 i kq h i (1+exp( i 2)) n i (1+exp( i+ 2)) nt i exp³ Pk x i +x T i 2 i + x T ² x ² kq (1+exp( i 2)) n i (1+exp( i+ 2)) nt i avecx ² P k i1 x i (mutatis mutandis pourx T ² ). ox montre que(x T ² x ² ) est une statistique efficace pour l estimation de, et que pour éliminer les i, qui ont valeur de paramètres de nuisance dans l estimation de, il est nécessaire d avoir recours à une expression conditionnelle de la vraisemblance (équivalant au fait de considérer les totaux marginaux de chaque table fixés) [145]. Ainsi l inférence concernant doit être basée sur la distribution conditionnelle desx T i x i,xt i +x i étant fixé. e qui revient à étudier la distribution conditionnelle desx T i. ette étude est à l origine des méthodes d estimation présentées dans le chapitre 19. es techniques sur données résumées sont donc totalement équivalentes à l analyse des données individuelles par la régression logistique stratifiée sur l essai, lorsqu aucune covariable n est prise en compte. ) Stratégies d analyses Dans le cas le plus simple, seul l effet du traitement est recherché et aucune covariable n est envisagée. Le modèle se résume à : Evénement Essai +Traitement ette notation signifie, par exemple dans la régression logistique, que la probabilité de survenue de l événement est déduite d un modèle associant deux facteurs, le facteur Essai et le facteur Traitement. hacun de ces facteurs est représenté par un coefficient qui est significativement différent de zéro quand

Autres techniques d analyses 291 le facteur a une influence significative sur la probabilité de l événement. Le facteur Essai est systématiquement introduit dans le modèle pour éviter de faire l hypothèse que les patients sont semblables dans tous les essais. Ainsi la méta-analyse sur données individuelles respecte les même principes de base de la méta-analyse sur données résumées (cf. 3.2). L écriture détaillée du modèle fait appel à des variables indicatrices («Dummy variables») pour coder le facteur essai (cf. 28.1.A). Des covariables sont introduites dans le modèle lorsqu elles peuvent constituer des facteurs de variations du risque de base. Il s agit alors de réaliser un ajustement sur ces covariables, dans le but de réduire la variabilité totale et d accroître de ce fait la puissance de la recherche. Les modèles prennent la forme suivante : Evénement Essai + Traitement + ovariable 1 +::: + ovariable n Une autre situation où la prise en compte de covariables est potentiellement intéressante est la recherche de facteurs modifiant la taille de l effet traitement. En terminologie statistique, il s agit d une interaction entre une ou des covariables et l effet traitement. Si ces covariables représentent des caractéristiques des patients, cette approche débouche sur la recherche des sujets devant tirer le plus grand bénéfice du traitement (sujets répondeurs) ou devant subir des effets délétères compensant le bénéfice thérapeutique (situation où le traitement ne doit pas être prescrit). Un tel modèle fait intervenir l interaction Traitement ovariable : Evénement Essai + Trait. + ovariable 1 + Trait. ovariable 1 +::: La recherche d une hétérogénéité de l effet à travers les essais équivaut à la recherche d une interaction entre le facteur Traitement et le facteur Essai : Evénement Essai + Trait. + Trait. Essai +::: Si cette interaction se révèle significative, l effet du traitement n est plus identique pour tous les essais témoignant ainsi d une hétérogénéité. 28.2. Autres techniques d analyses La régression logistique ne représente pas la seule technique d analyse utilisable en méta-analyse sur données individuelles. La prise en compte de la dynamique de survenue des événements s effectue par les techniques classiques d analyse des données de survie. Un test du logrank, stratifié par essai, permet de tester globalement la différence entre les groupes.

292 Méta-analyse sur données individuelles Le modèle de ox est aussi utilisable. La prise en compte du facteur essai peut s envisager de deux façons : 1) en stratifiant l analyse sur l essai, ce qui introduit une fonction de risque (fonction du risque instantané, «hazard fonction») différente pour chaque essai; 2) en considérant le facteur essai comme une simple covariable, ce qui correspond à l hypothèse que le rapport des risques instantanés («hazard ratio») est différent d un essai à l autre, mais que la fonction de risque est identique. La construction de courbes de survie, représentant l ensemble de l information apportée par les différents essais, pose des problèmes spécifiques qui ne seront pas détaillés ici [205]. 28.3. Mise en œuvre La réalisation d une méta-analyse sur données individuelles est une entreprise extrêmement lourde. Elle nécessite une collaboration active des personnes qui ont réalisé les essais [206]. Dans ce but, un groupe collaboratif est constitué qui regroupe les méta-analystes et les responsables des essais. Le rôle de ce groupe sera d écrire ou simplement d avaliser le protocole de la méta-analyse, de proposer des pistes pour les analyses multivariées, d assurer le bon déroulement des opérations. L ensemble des membres du groupe cosignera les publications issues de ce travail. En pratique les fichiers sont récupérés sur support informatique (disquette, bande). Il peut s agir soit du fichier total d analyse qui doit être impérativement accompagné d un descriptif précis de chaque variable, soit d un sous-fichier contenant uniquement les données nécessaires à la méta-analyse. Les variables que doit contenir le fichier au minimum sont les suivantes : identification du centre investigateur (pour les essais multicentriques), identification du patient (numéro de patient, monogramme), date d inclusion, date de randomisation, traitement alloué (numéro du traitement, nature), traitement reçu (numéro, nature), données de base (date de naissance, sexe, facteurs pronostiques spécifiques de la maladie), pour les critères de jugement binaires ou de survie : présence ou absence de l événement (définir soigneusement le codage), date de survenue, date de censure (perdu de vue),

Mise en œuvre 293 pour les critères de jugement continus : valeur du critère, date de mesure. Tous les patients inclus doivent être présents dans le fichier pour permettre l analyse en «intention de traiter». La récupération de tels fichiers pose souvent des problèmes. En premier figure celui de la propriété des données qui appartiennent au promoteur de l essai. Dans la majeure partie des pays les données scientifiques, de surcroît celles des essais thérapeutiques ne sont pas considérées comme étant d intérêt général et donc comme publiques. Une exception existe, les données des essais du National Health Institute au USAdeviennent accessibles à tous après un délai de 3 années environ. A coté de ces problèmes de propriété, d autres difficultés apparaissent. Pour les essais anciens, les fichiers ont pu être perdus. Parfois, ils n existent plus (ou ils n ont jamais existé) sous forme informatique. La saisie des documents papiers s avère alors souvent rédhibitoire. Les responsables de l essai ont pu quitter l organisme qui détient les fichiers, posant un problème de recherche d interlocuteur. Dans cette tâche, les difficultés qui surviennent peuvent être de toute nature et une grande diplomatie est de mise. Le coût et la durée du projet sont importants. Des estimations basées sur plusieurs expériences réunies lors d un colloque organisé sous les auspices de la ochrane ollaboration sont les suivantes [206] 41 : Phase Durée minimum harge de travail Développement 3-6 mois 3-4 personnes.mois Recueil des données 1 an 15 personnes.mois (50 essais)... 4-5 personnes.mois (5 essais) Analyse et dissémination des résultats 6-9 mois 10-12 personnes.mois (50 essais) 5-6 personnes.mois (5 essais) 41 Reproduit avec autorisation de John Wiley & Sons Limited.

294 Méta-analyse sur données individuelles 28.4. Intérêts Quels sont les avantages de la méta-analyse sur données individuelles par rapport aux méta-analyses sur données résumées de la littérature? 1. Avec les données de survie, la méta-analyse sur données individuelles permet d exploiter l ensemble de l information et produit des courbes de survie combinées et non plus une simple estimation de l effet du traitement mesurée à un moment donné. De plus, elle permet d éviter les problèmes liés à des durées de suivi différentes entre les études (voir le chapitre 32). 2. Elle permet aussi la standardisation des critères de jugement, surtout avec les critères combinés. A partir des données de chaque patient, il est possible de générer le même critère de jugement pour toutes les études. Un critère du type contrôle tensionnel, déduit à partir de la pression artérielle systolique (PAS) et diastolique (PAD), peut ne pas avoir été défini exactement de la même façon entre les études (par exemple diastolique sous traitement inférieure à 90 mmhg, baisse relative de 30% par rapport aux valeurs initiales, etc.). Seul le retour aux valeurs de PAS et PADde chaque patient permet d utiliser le même critère pour tous les essais. 3. Des analyses multivariées sont réalisables pour étudier l effet traitement en fonction de différentes variables explicatives ou après ajustement multiple en utilisant par exemple la régression logistique, le modèle de ox, ou bien d autres encore. 4. Une ré-analyse en intention de traiter, quand la publication avait porté sur l analyse en traitement reçu, est possible. 5. La correction d erreurs, présentes dans les tableaux de la publication (par exemple une erreur typographique) est aussi réalisable. ependant, dans certains cas, cette procédure produit des résultats plus éloignés de la réalité que ceux rapportés dans la publication. En effet, si des renseignements sont obtenus au dernier moment, ces informations peuvent ne pas être intégrées dans le fichier d analyse, mais seulement prises en compte manuellement dans les tableaux de la publication. Par la suite, avec le temps, ces modifications de dernière minute sont oubliées et se baser à nouveau sur le fichier d analyse n est pas plus proche de la réalité que d utiliser les tableaux publiés 42. 6. Analyse de la qualité méthodologique de l essai. ertains problèmes peuvent être détectés en étudiant les données individuelles : problèmes de randomisation, 42 Les bonnes pratiques actuelles visent à éviter ce genre de situations qui ne devraient plus se produire dans les essais actuels. Par contre, avec les essais légèrement plus anciens, ce phénomène est tout à fait possible.

omparaison avec les méta-analyses sur données de la littérature 295 Tableau 28.1. Tableau 2x2xn utilisé pour des analyses univariées multiples sur données résumées Traitement étudié Traitement contrôle Sous-groupe Effectif Nb Effectif Nb d événements d événements âge<35 ans - - - - 36<âge<45 - - - - 46< âge<55 - - - - 56<âge - - - - discontinuité dans les numéros de patients. ependant, aucun de ces signes n est infaillible. Sa constatation n aboutit qu à une suspicion et ne permet pas d avoir des certitudes. En fait, bon nombre de ces points peut être obtenu sans faire appel aux données individuelles, dans un type intermédiaire de méta-analyse où les responsables d essais sont sollicités pour produire des données résumées au format nécessaire à la méta-analyse. Par exemple, le Beta Blocker Pooling Project a réalisé de nombreuses analyses univariées étudiant l effet du traitement bêtabloquant après infarctus du myocarde en fonction de différentes caractéristiques des sujets (âge, sexe, antécédents d infarctus, d insuffisance cardiaque, fréquence cardiaque, pression artérielle, etc.) [186]. es analyses ont été réalisées uniquement à partir de tableaux 2x2xn prédéfinis et envoyés aux responsables des essais pour être complétés. Le tableau 28.1 représente un exemple d un tableau 2x2xn de ce type. ette démarche permet aussi de récupérer d éventuelles erreurs typographiques présentes dans la publication et des informations complémentaires connues des investigateurs après la parution de la publication. 28.5. omparaison avec les méta-analyses sur données de la littérature Plusieurs travaux ont comparé les résultats obtenus à partir des données individuelles à ceux obtenus avec les données de la littérature [207 210]. es comparaisons montrent que souvent la méta-analyse sur données de la littérature surestime la taille de l effet et donne plus facilement un résultat significatif que la méta-analyse sur données individuelles. ependant, dans ces travaux, les comparateurs utilisés sont des méta-analyses basées uniquement sur les données publiées, sans rechercher les travaux non publiés, pris en compte par la méta-analyse sur données individuelles. Les différences observées sont donc principalement une matérialisation du biais de

296 Puissance statistique d une méta-analyse publication et ne sont pas directement liées à l utilisation de données résumées à la place de données individuelles. Il est très vraisemblable qu une méta-analyse sur données résumées qui intégrerait les données non publiées donnerait des résultats assez proches de ceux de la méta-analyse sur données individuelles (pour ce qui est de la simple recherche de l effet). Bien que la méta-analyse sur données individuelles présente de nombreux intérêts, cet argument ne peut pas être utilisé pour invalider la méta-analyse sur données résumées qui, lorsqu elle est correctement conduite, représente une technique performante (fiabilité statistique et relative facilité de mise en oeuvre) de synthèse des données pour la recherche de l effet d un traitement.