Le quizz des stats Xavier Paoletti Sce de biostatistiques / Inserm U900 Institut Curie
Qques questions pour entamer les hostilités 1. Description de la population Pourquoi parler d'âge médian et non moyen? Quelle mesure centrale préférer (moyenne ou médiane)? Quelle mesure de dispersion préférer (écart type, interquartile, extrêmes)? Retirer les extrêmes dans les calculs descriptifs? si oui, combien? Où? Faut-il tester les différences entre groupes à baseline dans un essai randomisé? 2. Analyse statistique 2.1 Morbimortalité : Quelle morbimortalité est acceptable en chirurgie? Quelles sont les différences entre analyses uni et multivariées? les facteurs de risque de morbimortalité post opératoire peuvent ils être des données postopératoire? 2.2 Efficacité : Que penser des critères composites? Quel placebo autoriser en chirurgie? 2.3 Survie : Que faire des patients perdus de vue dans la réalisation de courbe de Kaplan Meyer? Qui censure-t'on dans la courbe de KM? A partir de quelle taille d'échantillon peut on utiliser la méthode de Kaplan Meyer? Qu est-ce qu'un score de propension? Quelles différences entre score de propension et appariement classique? 3. Logiciel : quel logiciel de stat pour un néophyte? quelles stats peut on faire sous excel?
Description de la population Médiane versus moyenne: Médiane valeur qui coupe la population en 2 Donne une vague idée du «milieu» Peu sensible aux observations extrêmes Intervalle de confiance pas aisé Recommandée lorsque Petits effectifs Distribution non symétrique (notamment les durées) Moyenne Avec l écart-type permet de calculer un intervalle de confiance Sensible aux valeurs extrêmes Moyenne=médiane si distribution symétrique
Description de la population Les 2 sont possibles En général distribution symétrique Regarder si c est le cas
Description de la population Une mesure de dispersion doit tjs être donné Dépend du résumé utilisé Avec la moyenne Écart-type (ou variance) fourni aisément un IC Si écart-type > moyenne, probablement utiliser la médiane. Avec la médiane Interquartile range (ou quartiles ou décile) Min, max (pour indiquer si données aberrantes) plus les valeurs de la population sont resserrées, plus on peut en inclure entre les bornes (déciles plutôt que quartiles) quelle seront les valeurs d intérêt dans l analyse
Ne jamais retirer d observations 2 cas A priori car prévu par le protocole: pose le pb de la population d analyse A posteriori: risque de biais Si données «aberrantes», préférer des études de sensibilités
Etudes de sensibilités Si je modifie légèrement les données les hypothèses Modifie-t-on les conclusions Données extrêmes, erreurs d inclusion, violations de protocole etc ont-elles un impact? Si oui, c est irrécupérable Si non, les conclusions n en sont que plus généralisables
En théorie Vérifier la randomisation n a pas de sens si la randomisation a fonctionnée = 2 groupes sont équilibrés pour les facteurs de risque Différences statistiquement significatives! Si 10 caractéristiques, 10 tests ( =5%) proba de rejeter un des 10 tests à tord (proba de trouver un faux positif) = 40% Si tout est équilibré, suspect En pratique, certaines différences ne passent pas
Solution Randomisation stratifiée sur les facteurs pronostiques connus les plus forts Pour chaque facteur: autant de bras A que de bras B 2 techniques Stratification: autant de strates que de combinaisons de facteurs prono vite limité par le nb de strates Minimisation: assure équilibre pour chaque facteur (mais pas pour chaque combinaison) A posteriori, seule une analyse multivariée est faisable
2. Analyse statistique
Analyse et ajustement Analyse univariée (ou parfois appelée bivariée) 1 caractéristique est comparée entre 2 groupes Comparaison de l âge ds les 2 bras (ou plus) (test t) Comparaison de la répartition du stade etc. (test du Chi-2) ou 1 caractéristique est associée à un événement Association du stade avec le risque de décès (test du chi-2, régression logistique) Association d un facteur avec le délai de survie (test du log-rank, modèle de cox univarié) Mais pb des facteurs de confusion
Facteurs de confusion Analyse et ajustement Facteurs associés à l événement d intérêt (la survie, l événement indésirable, le taux mesuré etc.) et au traitement (ou intervention) Par ex. Etude épidémiologique: Le tabac sur l association alcool et cancer du poumon Essai clinique: Stades élevés de la maladie plus fréquent ds le groupe contrôle On souhaite prendre en compte cette covariable (tabac, stage etc.) mesurer l effet traitement ajusté sur la covariable
Analyse et ajustement Facteurs de confusion 2 stratégies Tests ajustés (ou stratifiés) On teste l effet traitement en tenant compte de la covariable L effet de la covariable n est pas estimé Un nombre faibles de covariable peut être utilisé (pas trop de strates) Modèle multivarié Proba de décès=a*tabac + b*stade + c*age + + i(stade*tabac) On estime les paramètres (a,b,c, ) Ils mesurent l association de la variable avec le décès toutes choses égales par ailleurs. Le choix du modèle nécessite des hypothèses S ils sont nulles (ou pas statistiquement différents de 0), pas d effet de la covariable
Analyse et ajustement Limites des modèles multivariés On modélise à peine le passé On explique peu de la variabilité (<20%) On ne sait pas comment choisir les variables Soucis de parcimonie Mais pas de bonne technique de construction de modèle Nombreux choix arbitraires Facile à critiquer Politiquement incorrect dans une publication d un essai randomisé Principalement utilisé pour construire des scores pronostiques Lorsque pas de randomisation.
Analyse et ajustement Teloken et al. Adult urogoly 2009 Âge, sex, type d opération, TNM etc sont sûrement ou probablement lié à l histologie et sûrement à la survie facteurs de confusion analyse univariée peu informative Analyse multivariée mais ne prend pas en compte tout les facteurs non mesurés.
Analyse et ajustement Teloken et al. Adult urogoly 2009
Comment construire son modèle Pas de bonnes méthodes Forward, backward Stepwise Mais qques règles Le faire manuellement Considérer les variables par groupes (démographique, lié à la tumeur, lié aux fonction vitales etc.) Choisir a priori les variables d intérêt Les facteurs d ajustement Les règles de sélection (p-value, AIC etc.)
Modèle: quelles variables faire entrer
Modèle: quelles variables faire entrer Si ajustement (et taille d échantillon nécessaire): Tous les facteurs de confusion potentiels Toutes celles identifiée a priori, même si NS. Évite les suspicions de présentations partiales Si construction score pronostique Les variables pertinentes cliniquement Montrer qu une dégradation de l OMS est associée avec la survie est-il utile? Variables à baseline Si outil de suivi des patients Variables mesurées au cours du temps (AFP, TP, PSA etc.)
Modèle: quelles variables faire entrer Conclusions:
Et le score de propension Effectiveness of Radiation Therapy for Elderly Patients with Unresected Stage I and II Non-small Cell Lung Cancer by Juan P. Wisnivesky et al AJRCCM (in press) Scientific Knowledge on the subject: Radiation therapy is considered the standard of care for unresected stage I and II lung cancer patients. Limited data is available regarding its effectiveness. What this study adds to the field: Using several methods to control for selection bias, we showed that RT improves the outcomes of elderly patients with stage I and II lung cancer who did not undergo resection due to comorbidities or preferences against surgery.
Et le score de propension Methods: Using the Surveillance, Epidemiology and End Results registry (SEER), - identify 6,065 unresected patients with histologically confirmed stage I and II non-small-cell lung cancer, - Use propensity score methods and instrumental variable analysis to control for the possible effects of known as well as unmeasured confounders.
THEORIE DU Score de propension Idée de base Si non randomisé, le choix de l intervention dépend de facteurs pronostiques ce sont donc des facteurs de confusion les cas et les témoins ne sont plus comparables Ajuster sur la probabilité d avoir le trt (ou intervention) Calculer en fonction de toutes les covariables à l inclusion la proba de recevoir le traitement. Comparer l effet trt chez des individus qui ont la même proba de recevoir le trt. Remplacer ces covariables par une variable unique (SP) (condensation de l information) Rosenbaum P, Rubin DB; Biometrika 1983
Construction du score de propension Modèle de régression logistique Variable dépendante: trt ou exposition Variables explicatives: caractéristiques avant attribution du trt.
CONSTRUCTION DU SP 1ère étape Sélection des variables (caractéristiques de base eavant le début de l intervention) Plusieurs méthodes: Modèle non parsimonieux A priori (choix basé sur études antérieures) Avis d experts Variables maximisant GOF du modèle Différence en analyse univariée Sélection ascendante, descendante ou pas à pas Weitzen S et al. Pharmacoepidemiol Drug Saf 2004
CONSTRUCTION DU SP 2 ème étape Validation du modèle Vérification de l équilibre de la distribution des covariables entre les groupes (but du Score de propension, préalable indispensable à toute analyse)
Utilisation du SP Ensuite Appariement: les cas et les témoins sont appariés (comparés) par niveau de «risques» de recevoir le traitement (par ex.: 5 classes) Ajustement: Score de propension introduit dans le modèle soit comme variable quantitative soit comme k-1 variable qualitative
INTERETS Synthèse de l information contenue dans les covariables en un score unique Equilibre de la distribution des covariables entre les groupes: estimation non biaisée (ou biais minime) de l effet du TTT (situation proche de la randomisation) si toutes les facteurs associés à la probabilité de recevoir le trt sont prises en compte Facilite la stratification et l appariement Corrige pour le biais induit par le déséquilibre des facteurs mesurés
LIMITES Ne permet pas de prendre en compte les covariables non observées ( randomisation) Repose sur un modèle (et vaut ce que vaut le modèle) Ne peut remplacer la randomisation
2.1 Morbimortalité : Qui peut répondre Le malade Le médecin Le directeur d hôpital La société à travers la santé publique Qui ne peut pas répondre Le statisticien Pose la question du rapport bénéfice-risque
2.1 Morbimortalité : Ex de la thrombolyse Thrombolysis with alteplase 3 to 4.5 hours after acute ischemic stroke. (NEJM 2006) efficacy and safety of intravenous thrombolysis with alteplase when administered more than 3 hours? Significantly improved clinical outcomes in patients with acute ischemic stroke; alteplase was more frequently associated with symptomatic intracranial hemorrhage. 7 à 10% de décès pour un bénéfice fort.
Critères composites Objective: Evaluate the clinical effect of PET CT on preoperative staging of NSCLC Primary endpoint: number of futile thoracotomies: a thoracotomy with the finding of pathologically confirmed mediastinal lymph-node involvement (stage IIIA [N2]), stage IIIB or stage IV or a benign lung lesion; an exploratory thoracotomy; Fisher etal. NEJM 2009 or a thoracotomy in a patient who had recurrent disease or death from any cause within 1 year after randomization.
Critères composites Fisher et al. NEJM 2009 Est-ce que le stade correspond à Futile thoracotomies: a thoracotomy with the finding of pathologically confirmed mediastinal lymph-node involvement (stage IIIA [N2]), stage IIIB or stage IV or a benign lung lesion; an exploratory thoracotomy; or a thoracotomy in a patient who had recurrent disease or death from any cause within 1 year after randomization.
L exemple du cancer du colon De nombreuses définitions (n=52 études entre 1997 et 2006) Disease-free survival : time to recurrence, 2d primary cancer, or death (n = 13) time to recurrence or death (n =10) and time to recurrence (n = 4) Disease-free interval: Time to recurrence (n = 2) Relapse-free survival time to recurrence (n = 2) time to recurrence or death (n = 1) time to recurrence, 2d primary colon cancer, death due to toxicity, or death due to colon cancer (n = 1)
2.3 Survie
Kaplan-Meyer Donnée de survie: Temps avant événement durée continue Temps avant: décès, progression, récidive, guérison, négativation, dégradation du PS Evénement Et si le patient ne meure pas? Temps avant événement est «censuré» Il a vécu au moins jusqu à la censure
Censures Analyse des données A l analyse des données 1 2 3 pdv 4 Début étude Temps Inclusion Temps Inclusion du patient Pdv= Perdu de vue Censure
2 types de censure Censures Patient est en vie au moment de l analyse si on retarde l analyse, plus d information sera accumulée sur ce patient «exclus vivant» Patient «perdu de vue»: son état ne peut plus être mis à jour Attendre n apportera rien
Lire une courbe de survie Survie de 85% à 30 jours Médiane= 56 jrs
Comparaison graphique Patients (%) 100 90 80 70 60 50 40 30 20 10 0 Rituximab maintenance 0 1 2 3 4 5 Years van Oers MH, et al. Blood 2006; 108:3296 3301.
Test du Log-rank: Test de comparaison Teste l hypothèse que les 2 bras sont équivalents quelque soit le temps t Permet de comparer temps par temps le risque de décès observé avec le risque attendu si les 2 bras étaient équivalents Prend en compte toute l information Fournit un seuil de signification
Comparaison de courbe : test du Log-rank Patients (%) 100 90 80 70 60 50 40 30 20 10 0 p < 0.0001 0 1 2 3 4 5 Years van Oers MH, et al. Blood 2006; 108:3296 3301.
Mesures de comparaison Une différence entre 2 courbes de Kaplan-Meier peut se résumer de plusieurs façons : Quel est le pourcentage de survie au temps t dans chaque groupe? Quelle est la médiane de survie dans chaque groupe? Quel est le Hazard Ratio (HR)?
Comparaison graphique: de l inconstance du % à t Patients (%) 100 90 80 70 60 50 40 30 20 10 0 20% 30% 35% Rituximab maintenance 15% 0 1 2 3 4 5 Years van Oers MH, et al. Blood 2006; 108:3296 3301.
Mesure des différences: des risques de la médiane Patients (%) 100 90 80 70 60 50 40 30 20 10 0 p < 0.0001 Augmentation de la médiane > 3 years Observation median: 14.9 months Rituximab maintenance median: 51.5 months 0 1 2 3 4 5 Years van Oers MH, et al. Blood 2006; 108:3296 3301.
Mesure des différences: des risques de la médiane Patients (%) 100 90 80 70 60 50 40 30 20 10 0 p < 0.0001 Augmentation de la médiane > 3 years Observation median: 14.9 months Rituximab maintenance median: 51.5 months 0 1 2 3 4 5 Years
Hazard ratio C est le rapport des risques instantanés d événements entre le bras A et le bras B HR = risque de décès dans A risque de décès dans B C est aussi le rapport des incidences ds un essai randomisé, approché par HR = ( nb décès ds A ) suivi total bras A ( nb décès ds B ) bras B suivi total
Hazard ratio Si HR > 1 alors le risque sous A est supérieur à celui sous B effet nocif de A Si HR = 1 alors le risque sous A est similaire à celui sous B pas d effet de A Si HR < 1 alors le risque sous A est inférieur à celui sous B effet bénéfique de A Exemple : HR = 0.71 réduction de 29% du risque instantané de décès à tous les temps t (quelque soit le temps t, j ai 29% de risque en moins de décéder) Le Hazard ratio mesure l effet du traitement sur tout le suivi
Et du côté pratique
Logiciels Q Excel permet de faire bcp de choses Tests Modèles simples (univariés) Survie simple (tests et univariés) Avec l extension SPSS A peu près tout ce qui peut être fait sans manipulation de données Mais limité pour La construction de modèles Les scores de propension, l appariement etc.
Logiciels Q Pour les plus courageux Le logiciel «R» est en freeware (téléchargeable) Extrêmement puissant Peu convivial
Conclusion Mais surtout, Si les données son mauvaises, les analyses seront inutiles Allez voir votre service de biostat AVANT l obtention des données «Appeler un statisticien après que l expérience est terminée, c est comme lui demander de faire une autopsie; il pourra seulement déterminer la cause de l échec de l expérience» Sir Ronald Fisher 1890-1962