Vanina Bousquet 24 mars 2015



Documents pareils
THÈSE DOCTEUR DE L UNIVERSITÉ PARIS XI

Études épidémiologiques analytiques et biais

L hépatite C pas compliqué! Véronique Lussier, M.D., F.R.C.P.C. Gastroentérologue Hôpital Honoré-Mercier 16 avril 2015

Hépatite C une maladie silencieuse..

LIGNES DIRECTRICES CLINIQUES TOUT AU LONG DU CONTINUUM DE SOINS : Objectif de ce chapitre. 6.1 Introduction 86

Y a-t-il une place pour un vaccin thérapeutique contre l hépatite B? H. Fontaine, Unité d Hépatologie Médicale, Hôpital Cochin

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Bonne lecture!! et si vous souhaitez consulter le document de l AFEF dans son intégralité, c est ici

Docteur José LABARERE

COMMISSION DE LA TRANSPARENCE AVIS DE LA COMMISSION. 10 octobre 2001

Co-infection HVB HVC CO-infection VIH HVB et HVC

Document d orientation sur les allégations issues d essais de non-infériorité

Devenir des soignants non-répondeurs à la vaccination anti-vhb. Dominique Abiteboul - GERES Jean-François Gehanno Michel Branger

COMMISSION DE LA TRANSPARENCE. 10 décembre 2008

HEPATITES VIRALES 22/09/09. Infectieux. Mme Daumas

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Le Comité Scientifique a traité les questions suivantes : «Association reconnue d utilité publique» - 1 -

LECTURE CRITIQUE 1 ER PAS

LES CO-INFECTIONS VIH-VHC. EPIDEMIOLOGIE, INTERFERENCES. Patrice CACOUB La Pitié Salpêtrière, Paris

Diagnostic des Hépatites virales B et C. P. Trimoulet Laboratoire de Virologie, CHU de Bordeaux

SUIVI MÉDICAL DU DIABÈTE CHEZ LES ASSURÉS DE LA MGEN

Hépatite C, les nouveaux traitements

Exposé n 5: Bases IMS, Thalès Quel apport pour la sécurité d emploi des médicaments?

Définition de l Infectiologie

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Communiqué de presse. Direction Communication Externe/Interne Sylvie Nectoux TEL : sylvie.nectoux@boehringeringelheim.

Signalement et gestion des infections respiratoires aiguës (IRA) et des gastroentérites aiguës (GEA) 19 juin 2014

Evaluation générale de la qualité des données par âge et sexe

Christian TREPO, MD, PhD

PROGRAMME (Susceptible de modifications)

Document de synthèse : Hépatite B et hépatite C. Sommaire :

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

Service d ambulance. Normes. de soins aux patients. et de transport

Traitement des hépatites virales B et C

La stratégie de maîtrise des BHRe est-elle coût-efficace? Gabriel Birgand

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Arthralgies persistantes après une infection à chikungunya: évolution après plus d un an chez 88 patients adultes

Place de l interféron dans le traitement de l hépatite B chez le patient co-infecté VIH

Le VIH et votre foie

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Rendre les résultats d un test VIH, communiquer les messages pour refaire le test et fournir un conseil à l adulte

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

LISTE DES ACTES ET PRESTATIONS - AFFECTION DE LONGUE DURÉE HÉPATITE CHRONIQUE B

LES ACCIDENTS D EXPOSITION AU RISQUE VIRAL Prise en charge & Prévention

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Novembre Dépistage anonyme et gratuit du VIH Profil des consultants de CDAG en Enquête épidémiologique transversale

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

TRAITEMENT DE L HÉPATITE B

La recherche clinique au cœur du progrès thérapeutique

Principe d un test statistique

ABL and Evivar Medical for Strategic Partnership and Alliance in HIV and Hepatitis

BERTHIER E, CHRISTIANO M, PHILIPPE M O, IEHL J, TATARU N, DECAVEL P, VUILLIER F, ELISEEF A, MOULIN T. Introduction (1). Contexte de l étude

FICHE D INFORMATION AVANT UNE TRANSFUSION

Analyse de grandes bases de données en santé

Détection et prise en charge de la résistance aux antirétroviraux

CONTRAINTES PSYCHOLOGIQUES ET ORGANISATIONNELLES AU TRAVAIL ET SANTE CHEZ LE PERSONNEL SOIGNANT DES CENTRES HOSPITALIERS:

«Quelle information aux patients en recherche biomédicale? Quels enseignements en retirer pour la pratique quotidienne?»

Avis 29 mai XYZALL 5 mg, comprimé B/14 (CIP : ) B/28 (CIP : ) Laboratoire UCB PHARMA SA.

SURVEILLANCE EPIDEMIOLOGIQUE DES TMS EN ENTREPRISES : LES RESULTATS DU SUIVI A TROIS ANS DE LA COHORTE COSALI

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

consultants testés entre 2004 et 2008 S U R V E I L L A N C E V H C N 8. Encart méthodologique

Traitement de l hépatite C: données récentes

VIH et hépatites Profil des consultants 4 ème trimestre 2000

Sélection et Évaluation Quantitative des Médicaments pour la Prise en Charge du VIH/SIDA. Sophie Logez, OMS/PSM Addis Abeba, Ethiopie, Février 2005

Le dropéridol n est pas un traitement à considérer pour le traitement de la migraine à l urgence

Modèles prédictifs belges de l absentéisme pour cause de maladie ou d accident.

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Peut-on réduire l incidence de la gastroentérite et ses conséquences dans les écoles primaires à l aide de solution hydro-alcoolique?

TEST DE DÉPISTAGE DE L IMMUNITÉ CONTRE LE

«Les antibiotiques c est pas automatique», 12 ans après, quels sont les changements laissés par ce slogan percutant?

Actualités sur le Virus de l'hépatite C

Danielle D Amour, inf. Ph.D. IUFRS 24 février 2011

Les Infections Associées aux Soins

Vaccinations pour les professionnels : actualités

Plan. Introduction. Les Nouveaux Anticoagulants Oraux et le sujet âgé. Audit de prescription au Centre Hospitalier Geriatrique du Mont d Or

L analyse documentaire : Comment faire des recherches, évaluer, synthétiser et présenter les preuves

«Cours Statistique et logiciel R»

Virus de l hépatite B

Université de Montréal

Résultats des Comptes de la Santé 2012 en RD Congo

TEST DE DÉTECTION DE LA PRODUCTION D INTERFÉRON γ POUR LE DIAGNOSTIC DES INFECTIONS TUBERCULEUSES

INFORMATIONS pour le médecin qui contrôle et complète le formulaire

Hépatite = inflammation du foie. Pr Bronowicki CHU Nancy Conférence mensuelle - section de Forbach

RECOMMANDATION EN SANTE PUBLIQUE. Stratégies de dépistage biologique des hépatites virales B et C. Argumentaire

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Compte rendu d hospitalisation hépatite C. À partir de la IIème année MG, IIIème années MD et Pharmacie

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Hospital Anxiety and Depression Scale (HADS)

POLITIQUE DE SECURITE DE L EFS ou la nécessité de construire un système sûr, durable, évolutif et raisonné

Cancer bronchique primitif: données épidémiologiques récentes

Résistance du virus de l hépatite C aux nouveaux traitements anti-viraux

WHA63.12 Disponibilité, innocuité et qualité des produits sanguins 4,5

TABLE DES MATIERES. C Exercices complémentaires 42

LE VIH AU CANADA TENDANCES ET ENJEUX QUI AFFECTENT LA PRÉVENTION DU VIH, LES SOINS, LE TRAITEMENT ET LE SOUTIEN...

Objectif 3 : Confinement et certification

SOMMAIRE I. INTRODUCTION 4 II. SOURCES D INFORMATION 5

hépatite C MISE À JOUR DE L INFORMATION MÉDICALE transmission diagnostic prise en charge clinique traitement

Item 169 : Évaluation thérapeutique et niveau de preuve

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Transcription:

Traitement des données manquantes par une méthode d imputation multiple : Application à des données d enquête et de surveillance des maladies infectieuses Vanina Bousquet 24 mars 2015

Plan 1. Contexte 2. Méthodes 3. Etapes du processus d imputation : étude cas-témoins infection à Campylobacter 4. Imputation pérenne d un système de surveillance : surveillance du VIH 5. Analyse de sensibilité à l hypothèse MAR : surveillance du VHC 5. Discussion - Conclusion 2

1. Contexte La gestion des données manquantes constitue un problème récurrent en épidémiologie pour les données d enquêtes mais aussi de systèmes de surveillance. Le mode de gestion le plus courant consiste à limiter l analyse aux sujets pour lesquels l ensemble des variables est renseigné. Des méthodes alternatives de traitement des données manquantes ont été proposées : méthodes par maximisation de la vraisemblance et par imputation multiple. Nous avons fait le choix de présenter une méthode d imputation multiple, qui consiste à remplacer chaque donnée manquante par un ensemble de données estimées. 3

2. Méthodes

Données manquantes - Origine Non-réponse Totale Variables d intérêts non renseignées (refus de répondre à un questionnaire) Quantité d information insuffisante (variable d intérêt manquante) Partielle Involontaire : mémorisation/compréhension, info manquante dans un dossier Volontaire : question socialement sensible (santé, consommations, comportement) Réponse inexploitable Inconsistance de la réponse : contradiction dans un questionnaire, entre 2 sources d info Echantillon biologique insuffisant (quantité, qualité) => Mécanismes variés à l origine des données manquantes 5

Données manquantes - Structure Soient : X un vecteur de variables complètes Y un vecteur de variables incomplètes Univariée Monotone Non Monotone = Arbitraire X 1 X 2 Y X 1 X 2 Y 1 Y 2 Y 3 Y 4 X 1 X 2 Y 1 Y 2 Y 3 Y 4 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 6

Données manquantes - Typologie MCAR : Missing Completely At Random Probabilité de données manquantes est une constante Données manquantes = sous-échantillon aléatoire de l ensemble des données MAR : Missing At Random Probabilité de données manquantes ne dépend que des valeurs observées des variables et des variables complètes MNAR : Missing Non At Random Probabilité de données manquantes dépend de valeurs nonobservées des variables 7

Analyse cas-complet L analyse est restreinte aux individus pour lesquels toutes les variables sont renseignées Idée reçue: méthode correcte, citée dans certains ouvrages (Miettienen)

Analyse cas-complet Impact des données manquantes => Analyse restreinte aux individus pour lesquels toutes les variables sont renseignées Perte de puissance et de précision Sélection des variables faussée en analyse multivariée Identification des facteurs de risque Phénomènes de confusion, interactions Biais potentiel des estimations en analyse multivariée MCAR : sous-échantillon aléatoire et pas de biais MAR (ou MNAR) : biais si le mécanisme dépend de la variable à expliquer et d une variable explicative [1] [1] Vach W, Blettner M. Biased estimation of the odds ratio in case-control studies due to the use of ad hoc methods of correcting missing values for confounding variables. Am J Epidemiol 1991;134:895-907 9

Imputation multiple (IM) Historique Rubin 1978 en sciences sociales Grandes bases de données et nombreux utilisateurs Evolution vers une imputation «maison» plus spécifique Principe général Remplacer chaque donnée manquante par M valeurs plausibles : prends en compte l incertitude liée aux données manquantes Statistiques bayésiennes: estimation à partir des distributions a posteriori des variables (algorithme MCMC) En pratique : M bases de données à manipuler

Imputation multiple - Principe base 1 β1 σ 2 1 base 2 base 3 base 4 β2 σ 2 2 β3 σ 2 3 β4 σ 2 4 β = moyenne (βi) σ 2 = σ 2 intra +(1+1/M)σ 2 inter base 5 β5 σ 2 5 Analyses séparées Analyse conjointe Phase d imputation Phase d analyse 11

Méthodes d imputation multiple Imputation par un modèle reposant sur une distribution multivariée normale jointe pour toutes les variables incomplètes (Schafer,1997) Hypothèse pas toujours vérifiée (variables discrètes) Imputation par équations chaînées (Van Buuren, 1999) Fonction de lien et variables prédictrices pour chaque variable incomplète Adaptée à l imputation de variables discrètes et grande flexibilité Conditions d application Hypothèse MAR Hypothèse de normalité pour les variables continues En pratique : ado ICE développé par Royston sous STATA 12

3. Etapes du processus d imputation Illustration à partir d une enquête cas-témoins appariée sur l infection à Campylobacter

Enquête cas-témoins sur l infection à Campylobacter => Infection à Campylobacter : gastroentérites bactériennes alimentaires Objectif : Identifier les facteurs de risque des cas sporadiques d infection à Campylobacter en France Enquête cas-témoins nationale appariée sur l âge et le sexe (1-1) : 269 cas et 269 témoins (N=538) Données collectées par questionnaire sur les expositions alimentaires (consommation, hygiène, contacts) 8 jours précédant les premiers symptômes 200 questions avec recueil rétrospectif Données manquantes liées à la mémorisation 21 variables d exposition =>3 variables complètes - 15 variables avec 3 à 15% dm - 3 variables avec 15 à 30%dm => structure arbitraire 14

Evolution des effectifs en analyse multivariée CC 600 500 400 300 200 100 0 Modèle vide 1 2 3 4 5 6 7 8 9 10 11 12 13 Sans appariement Avec appariement Variables ajoutées successivement dans le modèle d analyse multivariée Modèle complet 15

Construction du modèle d imputation : Sélection des variables Il est recommandé (Rubin 1996, Van Buuren 1999) d inclure le maximum de variables prédictrices (15 à 25) Variables principales = variable à expliquer + covariables retenues pour l analyse multivariée Variables auxiliaires = variables prédictrices complémentaires Le modèle d imputation peut donc être plus général que le modèle d analyse

Construction du modèle d imputation (1) Sélection des variables MODELE D ANALYSE MULTIVARIEE Cas Complet et Imputation Multiple Base de données p 0.2 p>0.2 Variables principales Variables secondaires p 0.05 MODELE D IMPUTATION MULTIPLE Variables auxiliaires p>0.05 Variables accessoires Analyse univariée M Ei (test du Chi2) Lien avec la non réponse Ei Ri (test du Chi2) Modèle d imputation : variable à expliquer + 14 variables principales + 6 variables auxiliaires 17

Construction du modèle d imputation : Nombre de bases Efficacité statistique relative (Rubin 1987) selon la FIM (Fraction d Information Manquante) => M=3 à 5 bases pour FIM=0.2 M Puissance statistique (Graham 2009) : couverture des intervalles de confiance, p-valeur => M=10 bases pour FIM=0.2 Erreur de Monte Carlo (White 2011) : répétabilité des analyses => M=20 bases pour FIM=0.2 FMI 0.1 0.2 0.3 0.5 0.7 0.9 2 95% 91% 87% 80% 74% 69% 3 97% 94% 91% 86% 81% 77% 5 98% 96% 94% 91% 88% 85% 10 99% 98% 97% 95% 93% 92% 20 100% 99% 99% 98% 97% 96% M 100xFIM

Résultats des analyses CC et IM Variables Mangé bœuf (boucherie, ferme, marché) Mangé bœuf peu cuit Mangé au restaurant Mangé des légumes crus ou des salades Hygiène insuffisante des ustensiles Contact avec personne diarrhéique Cas Complet (N* = 340) Imputation Multiple (N* = 538) 30 bases imputées OR IC 95% p OR IC 95% p 0.51 0.3 0.9 0.03 0.59 0.37 0.94 0.03 2.71 1.4 5.4 0.004 2.76 1.6 4.7 <10-3 NS 1.75 1.0 3.0 0.04 0.45 0.2 0.9 0.002 0.40 0.2-0.7 0.002 NS 2.10 1.3 3.3 0.002 3.19 1.6 6.5 0.001 2.01 1.1 3.6 0.02 * Nombre d individus pris en compte dans le calcul des OR du modèle final 19

Résultats des modèles réduits à 4 variables Cas Complet (N* = 340) Imputation Multiple (N* = 538) Variables Mangé bœuf (boucherie, ferme, marché) Mangé bœuf peu cuit OR 0.51 [0.3-0.9] 2.71 [1.4-5.4] SE (SE/OR) * x100 0.15 29.4% 0.95 35.1% OR 0.61 [0.4-0.9] 2.62 [1.6-4.4] 30 bases de données SE (SE/OR)* x100 0.14 23.1% 0.69 26.3% Mangé des légumes crus ou des salades 0.45 [0.2-0.9] 0.15 33.3% 0.47 [0.3-0.8] 0.13 27.7% Contact avec personne diarrhéique 3.19 [1.6-6.5] 1.15 36.1% 2.03 [1.2-3.5] 0.57 28.1% * Coefficient de variation

Discussion Intérêt de l imputation multiple Processus de sélection des variables plus rigoureux en IM Gain de puissance => identification de 2 facteurs de risque supplémentaires Hypothèse MAR Non réponse volontaire possible pour les variables d hygiène Modèle d imputation riche en variables auxiliaires 21

Synthèse et règles de publication [2] Matériels et méthodes Variables incomplètes (% de dm), mécanisme de données manquantes Méthode d imputation multiple retenue, logiciel Construction du modèle d imputation : variables prédictrices, nombre de bases Résultats Diagnostic de l imputation : comparaison données imputées et observées Résultats des analyses CC et IM si possible Discussion Différences entre les analyses CC et IM (sélection de variables, biais attendu) Validité de l hypothèse MAR (modèle d imputation, hypothèses épidémiologiques) [2] Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ 2009;338:b2393. 22

4. Imputation pérenne du système de surveillance du VIH

Système de surveillance du VIH - Contexte En Europe, mise en place de systèmes de surveillance du VIH depuis 2000 Surveillance étendue aux nouveaux diagnostics VIH Centralisation par l ECDC En France, déclaration obligatoire depuis 2003 Estimation annuelle du nombre de nouveaux diagnostics VIH Analyse descriptive des patients nouvellement diagnostiqués Estimation de l incidence du VIH Estimation des données manquantes par imputation multiple Etats-Unis : ponctuellement pour estimer l incidence du VIH France : en routine depuis 2008 24

Système de surveillance du VIH - description Biologistes Anonymisation Sexe, âge, Région de résidence Centre National de référence Sérotypage Test d infection récente Biomarqueurs (V3-TM) Médecins Pays de naissance Mode de contamination Motivation pour le test Historique de tests antérieurs Délai avec un test antérieur Stade clinique Taux de CD4 (depuis 2008)

Variables et proportions de données manquantes Variables Type DM (%) Socio-démographiques Age Sexe Domicile Pays de naissance Mode de contamination Historique de dépistage Motif de dépistage Sérologie antérieure négative si oui : date => délai Sérologie antérieure positive si oui : date => délai Données cliniques Stade clinique Taux de lymphocytes T4 (2008) Surveillance virologique Type viral Si type 1: => Sérotype viral B/NB TIR : Biomarqueurs V3 et TM Continue Binaire Catégorielle Catégorielle Catégorielle Catégorielle Binaire Continue Binaire Continue Catégorielle Continue Catégorielle Binaire Continue 0 0 0 26.2 29.0 27.2 26.2 44.9 35.8 33.9 25.7 43.4 1.5 33.9 34.1 26

Imputation en deux phases Sérologie antérieure positive ou négative Première phase oui non manquante oui non Délai notifié Délai manquant Délai manquant Seconde phase Délai imputé Délai imputé 27

Imputation en deux phases 46 796 fiches pays de naissance mode de contamination stade clinique motivation pour le test sérologie antérieure positive négative type viral biomarqueurs V3 - TM délai avec une sérologie antérieure positive négative sérotype viral (B/NB) taux de CD4 (2008-2011) Imputation de 5 bases 233 980 fiches Imputation de 3 bases 701 940 fiches Première phase Seconde phase 28

Construction des modèles d imputation Equations de prédiction Principe : variables incomplètes + variables auxiliaires prédictrices Modèles retenus 1 ère phase : 9 variables principales + 5 variables auxiliaires complètes 2 éme phase : 4 variables principales +11 variables auxiliaires complètes Nombre de bases Critères de choix théoriques M=25 pour FIM=25% En pratique : limite liée à la taille du fichier imputé Manipulations fréquentes de la base de données finale Imputation de M 1 =5 bases et M 2 =3 bases

Variables continues non-normales 0 1000 2000 3000 4000 Biomarqueur V3 Biomarqueur V3 0 200 400 600 800 1200 Biomarqueur TM Biomarqueur TM 0 20 40 60 80 0 20 40 60 80 0 200 400 600 800 1200 Délais Délais Nombre de Délais négatifs Délais positifs Nombre de CD4 0 1000 2000 3000 4000 0 200 400 600 800 1200 0 50 100 150 200 250 300 0 50 100 150 200 250 300 0 1000 2000 3000 4000 5000 30

Imputation des variables continues Imputation des variables continues repose sur l hypothèse d une distribution normale Transformation par fonctions dédiées pas satisfaisante Transformation par scores de quantiles (Nevalainen, 2009) => appliquée aux 5 variables continues Imputation en utilisant une régression par intervalle On spécifie des bornes inférieures et supérieures 31

Validation interne Diagnostic On ne dispose pas de test d adéquation des modèles d imputation Intérêt de construire et tester plusieurs modèles d imputation Forme simple d analyse de sensibilité Notion de cohérence entre les données observées et imputées Diagnostics graphiques et numériques (Raghunathan 2007 ; Abayomi 2011) Variations explicables selon des mécanismes MAR 32

Nouveaux diagnostics selon le pays de naissance 100 90 80 70 60 50 40 48,1% 46,5% 36,3% 36,5% 30 20 10 3,6% 3,9% 7,2% 8,2% 4,9% 5,0% 0 France AFSS Europe Ame/Haïti AUTRES observé imputé 33

Nouveaux diagnostics selon le mode de contamination 100% 90% 80% 70% 60% 60,2% 67,4% 50% 40% 30% 36,8% 29,6% 20% 10% 0% 1,5% 1,8% 1,5% 1,3% Homo UDI Hétéro Autres observé imputé 34

Essai de validation externe Sources Deux sources de données nationales de patients infectés par le VIH (même définition de cas que la DO - données quasicomplètes) Enquête Odyssée (N=466) : Enquête nationale multicentrique (2006-2007) Estimer la prévalence de la résistance primaire aux ART chez des patients chroniquement infectés par le VIH (naïfs d ART) Cohorte COPANA (N=795) Cohorte prospective multicentrique (2004-2008) Étudier le pronostic des patients infectés par le VIH, récemment diagnostiqués (naïfs d ART) Objectif : Valider les estimations issues de l imputation de la DO VIH 35

Selon le pays de naissance et le sexe 100 90 Femmes Hommes 80 70 60 50 40 30 20 10 0 France AFSS Europe Am/Haiti Autres France AFSS Europe Am/Haiti Autres DO ODYSSEE COPANA 36

Limites de la validation externe Difficulté à analyser conjointement les 3 bases Déséquilibre en termes d effectifs Echantillons non-indépendants Difficulté d obtenir des sources de validation externe 37

Résultats : Distribution estimée des nouveaux diagnostics de VIH par groupe de transmission en France 2003-2011 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 2003 2004 2005 2006 2007 2008 2009 2010 2011 2003 2004 2005 2006 2007 2008 2009 2010 2011 2003 2004 2005 2006 2007 2008 2009 2010 2011 2003 2004 2005 2006 2007 2008 2009 2010 2011 2003 2004 2005 2006 2007 2008 2009 2010 2011 2003 2004 2005 2006 2007 2008 2009 2010 2011 French national heterosexual women Non-French-national heterosexual women French national heterosexual men Non-French-national heterosexual men MSM IDUs 38

Conclusion Processus d imputation pérenne Période d étude : 2003-2011 Adaptation du modèle d imputation chaque année Intérêt de l imputation multiple Description des nouveaux diagnostics VIH Estimation de l incidence du VIH Complexité du processus d imputation : impact sur les estimations Importance de la validation Intérêt d une analyse de sensibilité (hypothèse MAR) 39

5. Analyse de sensibilité à l hypothèse MAR Illustration à partir de données de surveillance de l hépatite C chronique

Analyse de sensibilité après imputation multiple Méthodes d analyse testant la sensibilité des résultats au non respect de l hypothèse MAR difficiles à appliquer Carpenter et al. (2007) : analyse de sensibilité appliquée aux essais cliniques Objectif : Proposer des recommandations pour appliquer cette méthode d analyse de sensibilité à des données d enquêtes observationnelles Analyses initiales : Pôles de référence de l hépatite C Données collectées par un système national de surveillance du VHC Période 2001-2007 - 26 pôles de référence hospitaliers Parmi 14 485 patients VHC + : 4 343 usagers de drogues (IV/IN) Objectif : Mettre en évidence des facteurs de risque associés à une complication hépatique grave (cirrhose ou carcinome hépatocellulaire)

Variables retenues pour l analyse multivariée Variables DM (%) Complication hépatique grave 0 Sexe 0 Age ( 40 ans, >40 ans) 0 Durée de l infection par le VHC ( 18 ans, >18 ans) 12.5 Délai de prise en charge 1 an, >1 an 11.5 Consommation d alcool excessive 14.6 Sérologie VIH + 16.8 AgHbs + (VHB) 17.2 Génotype 3 (VHC) 29.6 Cas Complet : données manquantes à structure arbitraire et 41.8% (1818 /4343) des individus avec données complètes Imputation multiple : 9 variables prédictrices, 30 bases imputées

Résultats des analyses multivariées CC et IM (1) Variables Sexe OR 1.85 [1.1;3.0] Cas Complet (N* = 2130) Imputation Multiple (N* = 4343) SE (SE/OR) x100 0.45 24.3% 0.01 p OR SE 1.98 [1.4;2.8] (SE/OR) x100 p 0.35 17.7% < 10-3 Age en 2 classes 5.59 [2.5;12.2] 2.24 40.0% < 10-3 4.26 [2.4;7.5] 1.22 28.6% < 10-3 Durée de la maladie 5.49 [2.9;10.6] 1.83 32.8% < 10-3 3.92 [2.5;6.4] 0.90 23.0% < 10-3 Consommation passée d alcool 2.60 [1.8;3.7] 0.46 17.7% < 10-3 2.84 [2.2;3.7] 0.37 13.0% < 10-3 AgHbs (VHB) 2.42 [1.0;5.9] 1.10 45.4% 0.05 Co-infection VIH 1.80 [1.2;2.6] 0.34 18.9% 0.002 Génotype 3 (VHC) 1.48 [1.1;2.0] 0.24 16.2% 0.02 1.65 [1.2;2.2] 0.23 13.9% 0.001 ORa tenant compte d une interaction entre l âge et la durée de la maladie (CC et IM)

Perspectives On souhaite tester l impact du non-respect de l hypothèse MAR Consommation excessive passée d alcool Sous-déclaration possible car question sensible socialement Co-infection par le virus du VIH Test VIH serait mieux rapporté pour patients VIH + (Prévalence faible de la co-infection VHC-VIH (8%) ) Infection par un virus de l hépatite C de génotype 3 émergence comme facteur de risque de complications hépatiques graves chez les UDI (30% DM) Réalisation d une analyse de sensibilité

Principe de l analyse de sensibilité X un vecteur de covariables complètes ou incomplètes Y une covariable incomplète avec R i =1 si Y i est observée et R i =0 sinon Soit une régression logistique liant la probabilité d observer Y à la valeur de Y, ajustée sur un vecteur de covariables logit Pr(R i =1) = α + β X i + δ Y i Si δ=0 : le mécanisme de non réponse pour Y ne dépend pas de Y => MAR Si δ 0 : le mécanisme de non réponse dépend des données manquantes de Y => MNAR 45

Application pratique de l analyse de sensibilité Obtenir un estimateur MNAR à partir de δ et des données imputées M ˆ θ ( δ ) = ˆ θ avec w m Comparer les estimateurs MAR et MNAR des mesures d association (OR) Proposer un processus pour sélectionner une valeur pour δ Pas d information en épidémiologie d observation Etapes numériques et graphiques On génère M=1000 bases avec le modèle d imputation initial NMAR w m m= 1 M ( δ ) = w~ ( δ ) / w~ ( δ ) m k = 1 k m n1 w~ ( δ ) = exp δ et i= 1 m m Y i 46

Estimations après imputation multiple et analyse de sensibilité M=1000 bases Imputation Multiple Analyse de Sensibilité OR SE SE/OR TV IM δ OR SE SE/OR TV AS IC 95% % % IC 95% % % Alcool 2.82 [2.2;3.7] 0.37 13 21.9% -0.40 2.86 [2.2;3.7] 0.37 13 1.3% Génotype 3 1.66 [1.3;2.2] 0.23 14 9.7% 0.15 1.60 [1.2;2.1] 0.21 13 3.6% VIH 1.80 [1.2;2.6] 0.34 19 15.5% 0.70 1.91 [1.3;2.8] 0.36 19 6.1%

Taux de variation selon δ après analyse de sensibilité VIH VIH TV AS = 6.1% TV VR SA (%) SA (%) -5 0 5 Alcool VIH Génotype 3 Alcoo Génoty Alcool TV AS = 1.3% Génotype 3 TV AS = 3.6% -1.0-0.5 0.0 0.5 1.0 δ 48

Conclusions Résultats de l analyse de sensibilité Pour la consommation d alcool et le génotype 3, les estimations sont peu affectées (OR : 2.82->2.86; 1.66->1.60) Pour le VIH, l effet est plus marqué (OR : 1.80 -> 1.90) Analyse de sensibilité apparaît essentielle pour valider les résultats de l imputation multiple 49

Autres applications de l imputation multiple Application à des systèmes de surveillance Données de surveillance du VHB Données de surveillance du VIH Etude capture-recapture, VIH chez les enfants (Bousquet, 2012) Etude sur la transmission du VIH par dons de sang (Pillonel, 2012) Application à des données d enquêtes transversales Enquête dans les services d urgences en IDF : dépistage VIH (d Almeida, 2011) Enquête cas-témoins multicentrique européenne : couverture vaccinale de la grippe I MOVE study (Valenciano, 2011) Application à des données de surveillance de maladies émergents Surveillance de l épidémie de Mers-CoV (Le Perff, 2014) 50

7. Discussion-Conclusion

Mise en application de l IM : «bonnes pratiques» Procédure standardisée d examen d une base de données incomplète : hypothèses sur les mécanismes de données manquantes et choix d une méthode Construction raisonnée du modèle d imputation : sélection des prédicteurs, choix du nombre de bases Diagnostic des données imputées : construction de plusieurs modèles d imputation, étape de diagnostic, évaluation de la puissance statistique Présentation des analyses CC et IM : discussion des hypothèses pour les 2 types d analyses et interprétation des résultats Analyse de sensibilité : hypothèse MAR 52

Traitement des données manquantes Problématique en santé publique En pratique, traitement de données de surveillance avec une intégration nécessaire dans les équipes Travail collaboratif en amont Travail de gestion et d analyse de bases multiples Impact sur les équipes de surveillance Travail de recherche au sein d une agence Contraintes de temps liées à l activité de surveillance Difficulté pour approfondir les aspects méthodologiques Nécessité de collaborer avec des équipes de recherche 53

Références Little RJA, Rubin DB. Statistical analysis with missing data. 2nd ed. New York: Wiley, 2002. Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychol Methods 2002;7(2):147-77. Van Buuren S. Multiple imputation of discrete and continuous data by fully conditional specification. Stat Methods Med Res 2007;16(3):219-42. Raghunathan TE. What do we do with missing data? Some options for analysis of incomplete data. Annu Rev Public Health 2004;25:99-117. Graham JW. Missing data analysis: making it work in the real world. Annu Rev Psychol 2009;60:549-76. White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Stat Med 2011;30(4):377-99. Sterne JA, White IR, Carlin JB, Spratt M, Royston P, Kenward MG, et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ 2009;338:b2393. Abayomi K, Gelman A, Levy M. Diagnostics for multiple imputation. Appl Statist 2011;57(3):273-91. 54