Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l impact des interventions



Documents pareils
Modélisation aléatoire en fiabilité des logiciels

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

MCMC et approximations en champ moyen pour les modèles de Markov

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Introduction au datamining

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Méthodes de Simulation

Raisonnement probabiliste

Principe de symétrisation pour la construction d un test adaptatif

Résumé des communications des Intervenants

Inférence d un réseau bayésien augmenté visant à confronter :

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Gestion de la crise sanitaire grippe A

NON-LINEARITE ET RESEAUX NEURONAUX

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Chapitre III Le phénotype immunitaire au cours de la vie

INF6304 Interfaces Intelligentes

Chapitre 2 Le problème de l unicité des solutions

Annexe commune aux séries ES, L et S : boîtes et quantiles

Données longitudinales et modèles de survie

Modélisation géostatistique des débits le long des cours d eau.

Résolution d équations non linéaires

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Sujet de thèse CIFRE RESULIS / LGI2P

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Classe de première L

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

MODELES DE DUREE DE VIE

Chapitre 3 : INFERENCE

de calibration Master 2: Calibration de modèles: présentation et simulation d

Introduction à l approche bootstrap

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Agrégation des portefeuilles de contrats d assurance vie

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Laboratoire 4 Développement d un système intelligent

Le modèle de Black et Scholes

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

LE BONUS-MALUS FRANÇAIS

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Probabilités sur un univers fini

Programmes des classes préparatoires aux Grandes Ecoles

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Table des matières. I Mise à niveau 11. Préface

Soutenance de stage Laboratoire des Signaux et Systèmes

TABLE DES MATIERES. C Exercices complémentaires 42

Probabilités conditionnelles Loi binomiale

Le modèle de régression linéaire

ANALYSE QUANTITATIVE DE RISQUE MICROBIOLOGIQUE EN ALIMENTATION

Chaînes de Markov au lycée

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Chapitre 2. Eléments pour comprendre un énoncé

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

République Algérienne Démocratique et Populaire

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

PRIME D UNE OPTION D ACHAT OU DE VENTE

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

TSTI 2D CH X : Exemples de lois à densité 1

Modèles et Méthodes de Réservation

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

De la mesure à l analyse des risques

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Probabilités sur un univers fini

LISTE D EXERCICES 2 (à la maison)

Moments des variables aléatoires réelles

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

aux différences est appelé équation aux différences d ordre n en forme normale.

Probabilités III Introduction à l évaluation d options

Principe d un test statistique

Construction d un algorithme d accélération de la méthode des simulations dans les simulations pour le calcul du capital économique Solvabilité II

MATHÉMATIQUES FINANCIÈRES I

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

La microsimulation à Statistique Canada

UML est-il soluble dans les méthodes agiles?

Introduction : Essais de phase I

CHAPITRE 5. Stratégies Mixtes

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Introduction au Data-Mining

CNAM léments de cours Bonus-malus et Crédibilité

statique J. Bertrand To cite this version: HAL Id: jpa

Rapport de projet Risque de Crédit, Risque de Défaut : Étude de l influence du taux de recouvrement sur le prix de CDOs.

Image d un intervalle par une fonction continue

Texte Agrégation limitée par diffusion interne

Analyse des durées de vie avec le logiciel R

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Formations proposées en par le Réseau Doctoral de Santé Publique

Exercices supplémentaires sur l introduction générale à la notion de probabilité

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Transcription:

Analyse de survie appliquée à la modélisation de la transmission des maladies infectieuses : mesurer l impact des interventions Génia Babykina 1 & Simon Cauchemez 2 1 Université de Lille, Faculté Ingénierie et Management de la Santé UFR ILIS), CERIM, 42 rue Ambroise Paré, 59120 Loos, France, evgeniya.babykina@univ-lille2.fr 2 Institut Pasteur, Unité de Modélisation Mathématique des Maladies Infectieuses, 28 rue du Dr Roux, Paris 75015, France, simon.cauchemez@pasteur.fr Résumé. Dans l article l approche d analyse de survie est proposée pour la modélisation de la transmission des maladies infectieuses dans les ménages. Le risque d infection tient compte des caractéristiques des individus du ménage, de la communauté, de l infectivité de l individu contagieux, mais également des interventions mises en place pour réduire la transmission. L approche Bayésienne est adaptée pour l estimation des paramètres. Une technique d augmentation de données est appliquée afin de tenir compte des instants d infection non observés. Les résultats des simulations de Monte Carlo sont présentés et discutés. Mots-clés. analyse de survie, MCMC, inférence Bayésienne, augmentation de données, modélisation des maladies infectieuses Abstract. In this article a survival analysis approach is proposed to model the transmission of infectious diseases within households. The risk of infection accounts for the characteristics of household members, of the community and of individual infectivity. It also accounts for the impact of interventions aiming to reduce transmission. The Bayesian approach is used for parameter estimation. Data augmentation technique is used to account for unobservable instants of infections. The Monte Carlo simulations results are presented and discussed. Keywords. survival analysis, MCMC, Bayesian inference, data augmentation, modeling of infectious diseases 1 Introduction Dans l article la modélisation de la transmission des maladies infectieuses au sein de ménages est approchée par l analyse de données de survie. Le risque de la transmission dans le modèle proposé dépend des caractéristiques des individus du ménage, de la communauté et de l infectivité de l individu contagieux. L inférence se fait dans un cadre Bayésien, où 1

une stratégie d augmentation de données est mise en place pour gérer les problèmes de données manquantes, les instants d infection n étant pas observés. L algorithme MCMC est utilisé pour explorer la distribution jointe a posteriori des paramètres et des données augmentées. Dans le passé, ce type d approches a été utilisé pour estimer les paramètres décrivant la transmission de la grippe dans les ménages [1, 2]. Ici, nous explorons la performance de ces méthodes pour évaluer l impact d interventions usage de masques ou traitements antiviraux) visant à réduire la transmission dans le ménage. 2 Notations et modèle Nous considérons un temps discret une échelle journalière), un ménage m de taille N m, un membre j du ménage m, j 1,, N m ) et le jour d infection du sujet j, d j. Notons D le temps de censure fin d observation) et posons d j = D pour les individus n ayant pas présenté de symptômes pendant la période d observation. Il est alors possible de modéliser le risque d infection de l individu j pour le jour d par un individu i, infecté le jour d i avec d > d i, i et j étant les membres d un même ménage m comme voir [1]): P m i j d) = f 1 Y m ; β) f 2 X i ; γ 1 ) f3 X j ; γ 2 ) f4 d d i ; δ), 1) avec f 1 une fonction des caractéristiques du ménage Y m, f 2 et f 3 les fonctions des caractéristiques de l individu infectieux X i ) et de l individu susceptible X j ), f 4 une fonction décrivant l infectivité au cours du temps qui est une approximation de la charge virale et peut être spécifiée par une fonction simple décroissante en fonction du temps, β, γ 1, γ 2, δ) R p le vecteur de paramètres à estimer. Le taux ou intensité) d infection pour un individu j du ménage m le jour d est ainsi défini comme λ j d) = N m i=1,i j P m i j d) ) + P c j d) 2) Le premier terme de l Eq.2), sous forme d une somme, est le risque d infection de l individu j à l intérieur du ménage, par tous les membres infectés avant le jour d, le deuxième terme de l Eq.2) est le risque d infection communautaire le jour d qui peut dépendre des caractéristiques de la communauté Z c et du jour d. Le risque communautaire est paramétré par le vecteur α R k : P c j d) = f 5 Z c, d; α). L instant exact de l infection d un individu n est en général pas observé. Les données disponibles contiennent l instant date, jour) d apparition des symptômes chez l individu. Les techniques d augmentation des données [2] sont alors utilisées pour l inférence. 2

Dans la suite nous notons ) d j le jour d apparition des symptômes chez l individu j avec d j d j, et µ dj d j, η une loi de distribution de la durée entre l infection et l apparition des symptômes période d incubation), paramétrée par le vecteur η R l. 3 Inférence statistique La probabilité conjointe des observations W, des variables non-observées ψ et des paramètres ζ s écrit comme [3] P [W, ψ, ζ] = P [W ψ] P [ψ ζ] P [ζ]. 3) Le premier terme multiplicatif de l Eq.3) correspond au niveau d observation assurant la cohérence entre les données observées et augmentées, le deuxième terme multiplicatif est le niveau de transmission modélisant la transmission de maladie au sein des ménages en supposant que les instants d infections sont connus, le dernier terme est la distribution a priori des paramètres. Conditionnellement aux observations le jour 0 première personne malade au sein d un ménage) et au vecteur de paramètres θ = α, β, γ 1, γ 2, δ, η), θ R p+k+l p étant le nombre de paramètres caractérisant la transmission à l intérieur d un ménage, k le nombre de paramètres caractérisant la transmission inter-ménages et l le nombre de paramètres de la fonction décrivant la période d incubation), la fonction de vraisemblance augmentée pour un individu j dont les symptômes apparaissent le jours d j s écrit alors comme : L m j dj, d j θ) = [1 exp λ j d j ))] 1 d j <D exp λ j u) [ )] 1dj <D µ dj d j, 4) 0<u<d j λ j et µ étant fonctions de θ et 1 A une fonction indicatrice d un événement A. La méthode de Monte Carlo Markov Chain MCMC) avec l algorithme de Metropolis- Hasting est utilisée pour explorer la distribution jointe a posteriori des paramètres du modèle θ et des données augmentées. 4 Résultats numériques Les propriétés d estimateurs sont évaluées empiriquement par les simulations de Monte Carlo. Les données sont simulées à partir de la structure de données sur la transmission de la grippe recueillies au Bangladesh : les tailles des ménages ainsi que les caractéristiques personnelles des membres ont été conservées. Il y a 1185 ménages de taille 4.95 personnes en moyenne. Nous supposons qu une intervention traitement, vaccination) a un effet sur l infectivité d un individu. Plus précisément la fonction de l infectivité aura une forme 3

différente pour les individus traités. La distribution de Weibull à deux paramètres est adoptée pour décrire ce phénomène. Le risque de transmission de l Eq.1) défini dans les simulations est { Pi j m c1 W d d d) = i ; k 1, m 1 ) si l individu i est traité c 0 W d d i ; k 0, m 0 ) si l individu i n est pas traité, W ; k h, m h ) étant la distribution de Weibull discrète avec k h le paramètre de forme et m h la médiane. Le vrai vecteur de paramètres θ = c 0, k 0, m 0, c 1, k 1, m 1 ) est fixé à θ = 0.1, 1.2, 3, 0.05, 1.6, 1.9). Les courbes d infectivité correspondantes sont présentées sur la Figure 1. L individu traité est en général moins contagieux c 1 < c 0 ), de plus sa force d infection est concentrée au début de la maladie. L individu non traité a une force d infection en général plus importante et est contagieux pendant une période plus longue. Infectivité Temps jours) Figure 1: Courbes simulées : l infectivité des individus non traités trait plein) et l infectivité des individus traités trait en pointillé) Les données ainsi simulées résultent en taux d attaque secondaire moyen le nombre moyen d individus infectés par un cas) de 0.41, soit en moyenne 482.9 contacts infectés 4

dans les ménages. Les données simulées contiennent les dates d apparition de symptômes de 5871 membres de 1185 ménages observés pendant 17 jours après l apparition de symptômes du premier individu du ménage. 5000 itérations de MCMC avec la période de burn-out de 1000 sont réalisées sur chacun des 10 jeux de données simulées. Les distributions a priori non informatives des paramètres sont utilisées. Les résultats d estimations des paramètres sont présentés sur la Figure 2. ĉ 0 ĉ 1 ˆk 0 ˆk 1 ˆm 0 ˆm 1 Figure 2: Estimations des paramètres à partir de données simulées : résultats de 10 simulations, le vrai paramètre est présenté par le trait noir La convergence d estimateurs et l absence du biais sont visuellement confirmés. Les résultats numériques d estimations basées sur un des 10 jeux de données sont donnés dans le Tableau 1. L effet d intervention traitement) sur les paramètres du modèle est distingué en termes d intervalles de crédibilité. 5

5 Conclusion et perspectives Le modèle de survie est proposé pour l étude de la transmission des maladies infectieuses. Les techniques Bayésiennes de MCMC sont utilisées pour l estimation des paramètres, les instants d infections non observés sont traités par l augmentation de données. L étude de Monte Carlo montre la convergence et l absence de biais dans les estimations. Cette analyse de simulation démontre que ces méthodes peuvent être utilisées pour évaluer l impact d interventions visant à réduire la transmission dans les ménages. Nous allons utiliser cette approche pour étudier un jeu de données décrivant la transmission de la grippe dans des ménages au Bangladesh où les personnes malades ont reçu un traitement antiviral. L impact du traitement sur la transmission de la grippe sera évalué. Table 1: Résultats d estimations sur un jeu de données : moyennes empiriques et intervalles de crédibilité de 95% Paramètre θ j ˆθj ) ˆσˆθj 95% IC c 0 0.10 0.10 0.005) [0.09, 0.11] c 1 0.05 0.05 0.005) [0.04, 0.06] k 0 1.20 1.18 0.62) [1.06, 1.30] k 1 1.60 1.63 0.14) [1.36, 1.90] m 0 3.00 2.80 0.17) [2.46, 3.13] m 1 1.90 2.17 0.16) [1.86, 2.47] References [1] S. Cauchemez, Ch.A. Donnelly, C. Reed, A.C. Ghani, Ch. Fraser, Ch. Kent, L. Finelli et N. Ferguson, Household transmission of 2009 pandemic influenza A H1N1) virus in the United States, New England Journal of Medicine, 36127), pp. 2619 2627, 2009 [2] S. Cauchemez, F. Carrat, C. Viboud, A.-J. Valleron et P.-Y. Boelle, A Bayesian MCMC approach to study transmission of influenza: application to household longitudinal data, Statistics in medicine, 2322), pp. 3469 3487, 2004 [3] K. Auranen, E. Arjas, T. Leino et A.K. Takala, Transmission of pneumococcal carriage in families: a latent Markov process model for binary longitudinal data, Journal of the American Statistical Association, 95452), pp. 1044 1053, 2000 6