Modélisation hiérarchique spatiotemporelle de données alignées d incidence de cancers



Documents pareils
Modélisation aléatoire en fiabilité des logiciels

Cancer bronchique primitif: données épidémiologiques récentes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Résumé des communications des Intervenants

Introduction à l approche bootstrap

De la mesure à l analyse des risques

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exemple PLS avec SAS

Arbres binaires de décision

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Inférence d un réseau bayésien augmenté visant à confronter :

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Méthodes de Simulation

Table des matières. I Mise à niveau 11. Préface

Data issues in species monitoring: where are the traps?

Intérêt du découpage en sous-bandes pour l analyse spectrale

MCMC et approximations en champ moyen pour les modèles de Markov

Agrégation des portefeuilles de contrats d assurance vie

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Construction bayésienne de prévisions probabilistes à partir des sorties d'un modèle déterministe pluie-débit

Données longitudinales et modèles de survie

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Économétrie, causalité et analyse des politiques

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

FIMA, 7 juillet 2005

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Méthodes d apprentissage statistique «Machine Learning»

TABLE DES MATIERES. C Exercices complémentaires 42

Modélisation géostatistique des débits le long des cours d eau.

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CNAM léments de cours Bonus-malus et Crédibilité

Régionalisation des régimes de perturbations et implications pour l aménagement dans un contexte de changement climatique

Prédiction et Big data

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Programme «maladie» - Partie II «Objectifs / Résultats» Objectif n 2 : développer la prévention

Christophe SANNIER

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Soutenance de stage Laboratoire des Signaux et Systèmes

Principe de symétrisation pour la construction d un test adaptatif

Évaluation de la régression bornée

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

NON-LINEARITE ET RESEAUX NEURONAUX

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

ANALYSE QUANTITATIVE DE RISQUE MICROBIOLOGIQUE EN ALIMENTATION

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Laboratoire 4 Développement d un système intelligent

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Face Recognition Performance: Man vs. Machine

RETOUR D EXPÉRIENCE SUR LA CANICULE DE JUILLET 2006

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Solvabilité II Les impacts sur la tarification et l offre produit

BIG Data et R: opportunités et perspectives

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

IBM SPSS Regression 21

Statistique Bayésienne

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Raisonnement probabiliste

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

RNV3P Recherche de pathologies émergentes

Bourses d excellence pour les masters orientés vers la recherche

Chief William Bratton, Los Angeles Police Department. Predictive Policing. 4 février 2015

Frequently Asked Questions

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

Evidence-based medicine en français

Température corporelle d un castor (une petite introduction aux séries temporelles)

INF6304 Interfaces Intelligentes

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Production des Services d Assurance non-vie selon le SCN 2008

Étude d impact et Services Écosystémiques : Comment identifier et spatialiser les enjeux?

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

APPROCHE DE MODELISATION DE LA PROPAGATION DE L INCENDIE DANS UN EDIFICE ET SON INTEGRATION DANS UN SYSTEME DECISIONNEL

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

pour la soumission de demandes d approbation d adaptations tarifaires en assurance-maladie complémentaire

4.2 Unités d enseignement du M1

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Programmes des classes préparatoires aux Grandes Ecoles

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Le management des risques de l entreprise Cadre de Référence. Synthèse

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Transcription:

Modélisation hiérarchique spatiotemporelle de données alignées d incidence de cancers Erik A. Sauleau, Arnaud Etienne et Antoine Buemi Registre des Cancers du Haut-Rhin, 9 Rue du Dr Mangeney, BP 1370, F-68070 Mulhouse 1 Résumé Dans un modèle de Poisson modélisant le nombre de cas de cancers, on introduit une somme d effets et d interactions. Sur des données de registre des cancers, différents modèles hiérarchiques sont testés, tous intégrant une variabilité spatiale sous la forme d une autocorrélation (processus conditionnel autorégressif) et d une hétérogénéité (loi normale). Les effets du sexe, du temps et leur interaction sont ensuite introduits. L effet spatial est peu important comparé aux autres effets principaux. C est l autocorrélation qui emporte l essentiel de l effet par rapport à l hétérogénéité résiduelle. Comparé au sexe, le temps a un effet majeur mais il ne semble pas y avoir d évolution d incidence. Mots-clés : Modèle de Poisson, modèles temporospatiaux, modèles hiérarchiques, CAR, DIC, interaction. 2 Summary In the Poisson model for cases of cancer, we add some main effects and their interactions. Based on a cancer registry database, different hierarchical models are tested. All of these models contain spatial variability modeled as the sum of CAR and heterogeneity components. Then sex, time and their interaction are introduced. Spatial effect is weak with respect to other main effects. Autocorrelation component is dominant over heterogeneity. Compared with sex, time has a major effect, without trend. Keywords: Poisson models, time-space models, hierarchical models, CAR, DIC, interaction. 3 Introduction Le nombre de données indexées sur l espace et le temps augmente rapidement. Par exemple les registres des cancers français ont, pour les plus anciens, un recul de recueil de 1

l ordre de 20 ans avec une notion annuelle des cas à l échelon de la commune de résidence. Le découpage communal change peu et les données sont donc dites alignées car la résolution du recueil est la même que celle de l analyse. Le modèle le plus utilisé de distribution des cas observés est le modèle poissonnien (dans le cas de maladies non transmissibles). Dans l unité géographique i (commune), la strate j (âge et/ou sexe) et au temps t (période triennale ou année), les cas observés, Y ijt, par approximation de la loi binomiale, suivent une loi de Poisson de paramètre n ijt p ijt (Clayton et Kaldor, 1987), où n ijt est le nombre de personnes à risque et p ijt le risque de maladie. Si µ ijt est le logarithme du risque standardisé par p, risque global de maladie (standardisation interne ou externe), et si le nombre de cas attendus E ijt est calculé par n ijt p, la formulation est Y ijt P (E ijt e µ ijt ). L intérêt est alors de modéliser µ ijt. L approche bayésienne hiérarchique (Banerjee et al., 2004) trouve alors tout son intérêt car elle permet de modéliser une variabilité aléatoire extrapoissonnienne. De plus, dans l hypothèse d une autocorrélation spatiale (entre unités géographiques), elle permet de lisser les incidences brutes Y ijt /E ijt. Dans le log-risque µ, différents effets principaux vont apparaître. On sait combien certaines covariables, telles que le sexe ou différentes expositions, interviennent sur l incidence du cancer. Knorr-Held et Rainer (2001); Bray (2002) notamment, ont bien montré, dans les modèles âge-périodecohorte, l importance des effets du temps et de l âge sur l incidence. Classiquement, la variabilité géographique est décomposée en deux éléments : φ, l autocorrélation (clustering) entre unités proches, modélisée par un processus autorégressif conditionnel (Besag et al., 1991; Mollié, 1996) et θ, l hétérogénéité résiduelle entre unités géographiques (modélisée par une loi normale). Ces modèles peuvent poser des problèmes de convergence car assez peu identifiés (les données n apportent de l information que sur la somme θ + φ). Par contre la spécification d a priori différents permet de séparer les effets. La difficulté est ensuite de prendre en compte les différentes interactions envisageables entre ces trois facteurs (covariables, espace et temps). Par exemple, dans Waller et al. (1997), µ ijt est la somme d effets principaux (sexe, race, combinaison des deux, temps, espace par association d hétérogénéité et autocorrélation) et d un effet temps emboîté dans l espace : des θ it d hétérogénéité sont des normales de précision 1/τ t et des φ it d autocorrélation sont des processus autorégressifs conditionnels de paramètre λ t. Notre objectif est de mesurer sur les données du registre les effets respectifs du temps, du sexe et de l espace sur l incidence des cancers. 4 Méthode Même si l incidence dans certains sites de cancer ne diffère pas selon le sexe, il est habituel de systématiquement distinguer homme et femme. L effet du temps sur l incidence est connu. Il sera envisagé comme une tendance linéaire ou sans forme particulière. La modélisation de l effet spatial sous la forme θ +φ ne se justifie que par l absence de covariables 2

explicatives de cet effet. L interaction entre le sexe et le temps semble reconnue. Elle devrait permettre, en plus de la progression différente des incidences selon les sexes, un niveau de base différent. Au contraire, une interaction entre le sexe et l espace ne semble pas se justifier. L intérêt de ne pas utiliser d interaction espace-temps est aussi que les paramètres restent facilement interprétables. Finalement, ce sont six modèles hiérarchiques à trois niveaux qui seront comparés. Dans une unité géographique i, pour le sexe j et au cours de la période t, le premier niveau du modèle consiste à dire que les cas observés suivent une loi de Poisson : Y ijt P (E ijt e µ ijt ) où E ijt sont les cas attendus et µ ijt est le log-risque correspondant, qui se décompose par somme en plusieurs effets. Ce qui est commun à tous les modèles est l effet spatial en deux composantes : θ i + φ i (hétérogénéité et autocorrélation). Les autres effets sont différents selon les modèles : effet du temps, sans structure, on ajoute α t tendance linéaire, on ajoute αt (M2), (modèle M1) ou sous forme d une effet du sexe, on ajoute β j (M3), effets du sexe et du temps, α t + β j (M4), effets du sexe, du temps et interaction avec temps sans structure, α t + β j + γ jt (M5) ou tendance linéaire, α j t + β j (M6). Le second niveau correspond aux priors des différents paramètres. Les θ i suivent une N(0, 1/τ). Les φ i sont des CAR(λ) dont le poids est la matrice d adjacence des communes. Les α, β et γ des différents modèles suivent des lois normales, de moyenne nulle et de précision vague (0.005), puisqu ils sont identifiés par la vraisemblance. Enfin, le troisième niveau précise les hyperparamètres des priors. Les τ et λ suivent des lois Γ(a, b) et Γ(c, d). Le choix des hyperparamètres a, b, c et d s est fait selon Bernardinelli et al. (1995) qui suggère que la précision sur l hétérogénéité doit être de l ordre de 70% de celle sur l autocorrélation, ce qui revient à λ τ, où m est le nombre moyen de voisins de 2 m chaque commune (en l occurrence 5.5). L ensemble de la modélisation a été réalisée avec le logiciel WinBUGS (Spiegelhalter et al., 2003). Une première série d itérations a permis de noter l étendue des estimations des paramètres pour déterminer des points initiaux "dispersés" de cinq chaînes, en imposant la contrainte que λ = τ/10. Pour chaque modèle, la longueur de la phase de burn-in est décidée sur le diagnostic de Gelman-Rubin modifié (Brooks et Gelman, 1998) et sur les autocorrélations des estimations des paramètres. Un nombre 10 fois plus important d itérations est ensuite utilisé pour l estimation du modèle. Les modèles sont comparés entre eux par le "Deviance Information Criterion" (Spiegelhalter et al., 2002) (DIC), décomposé en une mesure d adéquation et une mesure de complexité. 3

5 Matériel Des données du registre, on extrait par sexe les cas observés de cancers par commune, en distinguant 1988-90, 1991-3, 1994-6 et 1997-9 (publications triennales des données). Dans les cas, on ne tient pas compte des tumeurs bénignes ni des carcinomes cutanés basocellulaires. L Institut National de la Statistique et des Études Économiques fournit des chiffres communaux de population lors des recensements (1990 et 1999). Les populations de 1990 sont appliquées entre 1988 et 1991 et celle de 1999 entre 1998 et 2000. Des interpolations linéaires en 1993 et 1996 sont appliquées entre, respectivement, 1992 et 1994 et entre 1995 et 1997. Les populations sont ensuite sommées pour correspondre aux regroupements d années des cas. Les incidences annuelles par tranche d âge sont appliquées aux populations pour calculer des effectifs attendus communaux sur chacune des quatre périodes. L Institut Géographique National fournit pour chaque commune ses coordonnées géographiques et on a construit une matrice d adjacence où deux communes sont considérées comme voisines si elles partagent une frontière. 6 Résultats Un burn-in de 2.000 itérations (400 itérations de chacune des 5 chaînes) est nécessaire pour obtenir la convergence des estimations. En règle général, les paramètres θ convergent moins bien mais le diagnostic de Gelman-Rubin reste près de la valeur 1 de convergence. Ce sont ensuite 20.000 itérations qui sont monitorées. L effet de l autocorrélation spatiale est très faible : de l ordre de 10 2, quelque soit le modèle, en moyenne de médianes sur l ensemble des 377 communes. L hétérogénéité est encore plus faible (de l ordre de 10 4 ). Ceci signifie que, dans le risque de la maladie, la variabilité géographique n intervient quasiment pas (exp(10 2 +10 4 ) 1). La variabilité de l autocorrélation parmi la variabilité spatiale est entre 0,70 et 0,80 selon les modèles. Le DIC le plus bas des différents modèles, malgré un nombre de paramètres effectifs élevé (169), est celui du modèle M4, intégrant les effets du temps sans structure et du sexe, sans interaction. Dans ce modèle, l estimateur de l effet du temps, en médiane, est quasiment constant sur les quatre périodes. Converti en risque relatif, sa valeur varie de 1,87 à 1,81. L effet du sexe, faible, est le même pour les deux sexes (risques relatifs à 0,30). Lorsque le temps est seul dans les effets principaux (modèle M1), son effet est quasiment constant sur les quatres périodes (en risque relatif, la valeur varie de 0,92 à 0,95). L effet du sexe sans notion de temps (modèle M3) est de 0,94. Lorsqu on ajoute une interaction sexe-temps (modèle M5), elle se manifeste surtout lors de la dernière période (risque relatif à 36 pour l homme et 16 pour la femme), alors que l effet principal du temps devient 0,18 et l effet du sexe 0,12 pour l homme et 0,34 pour la femme. Le modèle avec la simple tendance linéaire (M2) donne une pente très basse et les risques sont très légèrement décroissants de 0,98 à 0,92. L introduction de l effet du sexe en plus de la tendance (modèle M6) ne modifie pas les paramètres. L ordonnée à l origine est la même 4

pour les deux sexes. 7 Discussion On retrouve dans les résultats des constatations connues ou explicables. L hétérogénéité spatiale est d autant plus faible que la variabilité aléatoire spatiale est prise en charge par le processus autorégressif (Waller et al., 1997). Le temps a un effet fort mais constant sur l incidence alors que le sexe ne semble pas avoir d effet. La forte interaction au cours de la dernière période entre les sexes est peut être le signe du début de dissociation des incidences entre hommes (diminution des cancers ORL, faible augmentation des cancers bronchopulmonaires) et femmes (augmentation des cancers du sein et bronchopulmonaires). En tous cas, il est maintenant primordial de mener l analyse en différenciant les sites de cancer. Il est de plus important de vérifier par une analyse de sensibilité l impact du choix des lois a priori sur les distributions a posteriori. Un écueil essentiel à toute modélisation utilisant un échelon géographique fin est la difficulté de déterminer la population de cet échelon à un moment donné (Benhamou et Laplanche, 1991). Le problème est de déterminer les populations communales entre les recensements, notamment par tranche d âge. Les communes, surtout lorsqu elles sont petites, sont sujettes à de très fortes et très brutales variations. L échantillonneur de Gibbs n est pas la meilleure solution pour estimer les modèles hiérarchiques temporospatiaux car peu de distributions conditionnelles complètes ont une forme standard. L algorithme de Metropolis serait plus efficace notamment en permettant la mise à jour en un bloc des θ i et des φ i. Ce qui ralentit fortement la convergence c est que ces paramètres sont faiblement identifiés : les données n apportent de l information que sur la somme des deux effets et leur identification ne se fait que par la spécification des lois a priori. Effectivement en utilisant l échantillonneur de Gibbs, la convergence de nos estimations ne semblait pas acceptable avant 2.000 itérations et la réalisation (avec monitoring) des 20.000 itérations demandait plusieurs heures. Le poids de chaque observation dans les processus CAR repose sur une matrice d adjacence. Mais l utilisation des distances géographiques entre communes (Cressie et Chan, 1989; Devine et al., 1994) permettrait peut être une meilleure efficience du processus. Pour ce qui est de l épidémiologie, des études cas-témoins sont sûrement à préférer aux études d observation. Les résultats de ces dernières, c est à dire l interprétation des modèles temporospatiaux, servent à justifier de la nécessité de réaliser des études analytiques mais ne constituent pas une fin en soi. References S. Banerjee, BP. Carlin et AE. Gelfan. Hierarchical modeling and analysis for spatial data, volume 101 of Monographs on statistics and applied probability. Chapman and 5

Hall/CRC, Boca Raton, 2004. E. Benhamou et A. Laplanche. Estimation de la population à risque entre deux recensements pour le calcul d un taux d incidence ou de mortalité par cancer. Revue Epidémiologie et Santé Publique, 39:71 7, 1991. L. Bernardinelli, D. Clayton et C. Montomoli. Bayesian estimates of disease maps: how important are priors? Statistics in Medicine, 14:2411 31, 1995. J. Besag, J. York et A. Mollié. Bayesian image restoration, with two applications in spatial statistics (with discussion). Annals of the Institute of Statistical Mathematics, 43:1 59, 1991. I. Bray. Application of markov chain monte carlo methods to projecting cancer incidence and mortality. Journal of the Royal Statistical Society, Series C: Applied Statistics, 51: 151 64, 2002. SP. Brooks et A. Gelman. Alternative methods for monitoring convergence of iterative simulations. Journal of Computational and Graphical Statistics, 7:434 55, 1998. D. Clayton et J. Kaldor. Empirical bayes estimates of age-standardized relative risks for use of disease mapping. Biometrics, 43:671 81, 1987. NAC. Cressie et NH. Chan. Spatial modeling of regional variables. Journal of the American Statistical Association, 84:393 401, 1989. OJ. Devine, TA. Louis et ME. Halloran. Empirical bayes estimators for spatially correlated incidence rates. Environmetrics, 5:381 98, 1994. L. Knorr-Held et E. Rainer. Projections of lung cancer mortality in west germany: a case study in bayesian prediction. Biostatistics, 2(1):109 29, 2001. A. Mollié. Bayesian mapping of disease. In WR. Gilks, S. Richardson et JC. Wakefield, editors, Markov Chain Monte Carlo in practice, pages 359 79. Chapman and Hall, New York, 1996. DJ. Spiegelhalter, N. Best, BP. Carlin et A. Van der Linde. Bayesian measures of model complexity and fit (with discussion). Journal of the Royal Statistical Society, Series B, 64:583 639, 2002. DJ. Spiegelhalter, A. Thomas, N. Best et D. Lunn. WinBUGS Version 1.4 user manual. Institute of Public Health, Cambridge, Janvier 2003. LA. Waller, BP. Carlin, H. Xia et AE. Gelfand. Hierarchical spatio-temporal mapping of disease rates. Journal of the American Statistical Association, 92:607 17, 1997. 6