Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1
Programme 1. Introduction 2. Exemples 3. Méthodes simples 4. Modèle de régression multivariée 5. Application financière 6. Modèle linéaire en 2 étapes 7. Modèle linéaire à effets mixtes 8. Modèle pour la covariance résiduelle 9. Estimation et inférence pour le modèle mixte 10. Recommendations pour la construction de modèles 11. Le problème des données manquantes 12. Application médicale 1
Introduction Mesures répétées : Mesures obtenues lorsqu une réponse est mesurée de façon répétitive sur un ensemble d unités (sujets, machines,...) Ex : Mesure de la PAS sur un patient, sous différentes conditions (assis, couché, après un effort,...). Cas particulier : données longitudinales mesures répétées dans le temps sur un ensemble d unités. Ex : Mesure de la PAS sur un groupe de patients, toutes les semaines. Données balancées : Mesures prises à intervalles réguliers Même nombre de mesures par sujet recherché dans le design d expériences 2
En général : données non balancées (données manquantes, données observationnelles, mauvaise compliance, problèmes techniques,...) nécessité de développer des méthodes tenant compte de ce déséquilibre Dans la suite : réponse continue, unités sujets. 3
Exemples Problème financier Données récoltées dans un guide BBL Info Sicav Sicav, évaluées chaque année (de 1997 à 2001) Réponse d intérêt : performance (return) Covariables : type de Sicav (trésorerie, obligation, action, mixte) 4
Problème médical (L. Erpicum) Données récoltées par un médecin généraliste Patients souffrant d hypertension Réponses d intérêt : pressions artérielles systolique (PAS), diastolique (PAD) et fréquence cardiaque (FREQ) Covariables : age, sexe, intervalles de temps entre deux visites, médicaments antihypertenseurs prescrits 5
6
Méthodes simples Méthodes simples de résumé de l information Ne prennent pas en compte la structure de corrélation entre les observations 7
8
Analyse à chaque temps d observation Données analysées à chaque occasion séparément simple à interpréter utilise toute l info ne considère pas les différences globales ne permet d étudier les différences d évolution nécessite des données balancées Analyse de l aire sous la courbe (AUC) Comparaison des aires sous la courbe des profils des sujets ne nécessite pas des données balancées comparaison de différences globales n utilise que de l info partielle problèmes de comparaisons 9
Analyse des dernières observations Comparaison des mesures prises à la dernière occasion ne nécessite pas des données balancées n utilise que de l info partielle valide uniquement pour de grands ensembles de données ne compare pas les profils 10
Modèle de régression multivariée Modèle utilisé principalement lorsque les données sont balancées Y i = vecteur des n mesures répétées pour sujet i : Y i1 Y i =. Y in Modèle multivarié général : Y i satisfait où Y i = X i β + ε i X i : matrice des covariables β : vecteur des paramètres de régression ε i : vecteur des erreurs, ε i N(0, Σ) En général, Σ est une matrice n n sans structure spécifique. Cependant, différentes structures simples existent (ex : Σ = σ 2 I n ). 11
Estimation : Si on suppose l indépendance entre sujets, β et les paramètres dans Σ peuvent être estimés en maximisant L ML = n i=1 exp { (2 π) n 2 Σ 1 2 ( 1 )} 2 (Y i X i β) Σ 1 (Y i X i β) par rapport à β et à Σ. Inférence : tests sur les valeurs des paramètres de β : test de Wald test du rapport de vraisemblance (likelihood ratio, LR) 12
Application financière Données 22 Sicav BBL, évaluées annuellement de 1997 à 2001 Covariable : type de Sicav (trésorerie, obligation, action, mixte) Réponse : return (performance), fonction du ratio de valeurs des Sicav Données balancées Modèle Création de la variable time, codant les années de 1 à 5 Inclusion d un terme time 2 Type de Sicav codé par type Toutes les paires d interactions incluses Matrice de covariance unstructured : Σ = (σ ij ) 1 i 5 1 j 5 13
Modèle final : P erf t β 0 + β 1 time 2 t + β 2j type j +β 3j time t type j + β 4 time t time 2 t Param. Est. Param. Est. Param. Est. β 0 3.8865 β 23 43.2753 β 33 9.6415 β 1-9.2886 β 24 0 β 34 20.6503 β 21-10.4546 β 31 24.4279 β 4 0.9798 β 22-13.1375 β 32 25.4182 14
Modèle linéaire en 2 étapes En général, les données sont non balancées techniques de régression multivariée inappliquables Souvent, les profils longitudinaux peuvent être bien approximés par des fonctions de régression linéaire Formulation d un modèle en 2 étapes : Etape 1 : modèle de régression linéaire pour chaque sujet séparément Etape 2 : expliquer la variabilité dans les coefficients de régression (spécifiques aux sujets) à l aide de covariables connues Y ij : réponse du sujet i (i = 1,...,N) mesurée au temps j (j = 1,..., n i ) Y i = (Y i1, Y i2,..., Y ini ) vecteur de réponse pour sujet i 15
Etape 1 : Y i = Z i β i + ε i Z i : matrice n i q de covariables β i : vecteur de dimension q de coef. de régression (spécifiques au sujet i) ε i N(0, Σ i )(souvent, Σ i = σ 2 I ni ) Ces modèles décrivent la variabilité dans chaque série d observations Etape 2 : β i = K i β + b i K i : matrice q p de covariables β : vecteur de dimension p de coef. de régression b i N(0, D) Ces modèles décrivent la variabilité entre les sujets 16
Modèle linéaire à effets mixtes Introduction Modèle en 2 étapes : Y i résumé par ˆβ i ˆβ i analysés ensuite procédure utilisant des mesures résumées de l info problème Solution : combiner les deux modèles en un seul : } Y i = Z i β i + ε i Y β i = K i β + b i = Z i K i β + Z i b i + ε i i Y i = X i β + Z i b i + ε i b i N(0, D) ε i N(0, Σ i ) b 1,..., b N, ε 1,..., ε N indép. β : effets fixes b i : effets aléatoires Composantes de la variance : éléments de D et Σ i 17
Modèle hiérarchique vs Modèle marginal Y i = X i β + Z i b i + ε i a deux interprétations : modèle hiérarchique : 1 modèle pour Y i, étant donné b i 1 modèle pour b i Y i b i N(X i β + Z i b i, Σ i ) b i N(0, D) Interprétation en termes d effets aléatoires modèle marginal : Y i N(X i β, Z i D Z i + Σ i ) Pas d effets aléatoires 18
Modèle pour la covariance résiduelle Souvent, Σ i = σ 2 I ni indépendance conditionnelle : aux b i, les Y i sont indépendants conditionnellement En présence de peu ou pas d effets aléatoires, l indépendance conditionnelle est irréaliste adapter Σ i Modèle souvent utilisé : Y i = X i β + Z i b i + ε (1)i + ε (2)i } {{ } ε i b i : variabilité entre sujets ε (1)i : erreur de mesure ε (2)i : composante de la corrélation de série ε (2)i représente la conviction qu une partie du profil du sujet i est dû à un processus stochastique variable au cours du temps et opérant sur chaque individu résulte en une corrélation entre les mesures de la série, généralement décroissante avec l intervalle de temps entre les mesures 19
Estimation et inférence pour le modèle mixte Estimation Y i = X i β + Z i b i + ε i β : vecteur des effets fixes α : vecteur des composantes de la variance de D et Σ i Fonction de vraisemblance (marginale) : L ML = n i=1 { (2 π) n i 2 V i (α) 1 2 exp ( 1 )} 2 (Y i X i β) V i (α) 1 (Y i X i β) Si α est connu, ( N ) 1 ˆβ(α) = X i W i X i où W i = V 1 i i=1 = (Z i D Z i + Σ i) 1 N X i W i Y i, i=1 En général, α est inconnu ˆα Estimation par ML Estimation par REML (plus efficace mais...) 20
Inférence 1. Effets fixes et composantes de la variance : LR test Wald test 2. Effets aléatoires : Effets sont aléatoires on utilise une approche bayésienne Estimation des effets aléatoires possible ; tests de Wald peuvent être dérivés tests pour la nécessité d effets aléatoires : LR tests avec mixture de distributions χ 2 3. Critère d information (Akaike Information Criterion, AIC) : Comparaison de deux modèles avec des structures (moyenne et covariance) différentes Modèle A est préféré à Modèle B si l accroissement en vraisemblance (de A à B) est faible comparé à l accroissement de complexité 21
Recommendations pour la construction de modèles Y i = X i β + Z i b i + ε i Structure moyenne préliminaire X i β Compromis entre structure riche, mais inefficace, et structure simple mais irréaliste Choisir la structure la plus élaborée, basée sur des outils observationels (ex : lissage des données pour obtenir une tendance au cours du temps) Structure préliminaire des effets aléatoires Z i b i Même principe qu avec la structure moyenne Utilisation d outils d observation des données Respecter des règles de consistence (ex : ne pas incorporer des termes d ordre p sans avoir inclus des termes d ordre q < p) 22
Structure de covariance résiduelle Σ i En général, Σ i = σ 2 I ni Si corrélation de série : ε (2)i N(0, τ 2 H i ) En général : (H i ) j,k = g( t ij t ik ) pour une fonction g(.) décroissante, avec g(0) = 1 Choix possibles : corrélation de série exponentielle : g(u) = exp( φ u) corrélation de série gaussienne : g(u) = exp( φ u 2 ) Réduction de la structure des effets aléatoires Utilisation des outils inférentiels pour les effets aléatoires Utilisation des outils inférentiels pour les composantes de la variance réduction de la structure moyenne Utilisation des outils inférentiels pour la réduction de la structure moyenne 23
Le problème des données manquantes Notations Mesures : Y ij Indicateur de disparition : R ij = Y o i : vecteur des Y ij tels que R ij = 1 Y m i : vecteur des Y ij tels que R ij = 0 Y i = (Y o i, Y m i ) Patterns : { 1 si Yij observé 0 sinon disparition (dropout) : 1 1 0 0 monotone non-monotone Si dropout, D i : moment du dropout f(y i, D i θ, ψ) avec θ les paramètres du processus de mesure, et ψ ceux du processus de disparition 24
Processus de données manquantes f(d i Y o i, Y m i, ψ) MCAR (Missing Completely At Random) : processus de données manquantes indépendant des mesures : f(d i ψ) MAR (Missing At Random) : processus de données manquantes indépendant des données manquantes, peut-être dépendant des mesures observées : f(d i ψ, Y o i ) MNAR (Missing Non At Random) : processus de données manquantes dépend des données manquantes : f(d i ψ, Y o i, Y m i ) 25
Que faire? Analyse des profils complets Ne considérer que les profils complets (sans données manquantes) méthode simple logiciels courants utilisables perte d information considérable non valide sous MAR Imputation (méthodes simples) 1. Reporter la dernière observation méthode d imputation simple analyse facile hypothèse que la mesure reste la même lorsque non observée information estimée imprécision sous-estimée, biais créé 26
2. Remplacer la mesure Y ij manquante par Y j, moyenne de la variable au temps j algorithmes existent (p.ex. EM) hypothèse moins forte que la précédente nécessite MCAR Analyse des cas disponibles Utiliser toute l information disponible Inférence basée sur la fonction de vraisemblance correcte, si 1. le mécanisme est MAR 2. les paramètres décrivant le processus de données manquantes sont différents de ceux du processus de mesure l analyse à effectuer!! 27
Application médicale Données 227 patients (100 hommes et 127 femmes) examinés entre le 1/1/2000 et le 15/5/2002 1 à 32 visites par patient 1 à 4 classes de médicaments prescrits (classification ATC) Covariables : âge au moment de la visite, intervalles de temps entre deux visites, combinaisons de classes de médicaments, réponse précédente observée Réponses d intérêt : PAS, PAD, FREQ Modèle Modèle linéaire mixte Structure moyenne : toutes les covariables Effets aléatoires : intercept et âge pour PAS, age 2 en plus pour PAD et FREQ Structure de covariance : structure simple, à la fois pour D et pour Σ i : σ 2 I ni 28
Résultats Structure moyenne uniquement considérée ici 1. PAS : P AS t β 0 + β 1 age t + β 2 P AS t 1 + β 3 drug 789 Param. Est. Param. Est. β 0 107.9 β 2 0.165 β 1 0.1478 β 3 33.1543 Evolution linéaire, légèrement croissante Pas d effet du sexe, ni des intervalles de temps entre 2 visites 29
2. PAD : P AD t β 0 + β 1 age t + β 2 age 2 t + β 3 P AD t 1 Param. Est. Param. Est. β 0 51.6156 β 2-0.0101 β 1 1.0085 β 3 0.1027 Evolution quadratique au cours du temps Pas d effet du sexe, ni des intervalles de temps entre 2 visites Pas d effet des classes de médicaments 30
3. FREQ : F REQ t β 0 + β 1 F REQ t 1 + β 2 drug 9 Paramètre Estimation β 0 56.6833 β 1 0.2065 β 2 4.3259 Pas d évolution précise au cours du temps Pas d effet du sexe, ni des intervalles de temps entre 2 visites Conclusions Résultats en accord avec la littérature internationale Structures de covariance limitées (problèmes informatiques) Pas d interaction entre covariables (problèmes informatiques) Suggestion : développer une expérience avec un protocole bien défini données balancées, précision assurée,... 31
En guise de conclusion... Données longitudinales : large champ d investigation Modèles mixtes : permettent l analyse de plusieurs profils en même temps permettent de modéliser la variation spécifique aux sujets Implémentation courante dans le logiciel SAS Problèmes de convergence informatique apparaissent souvent Fonctionnement optimal : moins de 10 observations successives dans le temps ; nombre de sujets illimité (le plus possible...) 32
29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS Résumé Données longitudinales est un terme générique pour désigner des mesures répétées dans le temps, effectuées sur un ensemble de sujets ou d objets. Nous considérons ici des réponses continues. Diverses méthodes simples d analyse de telles données existent : étude des dernières observations (endpoints), l aire sous la courbe (AUC),... Malheureusement, ces méthodes ne prennent pas en compte la structure de corrélation sous-jacente aux données. Lorsque les données sont balancées, les modèles de régression multivariée peuvent être utilisés. L estimation des paramètres et l inférence statistique se font généralement sur base du maximum de vraisemblance. Néanmoins, la plupart des données longitudinales réelles ne sont pas balancées. Dans ce cas, l utilisation de modèles linéaires mixtes est recommandée. La variabilité entre sujets est dès lors décrite par des effets aléatoires, et à nouveau, des méthodes basées sur la fonction de vraisemblance existent pour procéder à l estimation et à l inférence, liées au modèle mixte. La problématique des données manquantes sera abordée de façon générale. Diverses méthodes de résolution sont présentées et commentées. Finalement, deux applications, l une ayant trait au domaine médical, l autre au secteur financier, permettront d illustrer nos propos. 1