Analyse de données longitudinales continues avec applications

Documents pareils

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIERES. C Exercices complémentaires 42

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

PROBABILITES ET STATISTIQUE I&II

Modélisation aléatoire en fiabilité des logiciels

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Table des matières. I Mise à niveau 11. Préface

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Exercice : la frontière des portefeuilles optimaux sans actif certain

STATISTIQUES. UE Modélisation pour la biologie

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Modèles pour données répétées

NON-LINEARITE ET RESEAUX NEURONAUX

Le modèle de régression linéaire

Chapitre 3. Les distributions à deux variables

IBM SPSS Regression 21

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Filtrage stochastique non linéaire par la théorie de représentation des martingales

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

La classification automatique de données quantitatives

Précision d un résultat et calculs d incertitudes

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

INF6304 Interfaces Intelligentes

Évaluation de la régression bornée

Théorie des sondages : cours 5

Modèles et Méthodes de Réservation

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

1 Complément sur la projection du nuage des individus

Enjeux mathématiques et Statistiques du Big Data

Classe de première L

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Agrégation des portefeuilles de contrats d assurance vie

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Résolution d équations non linéaires

PROGRAMME (Susceptible de modifications)

«Cours Statistique et logiciel R»

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Coup de Projecteur sur les Réseaux de Neurones

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

4. Résultats et discussion

données en connaissance et en actions?

Soutenance de stage Laboratoire des Signaux et Systèmes

EXCEL et base de données

Chapitre 2 Le problème de l unicité des solutions

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Le théorème des deux fonds et la gestion indicielle

Rappels sur les suites - Algorithme

Correction du baccalauréat ES/L Métropole 20 juin 2014

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Cours de méthodes de scoring

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

FORMULAIRE DE STATISTIQUES

Evaluation des modèles non-linéaires à effets mixtes

Introduction au datamining

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Arbres binaires de décision

Programmes des classes préparatoires aux Grandes Ecoles

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

4.2 Unités d enseignement du M1

Probabilités III Introduction à l évaluation d options

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Programmation linéaire

Raisonnement probabiliste

Théorie de l estimation et de la décision statistique

Méthodes de Simulation

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

CAPTEURS - CHAINES DE MESURES

Chapitre 7. Récurrences

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Apprentissage Automatique

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

PROJET MODELE DE TAUX

MCMC et approximations en champ moyen pour les modèles de Markov

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Introduction au Data-Mining

(Customer Relationship Management, «Gestion de la Relation Client»)

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Théorèmes de Point Fixe et Applications 1

Logiciel XLSTAT version rue Damrémont PARIS

Température corporelle d un castor (une petite introduction aux séries temporelles)

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Transcription:

Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1

Programme 1. Introduction 2. Exemples 3. Méthodes simples 4. Modèle de régression multivariée 5. Application financière 6. Modèle linéaire en 2 étapes 7. Modèle linéaire à effets mixtes 8. Modèle pour la covariance résiduelle 9. Estimation et inférence pour le modèle mixte 10. Recommendations pour la construction de modèles 11. Le problème des données manquantes 12. Application médicale 1

Introduction Mesures répétées : Mesures obtenues lorsqu une réponse est mesurée de façon répétitive sur un ensemble d unités (sujets, machines,...) Ex : Mesure de la PAS sur un patient, sous différentes conditions (assis, couché, après un effort,...). Cas particulier : données longitudinales mesures répétées dans le temps sur un ensemble d unités. Ex : Mesure de la PAS sur un groupe de patients, toutes les semaines. Données balancées : Mesures prises à intervalles réguliers Même nombre de mesures par sujet recherché dans le design d expériences 2

En général : données non balancées (données manquantes, données observationnelles, mauvaise compliance, problèmes techniques,...) nécessité de développer des méthodes tenant compte de ce déséquilibre Dans la suite : réponse continue, unités sujets. 3

Exemples Problème financier Données récoltées dans un guide BBL Info Sicav Sicav, évaluées chaque année (de 1997 à 2001) Réponse d intérêt : performance (return) Covariables : type de Sicav (trésorerie, obligation, action, mixte) 4

Problème médical (L. Erpicum) Données récoltées par un médecin généraliste Patients souffrant d hypertension Réponses d intérêt : pressions artérielles systolique (PAS), diastolique (PAD) et fréquence cardiaque (FREQ) Covariables : age, sexe, intervalles de temps entre deux visites, médicaments antihypertenseurs prescrits 5

6

Méthodes simples Méthodes simples de résumé de l information Ne prennent pas en compte la structure de corrélation entre les observations 7

8

Analyse à chaque temps d observation Données analysées à chaque occasion séparément simple à interpréter utilise toute l info ne considère pas les différences globales ne permet d étudier les différences d évolution nécessite des données balancées Analyse de l aire sous la courbe (AUC) Comparaison des aires sous la courbe des profils des sujets ne nécessite pas des données balancées comparaison de différences globales n utilise que de l info partielle problèmes de comparaisons 9

Analyse des dernières observations Comparaison des mesures prises à la dernière occasion ne nécessite pas des données balancées n utilise que de l info partielle valide uniquement pour de grands ensembles de données ne compare pas les profils 10

Modèle de régression multivariée Modèle utilisé principalement lorsque les données sont balancées Y i = vecteur des n mesures répétées pour sujet i : Y i1 Y i =. Y in Modèle multivarié général : Y i satisfait où Y i = X i β + ε i X i : matrice des covariables β : vecteur des paramètres de régression ε i : vecteur des erreurs, ε i N(0, Σ) En général, Σ est une matrice n n sans structure spécifique. Cependant, différentes structures simples existent (ex : Σ = σ 2 I n ). 11

Estimation : Si on suppose l indépendance entre sujets, β et les paramètres dans Σ peuvent être estimés en maximisant L ML = n i=1 exp { (2 π) n 2 Σ 1 2 ( 1 )} 2 (Y i X i β) Σ 1 (Y i X i β) par rapport à β et à Σ. Inférence : tests sur les valeurs des paramètres de β : test de Wald test du rapport de vraisemblance (likelihood ratio, LR) 12

Application financière Données 22 Sicav BBL, évaluées annuellement de 1997 à 2001 Covariable : type de Sicav (trésorerie, obligation, action, mixte) Réponse : return (performance), fonction du ratio de valeurs des Sicav Données balancées Modèle Création de la variable time, codant les années de 1 à 5 Inclusion d un terme time 2 Type de Sicav codé par type Toutes les paires d interactions incluses Matrice de covariance unstructured : Σ = (σ ij ) 1 i 5 1 j 5 13

Modèle final : P erf t β 0 + β 1 time 2 t + β 2j type j +β 3j time t type j + β 4 time t time 2 t Param. Est. Param. Est. Param. Est. β 0 3.8865 β 23 43.2753 β 33 9.6415 β 1-9.2886 β 24 0 β 34 20.6503 β 21-10.4546 β 31 24.4279 β 4 0.9798 β 22-13.1375 β 32 25.4182 14

Modèle linéaire en 2 étapes En général, les données sont non balancées techniques de régression multivariée inappliquables Souvent, les profils longitudinaux peuvent être bien approximés par des fonctions de régression linéaire Formulation d un modèle en 2 étapes : Etape 1 : modèle de régression linéaire pour chaque sujet séparément Etape 2 : expliquer la variabilité dans les coefficients de régression (spécifiques aux sujets) à l aide de covariables connues Y ij : réponse du sujet i (i = 1,...,N) mesurée au temps j (j = 1,..., n i ) Y i = (Y i1, Y i2,..., Y ini ) vecteur de réponse pour sujet i 15

Etape 1 : Y i = Z i β i + ε i Z i : matrice n i q de covariables β i : vecteur de dimension q de coef. de régression (spécifiques au sujet i) ε i N(0, Σ i )(souvent, Σ i = σ 2 I ni ) Ces modèles décrivent la variabilité dans chaque série d observations Etape 2 : β i = K i β + b i K i : matrice q p de covariables β : vecteur de dimension p de coef. de régression b i N(0, D) Ces modèles décrivent la variabilité entre les sujets 16

Modèle linéaire à effets mixtes Introduction Modèle en 2 étapes : Y i résumé par ˆβ i ˆβ i analysés ensuite procédure utilisant des mesures résumées de l info problème Solution : combiner les deux modèles en un seul : } Y i = Z i β i + ε i Y β i = K i β + b i = Z i K i β + Z i b i + ε i i Y i = X i β + Z i b i + ε i b i N(0, D) ε i N(0, Σ i ) b 1,..., b N, ε 1,..., ε N indép. β : effets fixes b i : effets aléatoires Composantes de la variance : éléments de D et Σ i 17

Modèle hiérarchique vs Modèle marginal Y i = X i β + Z i b i + ε i a deux interprétations : modèle hiérarchique : 1 modèle pour Y i, étant donné b i 1 modèle pour b i Y i b i N(X i β + Z i b i, Σ i ) b i N(0, D) Interprétation en termes d effets aléatoires modèle marginal : Y i N(X i β, Z i D Z i + Σ i ) Pas d effets aléatoires 18

Modèle pour la covariance résiduelle Souvent, Σ i = σ 2 I ni indépendance conditionnelle : aux b i, les Y i sont indépendants conditionnellement En présence de peu ou pas d effets aléatoires, l indépendance conditionnelle est irréaliste adapter Σ i Modèle souvent utilisé : Y i = X i β + Z i b i + ε (1)i + ε (2)i } {{ } ε i b i : variabilité entre sujets ε (1)i : erreur de mesure ε (2)i : composante de la corrélation de série ε (2)i représente la conviction qu une partie du profil du sujet i est dû à un processus stochastique variable au cours du temps et opérant sur chaque individu résulte en une corrélation entre les mesures de la série, généralement décroissante avec l intervalle de temps entre les mesures 19

Estimation et inférence pour le modèle mixte Estimation Y i = X i β + Z i b i + ε i β : vecteur des effets fixes α : vecteur des composantes de la variance de D et Σ i Fonction de vraisemblance (marginale) : L ML = n i=1 { (2 π) n i 2 V i (α) 1 2 exp ( 1 )} 2 (Y i X i β) V i (α) 1 (Y i X i β) Si α est connu, ( N ) 1 ˆβ(α) = X i W i X i où W i = V 1 i i=1 = (Z i D Z i + Σ i) 1 N X i W i Y i, i=1 En général, α est inconnu ˆα Estimation par ML Estimation par REML (plus efficace mais...) 20

Inférence 1. Effets fixes et composantes de la variance : LR test Wald test 2. Effets aléatoires : Effets sont aléatoires on utilise une approche bayésienne Estimation des effets aléatoires possible ; tests de Wald peuvent être dérivés tests pour la nécessité d effets aléatoires : LR tests avec mixture de distributions χ 2 3. Critère d information (Akaike Information Criterion, AIC) : Comparaison de deux modèles avec des structures (moyenne et covariance) différentes Modèle A est préféré à Modèle B si l accroissement en vraisemblance (de A à B) est faible comparé à l accroissement de complexité 21

Recommendations pour la construction de modèles Y i = X i β + Z i b i + ε i Structure moyenne préliminaire X i β Compromis entre structure riche, mais inefficace, et structure simple mais irréaliste Choisir la structure la plus élaborée, basée sur des outils observationels (ex : lissage des données pour obtenir une tendance au cours du temps) Structure préliminaire des effets aléatoires Z i b i Même principe qu avec la structure moyenne Utilisation d outils d observation des données Respecter des règles de consistence (ex : ne pas incorporer des termes d ordre p sans avoir inclus des termes d ordre q < p) 22

Structure de covariance résiduelle Σ i En général, Σ i = σ 2 I ni Si corrélation de série : ε (2)i N(0, τ 2 H i ) En général : (H i ) j,k = g( t ij t ik ) pour une fonction g(.) décroissante, avec g(0) = 1 Choix possibles : corrélation de série exponentielle : g(u) = exp( φ u) corrélation de série gaussienne : g(u) = exp( φ u 2 ) Réduction de la structure des effets aléatoires Utilisation des outils inférentiels pour les effets aléatoires Utilisation des outils inférentiels pour les composantes de la variance réduction de la structure moyenne Utilisation des outils inférentiels pour la réduction de la structure moyenne 23

Le problème des données manquantes Notations Mesures : Y ij Indicateur de disparition : R ij = Y o i : vecteur des Y ij tels que R ij = 1 Y m i : vecteur des Y ij tels que R ij = 0 Y i = (Y o i, Y m i ) Patterns : { 1 si Yij observé 0 sinon disparition (dropout) : 1 1 0 0 monotone non-monotone Si dropout, D i : moment du dropout f(y i, D i θ, ψ) avec θ les paramètres du processus de mesure, et ψ ceux du processus de disparition 24

Processus de données manquantes f(d i Y o i, Y m i, ψ) MCAR (Missing Completely At Random) : processus de données manquantes indépendant des mesures : f(d i ψ) MAR (Missing At Random) : processus de données manquantes indépendant des données manquantes, peut-être dépendant des mesures observées : f(d i ψ, Y o i ) MNAR (Missing Non At Random) : processus de données manquantes dépend des données manquantes : f(d i ψ, Y o i, Y m i ) 25

Que faire? Analyse des profils complets Ne considérer que les profils complets (sans données manquantes) méthode simple logiciels courants utilisables perte d information considérable non valide sous MAR Imputation (méthodes simples) 1. Reporter la dernière observation méthode d imputation simple analyse facile hypothèse que la mesure reste la même lorsque non observée information estimée imprécision sous-estimée, biais créé 26

2. Remplacer la mesure Y ij manquante par Y j, moyenne de la variable au temps j algorithmes existent (p.ex. EM) hypothèse moins forte que la précédente nécessite MCAR Analyse des cas disponibles Utiliser toute l information disponible Inférence basée sur la fonction de vraisemblance correcte, si 1. le mécanisme est MAR 2. les paramètres décrivant le processus de données manquantes sont différents de ceux du processus de mesure l analyse à effectuer!! 27

Application médicale Données 227 patients (100 hommes et 127 femmes) examinés entre le 1/1/2000 et le 15/5/2002 1 à 32 visites par patient 1 à 4 classes de médicaments prescrits (classification ATC) Covariables : âge au moment de la visite, intervalles de temps entre deux visites, combinaisons de classes de médicaments, réponse précédente observée Réponses d intérêt : PAS, PAD, FREQ Modèle Modèle linéaire mixte Structure moyenne : toutes les covariables Effets aléatoires : intercept et âge pour PAS, age 2 en plus pour PAD et FREQ Structure de covariance : structure simple, à la fois pour D et pour Σ i : σ 2 I ni 28

Résultats Structure moyenne uniquement considérée ici 1. PAS : P AS t β 0 + β 1 age t + β 2 P AS t 1 + β 3 drug 789 Param. Est. Param. Est. β 0 107.9 β 2 0.165 β 1 0.1478 β 3 33.1543 Evolution linéaire, légèrement croissante Pas d effet du sexe, ni des intervalles de temps entre 2 visites 29

2. PAD : P AD t β 0 + β 1 age t + β 2 age 2 t + β 3 P AD t 1 Param. Est. Param. Est. β 0 51.6156 β 2-0.0101 β 1 1.0085 β 3 0.1027 Evolution quadratique au cours du temps Pas d effet du sexe, ni des intervalles de temps entre 2 visites Pas d effet des classes de médicaments 30

3. FREQ : F REQ t β 0 + β 1 F REQ t 1 + β 2 drug 9 Paramètre Estimation β 0 56.6833 β 1 0.2065 β 2 4.3259 Pas d évolution précise au cours du temps Pas d effet du sexe, ni des intervalles de temps entre 2 visites Conclusions Résultats en accord avec la littérature internationale Structures de covariance limitées (problèmes informatiques) Pas d interaction entre covariables (problèmes informatiques) Suggestion : développer une expérience avec un protocole bien défini données balancées, précision assurée,... 31

En guise de conclusion... Données longitudinales : large champ d investigation Modèles mixtes : permettent l analyse de plusieurs profils en même temps permettent de modéliser la variation spécifique aux sujets Implémentation courante dans le logiciel SAS Problèmes de convergence informatique apparaissent souvent Fonctionnement optimal : moins de 10 observations successives dans le temps ; nombre de sujets illimité (le plus possible...) 32

29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS Résumé Données longitudinales est un terme générique pour désigner des mesures répétées dans le temps, effectuées sur un ensemble de sujets ou d objets. Nous considérons ici des réponses continues. Diverses méthodes simples d analyse de telles données existent : étude des dernières observations (endpoints), l aire sous la courbe (AUC),... Malheureusement, ces méthodes ne prennent pas en compte la structure de corrélation sous-jacente aux données. Lorsque les données sont balancées, les modèles de régression multivariée peuvent être utilisés. L estimation des paramètres et l inférence statistique se font généralement sur base du maximum de vraisemblance. Néanmoins, la plupart des données longitudinales réelles ne sont pas balancées. Dans ce cas, l utilisation de modèles linéaires mixtes est recommandée. La variabilité entre sujets est dès lors décrite par des effets aléatoires, et à nouveau, des méthodes basées sur la fonction de vraisemblance existent pour procéder à l estimation et à l inférence, liées au modèle mixte. La problématique des données manquantes sera abordée de façon générale. Diverses méthodes de résolution sont présentées et commentées. Finalement, deux applications, l une ayant trait au domaine médical, l autre au secteur financier, permettront d illustrer nos propos. 1