Analyse des données longitudinales

Documents pareils

Modèles pour données répétées

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Introduction à l approche bootstrap

Température corporelle d un castor (une petite introduction aux séries temporelles)

TABLE DES MATIERES. C Exercices complémentaires 42

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

STATISTIQUES. UE Modélisation pour la biologie

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Modèles et Méthodes de Réservation

Le modèle de régression linéaire

1 Définition de la non stationnarité

Théorie des sondages : cours 5

NON-LINEARITE ET RESEAUX NEURONAUX

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

De la mesure à l analyse des risques

Méthodes de Simulation

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

FORMULAIRE DE STATISTIQUES

Introduction au Data-Mining

La classification automatique de données quantitatives

IBM SPSS Regression 21

Introduction au Data-Mining

Évaluation de la régression bornée

Modélisation aléatoire en fiabilité des logiciels

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Arbres binaires de décision

Régression linéaire. Nicolas Turenne INRA

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exemples d application

Analyse de la variance Comparaison de plusieurs moyennes

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

4. Résultats et discussion

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Introduction au datamining

Analyse en Composantes Principales

de calibration Master 2: Calibration de modèles: présentation et simulation d

Le modèle de Black et Scholes

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Table des matières. I Mise à niveau 11. Préface

Soutenance de stage Laboratoire des Signaux et Systèmes

Estimation et tests statistiques, TD 5. Solutions

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

données en connaissance et en actions?

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Introduction aux Statistiques et à l utilisation du logiciel R

TP N 57. Déploiement et renouvellement d une constellation de satellites

Cours de méthodes de scoring

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Enjeux mathématiques et Statistiques du Big Data

Programmes des classes préparatoires aux Grandes Ecoles

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Les indices à surplus constant

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Probabilités sur un univers fini

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Moments des variables aléatoires réelles

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Apprentissage Automatique

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Statistiques descriptives

Exercice : la frontière des portefeuilles optimaux sans actif certain

«Cours Statistique et logiciel R»

Loi binomiale Lois normales

De la mesure à l analyse des risques

Coup de Projecteur sur les Réseaux de Neurones

Correction du baccalauréat ES/L Métropole 20 juin 2014

Couples de variables aléatoires discrètes

Chapitre 2 Le problème de l unicité des solutions

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Probabilités III Introduction à l évaluation d options

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Feuille d exercices 2 : Espaces probabilisés

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Quantification Scalaire et Prédictive

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

VI. Tests non paramétriques sur un échantillon

CAPTEURS - CHAINES DE MESURES

Probabilités sur un univers fini

Programmation Linéaire - Cours 1

Transcription:

Analyse des données longitudinales EA Sauleau SémStat 03/10/2006 Table des matières 1 Introduction 2 1.1 Généralités 2 1.2 La structure des données.. 3 1.3 Exemple.. 4 1.4 Des impasses.. 4 2 (M)ANOVA 4 2.1 Quelques rappels 4 2.2 ANOVA-R. 5 2.3 MANOVA. 6 2.4 Nouvelle formulation de l ANOVA.. 7 3 Modèle linéaire 9 3.1 Spécification 9 3.2 Estimation 9 3.3 Les matrices de covariance. 10 3.4 Les cas particuliers.. 11 3.5 L analyse des profils dans les groupes parallèles. 12 3.6 Paramétrisation des tendances temporelles dans les groupes parallèles 14 4 LMM 15 4.1 Introduction 15 4.2 Spécifications du modèle.. 15 4.3 Les cas particuliers.. 17 5 Exemple 19 5.1 Orthodont data. 19 1

6 GL(M)M 22 6.1 Modèles marginaux.. 22 6.2 GLMM.. 23 6.3 Modèles de transition 23 6.4 Lequel choisir?. 24 7 Conclusion 24 1 Introduction 1.1 Généralités Définitions Données longitudinales Etudes dans lesquelles les sujets sont mesurés plusieurs fois au cours du temps Terme plus ancien : mesures répétées Intérêts Vision des changements Même(s) variable(s) répétée(s) plusieurs fois dans des conditions identiques Corrélation (positive) entre les mesures Certains types de corrélation Caractéristiques La variable résultats peut être continue, binaire, compte Les données peuvent être incomplètes Deux grands types Design parallèle Chaque sujet appartient à un groupe défini par un traitement ou une exposition L objectif est de comparer les réponses entre les groupes Design en crossover Chaque sujet subit plusieurs traitements ou exposition L objectif est de comparer les réponses d un même sujet sous différentes conditions 2

1.2 La structure des données Cas général y ij = mesure du sujet i au temps j Temps 1 2 p Sujets 1 y 11 y 12 y 1p 2 y 21 y 22 y 2p n y n1 y n2 y np Cas particuliers Deux groupes parallèles Temps 1 2 p Groupe Sujets 1 1 y 11 y 12 y 1p m y m1 y m2 y mp 2 m + 1 y m+1,1 y m+1,2 y m+1,p n y n1 y n2 y np Crossover Traitement Placebo 1 2 Sujets 1 y 11 y 12 y 13 2 y 21 y 22 y 23 n y n1 y n2 y n3 Crossover : traitements A et B 3

Temps 1.. q q + 1.. p Groupe Sujets AB 1 y 11(A).. y 1q(A) y 1,q+1,(B).. y 1p(B).. m y m1(a).. y mq(a) y m,q+1,(b).. y mp(b) BA m + 1 y m+1,1(b).. y m+1,q(b) y m+1,q+1,(a).. y m+1,p(a).. n y n,1(b).. y n,q(b) y n,q+1,(a).. y n,p(a) 1.3 Exemple Un exemple très simple Orthodont data (package nlme de R) 27 enfants (16 garçons, 11 filles) dont on mesure tous les deux ans entre 8 et 14 ans la distance (en millimètre, sur un cliché radio) entre l hypophyse et la fente pterygomaxillaire cf. figure (1) Age 8 10 12 14 Sujets Sexe 1 M 26,0 25,0 29,0 31,0 2 M 21,5 22,5 23,0 26,5 27 F 24,5 25,0 28,0 28,0 1.4 Des impasses Je passe sous silence Analyses non longitudinales : Approches descriptives Recherche de points de rupture De nombreux modèles L inférence bayésienne (si, c est possible) Les données manquantes 2 Approche ANOVA et données répétées 2.1 Quelques rappels ANOVA simple a un facteur 4

(a) Data (b) Régressions Fig. 1 Orthodont dataset Notation p groupes (mesures) n sujets par groupe (sujets) N = p k=1 n (total des mesures) Mesure du sujet i dans le groupe j : y ij Somme des mesures dans le groupe j : T (g)j = n Facteur de correction : F C = (P n i=1 P p j=1 yij)2 N i=1 y ij Somme des carrés des mesures : SY 2 = n i=1 p j=1 y2 ij Table d ANOVA Source Somme P carrés ddl Test p j=1 Facteur T 2 (g)j n P F C p 1 p Résiduelle SY 2 j=1 T 2 (g)j n N p Totale SY 2 F C N 1 2.2 ANOVA pour données répétées ANOVA adaptée aux données répétées Principe Deux sources de variabilité dans l ANOVA simple : facteur et résiduelle Dans l ANOVA pour données répétées, on isole de la résiduelle une source inter-sujet 5

Notation additionnelle Somme des mesures pour le sujet i : T (s)i = p j=1 y ij Table d ANOVA-R Source Somme carrés ddl Test P p j=1 Facteur SC F = T 2 j P n F C p 1 n i=1 Inter-sujet SC S = T 2 (s)i p F C n 1 Résiduelle SC R = SC T SC F SC S (p 1)(n 1) Totale SC T = SY 2 F C N 1 Conditions d application de l ANOVA-R Deux conditions Sphéricité Egalité des variances des mesures entre les temps Egalité des covariances des mesures entre les différents temps Statistique ɛ de Greenhouse-Geisser (test à 1) En cas de violation 1. Adapter les ddl de l ANOVA-R (F de Greenhouse-Geisser, très conservatif) 2. Utiliser une MANOVA Normalité des mesures Test non paramétrique de Friedman pour échantillon indépendant si condition violée 12 Np(p+1) 2.3 MANOVA Principe p j=1 ( n i=1 r ij) 2 3N(p + 1) χ 2 p 1 ddl y ij = mesure du sujet i au temps j Temps 1 2 p Sujets 1 y 11 y 12 y 1p 2 y 21 y 22 y 2p n y n1 y n2 y np 6

Le modèle Y i = (y i1 y i2 y ip ) Y i = µ + ɛ i, Y N µ 1 µ 2 µ p, Σ Tests Test de µ j µ p à 0 : T 2 de Hotelling Test de changement au cours du temps : Λ de Wilks, trace de Pillai, trace de Hotelling 2.4 Nouvelle formulation de l ANOVA Limites de l approche ANOVA-R / MANOVA Différents soucis Problème de représentation du temps Problème d extension à des designs plus complexes Régression multiple avec des variables indicatrices ANOVA simple a un facteur Variable indicatrice x ijk, valant 1 si la mesure j du sujet i est au niveau (temps) k et 0 sinon Temps de référence : p y ij = β 0 + p 1 µ 1 = β 0 + β 1 µ 2 = β 0 + β 2 µ p = β 0 Orthodont data Présentation initiale k=1 β kx ijk Age 8 10 12 14 Sujets Sexe 1 M 26,0 25,0 29,0 31,0 2 M 21,5 22,5 23,0 26,5 27 F 24,5 25,0 28,0 28,0 Réorganisation 7

Sujet Temps y x.1 x.2 x.3 1 8 26,0 1 0 0 1 10 25,0 0 1 0 1 12 29,0 0 0 1 1 14 31,0 0 0 0 2 8 21,5 1 0 0 2 10 22,5 0 1 0 2 12 23,0 0 0 1 2 14 26,5 0 0 0 Cas général ANOVA simple a un facteur On ordonne les n p mesures en un vecteur Y y i = β 0 + p 1 j=1 β jx ij + ɛ i x ij vaut 1 si l observation i a été recueillie au temps j et 0 sinon Pas de prise en compte de la corrélation entre les mesures et donc nécessité de modifier le modèle Orthodont data Covariance entre les mesures Age 8 10 12 14 8 6,017 2,292 3,629 1,613 10 2,292 4,563 2,194 2,810 12 3,629 2,194 7,032 3,241 14 1,613 2,810 3,241 4,349 Corrélation entre les mesures Age 8 10 12 14 8 1 0,4374 0,5579 0,3152 10 0,4374 1 0,3873 0,6309 12 0,5579 0,3873 1 0,5860 14 0,3152 0,6309 0,5860 1 8

3 Approche par modèle linéaire 3.1 Spécification Modèle linéaire multiple Spécification plus élaborée Corrélation entre les mesures d un sujet y ij = β 0 + β 1 x ij1 + + β p 1 x ij,p 1 + ɛ ij = X ij β + ɛ ij Cov(ɛ ij, ɛ ij ) 0 Hypothèses Les observations de sujets différents sont indépendantes Les observations d un même sujet ne sont pas indépendantes Les vecteurs Y i = (y i1,, y ip ) ont une distribution normale multivariée de moyennes µ i = X i β et de variance-covariance Σ Les éléments de Σ sont σ jj 3.2 Estimation Les moindres carrés généralisés Cas régressif simple Y = Xβ ˆβ = (X X) 1 X Y Données corrélées Moindres carrés généralisés : ˆβ = (X Σ 1 X) 1 X Σ 1 Y et Cov(ˆβ) = (X Σ 1 X) 1 Mais la matrice Σ est inconnue. On la remplace alors par son estimateur (maximum de vraisemblance par algorithmes numériques) Propriétés des estimateurs GLS Ca c est bien Si on connaît Σ, ˆβ est sans biais : E(ˆβ) = β Si Σ = σ 2 I, les GLS sont les OLS On peut construire des tests de Wald sur des contrastes sur des éléments de β Des tests de rapport des vraisemblances (LRT) permettent de comparer des modèles emboîtés Ca c est moins bien L estimateur ML ˆΣ est biaisé pour les petits échantillons 9

Estimateurs du maximum de la vraisemblance restreinte Idée générale des REML Eliminer β de la vraisemblance de telle manière qu elle ne dépende que de Σ Estimer β par OLS puis ne travailler qu avec les résidus A noter : avec la technique REML On peut comparer différents modèles de covariances (cf. plus loin) On ne peut pas comparer différents modèles de régression (terme de pénalité) La technique REML plus spécifiquement L estimateur GLS de β maximisait : n 2 log ( Σ ) 1 2 (Y Xβ) Σ 1 (Y Xβ) L estimateur REML de Σ maximise : n 2 log ( Σ ) 1 2 (Y X ˆβ OLS ) Σ 1 (Y X ˆβ OLS ) 1 2 log ( X Σ 1 X ) 1. Y X ˆβ OLS sont les résidus de la régression OLS 2. 1 2 log ( X Σ 1 X ) est un terme de pénalité L estimateur GLS de β devient : ˆβ = (X ˆΣ 1 REMLX) 1 X ˆΣ 1 REMLY 3.3 Les matrices de covariance La corrélation des mesures Rappel cor(x, Y ) = cov(x,y ) σ X σ Y Les covariances homogènes les plus courantes Compound symmetry : cor(ɛ ij, ɛ ij ) = ρ Générale : cor(ɛ ij, ɛ ij ) = ρ jj ARMA(p,q) Le plus souvent AR(1) cor(ɛ ij, ɛ ij ) = ρ j j La corrélation décroît avec le temps 1, ρ, ρ 2, Bien pour les mesures également espacées, dans le cas contraire : cor(ɛ ij, ɛ ij ) = ρ tj t j 10

Sélection des modèles de covariance Deux méthodes Modèles emboîtés : test du rapport des vraisemblances Modèles emboîtés ou non : critères d information (AIC, BIC) Problème avec le LRT Test d hypothèse en limite du domaine des valeurs des paramètres (variance à zero) Conditions d application des LRT peuvent ne pas être remplies Le LRT est alors plutôt un mélange de Chi2 Emboîtement des modèles de covariance Quelques relations simples Compound symmetry et AR(1) emboîtées dans générale Compound symmetry et AR(1) non emboîtées Indépendance emboîtée dans compound symmetry et dans AR(1) 3.4 Les cas particuliers Le crossover à deux traitements Le design Un traitement A et un placebo P Chaque sujet reçoit aléatoirement A puis P ou P puis A Le modèle Les variables Mesure du sujet i au temps j : y ij Temps correspondant à y ij : t ij Traitement correspondant à y ij : T ij Modèle sans carry-over 1 : y ij = β 0 + β 1 t ij + β 2 T ij + ɛ ij Le carry-over Traitement donné à la période précédente : C ij = 1 Modèle avec carry-over : y ij = β 0 + β 1 t ij + β 2 T ij + β 3 C ij + ɛ ij Les groupes parallèles Le design Des groupes de sujets sont définis au préalable et chaque sujet sont mesurés plusieurs fois Caractéristiques des groupes 1. Observation : âge, sexe, baseline de la quantité mesurée, 2. Randomisation : traitements 1 Persistance de l effet d un traitement sur la période suivante 11

L analyse Le but est de caractériser des formes de changement et de vérifier s ils diffèrent entre les groupes Deux techniques 1. Analyse des profils 2. Paramétrisation des courbes de tendance temporelle 3.5 L analyse des profils dans les groupes parallèles Au moins trois hypothèses possibles Hypothèse 1 Absence d interaction groupe-temps Figures (2a) vs (2d) Hypothèse 2 Absence d effet groupe Figure (2a) vs (2b) Hypothèse 3 Absence d effet temps Figure (2c) vs (2a) Le modèle Le modèle linéaire y i = X i β + ɛ i y i n 1 Mesures du sujet i X i n p Design matrice pour les effets β p 1 Paramètres pour les effets ɛ i n 1 Résidus ɛ i N ( 0, σ 2 I n ) Les notations dans les matrices indicatrices X Mesure de i prise au temps j : X (1) ij = 1 Mesure de i au temps j dans le groupe 1 : X (2) ij = 1 Interaction : X (3) ij = X (1) ij X(2) ij Le nouveau modèle linéaire (2 groupes) p 1 y ij = β 0 + β k X (1) ik + β p 1 px (2) i + β p+k X (2) i X (1) ik + ɛ ij k=1 k=1 12

(a) Pas d effet groupe (b) Effet groupe (c) Pas d effet groupe ni temps (d) Interaction Fig. 2 Profils dans deux groupes Un exemple Le design Deux traitements (A et B) et trois mesures à t 1, t 2 et t 3 Les variables indicatrices 1. X (1).1 = 1 si mesure à t 1 et X (1).2 = 1 si t 2 2. X. (2) = 1 quand le sujet est dans le groupe du traitement A 3. X (3).1 = X(1).1 X(2). et X (3).2 = X(1).2 X(2). Le modèle est E(y ij ) = β 0 + β 1 X (1) i1 + β 2X (1) i2 + β 3X (2) i + β 4 X (1) i1 X(2) i + β 5 X (1) i2 X(2) i Les moyennes Traitement t 1 t 2 t 3 A β 0 + β 1 + β 3 + β 4 β 0 + β 2 + β 3 + β 5 β 0 + β 3 B β 0 + β 1 β 0 + β 2 β 0 13

3.6 Paramétrisation des tendances temporelles dans les groupes parallèles Trois types de tendance Tendance linéaire Changement des mesures linéaires avec le temps E(y ij ) = β 0 + β 1 t j + β 2 T i + β 3 t j T i 1. Temps à la mesure j : t j 2. Traitement du sujet i : T i Un modèle linéaire avec interaction 1. Groupe 0 : E(y ij ) = β 0 + β 1 t j 2. Groupe 1 : E(y ij ) = (β 0 + β 2 ) + (β 1 + β 3 )t j Tendance quadratique E(y ij ) = β 0 + β 1 t j + β 2 t 2 j + β 3T i + β 4 t j T i + β 5 t 2 j T i 1. Groupe 0 : E(y ij ) = β 0 + β 1 t j + β 2 t 2 j 2. Groupe 1 : E(y ij ) = (β 0 + β 3 ) + (β 1 + β 4 )t j + (β 2 + β 5 )t 2 j Segments de droites Segments de droites entre des noeuds Noeuds fixés a priori aux points de rupture de pente Exemple de deux segments de droite Hypothèse Un segment avant un temps t donné et un segment après t Le modèle Avant t, tendance linéaire β 0 + β 1 t j + β 2 T i + β 3 t j T i t j t E(y ij ) = (β 0 + β 1 t ) + β 2 T i + β 3 t T i +β 4 (t j t ) + β 4 (t j t )T i t j > t { β0 + β 1. Groupe 0 : E(y ij ) = 1 t j t j t (β 0 + β 1 t ) + β 4 (t j t ) t j > t { (β0 + β 2. Groupe 1 : E(y ij ) = 2 ) + (β 1 + β 3 )t j t j t (β 0 + β 2 ) + (β 1 + β 3 )t + (β 4 + β 5 )(t j t ) t j > t 14

Pros and Cons de la paramétrisation des tendances Petit nombre de paramètre pour les effets traitement et temps t j repère le temps (et non un numéro de mesure ou une variable indicatrice) et donc chaque sujet peut avoir un nombre de mesures différents et des mesures à des temps différents Extension à des formes cubiques ou d autres formes aisée La modélisation des tendances peut ne pas coller aux données Ces modèles sont inclus dans les modèles saturés utilisés dans l analyse des profils et donc peuvent être jugés par LRT 4 Approche par modèle linéaire mixte 4.1 Introduction Idée phare On suppose que chaque sujet a un certain niveau de réponse sous-jacent qui persiste On distingue désormais deux sources de variations aléatoires 1. Entre les sujets : b 2. Variations des mesures par sujet : w Si on suppose que var(b i ) = σ 2 b et var(w i) = σ 2 w, on retrouve la matrice covariance compound symmetry Intérêt des modèles mixtes Avantages sur la MANOVA pour données répétées Modélisation explicite du changement individuel au cours du temps Nombre de mesures différent par sujet Temps de mesures différents par sujet Temps continu Spécification flexible de la structure de covariance, notamment comme fonction continue du temps Domaine des modèles multi-niveaux (individus en clusters) Covariables dépendantes ou non du temps Données manquantes Extension généralisée 4.2 Spécifications du modèle Modèle à deux niveaux Le modèle linéaire y i = X i β + ɛ i 15

y i n 1 Mesures du sujet i X i n p Design matrice pour les effets β p 1 Paramètres pour les effets ɛ i n 1 Résidus ɛ i N ( 0, σ 2 I n ) Les notations y i = X i β + Z i b i + w i y i n i 1 Mesures du sujet i X i n i p Design matrice pour les effets fixes β p 1 Paramètres pour les effets fixes Z i n i r Design matrice pour les effets aléatoires b i r 1 Paramètres pour les effets aléatoires w i n i 1 Résidus w i N (0, R i ) et b i N (0, Σ b ) Le modèle le plus simple Modèle d ordonnée à l origine aléatoire y ij = (β 0 + b i ) + β 1 t ij + w ij var(b i ) = σ 2 b var(w ij ) = σ 2 w Matrice de covariance de la forme compound symmetry La matrice de covariance compound symmetry σb 2 + σ2 w σb 2 σb 2 σb 2 σb 2 + σ2 w σb 2 σb 2 σb 2 σb 2 + σ2 w LE modèle mixte Peut être le plus courant Modèle à ordonnée à l origine et pente aléatoires Modèle à temps continu y ij = (β 0 + b i0 ) + (β 1 + b i1 )t ij + w ij var(w ij ( ) = σw 2 et donc ) R i = σwi 2 pi g11 g Σ b = 12 g 12 g 11 cov(y ij, y ij ) = g 11 + (t ij + t ij )g 12 + g 22 t ij t ij, donc fonction du temps var(y i ) = var(z i b i )+var(w i ) = Z i Σ b Z i +R i, ici g 11 +2t ij g 12 +g 22 t 2 ij + σw 2 16

La covariance des mesures R i = var(w i ) est la covariance des mesures du sujet i Hypothèse R i = σ 2 wi pi d indépendance conditionnelle Hypothèse alternative de structure autre des R i : ARMA(p,q), générale, Toeplitz,, structures non homogènes 4.3 Les cas particuliers Modèles pour deux groupes parallèles Le problème Deux groupes : placebo (G=0) et traitement (G=1) Trois modèles 1. Ordonnée par groupe 2. Ordonnée et pente par groupe 3. Inflation de variance Trois modèles de complexité croissante Le modèle 1 : figure (3a) y ij = β 0 + β 1 t + β 2 G + b 0i + w ij G = 0 G = 1 y = β 0 + β 1 t + b 0i y = (β 0 + β 2 ) + β 1 t + b 0i Le modèle 2 : figure (3b) y ij = β 0 + β 1 t + β 2 G + b 0i + w ij +β 3 tg G = 0 G = 1 y = β 0 + β 1 t + b 0i y = (β 0 + β 2 ) + (β 1 + β 3 )t + b 0i Le modèle 3 : figure (3c) 17

(a) Modèle 1 (b) Modèle 2 (c) Modèle 3 Fig. 3 LMM pour deux groupes y ij = β 0 + β 1 t + β 2 G + b 0i + w ij +β 3 tg + b 1i t G = 0 G = 1 y = β 0 + β 1 t + (b 0i + b 1i t) y = (β 0 + β 2 ) + (β 1 + β 3 )t + (b 0i + b 1i t) Le crossover à deux traitements Le modèle fixe Sans carry-over y ij = β 0 + β 1 t ij + β 2 T ij + ɛ ij Avec carry-over y ij = β 0 + β 1 t ij + β 2 T ij + β 3 C ij + ɛ ij Traitement au moment de la mesure y ij : T ij Variable indicatrice du carry-over : C ij = 1 si le traitement avec persistance est donné à la période avant j 18

Le modèle mixte sans carry-over à compound symmetry y ij = β 0 + β 1 t ij + β 2 T ij + b i + w ij var(b i ) = σ 2 b et var(w i) = σ 2 w var(y ij ) = σ 2 b + σ2 w et cov(y ij, y ij ) = σ 2 b 5 Exemple 5.1 Orthodont data Un premier LMM pour les filles Modèle à ordonnée aléatoire et pente commune 1 8 ( ) 1 y i = 1 10 β0 1 12 + 1 β 1 1 b i + w i 1 14 1 var(w i ) = σw 2 et var(b i ) = σb 2 Résultats partie fixe ˆσ w = 0, 78 Valeur Ecart-type ddl Valeur t p ˆβ 0 17,4 0,86 32 20,23 0 ˆβ 1 0,48 0,05 32 9,12 0 Régression linéaire simple : mêmes estimations ponctuelles de β 0 et β 1 mais écarts-type de 1,7 et 0,15 Résultats partie aléatoire ˆσ b = 2, 07 ˆb i permettent de calculer l ordonnée pour chaque sujet β 0 + b i Sujet β 0 β 0 + b i β 1 F10 17,4 13,4 0,48 F11 17,4 21,0 0,48 Un second LMM pour les filles Modèle à ordonnée et pente aléatoires 1 8 ( ) 1 8 y i = 1 10 β0 1 12 + 1 10 β 1 1 12 1 14 1 14 var(w i ) = σw 2 et var(b i ) = Σ b Résultats partie fixe ˆσ w = 0, 67 (0,78 pour LMM1) ( bi0 b i1 ) + w i 19

Fig. 4 Orthodont dataset : LMM Valeur Ecart-type ddl Valeur t p ˆβ 0 17,4 0,76 32 22,84 0 ˆβ 1 0,48 0,07 32 7,24 0 Mêmes estimations ponctuelles de β 0 et β 1 que LMM1 Résultats partie aléatoire ˆσ b0 = 1, 88 et ˆσ b1 = 0, 16 Ordonnée à l origine pour chaque sujet : β 0 + b i0 Pente pour chaque sujet : β 1 + b i1 Sujet β 0 β 0 + b i0 β 1 β 1 + b i1 F10 17,4 14,5 0,48 0,38 F11 17,4 19,1 0,48 0,65 Comparaison des LMM pour les filles Avec le MLE et non le REML Modèle ddl AIC BIC LogVrais. LRT p-value LMM1.F 4 149,2 156,2-70,7 LMM2.F 6 149,4 159,9-68,7 3,79 0,150 Par parcimonie, on préfère le modèle avec pente commune et ordonnée à l origine aléatoire 20

Comparaison des LMM pour les garçons Comparaison des deux mêmes LMM Modèle ddl AIC BIC LogVrais. LRT p-value LMM1.G 4 281,5 290,0-136,7 LMM2.G 6 285,1 297,9-136,6 0,31 0,586 Par parcimonie, on préfère, comme pour les filles, le modèle avec pente commune et ordonnée à l origine aléatoire (ouf!) Une série de troisièmes LMM Modèle à ordonnée, pente aléatoires et effet sexe Modèle 31 : y ij = β 0 + β 1 t + β 2 sexe + b 0i + ɛ ij Modèle 32 : modèle 31 +β 3 t sexe Modèle 33 : modèle 32 +b 1i t Modèle 0 : y ij = β 0 + β 1 t + b 0i + ɛ ij Comparaison des modèles (MLE) Modèle ddl AIC BIC LogVrais. LRT p-value LMM0 4 451,4 462,1-221,7 LMM31 5 444,9 458,3-217,4 8.53 0.0035 LMM32 6 440,6 456,7-214,3 6.22 0.0126 LMM33 8 443,8 465,3-213,9 0.833 0.6593 Le troisième LMM Le modèle y ij = β 0 + β 1 t + β 2 sexe + β 3 t sexe + b 0i + w ij sexe = 0 (filles) : y = (β 0 + b 0i ) + β 1 t sexe = 1 (garçons) : y = (β 0 + β 2 + b 0i ) + (β 1 + β 3 )t Résultats partie fixe Valeur Ecart-type ddl Valeur t p ˆβ 0 16,3 0,98 79 16,65 0 ˆβ 1 0,78 0,08 79 10,06 0 ˆβ 2 1,03 1,54 25 0,67 0,508 ˆβ 3-0,30 0,12 79-2,50 0,0147 Les modèles par sexe Filles : y = 16, 3 + 0, 78t + b 0i Garçons : y = 17, 3 + 0, 48t + b 0i Différence de pente par sexe plus que d ordonnée à l origine 21

Les matrices de corrélation Comparaison des modèles de corrélation Modèle ddl AIC BIC LogVrais. LRT p-value CS 6 440,6 456,7-214,3 Générale 12 445,2 477,4-210,6 7,404 0,2851 AR(1) 7 442,5 461,3-214,2 Générale 12 445,2 477,4-210,6 7,249 0,2028 Par parcimonie, on préfère garder le modèle avec compound symmetry 6 Approche par modèle linéaire généralisé (mixte) Introduction GLM pour données longitudinales Des mesures continues aux mesures discrètes (comptes ou binaires) Trois extensions des GLM 1. Modèles marginaux 2. GLMM 3. Modèles de transition 6.1 Modèles marginaux L extension des GLM Le modèle Modèles pour la moyenne et pour la covariance spécifiés séparément 1. La moyenne : g(µ) = Xβ 2. La variance : var(y) = φv(µ) 3. La covariance : cov = h(µ, α) Exemple des données de compte 1. Régression de Poisson : log(µ) = Xβ 2. Surdispersion : var(y) = φµ 3. Corrélation compound symmetry : corr(y ij, y ij ) = α 22

L inférence sur β Pas de MLE Pas de fonction de vraisemblance utilisable Pas d estimateur du maximum de vraisemblance Equations d estimation généralisées (GEE, Liang et Zeger, 1986) Bonnes propriétés de l estimateur des β Estimation de la variance de ˆβ par estimateur sandwich Les GEE Introduire la matrice de covariance Solution de D V 1 (Y µ) = 0 1. D dépend de β : D = µ β 2. V est une matrice de covariance de travail, dependant de β et α : V = φtr(v(µ)) 1/2 R(α)tr(v(µ)) 1/2 Estimation en deux étapes itératives 1. Sachant α et φ, estimer β des GEE 2. Sachant β, estimer α et φ par minimisation des résidus standardisés 6.2 GLMM La généralisation des LMM Spécification facile LMM : E(y i b i ) = X i β + Z i b i GLMM : g(e(y i b i )) = X i β + Z i b i Estimation par intégration de Monte Carlo (solutions analytiques rares) Exemple du modèle de compte Modèle : log(e(y i b i )) = X i β + Z i b i Ordonnée et pente aléatoire : X i = Z i = [1 t i ] b i N (0, Σ b ) 6.3 Modèles de transition La spécification Idées phares Modèles de séries chronologiques Response à un moment donné sous une forme explicite des réponses antérieures La réponse y ij dépend de l ensemble H ij = {y i1,, y i,j 1 } Estimation par vraisemblance conditionnelle Exemple du modèle généralisé autorégressif g(e(y i H i )) = X i β + s r=1 α rf r (H i ) Fonctions f r (.) connues : f 1 (H ij ) = y i,j 1, f 2 (H ij ) = y i,j 2 Modèle de Markov d ordre q : les y ij dépendent des q précédentes 23

6.4 Lequel choisir? Laquelle des trois extensions choisir? Ca dépend Comparaison de groupes modèle marginal Intérêt sur effet intra-sujet : GLMM Connaissance du lien passé-présent : modèle de transition 7 Conclusion En résumé La succession des modèles 1. Réponse continue ANOVA à un facteur Modèle linéaire : β, Σ Modèle linéaire et structure de la matrice de covariance Modèle mixte = souplesse et temps continu 2. Réponse discrète Généralisation des modèles linéaires Modèle mixte Les GLMM et plus Peut être souci logiciel R : packages nlme (Pinheiro et Bates) et repeated SAS SPSS : non Stata : package gllamm (linear latent and mixed models) GAMM (nombre de mesures suffisant) Temps en continu si assez de mesures ou également espacées sinon variables indicatrices mais GLMM quand même! Les modèles hiérarchiques Le lien entre les deux Les modèles longitudinaux sont clusterisés par essence (plusieurs mesures par sujet) Les modèles hiérarchiques sont clusterisés Tout ce qui précède : modèles hiérarchiques à deux niveaux Orthodont data Présentation initiale 24

Age 8 10 12 14 Sujets Sexe 1 M 26,0 25,0 29,0 31,0 2 M 21,5 22,5 23,0 26,5 27 F 24,5 25,0 28,0 28,0 Réorganisation Sujet Temps y x.1 x.2 x.3 1 8 26,0 1 0 0 1 10 25,0 0 1 0 1 12 29,0 0 0 1 1 14 31,0 0 0 0 2 8 21,5 1 0 0 2 10 22,5 0 1 0 2 12 23,0 0 0 1 2 14 26,5 0 0 0 Présentation à deux niveaux Niveau 1 Niveau 2 Mesure 1 1 26,0 1 2 25,0 1 3 29,0 1 4 31,0 2 1 21,5 2 2 22,5 2 3 23,0 2 4 26,5 Un exemple à trois niveaux Les données 1. (top niveau) Médecin : 1,, k,, K 2. Sujet : 1,, j,, J k 25

3. Mesure : 1,, i,, I j Le modèle y ijk = X ijk β + Z (1) ijk b(1) k + Z (2) ijk b(2) jk + w ijk 26