SEMIN- Introduction au modèle linéaire mixte. Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Equipe Eco-Evolution mathématique ENS Ulm, UPMS

Documents pareils

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Introduction aux Statistiques et à l utilisation du logiciel R

Modèles pour données répétées

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Exemples d application

Analyse de la variance Comparaison de plusieurs moyennes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Un exemple de régression logistique sous

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Exemples d Analyses de Variance avec R

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Introduction à l approche bootstrap

Données longitudinales et modèles de survie

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

STATISTIQUES. UE Modélisation pour la biologie

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Exemple PLS avec SAS

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Régression linéaire. Nicolas Turenne INRA

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

4. Résultats et discussion

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

1 Définition de la non stationnarité

Lire ; Compter ; Tester... avec R

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Introduction à la statistique non paramétrique

Évaluation de la régression bornée

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Modèles Estimés sur Données de Panel

INTRODUCTION AU LOGICIEL R

C algèbre d un certain groupe de Lie nilpotent.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

BIG Data et R: opportunités et perspectives

Notes de cours Statistique avec le logiciel R

Imputation du salaire d ego dans TeO

Statistique de l assurance

FORMULAIRE DE STATISTIQUES

Principe de symétrisation pour la construction d un test adaptatif

Théorie des sondages : cours 5

Modèle GARCH Application à la prévision de la volatilité

PROGRAMME (Susceptible de modifications)

Chapitre 4 : Régression linéaire

Master 2: Econométrie 2

Relation entre deux variables : estimation de la corrélation linéaire

Introduction au Data-Mining

Température corporelle d un castor (une petite introduction aux séries temporelles)

Statistiques descriptives

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

3. Caractéristiques et fonctions d une v.a.

Biostatistiques : Petits effectifs

NON-LINEARITE ET RESEAUX NEURONAUX

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

Coup de Projecteur sur les Réseaux de Neurones

Régression logistique. Benoit Crabbé

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Le risque Idiosyncrasique

TP de Statistiques: Utilisation du logiciel R

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

La classification automatique de données quantitatives

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Examen de Logiciels Statistiques

Data mining II. Modélisation Statistique & Apprentissage

Exercice : la frontière des portefeuilles optimaux sans actif certain

Econométrie et applications

Modélisation géostatistique des débits le long des cours d eau.

L Econométrie des Données de Panel

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Cours 9 : Plans à plusieurs facteurs

Evaluation des modèles non-linéaires à effets mixtes

1 Recherche en table par balayage

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Statistique Bayésienne

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Analyse en Composantes Principales

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

(Customer Relationship Management, «Gestion de la Relation Client»)

Apprentissage non paramétrique en régression

Chapitre 2 Le problème de l unicité des solutions

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

Probabilités III Introduction à l évaluation d options

données en connaissance et en actions?

Transcription:

SEMIN- Introduction au modèle linéaire mixte Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Equipe Eco-Evolution mathématique ENS Ulm, UPMS SEMIN-R du MNHN 18 Décembre 2008

Introduction au modèle linéaire mixte Sébastien Ballesteros UMR 7625 Ecologie Evolution Équipe Eco-Evolution mathématique ENS Ulm, UPMC 18/12/2008 / Semin-R MNHN

Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Une longue introduction Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Une longue introduction Un premier exemple : data Rail (nlme) Mesure du temps de voyage d ultrasons le long de rails 4 3 Rail 6 mesure sur 6 rails 1 5 chaque rail est testé 3 fois 2 40 60 80 100 Zero force travel time (nanoseconds) Question temps de voyage moyen pour un rail typique variation entre les rails variation au sein d un rail

Une longue introduction Un premier exemple : data Rail (nlme) Mesure du temps de voyage d ultrasons le long de rails 4 3 Rail 6 mesure sur 6 rails 1 5 chaque rail est testé 3 fois 2 40 60 80 100 Zero force travel time (nanoseconds) Question temps de voyage moyen pour un rail typique variation entre les rails variation au sein d un rail

Une longue introduction Un premier modèle Y ij = µ + E ij, E ij N (0, σ 2 ) indépendants > model <- lm(travel~1,data=rail) > summary(model) Call : lm(formula = travel ~ 1, data = Rail)... Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 66.500 5.573 11.93 1.10e-09 *** -- Signif. codes : 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error : 23.65 on 17 degrees of freedom

Une longue introduction Un premier modèle Y ij = µ + E ij, E ij N (0, σ 2 ) indépendants > model <- lm(travel~1,data=rail) > summary(model) Call : lm(formula = travel ~ 1, data = Rail)... Coefficients : Estimate Std. Error t value Pr(> t ) (Intercept) 66.500 5.573 11.93 1.10e-09 *** -- Signif. codes : 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error : 23.65 on 17 degrees of freedom

> model <- lm(travel~1,data=rail) Une longue introduction Un premier modèle Y ij = µ + E ij, E ij N (0, σ 2 ) indépendants residuals 40 20 0 20 2 5 1 6 3 4 rail La variabilité entre les rails augmentent artificiellement la variabilité intra rail

Une longue introduction Prise en compte de l effet rail : ANOVA Y ij = µ i + E ij, E ij N (0, σ 2 ) indépendants > model2 <- lm(travel~rail-1, data=rail) Coefficients : Rail2 Rail5 Rail1 Rail6 Rail3 Rail4 31.67 50.00 54.00 82.67 84.67 96.00 Call : lm(formula = travel ~ Rail - 1, data = Rail)... Residual standard error : 4.021 on 12 degrees of freedom Multiple R-squared : 0.9978, Adjusted R-squared : 0.9967 F-statistic : 916.6 on 6 and 12 DF, p-value : 2.971e-15

Une longue introduction Prise en compte de l effet rail : ANOVA Y ij = µ i + E ij, E ij N (0, σ 2 ) indépendants > model2 <- lm(travel~rail-1, data=rail) Coefficients : Rail2 Rail5 Rail1 Rail6 Rail3 Rail4 31.67 50.00 54.00 82.67 84.67 96.00 Call : lm(formula = travel ~ Rail - 1, data = Rail)... Residual standard error : 4.021 on 12 degrees of freedom Multiple R-squared : 0.9978, Adjusted R-squared : 0.9967 F-statistic : 916.6 on 6 and 12 DF, p-value : 2.971e-15

Une longue introduction Prise en compte de l effet rail : ANOVA Y ij = µ i + E ij, E ij N (0, σ 2 ) indépendants residuals 6 4 2 0 2 4 6 2 5 1 6 3 4 rail residus OK, on prend bien en compte l effet rails limite On ne considère que l échantillon spécifique de rails utilisés pour cette expérience alors que notre intérêt principale porte sur la population de rails dont est extrait notre échantillon. Par contre intéressant pour classer les rails.

Une longue introduction Prise en compte de l effet rail : ANOVA Y ij = µ i + E ij, E ij N (0, σ 2 ) indépendants residuals 6 4 2 0 2 4 6 2 5 1 6 3 4 rail residus OK, on prend bien en compte l effet rails limite On ne considère que l échantillon spécifique de rails utilisés pour cette expérience alors que notre intérêt principale porte sur la population de rails dont est extrait notre échantillon. Par contre intéressant pour classer les rails.

Une longue introduction Modèle à effet aléatoire Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) A i échantillonné au hasard dans la population considérée les mesures faite sur le même rail partagent le même effet aléatoire, elles sont donc corrélées. > library(nlme) > model3 <- lme(travel ~ 1, data=rail, random= ~1 Rail) > summary(model3) Linear mixed-effects model fit by REML... Random effects : Formula : ~1 Rail (Intercept) Residual StdDev : 24.80547 4.020779 Fixed effects : travel ~ 1 Value Std.Error DF t-value p-value (Intercept) 66.5 10.17104 12 6.538173 0...

Une longue introduction Modèle à effet aléatoire Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) A i échantillonné au hasard dans la population considérée les mesures faite sur le même rail partagent le même effet aléatoire, elles sont donc corrélées. > library(nlme) > model3 <- lme(travel ~ 1, data=rail, random= ~1 Rail) > summary(model3) Linear mixed-effects model fit by REML... Random effects : Formula : ~1 Rail (Intercept) Residual StdDev : 24.80547 4.020779 Fixed effects : travel ~ 1 Value Std.Error DF t-value p-value (Intercept) 66.5 10.17104 12 6.538173 0...

Une longue introduction Modèle à effet aléatoire Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) A i échantillonné au hasard dans la population considérée les mesures faite sur le même rail partagent le même effet aléatoire, elles sont donc corrélées. > library(nlme) > model3 <- lme(travel ~ 1, data=rail, random= ~1 Rail) > summary(model3) Linear mixed-effects model fit by REML... Random effects : Formula : ~1 Rail (Intercept) Residual StdDev : 24.80547 4.020779 Fixed effects : travel ~ 1 Value Std.Error DF t-value p-value (Intercept) 66.5 10.17104 12 6.538173 0...

Une longue introduction Résultats > intervals(model3) Approximate 95% confidence intervals Fixed effects : lower est. upper (Intercept) 44.33921 66.5 88.66079 attr(,"label") [1] "Fixed effects :" Random Effects : Level : Rail lower est. upper sd((intercept)) 13.27429 24.80547 46.3536 Within-group standard error : lower est. upper 2.695005 4.020779 5.998752 On a bien la variabilité inter σ 2 a et intra rail σ 2.

Une longue introduction Modèle à effet aléatoire : interprétation Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 )

Une courte introduction Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Une courte introduction Modèle linéaire avec mesures non indépendantes modèle linéaire classique : Y N n (XΘ, σ 2 I) on relaxe l hypothèse d indépendance : Y N n (XΘ, Σ) σ 2 1 σ 12 σ 1n σ 21 σ2 2 σ 2n Σ =...... σ n1 σ n2 σn 2

Une courte introduction Modèle linéaire avec mesures non indépendantes modèle linéaire classique : Y N n (XΘ, σ 2 I) on relaxe l hypothèse d indépendance : Y N n (XΘ, Σ) σ 2 1 σ 12 σ 1n σ 21 σ2 2 σ 2n Σ =...... σ n1 σ n2 σn 2

Retour sur les rails Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Retour sur les rails Modèle à effet aléatoire : quelques calculs Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) E[Y ij ] = µ E[Y ij A i ] = µ + A i V [Y ij ] = σ 2 a + σ 2 V [Y ij A i ] = σ 2 Cov[Y ij, Y ij ] = Cov[A i + E ij, A i + E ij ] = σ 2 a Cor[Y ij, Y ij ] = ρ = σ2 a σ 2 a+σ 2

Retour sur les rails Modèle à effet aléatoire : quelques calculs Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) E[Y ij ] = µ E[Y ij A i ] = µ + A i V [Y ij ] = σ 2 a + σ 2 V [Y ij A i ] = σ 2 Cov[Y ij, Y ij ] = Cov[A i + E ij, A i + E ij ] = σ 2 a Cor[Y ij, Y ij ] = ρ = σ2 a σ 2 a+σ 2

Retour sur les rails Modèle à effet aléatoire : quelques calculs Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) E[Y ij ] = µ E[Y ij A i ] = µ + A i V [Y ij ] = σ 2 a + σ 2 V [Y ij A i ] = σ 2 Cov[Y ij, Y ij ] = Cov[A i + E ij, A i + E ij ] = σ 2 a Cor[Y ij, Y ij ] = ρ = σ2 a σ 2 a+σ 2

Retour sur les rails Modèle à effet aléatoire : quelques calculs Y ij = µ + A i + E ij ; A i N (0, σ 2 a), E ij N (0, σ 2 ) E[Y ij ] = µ E[Y ij A i ] = µ + A i V [Y ij ] = σ 2 a + σ 2 V [Y ij A i ] = σ 2 Cov[Y ij, Y ij ] = Cov[A i + E ij, A i + E ij ] = σ 2 a Cor[Y ij, Y ij ] = ρ = σ2 a σ 2 a+σ 2 Y N n (µ1 n, Σ) avec, P 1 ρ ρ Σ = (σ 2 + σa) 2..., P = ρ 1 ρ P ρ ρ 1

Retour sur les rails Prédiction Pour l ANOVA classique,en prenant contraintes naturelles ( α i = 0) on a ˆα i = Y i Y Donc naturellement on aurait tendance à prendre Â i = Y i Y mais... rappel ( ) (( ) ( )) A µa σ 2 Si N B 2, A σ AB µ B σ AB σb 2 alors, E(A B) = µ A + σ AB (B µ σb 2 B ) Y i N (µ, σ 2 a + σ2 J ) A i N (0, σ 2 a) donc E[A i Y i ] = On a donc Âi = σ2 a σa+σ 2 2 /J (Y i µ) ˆσ2 a ˆσ a+ˆσ 2 2 /J (Y i Y )

Retour sur les rails Prédiction Pour l ANOVA classique,en prenant contraintes naturelles ( α i = 0) on a ˆα i = Y i Y Donc naturellement on aurait tendance à prendre Â i = Y i Y mais... rappel ( ) (( ) ( )) A µa σ 2 Si N B 2, A σ AB µ B σ AB σb 2 alors, E(A B) = µ A + σ AB (B µ σb 2 B ) Y i N (µ, σ 2 a + σ2 J ) A i N (0, σ 2 a) donc E[A i Y i ] = On a donc Âi = σ2 a σa+σ 2 2 /J (Y i µ) ˆσ2 a ˆσ a+ˆσ 2 2 /J (Y i Y )

Retour sur les rails Prédiction Pour l ANOVA classique,en prenant contraintes naturelles ( α i = 0) on a ˆα i = Y i Y Donc naturellement on aurait tendance à prendre Â i = Y i Y mais... rappel ( ) (( ) ( )) A µa σ 2 Si N B 2, A σ AB µ B σ AB σb 2 alors, E(A B) = µ A + σ AB (B µ σb 2 B ) Y i N (µ, σ 2 a + σ2 J ) A i N (0, σ 2 a) donc E[A i Y i ] = On a donc Âi = σ2 a σa+σ 2 2 /J (Y i µ) ˆσ2 a ˆσ a+ˆσ 2 2 /J (Y i Y )

Retour sur les rails BLUP Best Linear Unbiased Predictor Â i = ˆσ2 a ˆσ a+ˆσ 2 2 /J (Y i Y ) ˆσ a 2 ˆσ a+ˆσ 2 2 /J < 1 shrinkage > random.effects(model3) (Intercept) 2-34.53091 5-16.35675 1-12.39148 6 16.02631 3 18.00894 4 29.24388

Split-plot Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Split-plot Essai en champs sur des variétés d avoine 6 blocks, 3 variétés d avoines et 4 concentrations d azote

Split-plot Une ANOVA classique Y ijk = µ + α i + β j + (αβ) ij + γ k + (αγ) ik + (βγ) jk + E ijk. E ijk N (0, σ 2 ) > model <- aov(yield~block + Variety + Block :Variety + nitro + Block :nitro + Variety :nitro, data=oats) > summary(model) Df Sum Sq Mean Sq F value Pr(>F) Block 5 15875.3 3175.1 18.3696 5.491e-10 *** Variety 2 1786.4 893.2 5.1676 0.009452 ** nitro 1 19536.4 19536.4 113.0297 5.600e-14 *** Block :Variety 10 6013.3 601.3 3.4791 0.001798 ** Block :nitro 5 655.5 131.1 0.7585 0.584369 Variety :nitro 2 168.3 84.2 0.4870 0.617598 Residuals 46 7950.8 172.8 probleme : les effets block et variétés sont divisé par SCR alors qu ils se manifestent au niveau de la parcelle

Split-plot Une ANOVA classique Y ijk = µ + α i + β j + (αβ) ij + γ k + (αγ) ik + (βγ) jk + E ijk. E ijk N (0, σ 2 ) > model <- aov(yield~block + Variety + Block :Variety + nitro + Block :nitro + Variety :nitro, data=oats) > summary(model) Df Sum Sq Mean Sq F value Pr(>F) Block 5 15875.3 3175.1 18.3696 5.491e-10 *** Variety 2 1786.4 893.2 5.1676 0.009452 ** nitro 1 19536.4 19536.4 113.0297 5.600e-14 *** Block :Variety 10 6013.3 601.3 3.4791 0.001798 ** Block :nitro 5 655.5 131.1 0.7585 0.584369 Variety :nitro 2 168.3 84.2 0.4870 0.617598 Residuals 46 7950.8 172.8 probleme : les effets block et variétés sont divisé par SCR alors qu ils se manifestent au niveau de la parcelle

Split-plot Une ANOVA classique Y ijk = µ + α i + β j + (αβ) ij + γ k + (αγ) ik + (βγ) jk + E ijk. E ijk N (0, σ 2 ) > model <- aov(yield~block + Variety + Block :Variety + nitro + Block :nitro + Variety :nitro, data=oats) > summary(model) Df Sum Sq Mean Sq F value Pr(>F) Block 5 15875.3 3175.1 18.3696 5.491e-10 *** Variety 2 1786.4 893.2 5.1676 0.009452 ** nitro 1 19536.4 19536.4 113.0297 5.600e-14 *** Block :Variety 10 6013.3 601.3 3.4791 0.001798 ** Block :nitro 5 655.5 131.1 0.7585 0.584369 Variety :nitro 2 168.3 84.2 0.4870 0.617598 Residuals 46 7950.8 172.8 probleme : les effets block et variétés sont divisé par SCR alors qu ils se manifestent au niveau de la parcelle

Split-plot Avec modèle mixte Y ijk = µ + A i + β j + F ij + γ k + (βγ) jk + E ijk A i N (0, σ1 2), F ij N (0, σ2 2), E ijk N (0, σ 2 ) en R dispositif équilibré : aov sinon : lme

Split-plot Avec modèle mixte Y ijk = µ + A i + β j + F ij + γ k + (βγ) jk + E ijk A i N (0, σ1 2), F ij N (0, σ2 2), E ijk N (0, σ 2 ) en R dispositif équilibré : aov sinon : lme

Split-plot Fonction aov Y ijk = µ + A i + β j + F ij + γ k + (βγ) jk + E ijk A i N (0, σ 2 1 ), F ij N (0, σ 2 2 ), E ijk N (0, σ 2 ) > model <- aov(yield~nitro*variety +Error(Block/Variety), data=oats) > summary(model) Error : Block Df Sum Sq Mean Sq F value Pr(>F) Residuals 5 15875.3 3175.1 Error : Block :Variety Df Sum Sq Mean Sq F value Pr(>F) Variety 2 1786.4 893.2 1.4853 0.2724 Residuals 10 6013.3 601.3 Error : Within Df Sum Sq Mean Sq F value Pr(>F) nitro 1 19536.4 19536.4 115.7713 1.002e-14 *** nitro :Variety 2 168.3 84.2 0.4988 0.6102 Residuals 51 8606.2 168.7

Split-plot Fonction lme (library(nlme)) Y ijk = µ + A i + β j + F ij + γ k + (βγ) jk + E ijk A i N (0, σ 2 1 ), F ij N (0, σ 2 2 ), E ijk N (0, σ 2 ) > model <- lme(yield~nitro*variety, data=oats, random=~1 Block/Variety) > anova(model) numdf dendf F-value p-value (Intercept) 1 51 245.14619 <.0001 nitro 1 51 115.77103 <.0001 Variety 2 10 1.48534 0.2724 nitro :Variety 2 51 0.49881 0.6102 On a bien les bons degrès de libertés

Facteurs emboîtés et comparaison de modèles (exemple chiens) Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesure d un traceur au cours du temps dans les ganglions lymphatiques de 10 Chiens >xyplot(pixel~day Dog) #library(lattice) 0 5 10 15 20 8 9 pixel 1150 1100 1050 1150 1100 1050 4 1 0 5 10 15 20 5 10 6 7 2 3 0 5 10 15 20 1150 1100 1050 10 chiens testé 2 ganglions lymphatiques (gauche et droit) testé par chien mesures de la concentration d un traceur aucours du temps day

Facteurs emboîtés et comparaison de modèles (exemple chiens) Le modèle : lme Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt > model <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > summary(model) Linear mixed-effects model fit by REML Random effects : Formula : ~day Dog Structure : General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 28.369904 (Intr) day 1.843750-0.555 Formula : ~1 Side %in% Dog (Intercept) Residual StdDev : 16.82431 8.989606 Fixed effects : pixel ~ day + I(day^2) Value Std.Error DF t-value p-value (Intercept) 1073.3391 10.171686 80 105.52225 0 day 6.1296 0.879321 80 6.97083 0 I(day^2) -0.3674 0.033945 80-10.82179 0

Facteurs emboîtés et comparaison de modèles (exemple chiens) Le modèle : lme Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt > model <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > summary(model) Linear mixed-effects model fit by REML Random effects : Formula : ~day Dog Structure : General positive-definite, Log-Cholesky parametrization StdDev Corr (Intercept) 28.369904 (Intr) day 1.843750-0.555 Formula : ~1 Side %in% Dog (Intercept) Residual StdDev : 16.82431 8.989606 Fixed effects : pixel ~ day + I(day^2) Value Std.Error DF t-value p-value (Intercept) 1073.3391 10.171686 80 105.52225 0 day 6.1296 0.879321 80 6.97083 0 I(day^2) -0.3674 0.033945 80-10.82179 0

Facteurs emboîtés et comparaison de modèles (exemple chiens) Remarque : Maximum de vraisemblance restreint Y N n (XΘ, Σ) ˆΘ maximum de vraisemblance mais il faut estimer Σ Le probleme de l estimateur du maximum de vraisemblance de Σ est qu il est biaisé à cause de l estimation de Θ. On s arrange pour ne pas estimer Θ dans un premier temps maximum de vraisemblance restreint (ReML) Conséquence ReML pour comparaison de modèles ne comparer des modèles par test de modèle emboîté ou AIC...que pour des modèles ayant les même effets fixes sinon utiliser le ML (method= ML )

Facteurs emboîtés et comparaison de modèles (exemple chiens) Remarque : Maximum de vraisemblance restreint Y N n (XΘ, Σ) ˆΘ maximum de vraisemblance mais il faut estimer Σ Le probleme de l estimateur du maximum de vraisemblance de Σ est qu il est biaisé à cause de l estimation de Θ. On s arrange pour ne pas estimer Θ dans un premier temps maximum de vraisemblance restreint (ReML) Conséquence ReML pour comparaison de modèles ne comparer des modèles par test de modèle emboîté ou AIC...que pour des modèles ayant les même effets fixes sinon utiliser le ML (method= ML )

Facteurs emboîtés et comparaison de modèles (exemple chiens) Remarque : Maximum de vraisemblance restreint Y N n (XΘ, Σ) ˆΘ maximum de vraisemblance mais il faut estimer Σ Le probleme de l estimateur du maximum de vraisemblance de Σ est qu il est biaisé à cause de l estimation de Θ. On s arrange pour ne pas estimer Θ dans un premier temps maximum de vraisemblance restreint (ReML) Conséquence ReML pour comparaison de modèles ne comparer des modèles par test de modèle emboîté ou AIC...que pour des modèles ayant les même effets fixes sinon utiliser le ML (method= ML )

Facteurs emboîtés et comparaison de modèles (exemple chiens) Test de modèles emboîtés modèle 1 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt On enlève au modèle 1 l effet aleatoire coté au sein de chaque chien modèle 2 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + E ijt On enlève au modèle 1 l effet aléatoire sur la pente par chien modèle 3 : Y ijt = µ + A i + β 1 d it + β 2 d 2 it + C ij + E ijt > model1 <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > model2 <- lme(pixel~day +I(day^2), data=pixel, random= ~day Dog) > model3 <- lme(pixel~day +I(day^2), data=pixel, random=~1 Dog/Side) > anova(model1,model2) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model2 2 7 884.5196 902.6854-435.2598 1 vs 2 45.3094 <.0001 > anova(model1,model3) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model3 2 6 876.8390 892.4098-432.4195 1 vs 2 39.62885 <.0001

Facteurs emboîtés et comparaison de modèles (exemple chiens) Test de modèles emboîtés modèle 1 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt On enlève au modèle 1 l effet aleatoire coté au sein de chaque chien modèle 2 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + E ijt On enlève au modèle 1 l effet aléatoire sur la pente par chien modèle 3 : Y ijt = µ + A i + β 1 d it + β 2 d 2 it + C ij + E ijt > model1 <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > model2 <- lme(pixel~day +I(day^2), data=pixel, random= ~day Dog) > model3 <- lme(pixel~day +I(day^2), data=pixel, random=~1 Dog/Side) > anova(model1,model2) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model2 2 7 884.5196 902.6854-435.2598 1 vs 2 45.3094 <.0001 > anova(model1,model3) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model3 2 6 876.8390 892.4098-432.4195 1 vs 2 39.62885 <.0001

Facteurs emboîtés et comparaison de modèles (exemple chiens) Test de modèles emboîtés modèle 1 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt On enlève au modèle 1 l effet aleatoire coté au sein de chaque chien modèle 2 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + E ijt On enlève au modèle 1 l effet aléatoire sur la pente par chien modèle 3 : Y ijt = µ + A i + β 1 d it + β 2 d 2 it + C ij + E ijt > model1 <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > model2 <- lme(pixel~day +I(day^2), data=pixel, random= ~day Dog) > model3 <- lme(pixel~day +I(day^2), data=pixel, random=~1 Dog/Side) > anova(model1,model2) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model2 2 7 884.5196 902.6854-435.2598 1 vs 2 45.3094 <.0001 > anova(model1,model3) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model3 2 6 876.8390 892.4098-432.4195 1 vs 2 39.62885 <.0001

Facteurs emboîtés et comparaison de modèles (exemple chiens) Test de modèles emboîtés modèle 1 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + C ij + E ijt On enlève au modèle 1 l effet aleatoire coté au sein de chaque chien modèle 2 : Y ijt = µ + A i + β 1 d it + B i d it + β 2 d 2 it + E ijt On enlève au modèle 1 l effet aléatoire sur la pente par chien modèle 3 : Y ijt = µ + A i + β 1 d it + β 2 d 2 it + C ij + E ijt > model1 <- lme(pixel~day +I(day^2), data=pixel, random=list(dog=~day, Side=~1)) > model2 <- lme(pixel~day +I(day^2), data=pixel, random= ~day Dog) > model3 <- lme(pixel~day +I(day^2), data=pixel, random=~1 Dog/Side) > anova(model1,model2) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model2 2 7 884.5196 902.6854-435.2598 1 vs 2 45.3094 <.0001 > anova(model1,model3) Model df AIC BIC loglik Test L.Ratio p-value model1 1 8 841.2102 861.9712-412.6051 model3 2 6 876.8390 892.4098-432.4195 1 vs 2 39.62885 <.0001

Facteurs emboîtés et comparaison de modèles (exemple chiens) Fit (modèle 1) >plot(augpred(model1)) 0 5 10 15 20 0 5 10 15 20 6/L 7/L 8/L 9/L 10/L 1150 1100 1050 1000 1/L 2/L 3/L 4/L 5/L 1150 1100 1050 Pixel intensity 1000 6/R 7/R 8/R 9/R 10/R 1150 1100 1050 1000 1/R 2/R 3/R 4/R 5/R 1150 1100 1050 1000 0 5 10 15 20 0 5 10 15 20 Time post injection (days) 0 5 10 15 20

Mesures répétées et structure de correlation (exemple rats) Lignes directrices 1 Introduction Une longue introduction Une courte introduction 2 Applications Retour sur les rails Split-plot Facteurs emboîtés et comparaison de modèles (exemple chiens) Mesures répétées et structure de correlation (exemple rats)

Mesures répétées et structure de correlation (exemple rats) Prise de poids de rats en fonction du régime alimentaire >results <- groupeddata(poids~temps rat,outer=~regime,data) >plot(results,outer=true) 17 16 20 18 19 5 1 3 2 4 7 9 8 10 6 15 11 13 12 14 0 2 4 6 8 fort moyen poids 350 300 250 200 150 atemoin faible 350 300 250 200 150 20 rats testé 5 rat par traitement (4 traitement) 10 mesures, 1 par semaine sur chaque rat 0 2 4 6 8 temps

Mesures répétées et structure de correlation (exemple rats) Le modèle : lme Y ijt = µ + α i + B ij + γ t + (αγ) ik + E ijt B ij N (0, σ 2 B ), E ijt N (0, σ 2 ) > model3 <- lme(poids~regime*as.factor(temps),data=results, random=~1 rat) > summary(model3) Linear mixed-effects model fit by REML Random effects : Formula : ~1 rat (Intercept) Residual StdDev : 19.08367 12.76983 > anova(model3) numdf dendf F-value p-value (Intercept) 1 144 3092.3283 <.0001 regime 3 16 4.2904 0.0211 as.factor(temps) 9 144 271.7563 <.0001 regime :as.factor(temps) 27 144 1.9537 0.0064

Mesures répétées et structure de correlation (exemple rats) Correlations... P Σ = (σ 2 + σb 2)..., un block P (10*10) (10 temps) P par rat. 1 ρ ρ. P 10.10 = ρ 1.......... ρ ρ ρ 1 Toutes les mesures prises sur le même rat sont également corrélées Cor[Y ijt, Y ijt ] = ρ = σ2 B σ 2 B +σ2 On peut améliorer avec par exemple : Cor[Y ijt, Y ijt ] = ρ t t

Mesures répétées et structure de correlation (exemple rats) Structure de correlation et lme Cor[Y ijt, Y ijt ] = ρ t t > model4 <- lme(poids~regime*as.factor(temps),data=results, random=~1 rat, correlation=corar1()) Random effects : Formula : ~1 rat (Intercept) Residual StdDev : 0.005190441 23.59002 Correlation Structure : AR(1) Formula : ~1 rat Parameter estimate(s) : Phi 0.8907941 comparaison de modèles > AIC(model3,model4) df AIC model3 42 1467.903 model4 43 1388.738

Références Mixed-Effects Models in S ans S-PLUS ; José C. Pinheiro, Douglas M. Bates Modern Applied Statistics with S Fourth edition ; W. N. Venables and B. D. Ripley Statistical Methods for the Analysis of Repeated Measurements ; Charles S. Davis Ecological Models and data in R ; Benjamin M. Bolker The R book Michael J. Crawley Models for Ecological Data ; James S. Clark Statistique inférentielle Idée, démarche, exemples ; Jean-Jacques Daudin, Stéphane Robin, Colette Vuillet