Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Hervé Monod Unité MIA-Jouy en Josas INRA - Dépt Mathématiques et Informatique Appliquées Atelier méthodologique du réseau Interaction Génotype-Environnement-Conduite (IGEC) Modélisation statistique de courbes de croissance pour l étude des IGEC Montpellier, le 9 mars 2010
Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Plan Introduction 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Contexte Introduction Contexte Exemples : 1. nature hiérarchique de l étude plusieurs individus considérés comme représentatifs d une ou plusieurs populations (et/ou conditions expérimentales) variations entre populations et entre individus d une même population individus : plante, parcelle populations : site, année, traitement / variété, génotype
Introduction 2. nature dynamique du phénomène phénomène sous-jacent variant dans le temps de façon continue mesures répétées au cours du temps sur chaque individu 3. modélisation forme générale de courbe de réponse commune à tous les individus paramètres dépendant de la population (effets fixes) et de l individu (effets aléatoires) prise en compte d autres sources de variabilité (conditions contrôlées ou non, erreur de mesure, etc) analyse conjointe en une seule étape
Rapide historique Introduction Avant les années 80 : modèle linéaire mixte et modèle non linéaire = 2 extensions distinctes du modèle linéaire Années 80 : 1ers travaux sur le MNLM : variabilité entre individus dans les mesures répétées ; modèles à coefficients aléatoires Années 90 : développement rapide des méthodes d estimation, en particulier dans le domaine médical et pharmaceutique ; intégration dans des logiciels Années 2000 : devient un outil classique ; prise en compte de modèles plus complexes ; amélioration des algorithmes Revue récente : Davidian et Giltinan (2003)
Actuellement Introduction Implémentation dans plusieurs logiciels statistiques : SAS : proc nonlinmixed Splus et R : librairie nlme Monolix + autres logiciels dédiés WinBugs, Jags, et al : pour les approches bayésiennes Recherches toujours actives deux approches : fréquentiste/bayésien amélioration des méthodes d estimation méthodes non paramétriques plans d expériences...
Introduction Domaines d applications Applications en pharmacocinétique biomédical écologie, foresterie, etc génétique animale, végétale (van Eeuwijk et al.) agronomie (Makowski, Wallach, et al.)
Modélisation hiérarchique de courbes de croissance Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Modélisation hiérarchique de courbes de croissance Exemple en régression Fonction de réponse commune + erreur de variance croissante au cours du temps?
Modélisation hiérarchique de courbes de croissance Exemple en régression Non : Variance inter-individus de la fonction de réponse importance de prendre en compte les individus
Modélisation hiérarchique de courbes de croissance Exemple en régression Modèle Y it = µ + B i t + ε it avec B i Normal(β, σslope 2 ) coefficient de régression aléatoire paramètres à estimer µ, β, σ 2 slope, σ2 ε prise en compte naturelle de la distinction variabilité entre individus / variabilité erreur l hétéroscédasticité : Var(Y it ) = t 2 σ 2 slope + σ2 ε la dépendance entre observations d un même individu : Cov(Y it, Y it ) = tt σ 2 slope
Modélisation hiérarchique de courbes de croissance Exemple : croissance d orangers Le principe s applique directement au modèle non linéaire [Draper et Smith, 1998)] Y it = S i 1+exp[ (t β 1 )/β 2 ] + ε it avec S i Normal(s, σ 2 slope ) circonférence asymptotique de l arbre i, aléatoire
Modélisation hiérarchique de courbes de croissance Exemple : courbes de croissance moyennes Croissance de rats sous plusieurs régimes. Représentation des moyennes.
Modélisation hiérarchique de courbes de croissance Exemple : courbes de croissance individuelles Représentation des données individuelles.
Modélisation hiérarchique de courbes de croissance Influence sur l inférence importance de tenir compte de la variabilité entre individus pour l inférence statistique intervalles de confiance et tests pour comparer des modalités : bien prendre en compte les différents niveaux de variabilité individus = échantillon considéré comme aléatoire dans une population la variabilité entre individus est souvent plus importante que la variabilité des erreurs pour comparer les traitements application au modèle non linéaire mixte = possibilité de comparer des traitements sur des dynamiques
Modélisation hiérarchique de courbes de croissance Exemple : résidus d un modèle sur les moyennes Hétéroscédasticité (résidus variables au cours du temps et selon les individus)
Modélisation hiérarchique de courbes de croissance Exemple : résidus d un modèle avec effets individuels Comportement stabilisé des résidus (la variabilité entre individus a été modélisée explicitement)
Modélisation non linéaire mixte de courbes de croissance Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Modélisation non linéaire mixte de courbes de croissance Modélisation (1) Modèle de base : Données = mesures répétées sur m individus : y ij réponse au temps t ij de l individu i (i = 1... m, j = 1... n i ) Individu caractérisé par : (y i, u i, a i ) : y i vecteur des mesures répétées sur l individu i u i vecteur de conditions environnementales pour l individu i vecteur de caractéristiques de l individu i a i Exemple IGEC Réseau d essais pour l évaluation de génotypes y ij réponse mesurée sur plusieurs jours/plusieurs années u i facteurs site, année, traitement, covariables environnement a i facteurs variété, génotype, QTL, marqueurs
Modélisation non linéaire mixte de courbes de croissance Modélisation (exemple détaillé) Jeu de données Soja (Soybean) 20 40 60 80 3 années 2 variétés 3x2x8 parcelles y masse de feuilles sur 6 plantes Leaf weight/plant (g) 30 25 20 15 10 5 0 30 25 20 15 10 5 0 1990 F 1989 F 1988 F 1990 P 1989 P 1988 P 30 25 20 15 10 5 0 20 40 60 80 - Time since planting (days)
Modélisation non linéaire mixte de courbes de croissance Modélisation (2) Modèle de base : Niveau 1 = intra-individu f β i e ij y ij = f (t ij, β i ) + e ij, i = 1,..., m, j = 1,..., n i fonction de réponse intra-individuelle paramètres, propres à l individu i centrés (erreurs résiduelles) Exemple : Réseau d essais pour l évaluation de génotypes f fonction logistique simple β i = (Asym i, Xm i, S i ) paramètres pour l individu i Asym f (t, β i ) = i 1 + exp( (t Xm i )/S i )
Modélisation non linéaire mixte de courbes de croissance Modélisation (3) Modèle de base : Niveau 2 = modèle de population β i = d(a i, u i, β, B i ), i = 1,..., m En général : d = fonction linéaire sur les paramètres Exemple : Réseau d essais pour l évaluation de génotypes Asym i = µ + α ai + γ vi + (αγ) ai v } {{ } i + B }{{} i partie fixe partie aleatoire Xm i =... S i =... = variations des paramètres β i entre individus, expliquées par : caractéristiques connues de i (a i, u i ) variation non expliquée dans la population (b i )
Modélisation non linéaire mixte de courbes de croissance Implémentation sous R > library(nlme) > fm4soy.nlme <- nlme(weight~sslogis(time, Asym,xmid,scal), data=soybean, fixed=list(asym ~ Year * Variety, xmid ~ Year + Variety, scal ~Year), random=list(asym~1), weights=varpower(), start= c(soyfix[1],rep(0,5), soyfix[2],rep(0,3), soyfix[3],rep(0,2)))
Modélisation non linéaire mixte de courbes de croissance Implémentation sous R I Sortie > summary(fm4soy.nlme) Nonlinear mixed-effects model fit by maximum likelihood Model: weight ~ SSlogis(Time, Asym, xmid, scal) Data: Soybean AIC BIC loglik 616.3096 680.646-292.1548 Random effects: Formula: Asym ~ 1 Plot Asym.(Intercept) Residual StdDev: 1.035928 0.2180272
Modélisation non linéaire mixte de courbes de croissance Implémentation sous R II Variance function: Structure: Power of variance covariate Formula: ~fitted(.) Parameter estimates: power 0.9426163
Modélisation non linéaire mixte de courbes de croissance Fixed effects: list(asym ~ Year * Variety, xmid ~ Year + Variety, scal ~ Year) Value Std.Error DF t-value p-value Asym.(Intercept) 19.43 0.953 352 20.37 0.0000 Asym.Year1989-8.84 1.072 352-8.24 0.0000 Asym.Year1990-3.70 1.177 352-3.14 0.0018 Asym.VarietyP 1.62 1.038 352 1.56 0.1189 Asym.Year1989:VarietyP 5.57 1.170 352 4.75 0.0000 Asym.Year1990:VarietyP 0.14 1.175 352 0.12 0.9004 xmid.(intercept) 54.81 0.754 352 72.62 0.0000 xmid.year1989-2.23 0.971 352-2.30 0.0218 xmid.year1990-4.97 0.974 352-5.10 0.0000 xmid.varietyp -1.29 0.414 352-3.13 0.0019 scal.(intercept) 8.06 0.147 352 54.76 0.0000 scal.year1989-0.89 0.201 352-4.44 0.0000 scal.year1990-0.67 0.212 352-3.17 0.0016
Modélisation non linéaire mixte de courbes de croissance + Correlation + Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.6278727-0.6080301-0.1237038 0.5695048 3.9185279 Number of Observations: 412 Number of Groups: 48
Plan Points techniques et pratiques 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Points techniques et pratiques Méthodes d ajustement Vraisemblance : modèle non linéaire pas de solution générale pour la minimisation non linéaire mixte pas de forme analytique pour la vraisemblance car on ne connait pas les B i ( données manquantes ) Algorithmes plusieurs générations : linéarisation en B i = 0 linéarisation en B i algorithmes stochastques sur les B i approche bayésienne
Points techniques et pratiques Conséquences pratiques nécessité de préciser des valeurs initiales (ou des a priori en bayésien) les solutions sont approchées parfois, difficultés de convergence savoir-faire à acquérir si applications compliquées
Points techniques et pratiques Choix de modélisation Souplesse Complexité du choix de modèle choix à effectuer sur la fonction de réponse la partie fixe de chaque paramètre la partie aléatoire de chaque paramètre (facteurs + distribution) la modélisation de la variance approches théoriques et pratiques tests de rapport de vraisemblance, critère AIC, BIC examen des résidus et des distributions d effets aléatoires stratégies pragmatiques conseillées dans Pinheiro et Bates
Plan Discussion 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Discussion Avantages-inconvénients + modélisation conjointe espérance-variance-covariance modélisation du phénomène (relativement) mécaniste parcimonie et paramètres interprétables applicable à des données déséquilibrées demande un travail d appropriation plantages/longs temps calcul, quand modèles complexes
Discussion Intérêt pour l étude des IGEC? décomposer effets de l environnement/du génotype possible modéliser finement les sources de variabilité intermédiaire intéressant entre modèles écophysiologiques complexes et modèles statistiques classiques
Plan Références 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références
Références Références Présentation inspirée de : Marie Davidian (IBC 2004). Nonlinear Mixed Effects Model : An Overview and Update. Plusieurs exemples tirés de : Pinheiro JC Bates DM (2000). Mixed-effect models in S and Splus. Springer Verlag.
Références Davidian M, Giltinan DM (2003). Nonlinear Models for Repeated Measurement Data : An Overview and Update, Journal of Agricultural Biological And Environmental Statistics 8, 387(419). Davidian M, Giltinan DM (1995). Nonlinear Models for Repeated Measurement Data. Chapman and Hall. Pinheiro JC Bates DM (2000). Mixed-effect models in S and Splus. Springer Verlag. Eeuwijk, F. A. van ; Malosetti, M. ; Boer, M. P. (2007). Modelling the genetic basis of response curves underlying genotype x environment interaction. Scale and complexity in plant systems research : gene-plant-crop relations, 115-126 Makowski D (2002). Modèle non linéaire mixte pour simuler la réponse du blé à la dose d engrais azoté. Journal de la Société française de statistique 143, 215-223. Makowski, D ; Lavielle, M (2006). Using SAEM to estimate parameters of models of response to applied fertilizer. Journal of Agricultural Biological And Environmental Statistics 11, 45-60.