Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux



Documents pareils
Modèles pour données répétées

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Introduction à l approche bootstrap

Exemple PLS avec SAS

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

NON-LINEARITE ET RESEAUX NEURONAUX

Données longitudinales et modèles de survie

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

INF6304 Interfaces Intelligentes

La classification automatique de données quantitatives

Evaluation des modèles non-linéaires à effets mixtes

Chapitre 3. Les distributions à deux variables

Quantification Scalaire et Prédictive

Proposition de labellisation d un projet de thèse pour une Allocation de Recherche (5 pages maximum)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Introduction aux Statistiques et à l utilisation du logiciel R

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MCMC et approximations en champ moyen pour les modèles de Markov

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

STATISTIQUES. UE Modélisation pour la biologie

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

PROGRAMME (Susceptible de modifications)

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Gènes Diffusion - EPIC 2010

Arbres binaires de décision

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Un exemple de régression logistique sous

Exemples d application

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Optimisation des ressources des produits automobile première

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Introduction au pricing d option en finance

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Évaluation de la régression bornée

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Application des courbes ROC à l analyse des facteurs pronostiques binaires

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Méthodes de Simulation

Introduction à la statistique non paramétrique

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

La fonction exponentielle

Régression linéaire. Nicolas Turenne INRA

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Statistique Bayésienne

Soutenance de stage Laboratoire des Signaux et Systèmes

PROJET MODELE DE TAUX

Température corporelle d un castor (une petite introduction aux séries temporelles)

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Cours de méthodes de scoring

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

FORMULAIRE DE STATISTIQUES

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Evaluation d un appareil quantitatif ultrasonore utilisant des matrices (Beam scanner):précision standardisée

1 Modélisation d être mauvais payeur

Logiciel XLSTAT version rue Damrémont PARIS

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Analyse des durées de vie avec le logiciel R

TABLE DES MATIERES. C Exercices complémentaires 42

Algebra & Trigonometry High School Level Glossary English / French

Exemples d Analyses de Variance avec R

Annexe 6. Notions d ordonnancement.

4. Résultats et discussion

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

TRANSPORT ET LOGISTIQUE :

Imputation du salaire d ego dans TeO

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Inférence d un réseau bayésien augmenté visant à confronter :

1 Définition de la non stationnarité

de calibration Master 2: Calibration de modèles: présentation et simulation d


Principe de symétrisation pour la construction d un test adaptatif

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Exercice : la frontière des portefeuilles optimaux sans actif certain

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Echantillonnage Non uniforme

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

1 Installer des packages

PROBABILITES ET STATISTIQUE I&II

Transcription:

Modèle mixte non linéaire. Application à la modélisation de processus dynamiques et prise en compte d effets génotypiques et environnementaux Hervé Monod Unité MIA-Jouy en Josas INRA - Dépt Mathématiques et Informatique Appliquées Atelier méthodologique du réseau Interaction Génotype-Environnement-Conduite (IGEC) Modélisation statistique de courbes de croissance pour l étude des IGEC Montpellier, le 9 mars 2010

Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Plan Introduction 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Contexte Introduction Contexte Exemples : 1. nature hiérarchique de l étude plusieurs individus considérés comme représentatifs d une ou plusieurs populations (et/ou conditions expérimentales) variations entre populations et entre individus d une même population individus : plante, parcelle populations : site, année, traitement / variété, génotype

Introduction 2. nature dynamique du phénomène phénomène sous-jacent variant dans le temps de façon continue mesures répétées au cours du temps sur chaque individu 3. modélisation forme générale de courbe de réponse commune à tous les individus paramètres dépendant de la population (effets fixes) et de l individu (effets aléatoires) prise en compte d autres sources de variabilité (conditions contrôlées ou non, erreur de mesure, etc) analyse conjointe en une seule étape

Rapide historique Introduction Avant les années 80 : modèle linéaire mixte et modèle non linéaire = 2 extensions distinctes du modèle linéaire Années 80 : 1ers travaux sur le MNLM : variabilité entre individus dans les mesures répétées ; modèles à coefficients aléatoires Années 90 : développement rapide des méthodes d estimation, en particulier dans le domaine médical et pharmaceutique ; intégration dans des logiciels Années 2000 : devient un outil classique ; prise en compte de modèles plus complexes ; amélioration des algorithmes Revue récente : Davidian et Giltinan (2003)

Actuellement Introduction Implémentation dans plusieurs logiciels statistiques : SAS : proc nonlinmixed Splus et R : librairie nlme Monolix + autres logiciels dédiés WinBugs, Jags, et al : pour les approches bayésiennes Recherches toujours actives deux approches : fréquentiste/bayésien amélioration des méthodes d estimation méthodes non paramétriques plans d expériences...

Introduction Domaines d applications Applications en pharmacocinétique biomédical écologie, foresterie, etc génétique animale, végétale (van Eeuwijk et al.) agronomie (Makowski, Wallach, et al.)

Modélisation hiérarchique de courbes de croissance Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Modélisation hiérarchique de courbes de croissance Exemple en régression Fonction de réponse commune + erreur de variance croissante au cours du temps?

Modélisation hiérarchique de courbes de croissance Exemple en régression Non : Variance inter-individus de la fonction de réponse importance de prendre en compte les individus

Modélisation hiérarchique de courbes de croissance Exemple en régression Modèle Y it = µ + B i t + ε it avec B i Normal(β, σslope 2 ) coefficient de régression aléatoire paramètres à estimer µ, β, σ 2 slope, σ2 ε prise en compte naturelle de la distinction variabilité entre individus / variabilité erreur l hétéroscédasticité : Var(Y it ) = t 2 σ 2 slope + σ2 ε la dépendance entre observations d un même individu : Cov(Y it, Y it ) = tt σ 2 slope

Modélisation hiérarchique de courbes de croissance Exemple : croissance d orangers Le principe s applique directement au modèle non linéaire [Draper et Smith, 1998)] Y it = S i 1+exp[ (t β 1 )/β 2 ] + ε it avec S i Normal(s, σ 2 slope ) circonférence asymptotique de l arbre i, aléatoire

Modélisation hiérarchique de courbes de croissance Exemple : courbes de croissance moyennes Croissance de rats sous plusieurs régimes. Représentation des moyennes.

Modélisation hiérarchique de courbes de croissance Exemple : courbes de croissance individuelles Représentation des données individuelles.

Modélisation hiérarchique de courbes de croissance Influence sur l inférence importance de tenir compte de la variabilité entre individus pour l inférence statistique intervalles de confiance et tests pour comparer des modalités : bien prendre en compte les différents niveaux de variabilité individus = échantillon considéré comme aléatoire dans une population la variabilité entre individus est souvent plus importante que la variabilité des erreurs pour comparer les traitements application au modèle non linéaire mixte = possibilité de comparer des traitements sur des dynamiques

Modélisation hiérarchique de courbes de croissance Exemple : résidus d un modèle sur les moyennes Hétéroscédasticité (résidus variables au cours du temps et selon les individus)

Modélisation hiérarchique de courbes de croissance Exemple : résidus d un modèle avec effets individuels Comportement stabilisé des résidus (la variabilité entre individus a été modélisée explicitement)

Modélisation non linéaire mixte de courbes de croissance Plan 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Modélisation non linéaire mixte de courbes de croissance Modélisation (1) Modèle de base : Données = mesures répétées sur m individus : y ij réponse au temps t ij de l individu i (i = 1... m, j = 1... n i ) Individu caractérisé par : (y i, u i, a i ) : y i vecteur des mesures répétées sur l individu i u i vecteur de conditions environnementales pour l individu i vecteur de caractéristiques de l individu i a i Exemple IGEC Réseau d essais pour l évaluation de génotypes y ij réponse mesurée sur plusieurs jours/plusieurs années u i facteurs site, année, traitement, covariables environnement a i facteurs variété, génotype, QTL, marqueurs

Modélisation non linéaire mixte de courbes de croissance Modélisation (exemple détaillé) Jeu de données Soja (Soybean) 20 40 60 80 3 années 2 variétés 3x2x8 parcelles y masse de feuilles sur 6 plantes Leaf weight/plant (g) 30 25 20 15 10 5 0 30 25 20 15 10 5 0 1990 F 1989 F 1988 F 1990 P 1989 P 1988 P 30 25 20 15 10 5 0 20 40 60 80 - Time since planting (days)

Modélisation non linéaire mixte de courbes de croissance Modélisation (2) Modèle de base : Niveau 1 = intra-individu f β i e ij y ij = f (t ij, β i ) + e ij, i = 1,..., m, j = 1,..., n i fonction de réponse intra-individuelle paramètres, propres à l individu i centrés (erreurs résiduelles) Exemple : Réseau d essais pour l évaluation de génotypes f fonction logistique simple β i = (Asym i, Xm i, S i ) paramètres pour l individu i Asym f (t, β i ) = i 1 + exp( (t Xm i )/S i )

Modélisation non linéaire mixte de courbes de croissance Modélisation (3) Modèle de base : Niveau 2 = modèle de population β i = d(a i, u i, β, B i ), i = 1,..., m En général : d = fonction linéaire sur les paramètres Exemple : Réseau d essais pour l évaluation de génotypes Asym i = µ + α ai + γ vi + (αγ) ai v } {{ } i + B }{{} i partie fixe partie aleatoire Xm i =... S i =... = variations des paramètres β i entre individus, expliquées par : caractéristiques connues de i (a i, u i ) variation non expliquée dans la population (b i )

Modélisation non linéaire mixte de courbes de croissance Implémentation sous R > library(nlme) > fm4soy.nlme <- nlme(weight~sslogis(time, Asym,xmid,scal), data=soybean, fixed=list(asym ~ Year * Variety, xmid ~ Year + Variety, scal ~Year), random=list(asym~1), weights=varpower(), start= c(soyfix[1],rep(0,5), soyfix[2],rep(0,3), soyfix[3],rep(0,2)))

Modélisation non linéaire mixte de courbes de croissance Implémentation sous R I Sortie > summary(fm4soy.nlme) Nonlinear mixed-effects model fit by maximum likelihood Model: weight ~ SSlogis(Time, Asym, xmid, scal) Data: Soybean AIC BIC loglik 616.3096 680.646-292.1548 Random effects: Formula: Asym ~ 1 Plot Asym.(Intercept) Residual StdDev: 1.035928 0.2180272

Modélisation non linéaire mixte de courbes de croissance Implémentation sous R II Variance function: Structure: Power of variance covariate Formula: ~fitted(.) Parameter estimates: power 0.9426163

Modélisation non linéaire mixte de courbes de croissance Fixed effects: list(asym ~ Year * Variety, xmid ~ Year + Variety, scal ~ Year) Value Std.Error DF t-value p-value Asym.(Intercept) 19.43 0.953 352 20.37 0.0000 Asym.Year1989-8.84 1.072 352-8.24 0.0000 Asym.Year1990-3.70 1.177 352-3.14 0.0018 Asym.VarietyP 1.62 1.038 352 1.56 0.1189 Asym.Year1989:VarietyP 5.57 1.170 352 4.75 0.0000 Asym.Year1990:VarietyP 0.14 1.175 352 0.12 0.9004 xmid.(intercept) 54.81 0.754 352 72.62 0.0000 xmid.year1989-2.23 0.971 352-2.30 0.0218 xmid.year1990-4.97 0.974 352-5.10 0.0000 xmid.varietyp -1.29 0.414 352-3.13 0.0019 scal.(intercept) 8.06 0.147 352 54.76 0.0000 scal.year1989-0.89 0.201 352-4.44 0.0000 scal.year1990-0.67 0.212 352-3.17 0.0016

Modélisation non linéaire mixte de courbes de croissance + Correlation + Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.6278727-0.6080301-0.1237038 0.5695048 3.9185279 Number of Observations: 412 Number of Groups: 48

Plan Points techniques et pratiques 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Points techniques et pratiques Méthodes d ajustement Vraisemblance : modèle non linéaire pas de solution générale pour la minimisation non linéaire mixte pas de forme analytique pour la vraisemblance car on ne connait pas les B i ( données manquantes ) Algorithmes plusieurs générations : linéarisation en B i = 0 linéarisation en B i algorithmes stochastques sur les B i approche bayésienne

Points techniques et pratiques Conséquences pratiques nécessité de préciser des valeurs initiales (ou des a priori en bayésien) les solutions sont approchées parfois, difficultés de convergence savoir-faire à acquérir si applications compliquées

Points techniques et pratiques Choix de modélisation Souplesse Complexité du choix de modèle choix à effectuer sur la fonction de réponse la partie fixe de chaque paramètre la partie aléatoire de chaque paramètre (facteurs + distribution) la modélisation de la variance approches théoriques et pratiques tests de rapport de vraisemblance, critère AIC, BIC examen des résidus et des distributions d effets aléatoires stratégies pragmatiques conseillées dans Pinheiro et Bates

Plan Discussion 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Discussion Avantages-inconvénients + modélisation conjointe espérance-variance-covariance modélisation du phénomène (relativement) mécaniste parcimonie et paramètres interprétables applicable à des données déséquilibrées demande un travail d appropriation plantages/longs temps calcul, quand modèles complexes

Discussion Intérêt pour l étude des IGEC? décomposer effets de l environnement/du génotype possible modéliser finement les sources de variabilité intermédiaire intéressant entre modèles écophysiologiques complexes et modèles statistiques classiques

Plan Références 1 Introduction 2 Modélisation hiérarchique de courbes de croissance 3 Modélisation non linéaire mixte de courbes de croissance 4 Points techniques et pratiques 5 Discussion 6 Références

Références Références Présentation inspirée de : Marie Davidian (IBC 2004). Nonlinear Mixed Effects Model : An Overview and Update. Plusieurs exemples tirés de : Pinheiro JC Bates DM (2000). Mixed-effect models in S and Splus. Springer Verlag.

Références Davidian M, Giltinan DM (2003). Nonlinear Models for Repeated Measurement Data : An Overview and Update, Journal of Agricultural Biological And Environmental Statistics 8, 387(419). Davidian M, Giltinan DM (1995). Nonlinear Models for Repeated Measurement Data. Chapman and Hall. Pinheiro JC Bates DM (2000). Mixed-effect models in S and Splus. Springer Verlag. Eeuwijk, F. A. van ; Malosetti, M. ; Boer, M. P. (2007). Modelling the genetic basis of response curves underlying genotype x environment interaction. Scale and complexity in plant systems research : gene-plant-crop relations, 115-126 Makowski D (2002). Modèle non linéaire mixte pour simuler la réponse du blé à la dose d engrais azoté. Journal de la Société française de statistique 143, 215-223. Makowski, D ; Lavielle, M (2006). Using SAEM to estimate parameters of models of response to applied fertilizer. Journal of Agricultural Biological And Environmental Statistics 11, 45-60.