Régression non linéaire

Documents pareils

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Continuité et dérivabilité d une fonction

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Leçon N 4 : Statistiques à deux variables

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Coup de Projecteur sur les Réseaux de Neurones

Régression linéaire. Nicolas Turenne INRA

Modélisation du développement microbien dans un aliment et application à l'appréciation quantitative des risques. Historique. Niveaux de modélisation

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Initiation à l analyse en composantes principales

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

formations professionnelles fin 2014 / début 2015 hygiène alimentaire en restauration collective audit, conseil et formation professionnelle

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

NON-LINEARITE ET RESEAUX NEURONAUX

Chapitre 6. Fonction réelle d une variable réelle

Dérivation : cours. Dérivation dans R

Chapitre 3. Les distributions à deux variables

Introduction aux Statistiques et à l utilisation du logiciel R

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Développements limités, équivalents et calculs de limites

Terminale SMS - STL

Optimisation, traitement d image et éclipse de Soleil

Introduction à l approche bootstrap

Chapitre 2 Les ondes progressives périodiques

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

Chapitre 2 Le problème de l unicité des solutions

Inférence d un réseau bayésien augmenté visant à confronter :

Fonctions de plusieurs variables

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Découverte du tableur CellSheet

Etude des propriétés empiriques du lasso par simulations

La simulation probabiliste avec Excel

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Extraction d information des bases de séquences biologiques avec R

PROJET MODELE DE TAUX

CAPTEURS - CHAINES DE MESURES

Logistique, Transports

O, i, ) ln x. (ln x)2

Introduction à MATLAB R

Négociation de titres cotés canadiens sur plusieurs marchés

Fiche d animation n 1 : Pêle-mêle

Cours 7 : Utilisation de modules sous python

«Cours Statistique et logiciel R»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

de calibration Master 2: Calibration de modèles: présentation et simulation d

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Logiciel XLSTAT version rue Damrémont PARIS

Expérience 3 Formats de signalisation binaire

Science et technique. La température et la durée de stockage sont des facteurs déterminants. Viande bovine et micro-organisme pathogène

Texte Agrégation limitée par diffusion interne

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

La modularité des espaces de bureaux

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

STATISTIQUES. UE Modélisation pour la biologie

OM 1 Outils mathématiques : fonction de plusieurs variables

Comment réussir la mise en place d un ERP?

Un exemple de régression logistique sous

INF6304 Interfaces Intelligentes

Mots-clés : appréciation des risques, microbiologie prévisionnelle, Listeria monocytogenes.

Oscilloscope actif de précision CONCEPT 4000M

Equipement. électronique

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Fonctions homographiques

Séquence 8. Fonctions numériques Convexité. Sommaire

PLAN DE COURS CEGEP DU VIEUX-MONTRÉAL

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Leçon 3. Les principaux outils de gestion des stocks

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

M2 IAD UE MODE Notes de cours (3)

Limites finies en un point

Principe de symétrisation pour la construction d un test adaptatif

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TABLE DES MATIERES. C Exercices complémentaires 42

Décrire l'ensemble des mesures de maîtrise et des mesures de surveillance dans des procédures ou modes opératoires portés à la connaissance de tous.

Équations non linéaires

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Moments des variables aléatoires réelles

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Fiche TD avec le logiciel. Courbes de niveau. D. Chessel

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

L ALGORITHMIQUE. Algorithme

SOMMAIRE MONTAGE DU COMPTEUR ET CAPTEURS...3 LE MOT DU CHEF DE PRODUIT...5 L ORGANISATION DE L ECRAN...5 LES PICTOGRAMMES UTILISES...5 LES BOUTONS...

Algorithmes pour la planification de mouvements en robotique non-holonome

Echantillonnage Non uniforme

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

choisir H 1 quand H 0 est vraie - fausse alarme

Repérage de l artillerie par le son.

Lire ; Compter ; Tester... avec R

Lecture graphique. Table des matières

Transcription:

Fiche TD avec le logiciel : tdr46 Régression non linéaire J.R. Lobry Table des matières 1 Une petite simulation 2 2 Estimation d un paramètre 3 3 nlm (non-linear minimization) 8 4 Le piège des minimums locau 10 5 Le piège des mesas 17 6 Un cas pratique : le modèle CTMI 22 7 Régions de confiance 24 Références 26 1

1 Une petite simulation Simulons un rythme circadien où représente le temps eprimé en heures et yobs une variable quantitative variant cycliquement avec une période de 24 heures, et mesurée toutes les 15 minutes : <- seq(from = 0, to = 24, by = 0.25) yobs <- sin(2 * pi * /24) plot( =, y = yobs, main = "Une petite simulation", las = 1) Une petite simulation yobs 1.0 0.5 0.0 0.5 1.0 0 5 10 15 20 Ajoutons un peu de bruit gaussien pour être plus réaliste : yobs <- yobs + rnorm(n = length(yobs), mean = 0, sd = 0.1) plot( =, y = yobs, main = "Une petite simulation avec du bruit", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 2/27 Compilé le 2008-08-25

Une petite simulation avec du bruit 1.0 0.5 yobs 0.0 0.5 1.0 0 5 10 15 20 Pour la reproductibilité des résultats, il serait utile de sauvegarder une simulation pour sa réutilisation ultérieure. Cette opération a déjà été effectuée pour vous avec les instructions suivantes (pour information seulement) : circa <- as.data.frame(cbind(,yobs)) write.table(circa, file = "circa.tt") 2 Estimation d un paramètre A partir de maintenant nous travaillerons avec une simulation de référence : circa <- read.table("http://pbil.univ-lyon1.fr/r/donnees/circa.tt") <- circa$ yobs <- circa$yobs summary(circa) yobs Min. : 0 Min. :-1.11034 1st Qu.: 6 1st Qu.:-0.69152 Median :12 Median : 0.01517 Mean :12 Mean : 0.01333 3rd Qu.:18 3rd Qu.: 0.64676 Ma. :24 Ma. : 1.10648 plot(circa, main = "La simulation de reference", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 3/27 Compilé le 2008-08-25

La simulation de reference yobs 1.0 0.5 0.0 0.5 1.0 0 5 10 15 20 Supposons que ce soient de véritables observations et que nous cherchions à ajuster un modèle à un seul paramètre y = sin(ω). Pour simplifier, l amplitude est connue et égale à 1. Reste à trouver ω. Essayons approimativement. omega <- 0.25 ytheo <- sin(omega * ) plot(circa, main = "Un ajustement approimatif", las = 1) tet( = 5, y = -0.5, labels = bquote(omega ==.(omega))) lines(, ytheo) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 4/27 Compilé le 2008-08-25

Un ajustement approimatif yobs 1.0 0.5 0.0 0.5 1.0 ω = 0.25 0 5 10 15 20 Ce n est pas si mal, mais pour faire mieu il va falloir se donner un critère objectif d ajustement entre les données et le modèle. Prenons par eemple le critère des moindres carrés, et cherchons la valeur de ω qui le minimise. Avec notre estimation grossière ω = 0.25, nous avons une somme des carrés des écarts égale à : sum((yobs - ytheo)^2) [1] 2.245973 Il faut donc essayer de faire mieu que 2.246, c est-à-dire trouver une valeur de ω telle que la somme des carrés des résidus soit plus faible. Définissons une fonction qui nous calcule la somme des carrés des écarts pour une valeur de ω donnée, et représentons la au voisinage de 0.25. sce <- function(param,, yobs) { ytheo <- sin(param[1] * ) return(sum((yobs - ytheo)^2)) } omega <- seq(from = 0.2, to = 0.3, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", lab = epression(omega), ylab = "(yobs - ytheo)^2", main = "La somme des carres des ecarts", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 5/27 Compilé le 2008-08-25

La somme des carres des ecarts 25 20 (yobs ytheo)^2 15 10 5 0 0.20 0.22 0.24 0.26 0.28 0.30 ω La valeur du paramètre qui nous intéresse se trouve donc au niveau du minimum. On pourrait envisager de préciser sa valeur en zoomant progressivement : omega <- seq(from = 0.25, to = 0.27, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", lab = epression(omega), ylab = "(yobs - ytheo)^2", main = "Premier zoom", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 6/27 Compilé le 2008-08-25

Premier zoom 2.0 (yobs ytheo)^2 1.5 1.0 0.250 0.255 0.260 0.265 0.270 ω omega <- seq(from = 0.26, to = 0.265, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", lab = epression(omega), ylab = "(yobs - ytheo)^2", main = "Deuieme zoom", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 7/27 Compilé le 2008-08-25

Deuieme zoom 0.86 0.85 0.84 (yobs ytheo)^2 0.83 0.82 0.81 0.80 0.79 0.260 0.261 0.262 0.263 0.264 0.265 ω Mais ceci devient très vite fastidieu. Il eiste des outils pour rechercher le minimum automatiquement. C est précisément l objet de cette fiche de TD sous R. 3 nlm (non-linear minimization) La fonction nlm() permet de minimiser une fonction. Le premier argument obligatoire est le nom de la fonction à minimiser, ici la fonction sce() qui calcule la somme des carrés des résidus. Le deuième argument obligatoire est un vecteur contenant une première estimation grossière des paramètres à estimer. Les arguments suivants sont optionnels, ce sont des arguments que nlm() va transmettre fidèlement à la fonction à minimiser. Ici, sce() a besoin de connaître les valeurs en abscisse,, et les valeurs observées, yobs. nlm(f = sce, p = 0.25, =, yobs = yobs) $minimum [1] 0.7913835 $estimate [1] 0.2626774 $gradient [1] 2.964295e-08 $code [1] 1 $iterations [1] 5 Le premier résultat (minimum) est la valeur minimale de la fonction trouvée par nlm(). On constate que nlm() a amélioré notre score précédent (0.791 < 2.246). Le deuième résultat (estimate) est celui qui nous intéresse le plus, Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 8/27 Compilé le 2008-08-25

c est la valeur du paramètre ω telle que la somme des carrés des résidus soit minimale. En partant de notre estimation grossière ω = 0.25, nlm() a trouvé que ω = 0.263 était meilleure au sens des moindres carrés. Notons que c est une valeur proche de la valeur que nous avons utilisée lors de la simulation, ω = 2π/24 = 0.262, nous le savons, mais nlm() ne le savait pas. Le troisième résultat (gradient) donne une idée de la pente au niveau du minimum, elle devrait être faible si tout s est bien passé. C est une indication rassurante mais non suffisante. Le quatrième résultat (code) est un code donnant une indication sur le bon déroulement de la procédure de minimisation, il doit être aussi petit que possible. C est une indication rassurante mais non suffisante. Le dernier résultat (iterations) est le nombre d itérations avant arrêt : nlm() procède pas à pas, par améliorations successives. Il est rassurant de constater que nlm() a convergé rapidement. Mais à chercher des solutions parfaites dans un monde parfait, on s epose forcément à quelques déconvenues... quand il nous faut des solutions imparfaites dans un monde imparfait. Soit, les mises en garde vont être longuement développées par la suite, ne boudons pas notre plaisir de l instant et visualisons le résultat clef en main de nlm() : omegaestime <- nlm(f = sce, p = 0.25, =, yobs = yobs)$estimate ytheo <- sin(omegaestime * ) plot( =, y = yobs, las = 1, main = "Le meilleur ajustement") lines(, ytheo) tet( = 5, y = -0.5, labels = bquote(hat(omega) ==.(omegaestime))) Le meilleur ajustement yobs 1.0 0.5 0.0 0.5 1.0 ω^ = 0.2626774 0 5 10 15 20 Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 9/27 Compilé le 2008-08-25

4 Le piège des minimums locau Il est facile d avoir une bonne estimation intiale des paramètres lorsque que l on travaille sur des données simulées. En pratique, ce n est pas le cas. Jouons les idiots en fournissant à nlm() une estimation initiale un peu plus naïve, à peine plus du double de notre estimation précédente. nlm1 <- nlm(f = sce, p = 0.57, =, yobs = yobs) nlm1 $minimum [1] 86.39535 $estimate [1] 0.5690776 $gradient [1] 2.046363e-06 $code [1] 1 $iterations [1] 3 Que se passe-t-il? Toutes les conditions rassurantes sont là, mais la somme des carrés des résidus semble franchement élevée. Voyons le modèle. ytheo <- sin(nlm1$estimate * ) plot( =, y = yobs, las = 1, main = "Un autre ajustement...") lines(, ytheo) tet(19, 0.75, bquote(hat(omega) ==.(nlm1$estimate))) Un autre ajustement... yobs 1.0 0.5 0.0 0.5 1.0 ω^ = 0.5690776 0 5 10 15 20 Un être humain normalement constitué ne pourrait pas se satisfaire d un tel modèle. Pourquoi nlm() s est fourvoyé? Prenons un peu de recul et eaminons le comportement de la somme des carrés des résidus en nous écartant un peu du voisinage de la vraie valeur ω = 0.263. Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 10/27 Compilé le 2008-08-25

omega <- seq(from = 0, to = 1, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", las = 1, lab = epression(omega), main = "Un minimum local", ylab = "(yobs - ytheo)^2") arrows(0 = nlm1$estimate, y0 = 120, 1 = nlm1$estimate, y1 = nlm1$min, length = 0.1) tet(nlm1$est, 125, bquote(hat(omega) ==.(nlm1$estimate))) Un minimum local 120 ω^ = 0.5690776 100 (yobs ytheo)^2 80 60 40 20 0 0.0 0.2 0.4 0.6 0.8 1.0 ω Il y a un minimum local de la fonction objective pour ω = 0.569, et en fournissant une estimation initiale trop proche de ce minimum local, nlm() est restée piégée dedans. nlm() utilise un algorithme de type Newton, c està-dire basé sur une estimation locale du gradient, si le gradient local mène à un minimum local, nlm() restera piégé dans ce minimum local, sans qu aucune procédure de contrôle interne ne puisse indiquer qu il y a un problème. Pour détecter ce genre de situation il est bon d avoir un modèle de référence dont on connaît la solution eacte. Par eemple, le modèle y = k, où k est une constante. Quelle est la valeur de k qui minimise la somme des carrés des résidus? scek <- function(param,, yobs) { ytheo <- sapply(, function() { param[1] }) return(sum((yobs - ytheo)^2)) } nlmk <- nlm(f = scek, p = 0, =, yobs = yobs) nlmk $minimum [1] 47.66545 $estimate [1] 0.01332611 $gradient Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 11/27 Compilé le 2008-08-25

[1] -7.105427e-09 $code [1] 1 $iterations [1] 2 ytheo <- sapply(, function() { nlmk$estimate }) plot( =, y = yobs, las = 1, main = "Un modele de reference : la moyenne") lines(, ytheo, col = "blue") tet( = 5, y = -0.5, labels = bquote(hat(k) ==.(nlmk$estimate))) Un modele de reference : la moyenne yobs 1.0 0.5 0.0 0.5 1.0 k^ = 0.01332611 0 5 10 15 20 Mais nous connaissions déjà la solution, puisque la valeur qui minimise la somme des carrés des écarts n est rien d autre que la moyenne des valeurs observées, et la valeur de la fonction objective donne la variance, à 1/(n 1) près. c(mean(yobs), nlmk$estimate) [1] 0.01332661 0.01332611 c(var(yobs), nlmk$minimum/(length(yobs) - 1)) [1] 0.4965151 0.4965151 Il n est donc pas inutile de garder (length(yobs) - 1)*var(yobs) = 47.665 comme valeur de référence pour la somme des carrés des résidus, tout modèle au-dessus de cette valeur est moins bon que le modèle résumant les données par leur simple moyenne. Le modèle précédent avec ω = 0.569 est donc franchement mauvais : Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 12/27 Compilé le 2008-08-25

sceminref <- (length(yobs) - 1) * var(yobs) omega <- seq(from = 0, to = 1, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", las = 1, lab = epression(omega), ylab = "(yobs - ytheo)^2", main = "Le modele de la moyenne") abline(h = sceminref, col = "blue", lty = 2) tet(0.6, sceminref, "SCE de la moyenne", pos = 3, col = "blue") Le modele de la moyenne 120 100 (yobs ytheo)^2 80 60 40 SCE de la moyenne 20 0 0.0 0.2 0.4 0.6 0.8 1.0 ω Le minimum local à 0.569 est au-dessus de la somme des carrés des résidus de référence représentée par la ligne horizontale. Nous ne tomberons donc pas dans le piège de ce minimum local. Mais sommes-nous armés contre tous les minimums locau? Non, ce serait trop beau, en effet : omega <- seq(from = 24, to = 26, length = 100) plot( = omega, y = sapply(omega, function(omega) { sce(omega,, yobs) }), type = "l", las = 1, lab = epression(omega), ylab = "(yobs - ytheo)^2", main = "Trop beau pour estre vrai") abline(h = sceminref, col = "blue", lty = 2) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 13/27 Compilé le 2008-08-25

Trop beau pour estre vrai 200 150 (yobs ytheo)^2 100 50 0 24.0 24.5 25.0 25.5 26.0 ω Nous avons donc au voisinage de ω = 25.4 un minimum local qui semble être très bon. Quel est donc ce nouveau piège? Que se passe-t-il ici? badomega <- nlm(f = sce, p = 25.4, =, yobs = yobs)$estimate ytheo <- sin(badomega * ) plot( =, y = yobs, main = "Etonnant non?") lines(, ytheo) tet(5, -0.5, bquote(hat(omega) ==.(badomega))) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 14/27 Compilé le 2008-08-25

Etonnant non? yobs 1.0 0.5 0.0 0.5 1.0 ω^ = 25.39541 0 5 10 15 20 Etonnant non? Voila un modèle qui semble fort satisfaisant à première vue. Quel est le gag? Calculons la période de ce modèle : 2 * pi/badomega [1] 0.2474142 C est très proche de 0.25, la fréquence d échantillonnage de notre simulation. Mais pour le voir, il nous faut un pas plus petit sur l ae temporel pour représenter le modèle. fin <- seq(from = 0, to = 24, by = 0.01) ytheo <- sin(badomega * fin) plot( =, y = yobs, main = "Voila pourquoi") lines(fin, ytheo) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 15/27 Compilé le 2008-08-25

Voila pourquoi yobs 1.0 0.5 0.0 0.5 1.0 0 5 10 15 20 En oscillant avec une période proche de celle de l échantillonnage, le modèle arrive à passer au voisinage des points observés. Au sens des moindres carrés, le modèle est bon. Mais d un point de vue biologique, un rythme circadien de 15 minutes n a pas de sens. L eemple de minimum local présenté ici n est évidement qu à visée pédagogique, il ne doit pas masquer le fait que les minimums locau constituent un problème très concret dont les conséquences peuvent être dramatiques. Un eemple sorti de votre propre réfrigérateur : Listeria monocytogenes est une bactérie pathogène capable de se développer même à très basses température. Le graphique ci-après etrait de [3] montre qu il y a un problème de minimum local pour les paramètres d un modèle de la croissance de L. monocytogenes à basse température : Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 16/27 Compilé le 2008-08-25

Aimeriez-vous que les dates de péremption de vos yaourts soient calibrées à partir d une estimation des paramètres du modèle de croissance de L. monocytogenes tombée dans le piège d un minimum local? Le premier paragraphe de la conclusion de [3] mérite d être reprise in etenso : De cette étude, nous pensons que la recherche des paramètres d intérêt en microbiologie prévisionnelle n est pas une tâche qui peut être entièrement automatisée. La mise en oeuvre d un modèle dont les paramètres sont biologiquement interprétables est importante ; mais son utilisation mérite un regard très critique. En particulier, la validation du modèle est une phase essentielle qui nous semble trop souvent négligée. La présence de deu minima, même si l un donne des estimations peu vraisemblables de T min, indique que le choi des conditions initiales pour la procédure de régression non linéaire n est absolument pas anodin. Les conclusions hâtives (en utilisant de façon un peu trop automatique les logiciels standard) peuvent entraîner ainsi des conséquences importantes pour la santé publique. À méditer sérieusement! 5 Le piège des mesas Pour illustrer ce problème, nous allons utiliser une simulation du modèle de croissance logistique, m (t) = 0 e µt m 0 + 0 e µt Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 17/27 Compilé le 2008-08-25

etrait de l annee 6.4 de [4]. simlog <- read.table(file = "http://pbil.univ-lyon1.fr/r/donnees/simlog.tt", header = TRUE) summary(simlog) t Min. : 0.0 Min. : 1.440 1st Qu.: 2.5 1st Qu.:11.875 Median : 5.0 Median :60.817 Mean : 5.0 Mean :53.818 3rd Qu.: 7.5 3rd Qu.:94.011 Ma. :10.0 Ma. :99.572 plot(simlog, main = "Une simulation du modele logistique") Une simulation du modele logistique 0 20 40 60 80 100 0 2 4 6 8 10 t Définissons le modèle de croissance logistique et représentons le pour la valeur des paramètres de la simulation : la condition initiale 0 = 1, la biomasse finale m = 100 et le tau de croissance µ = 1. logistique <- function(t, param) { 0 <- param[1] m <- param[2] mu <- param[3] tmp <- 0 * ep(mu * t) return(tmp * m/(m - 0 + tmp)) } plot(simlog, main = "Ajustement avec les parametres de la simulation") ai <- seq(from = 0, to = 10, by = 0.1) lines(ai, sapply(ai, function() { logistique(, c(1, 100, 1)) })) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 18/27 Compilé le 2008-08-25

Ajustement avec les parametres de la simulation 0 20 40 60 80 100 0 2 4 6 8 10 t Cherchons la valeur des paramètres qui minimise la somme des carrés des résidus. scelog <- function(param, data) { tobs <- data[, 1] obs <- data[, 2] theo <- sapply(tobs, logistique, param) return(sum((obs - theo)^2)) } nlm(f = scelog, p = c(1.1, 110, 1.1), data = simlog) $minimum [1] 2.666712 $estimate [1] 0.9434911 99.5689749 1.0183770 $gradient [1] 1.305559e-04-1.407525e-05-1.061366e-04 $code [1] 3 $iterations [1] 38 sceminref <- (length(simlog$) - 1) * var(simlog$) sceminref [1] 17285.35 Nous retrouvons des valeurs pour les paramètres très proches de celles utilisées lors de la simulation, et la somme des carrés des résidus est bien meilleure que pour le modèle moyenne. Mais c est toujours facile quand on connaît la solution à l avance. Utilisons une valeur initiale pour les paramètres un peu moins bonne. nlm(f = scelog, p = c(1, 100, 10), data = simlog) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 19/27 Compilé le 2008-08-25

$minimum [1] 14267.56 $estimate [1] 1.439807 59.055530 56.964309 $gradient [1] -5.053427e-06-9.178799e-06 3.193209e-08 $code [1] 1 $iterations [1] 22 Le minimum est un peu meilleur que pour le modèle moyenne, mais nous sommes très loin du minimum global. Que se passe-t-il? est <- nlm(f = scelog, p = c(1, 100, 10), data = simlog)$estimate plot(simlog, main = "Un ajustement curieu") lines(ai, sapply(ai, function() { logistique(, est) })) Un ajustement curieu 0 20 40 60 80 100 0 2 4 6 8 10 t Le modèle est un peu meilleur que le modèle moyenne parce que le premier point est bien prédit, par contre pour les suivants le modèle avec m = 59.05553 prédit la moyenne : mean(simlog$[-1]) [1] 59.05556 Encore un minimum local? Pas eactement. Pour comprendre ce qu il se passe, observons l influence du paramètre µ sur la somme des carrés des résidus, les deu autres paramètres étant fiés à la valeur utilisée pendant la simulation. Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 20/27 Compilé le 2008-08-25

muais <- seq(from = 0, to = 15, by = 0.1) plot(muais, sapply(muais, function() { scelog(c(1, 100, ), simlog) }), t = "l", ylab = "(yobs - ytheo)^2", lab = epression(mu), main = "Une mesa") abline(h = sceminref, lty = 2, col = "blue") arrows(12, 40000, 12, 32000, le = 0.1) tet(12, 40000, "mesa", pos = 3) Une mesa (yobs ytheo)^2 0 10000 20000 30000 40000 mesa 0 5 10 15 µ Pour les fortes valeurs de µ, nous avons une mesa : entre 10 et 15 la fonction objective est complètement plate. Dans un monde parfait avec une précision de calcul infinie, ce ne serait pas eactement vrai, mais dans le monde réel avec une précision de calcul limitée, la fonction objective devient rigoureusement plate. Quand le tau de croissance µ est trop fort tous les points théoriques -sauf le premier- tendent vers la valeur de la biomasse maimale m, la fonction objective devient alors insensible à une variation du paramètre µ. En fournissant une estimation initiale trop grande pour µ, nlm() ne pourra pas deviner comment optimiser µ parce que nlm() n a qu une connaissance locale de la pente. Quand c est plat, nlm() ne sait pas où aller. Quelques données réelles tant que nous avons le modèle logistique sous la main. Il s agit de la courbe de croissance de Staphylococus aureus (etrait de l annee 6.7 de [4]). saureus <- read.table(file = "http://pbil.univ-lyon1.fr/r/donnees/saureus.tt", header = TRUE) plot(saureus, main = "Staphylococus aureus", lab = "Temps [mn]", las = 1, ylab = "Biomasse [DO]") est <- nlm(f = scelog, p = c(0.01, 0.2, 0.02), data = saureus)$estimate theo <- sapply(saureus$t, function() { logistique(, est) }) lines(saureus$t, theo) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 21/27 Compilé le 2008-08-25

Staphylococus aureus Biomasse [DO] 0.20 0.15 0.10 0.05 0 100 200 300 400 500 600 Temps [mn] 6 Un cas pratique : le modèle CTMI barber <- read.table(file = "http://pbil.univ-lyon1.fr/r/donnees/barber.tt", header = TRUE) plot(barber, main = "Escherichia coli", las = 1) Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 22/27 Compilé le 2008-08-25

Escherichia coli TauCroissance 2.5 2.0 1.5 1.0 0.5 0.0 10 20 30 40 50 Temperature Les données sont etraites de [1]. Elles consistent en 217 mesures du tau de croissance (h 1 ) de la bactérie Escherichia coli à différentes températures ( C). L influence de la température T, sur le tau de croissance en phase eponentielle des micro-organismes, µ, est donné en première approimation, par : µ(t ) = 0 si T / [T min, T ma ] µ opt(t T ma)(t T min) 2 (T opt T min)[(t opt T min)(t T opt) (T opt T ma)(t opt+t min 2T )] si T [T min, T ma ] où T min représente la température en deça de laquelle il n y a plus de croissance, T ma la température au delà de laquelle il n y a plus de croissance, T opt la température pour laquelle le tau de croissance atteint son maimum µ opt. C est le modèle dit des températures cardinales [5]. Pour estimer la valeur des paramètres de ce modèle, nous commençons par définir une fonction donnant la valeur prédite du tau de croissance pour une température et un jeu de valeurs des paramètres donnés : CTMI <- function(t, param) { Tmin <- param[1] Topt <- param[2] Tma <- param[3] Muopt <- param[4] if (T <= Tmin T >= Tma) { return(0) } else { Num <- (T - Tma) * (T - Tmin)^2 Den <- (Topt - Tmin) * ((Topt - Tmin) * (T - Topt) - (Topt - Tma) * (Topt + Tmin - 2 * T)) return(muopt * Num/Den) } } Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 23/27 Compilé le 2008-08-25

Nous définissons ensuite notre fonction objective, ici la somme des carrés des écarts entre les valeurs observées et prédites : scectmi <- function(param, data) { obs <- data[, 1] yobs <- data[, 2] ytheo <- sapply(obs, CTMI, param) return(sum((yobs - ytheo)^2)) } Nous allons maintenant utiliser nlm() pour estimer la valeur des paramètres. Pour cela, nous avons besoin d une première estimation grossière de la valeur des paramètres. D après la représentation graphique des données, on voit que l on a T min 10, T opt 40, T ma 50 et µ opt 2.5. guess <- c(10, 40, 50, 2.5) nlm2 <- nlm(f = scectmi, p = guess, data = barber) ais <- seq(from = min(barber$temp), to = ma(barber$temp), by = 1) ytheo <- sapply(ais, function() { CTMI(, nlm2$estimate) }) plot(barber, main = "Escherichia coli") lines(ais, ytheo) Escherichia coli TauCroissance 0.0 0.5 1.0 1.5 2.0 2.5 10 20 30 40 50 Temperature L ajustement est raisonnablement bon, nous pouvons résumer les 217 données en disant que dans le cas de Escherichia coli nous avons T min 4.9 C, T opt 41.3 C, T ma 47.5 C et µ opt 2.3 h 1. 7 Régions de confiance Une région de confiance pour la valeur des paramètres avec un risque de première espèce α est donnée [2] par l ensemble des valeurs des paramètres Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 24/27 Compilé le 2008-08-25

telles que la somme des carrés des résidus n ecède pas un seuil donné, θ/s(θ) S(ˆθ)(1 + p n p F α p;n p) où p est le nombre de paramètres du modèle, n le nombre de points disponibles dans le jeu de données, et ˆθ le vecteur des valeurs des paramètres tel que le critère soit minimal. R permet très facilement de visualiser ces régions de confiance. scemin <- nlm2$minimum n <- nrow(barber) p <- 4 alpha = 0.05 seuil <- scemin * (1 + (4 * qf(p = 1 - alpha, df1 = p, df2 = n - p))/(n - p)) estmin <- 0.99 * nlm2$estimate estma <- 1.01 * nlm2$estimate pt1000 <- sapply(1:4, function() { runif(n = 1000, min = estmin[], ma = estma[]) }) inside <- pt1000[apply(pt1000, 1, function() scectmi(param =, data = barber) <= seuil), ] pairs(inside, label = c(epression(t[min]), epression(t[opt]), epression(t[ma]), epression(mu[opt])), pch = 20) T min 41.0 41.2 41.4 41.6 2.28 2.30 2.32 4.84 4.88 4.92 41.0 41.2 41.4 41.6 T opt T ma 47.3 47.5 47.7 4.84 4.88 4.92 2.28 2.30 2.32 47.3 47.5 47.7 µ opt On n est pas trop mauvais pour T opt et T ma, mais pas assez large pour T min et µ opt. On affine et on recommence. estmin <- c(2.5, 40.9, 47.25, 2.245) estma <- c(7, 41.62, 47.8, 2.357) pt50000 <- sapply(1:4, function() { runif(n = 50000, min = estmin[], ma = estma[]) }) inside2 <- pt50000[apply(pt50000, 1, function() scectmi(param =, data = barber) <= seuil), ] pairs(inside2, label = c(epression(t[min]), epression(t[opt]), epression(t[ma]), epression(mu[opt])), pch = ".") Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 25/27 Compilé le 2008-08-25

On retrouve les résultats de la figure 4 de [5] avec T min [2.5, 7], T opt [40.9, 41.62], T ma [47.25, 47.8] et µ opt [2.245, 2.357]. Références [1] M.A. Barber. The rate of multiplication of Bacillus coli at different temperatures. Journal of Infectious diseases, 5 :379 400, 1908. [2] E.M.L. Beale. Confidence regions in non-linear estimation. Journal of the Royal Statistical Society, 22B :41 88, 1960. [3] S. Charles-Bajard, J.-P. Flandrois, and R. Thomassone. Quelques problèmes statistiques rencontrés dans l estimation de la température minimale de croissance de Listeria monocytogenes. Revue de Statistique Appliquée, LI :59 71, 2003. [4] J.R. Lobry. Ré-évaluation de modèle de croissance de Monod. Effet des antibiotiques sur l énergie de maintenance. PhD thesis, University Claude Bernard, Lyon I, 1991. http://pbil.univ-lyon1.fr/members/lobry/ articles/these\_jrl.pdf. Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 26/27 Compilé le 2008-08-25

[5] L. Rosso, J.R. Lobry, and J.-P. Flandrois. An unepected correlation between cardinal temperatures of microbial growth highlighted by a new model. Journal of Theoretical Biology, 162(4) :447 463, 1993. Logiciel R version 2.7.1 (2008-06-23) tdr46.rnw Page 27/27 Compilé le 2008-08-25