Modélisation prédictive et incertitudes P. Pernot Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay pascal.pernot@u-psud.fr
Le concept de Mesure Virtuelle mesure virtuelle résultat d un modèle visant à remplacer une mesure physique on parle souvent de valeur calculée par opposition à une valeur mesurée ou valeur expérimentale avantages du concept de mesure virtuelle : mettre l accent sur l incertitude de mesure associée faciliter l application des standards définis pour l évaluation et la combinaison des mesures Références Irikura et al. (2004) Uncertainty associated with virtual measurements from computational quantum chemistry models. Metrologia 41 :369-375. Évaluation des données de mesure Guide pour l expression de l incertitude de mesure. JCGM 100 :2008. http ://www.bipm.org/utils/common/documents/jcgm/jcgm 100 2008 F.pdf
Erreurs, incertitudes, biais... erreur de mesure différence entre la valeur mesurée d une grandeur et une valeur de référence erreur systématique composante de l erreur de mesure qui, dans des mesurages répétés, demeure constante ou varie de façon prévisible biais de mesure estimation d une erreur systématique erreur aléatoire composante de l erreur de mesure qui, dans des mesurages répétés, varie de façon imprévisible (la valeur de référence est ici la moyenne qui résulterait d un nombre infini de mesurages répétés du même mesurande) incertitude de mesure paramètre non négatif qui caractérise la dispersion des valeurs attribuées à un mesurande (par exemple une incertitude-type)
Erreurs et Incertitudes en modélisation 1 Formulation (mathématique) du modèle : approximations, incertitudes structurales 2 Implémentation numérique du modèle : précision des algorithmes, seuils de convergence ; modèles stochastiques 3 Incertitudes paramétriques : précision des paramètres définissant le modèle
Erreurs et Incertitudes en modélisation 1 Formulation (mathématique) du modèle : approximations, incertitudes structurales 2 Implémentation numérique du modèle : précision des algorithmes, seuils de convergence ; modèles stochastiques 3 Incertitudes paramétriques : précision des paramètres définissant le modèle
Erreurs et Incertitudes en modélisation 1 Formulation (mathématique) du modèle : approximations, incertitudes structurales 2 Implémentation numérique du modèle : précision des algorithmes, seuils de convergence ; modèles stochastiques 3 Incertitudes paramétriques : précision des paramètres définissant le modèle
Formulation du modèle approximations : Born-Oppenheimer, Hartree-Fock, Coupled Clusters... en chimie quantique ab initio, typiquement le choix d un couple théorie/base introduction principalement une erreur systématique de la mesure virtuelle par rapport à la référence toutefois, si on considère un ensemble de références, le biais de mesure peut apparaître aléatoire cet aléatoire traduit un manque de connaissance ( lack of knowledge ) utiliser une méthode plus précise traiter comme un facteur aléatoire incertitude
Incertitudes liées au choix d un modèle Comparaison des bandes interdites calculées par deux méthodes DFT approchées, comparées aux valeurs expérimentales. Erreur systématique ou aléatoire??? Ref. Civalleri et al. (2012) doi :10.1039/9781849734790-00168
Incertitudes numériques précision des calculs liée la représentation finie des nombres sur ordinateur conversion d unités effets de seuils sensibilité aux conditions initiales non-reproductibilité des calculs [méthodes stochastiques...]
Incertitudes numériques - précision finie accumulation des erreurs de troncature/arrondi lors de la sommation d un grand nombre de petites contributions intégrales biélectroniques contributions inter-atomiques / pas d intégration dans les simulations moléculaires estimateurs statistiques sur des gros échantillons...
Incertitudes numériques - précision finie Janes and Rendell (2011) Placing rigorous bounds on numerical errors in Hartree-Fock energy computations. J. Chem. Theory Comput. 7 :1631-1639. E H2O 75 u.a. E H2O10000 750000.00 u.a. (8 digits)
Incertitudes numériques - conversions d unités conversion d unités (ua > SI) E h a une incertitude relative de 2.2 10 8 [CODATA 2010] la valeur des constantes fondamentales est réévaluée tous les 4 ans attention en comparant des énergies absolues si elles ont été converties
Incertitudes numériques - effets de seuils les critères d arrêt d un algorithme itératif influent sur la précision du résultat, mais l impact est souvent négligeable : l énergie minimale de C3H8 au niveau HF/6-31G(d) avec 500 géométries de départs différentes est obtenue avec une incertitude relative de 7 10 9 10 4 kcal/mol l effet du seuil de convergence sur l optimisation des orbitales est 100 fois plus faible attention pour les systèmes complexes!!! (cf. next)
Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales
Gradients obtenus avec des permutations de l ordre des atomes dans le fichier Modélisation prédictive et incertitudes Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales
Incertitudes numériques - conditions initiales Références Williams and Feher (2008) The effect of numerical error on the reproducibility of molecular geometry optimizations. J Comput Aided Mol Des. 22 :39-51. Feher and Williams (2012) Numerical errors and chaotic behavior in docking simulations. J Chem Inf Model. 52 :724-38. Feher and Williams (2012) Numerical errors in minimization based binding energy calculations. J Chem Inf Model. 52 :3200-12.
Incertitudes numériques - non-reproductibilité observation : le même calcul relancé plusieurs fois sur le même jeu de CPUs donne des résultats différents(pb. en calcul parallèle) génant en dynamique moléculaire si on fait un restart pour zoomer sur un événement rare, et que celui-ci disparait... ex. : Feher and Williams (2012) ont observé que 75% des répétitions aboutissaient à des différences d énergie de liaison inférieures à 0.05 kcal/mol, mais pour 10% des cas, la différence dépassait 1 kcal/mol!!! dans Amber, la fréquence de sauvegarde des snapshots influe sur la trajectoire... une des causes : l ordre des réponses des différents CPUs influe sur le résultat numérique (l accumulation des erreurs numériques dépend de l ordre des opérations) Références Blackford et al. (1997) Practical experience in the numerical dangers of heterogeneous computing. ACM Trans. Math. Softw. 23 :133-147. Diethelm (2012) The Limits of Reproducibility in Numerical Simulation. Comput. Sci. Eng. 14 :64-72.
Transfert d incertitudes Faver et al. (2011) The Energy Computation Paradox and ab initio Protein Folding. PLoS ONE 6 :e18868.
Transfert d incertitudes
Transfert d incertitudes Modèle additif des interactions G fold = E int + H corr T S fold + G solv E int + H corr H int,1 + H int,2 +... + H int,n chacun des H int,i est évalué par une méthode approchée si une protéine a N = 100 contacts indépendants, et que chaque H int,i est connu avec la précision chimique, 1 kcal/mol, la loi de combinaison des variances pour les erreurs aléatoires résulte en une incertitude totale de 10 kcal/mol, insuffisante pour localiser le minimum global.
Transfert d incertitudes
Transfert d incertitudes Modèle additif des interactions, suite l erreur sur chacun des H int,i contient probablement une part importante d erreur systématique = déterminer pour chaque type d interaction i les composantes systématiques µ i et aléatoires σ i de l erreur et les combiner Error syst = N i µ i ( Error rand = N i σi 2 i ) 1/2 Error syst est un facteur de correction (biais) à retrancher à H int, Error rand est l incertitude sur H int corrigé
Transfert d incertitudes
Transfert d incertitudes
Transfert d incertitudes
Transfert d incertitudes Références Merz (2010) Limits of Free Energy Computation for Protein-Ligand Interactions. J. Chem. Theory Comput. 6 :1769-1776. Faver et al. (2011) Formal Estimation of Errors in Computed Absolute Interaction Energies of Protein-Ligand Complexes. J. Chem. Theory Comput. 7 :790-797. Faver et al. (2011) The Energy Computation Paradox and ab initio Protein Folding. PLoS ONE 6 :e18868. Faver et al. (2012) The Effects of Computational Modeling Errors on the Estimation of Statistical Mechanical Variables. J. Chem.Theory Comput. 10.1021/ct300024z
Calibration d une DFT
Calibration d une DFT
Erreurs résiduelles Modélisation prédictive et incertitudes Calibration d une DFT
Echantillon de fonctions calibrées Modélisation prédictive et incertitudes Calibration d une DFT
Calibration d une DFT
Calcul de constantes de vitesse k(t ) = k 0 exp( E/kT ); F k (T ) = exp(u E /kt )
Calcul de constantes de vitesse
Calcul de constantes de vitesse 1 calibrer une surface d énergie potentielle paramétrique à partir d un nombre restreint (30) de calculs ab initio de grande qualité 2 estimer l incertitude sur les paramètres du modèle 3 propager cette incertitude aux constantes de vitesse calculées
Calcul de constantes de vitesse
Calcul de constantes de vitesse
Calcul de constantes de vitesse Reinisch : 30 points ; Klippenstein 10 000
Calibration de modèles empiriques Références Mortensen et al. (2005) Bayesian Error Estimation in Density-Functional Theory. Phys. Rev. Lett. 95 :216401. Wellendorff et al. (2012) Density functionals for surface science : Exchange-correlation model development with Bayesian error estimation. Phys. Rev. B 85 :235149. Petzold et al. (2012) Construction of New Electronic Density Functionals with Error Estimation Through Fitting. Topics in Catalysis 55 :402 (2012) Cailliez et Pernot (2011) Statistical approaches to forcefield calibration and prediction uncertainty in molecular simulation. J. Chem. Phys. 134 :054124. Angelikopoulos et al. (2012) Bayesian uncertainty quantification and propagation in molecular dynamics simulations : A high performance computing framework. J. Chem. Phys. 137 :144103. Reinisch et al. (2012) An Efficient and Accurate Formalism for the Treatment of Large Amplitude Intramolecular Motion. J Chem Theory Comput 8 :2713-2724.
Bilan dans tous les domaines de la chimie théorique on doit faire face à des incertitudes plus ou moins bien controlées souvent, l incertitude majeure provient de l incapacité d un modèle à représenter des données expérimentales il est essentiel d expliciter toutes les sources d incertitude et de les traiter de manière cohérente (théorie des probabilités : approche bayésienne) la propagation des incertitudes du niveau moléculaire aux niveaux supérieurs (méso ou macro) dans les simulations multi-échelles est encore pratiquement inexplorée... Références Vlachos (2012) Multiscale modeling for emergent behavior, complexity, and combinatorial explosion. AIChE 58 :1314 1325 (2012). Ulissi et al. (2011) Effect of multiscale model uncertainty on identification of optimal catalyst properties. J. Catal. 281 :339 344. Salciccioli et al. (2011) A review of multiscale modeling of catalytic reactions : Mechanism development for complexity and emergent behavior. Chem. Eng. Sci. 66, :4319 4355.