Modélisation prédictive et incertitudes P. Pernot Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay
Plan 1 Incertitudes des modèles empiriques 2 Identification et caractérisation des paramètres incertains 3 Propagation des incertitudes Propagation des variances Propagation des distributions 4 Analyse de sensibilité 5 Exemples La combustion du méthanol Incertitudes en extrapolation linéaire 6 Conclusions
Incertitudes des modèles empiriques Incertitudes en modélisation 1 Formulation (mathématique) du modèle : approximations, incertitudes structurales 2 Implémentation numérique du modèle : précision des algorithmes, seuils de convergence ; modèles stochastiques 3 Incertitudes paramétriques Dans ce cours, nous nous intéressons essentiellement au point 3.
Incertitudes des modèles empiriques Modèles physico-chimiques à paramètres empiriques Modélisation d objets complexes impliquant de nombreux paramètres empiriques ex : systèmes biologiques (signalisation cellulaire...) combustion chimie atmosphérique... Empirique : (adj.) qui s appuie sur l expérience et non sur la théorie. Dans notre cas, il s agit de paramètres découlant de mesures, donc incertains. Des modèles pour quoi faire? comprendre prédire ; nécessite un modèle validé
Incertitudes des modèles empiriques Comment améliorer un modèle complexe? Ajuster les valeurs des paramètres Risqué : choix des données expérimentales de référence biais possibles dans le modèle (p.ex. schéma cinétique incomplet) paramétres optimaux pas nécessairement transférables ou en désaccord avec les valeurs mesurées Améliorer la précision des paramètres procédure éventuellement longue (expériences) meilleur ajustement non garanti...
Incertitudes des modèles empiriques Analyse et gestion des incertitudes
Incertitudes des modèles empiriques Analyse et gestion des incertitudes
Incertitudes des modèles empiriques Analyse et gestion des incertitudes
Incertitudes des modèles empiriques Analyse et gestion des incertitudes 1 Identifier la propriété cible à modéliser et la précision requise 2 Identifier et caractériser les paramètres incertains du modèle : valeur préférée, incertitude type... 3 Générer les prédictions du modèle prenant en compte les incertitudes 4 Identifier les paramètres principalement responsables des incertitudes de la cible : les paramètres clés 5 Améliorer la précision des paramètres clés 6 Recommencer en (3.) jusqu à atteindre la précision souhaitée
Identification et caractérisation des paramètres incertains Elicitation Lister les paramètres incertains et leur attribuer des incertitudes c est un travail qui requiert une bonne expertise dans la détermination des paramètres considérés peu de bases de données donnént accès à des données fiables à ce sujet : gros travail à prévoir le processus de base consiste à définir des indicateurs statistiques décrivant la valeur préférée et la dispersion (élicitation)
Identification et caractérisation des paramètres incertains Techniques d élicitation Outils de base pour la représentation probabiliste d un paramètre incertain X Indicateurs statistiques : valeur moyenne (x) et incertitude type (u X ) Incertitudes de Type A : détermination des estimateurs à partir d un échantillon de (N) mesures Valeur moyenne : x = 1 N P N i=1 x i Variance : σ 2 X = P n i=1 (x i x) 2 /(N 1) Incertitude-type sur x : u X = σ X / N Incertitudes de Type B : tous les autres cas Réf. : Évaluation des données de mesure Guide pour l expression de l incertitude de mesure. JCGM 100 :2008 http ://www.bipm.org/utils/common/documents/jcgm/jcgm 100 2008 F.pdf
Identification et caractérisation des paramètres incertains Techniques d élicitation -Type B Pour le Type B, on doit fournir x et u X à partir d informations diverses : littérature scientifique notice des instruments certificats de calibration limitations d affichage... Technique : définir une densité de probabilité pour représenter la distribution plausible des erreurs, et utiliser l incertitude-type correspondant à cette densité. Réf. : Évaluation des données de mesure Guide pour l expression de l incertitude de mesure. JCGM 100 :2008 http ://www.bipm.org/utils/common/documents/jcgm/jcgm 100 2008 F.pdf
Identification et caractérisation des paramètres incertains Distribution Uniforme Propriétés x [ a, a] p(x a) = 1 2a x / [ a, a] p(x a) = 0 < x >= 0; u x = a/ 3 Utilisation si on ne dispose que des limites de X, sans indications sur une valeur préférée Exemple Le parcours optique d une cellule de fluorimètre est donné par le fabricant avec une tolérance de 0.1 mm 9.9 < l < 10.1 mm u l = 0.1/ 3 1/2a 2a a/3 1/2 -a 0 a x
Identification et caractérisation des paramètres incertains Distribution Triangulaire Propriétés x [ a, 0] p(x a) = (a + x)/a 2 x [0, a] p(x a) = (a x)/a 2 x / [ a, a] p(x a) = 0 2a < x >= 0; u x = a/ 6 Utilisation on dispose des limites de X et de sa valeur préférée, au centre de l intervalle 1/a a/6 1/2 -a 0 a x
Identification et caractérisation des paramètres incertains Distribution Gaussienne Propriétés p(x µ, σ) = 1 2πσ exp < x >= µ ; u x = σ 1 «(x µ)2 2σ2 Utilisation Si on dispose d une valeur moyenne (µ) et d une incertitude connue sous la forme d une incertitude type s, u x = s incertitude relative s/x, u x = x.(s/x) intervalle de confiance à 95% x ± c, u x = c/2 99% 95% 67% -3s -2s -s 0 s 2s 3s x
Propagation des incertitudes Propagation des variances Propagation des variances Pour obtenir l incertitude combinée, on applique la règle suivante y = F (x 1,..., x k ) ( F u 2 Y = i X i ) 2 x i u 2 X i + i j ( ) F X i x i ( ) F X j x j cov(x i, X j ) où J i = F X i est appelé «coefficient de sensibilité». Cette formule est basée sur un développement de Taylor de F, avec troncation au premier ordre (linéaire). Même si F est une fonction non-linéaire des X i, on peut souvent trouver un intervalle suffisamment petit pour que son approximation par une droite soit bonne. En pratique, on trouve que cela fonctionne bien si les incertitudes relatives sont inférieures à 10 %. Réf. : Évaluation des données de mesure Guide pour l expression de l incertitude de mesure. JCGM 100 :2008 http ://www.bipm.org/utils/common/documents/jcgm/jcgm 100 2008 F.pdf
Propagation des incertitudes Propagation des variances Exemples - variables indépendantes Quelques exemples de propagation d incertitudes pour des variables non corrélées : Y a X 1 + b X 2 u Y = a X 1 X 2 u Y /y = u Y a 2 u 2 X 1 + b 2 u 2 X 2 (u X1 /x 1 ) 2 + (u X2 /x 2 ) 2 exp(x ) u Y /y = u X log 10 (X ) u Y = 1 ln(10) u X /x
Propagation des incertitudes Propagation des variances Exemples - variables corrélées On s intéresse ici à la différence de deux variables Y = X 1 X 2. La formule standard nous donne u Y = ux 2 1 + ux 2 2 2 cov(x 1, X 2 ) avec cov(x 1, X 2 ) = u X1 u X2 corr(x 1, X 2 ). Illustration (Hyp. : u X1 = u X2 ) corr(x 1, X 2 ) -1 0 1 u Y 2 u X1 2 ux1 0
Propagation des incertitudes Propagation des variances Exemples - variables corrélées On remarquera que, compte tenu des limites du coefficient de corrélation, on vérifie toujours 0 u Y = u 2 X 1 + u 2 X 2 2 u X1 u X2 corr(x 1, X 2 ) u X1 + u X2 Plus généralement 0 u Y i Y X i u Xi xi La combinaison des incertitudes fournit donc seulement une limite supérieure absolue à l incertitude-type obtenue par la combinaison des variances, et non une estimation de cet écart-type.
Propagation des incertitudes Propagation des variances Combinaison des variances vs. combinaison des incertitudes Pourquoi on n utilise pas une formule de la forme u Y = i Y xi X i u Xi pour combiner des erreurs aléatoires? Théorème de la limite centrée : la somme de variables aléatoires indépendantes et de variance finie converge vers une loi Normale. X 1
Propagation des incertitudes Propagation des variances Combinaison des variances vs. combinaison des incertitudes Pourquoi on n utilise pas une formule de la forme u Y = i Y xi X i u Xi pour combiner des erreurs aléatoires? Théorème de la limite centrée : la somme de variables aléatoires indépendantes et de variance finie converge vers une loi Normale. X 1 + X 2
Propagation des incertitudes Propagation des variances Combinaison des variances vs. combinaison des incertitudes Pourquoi on n utilise pas une formule de la forme u Y = i Y xi X i u Xi pour combiner des erreurs aléatoires? Théorème de la limite centrée : la somme de variables aléatoires indépendantes et de variance finie converge vers une loi Normale. X 1 + X 2 + X 3
Propagation des incertitudes Propagation des variances Combinaison des variances vs. combinaison des incertitudes Pourquoi on n utilise pas une formule de la forme u Y = i Y xi X i u Xi pour combiner des erreurs aléatoires? Théorème de la limite centrée : la somme de variables aléatoires indépendantes et de variance finie converge vers une loi Normale. X 1 +... + X 6
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) 1 Représentation des paramètres incertains par des densités de probabilités 2 Génération d un échantillon aléatoire représentatif des paramètres 3 Pour chaque point de l échantillon, calcul de la valeur du modèle 4 Analyse statistique de l échantillon des valeurs du modèle Réf. : Evaluation of measurement data Supplement 1 to the Guide to the expression of uncertainty in measurement. JCGM 101 :2008. http ://www.bipm.org/utils/common/documents/jcgm/jcgm 101 2008 E.pdf
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) Réf. : Evaluation of measurement data Supplement 1 to the Guide to the expression of uncertainty in measurement. JCGM 101 :2008. http ://www.bipm.org/utils/common/documents/jcgm/jcgm 101 2008 E.pdf
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) g {x1,...,x n}(ξ 1, ξ 2,..., ξ n ) { }} { F ξ (1) 1 ξ (1) 2... ξ n (1) η (1) ξ (2) 1 ξ (2) 2... ξ n (2) η (2).... ξ (m) 1 ξ (m) 2... ξ n (m) η (m) g y (η)
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) g {x1,...,x n}(ξ 1, ξ 2,..., ξ n ) { }} { F ξ (1) 1 ξ (1) 2... ξ n (1) η (1) ξ (2) 1 ξ (2) 2... ξ n (2) η (2).... ξ (m) 1 ξ (m) 2... ξ n (m) η (m) g y (η)
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) g {x1,...,x n}(ξ 1, ξ 2,..., ξ n ) { }} { F ξ (1) 1 ξ (1) 2... ξ n (1) η (1) ξ (2) 1 ξ (2) 2... ξ n (2) η (2).... ξ (m) 1 ξ (m) 2... ξ n (m) η (m) g y (η)
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) g {x1,...,x n}(ξ 1, ξ 2,..., ξ n ) { }} { F ξ (1) 1 ξ (1) 2... ξ n (1) η (1) ξ (2) 1 ξ (2) 2... ξ n (2) η (2).... ξ (m) 1 ξ (m) 2... ξ n (m) η (m) g y (η)
Propagation des incertitudes Propagation des distributions Propagation des distributions par Monte Carlo p(f (x) = y) = dx δ(f (x) y) p(x) g {x1,...,x n}(ξ 1, ξ 2,..., ξ n ) { }} { F ξ (1) 1 ξ (1) 2... ξ n (1) η (1) ξ (2) 1 ξ (2) 2... ξ n (2) η (2).... ξ (m) 1 ξ (m) 2... ξ n (m) η (m) g y (η)
Analyse de sensibilité Analyse de sensibilité Aprés avoir évalué l incertitude de prédiction du modèle, on peut vouloir la réduire. Pour cela, on doit déterminer la contribution de chaque paramètre incertain à la variance des résultats du modèle il est général impossible d apporter plus de précision à tous les paramètres du modèle on peut ainsi cibler les paramètres les plus importants à affiner (paramètres clés), par de nouvelles expériences ou études théoriques
Analyse de sensibilité Analyse de sensibilité locale Cette analyse se base sur la partition de la variance de prédiction à partir de la formule de propagation des variances basée sur une approximation linéaire du modèle u 2 Y = i ( F X i ) 2 x i u 2 X i + i j ( ) F X i x i ( ) F X j x j cov(x i, X j ) Difficile à mettre en place si les paramètres d entrée sont corrélés (faire des groupes). Dans le cas de paramètres indépendants la contribution de chaque ( ) 2 F paramètre est X i ux 2 x i, qui dépend de deux contributions i la dérivée première du modèle par rapport au paramètre, évaluée au 2 F point moyen X i x i la variance du paramètre u 2 X i
Analyse de sensibilité Analyse de sensibilité globale L analyse de sensibilité locale est peu fiable pour les modèles non-linéaires en fonction des paramètres incertains pour les grandes incertitudes (typiquement supérieurs à 10 %) Il existe plusieurs méthodes d analyse de sensibilité globale [Saltelli et al. (2000) Sensitivity Analysis, Wiley], basées ou non sur des échantillons aléatoires. En combinaison avec la propagation des incertitudes par Monte Carlo, la plus simple est basée sur l estimation des coefficients de corrélation corr(y, X i ) à partir des échantillons déjà générés si les valeurs du modèle sont faiblement corrélées à celle d un paramètre, c est que celui-ci a peu d influence
Analyse de sensibilité Analyse de sensibilité globale ɛ B = DO B /(c B L)
Exemples La combustion du méthanol Le problème
Exemples La combustion du méthanol Exemple de données cinétiques 93 réactions, 18 espèces
Exemples La combustion du méthanol La méthode 1 Echantillonnage Monte Carlo des paramètres incertains (distributions uniformes dans [k 0 /F, k 0 F ]) 2 Calcul de l échantillon de la propriété cible (le temps d ignition) 3 Identifiaction des paramètres-clés 4 Calcul ab initio des vitesses des réactions-clé (F = 2) 5 Goto 1 jusqu à convergence de la propriété cible
Exemples La combustion du méthanol Non-linéarité du modèle
Exemples La combustion du méthanol Analyse de sensibilité
Exemples La combustion du méthanol Evolution de l importance d un paramètre clé
Exemples La combustion du méthanol Evolution de l importance d un paramètre clé
Exemples La combustion du méthanol Evolution de l importance d un paramètre clé
Exemples La combustion du méthanol Evolution de la fidélité de prédiction
Exemples La combustion du méthanol Evolution de la fidélité de prédiction
Exemples La combustion du méthanol Illustration
Exemples La combustion du méthanol Illustration
Exemples La combustion du méthanol Illustration
Exemples Incertitudes en extrapolation linéaire Les données expérimentales -23.6-23.8 y=ln k(t) -24-24.2-24.4-24.6-24.8 210 220 230 240 250 260 270 280 290 300 T / K Réf. : N( 2 D) + C 2 H 4 [Sato et al. (1999) J. Phys. Chem. A 103 :8650-8656]
Exemples Incertitudes en extrapolation linéaire Calibration d une loi d Arrhenius Représenter la variation de la vitesse de réaction en fonction de T par une loi d Arrhenius k A (T ) = A exp( E/T ) Linéarisation du modèle et x = 1/T ln k A (T ) = ln A E/T = α + βx Problème de régression linéaire standard. Si on note χ 2 = i σ 2 i (y i α βx i ) 2 le problème revient à rechercher les valeurs de α et β minimisant χ 2, et leurs incertitudes
Exemples Incertitudes en extrapolation linéaire Régression linéaire Par la méthode des moindres carrés pondérés, on obtient β = ˆβ ± σ β = α = ˆα ± σ α = x 2.y x.xy x 2 x 2 ± xy x.y x 2 x ± 1 2 (x 2 x 2 ) i σ 2 i x 2 (x 2 x 2 ) i σ 2 i avec un coefficient de corrélation ρ = x/ x 2, et où on note z = σ 2 i z i / σ 2 i. Refs : Saporta, Bevington, Gowan...
Exemples Incertitudes en extrapolation linéaire Extrapolation à basse température On applique la loi de propagation des variances < ln k A (T ) >= ˆα + ˆβx(T ) u ln ka (T ) = = σα 2 + x(t ) 2 σβ 2 + 2x(T )σ ασ β ρ σα 2 + σβ 2 /T 2 2σ α σ β ρ/t
Exemples Incertitudes en extrapolation linéaire Importance de la corrélation des paramètres ln A E a/r (K) Best fit -22.222 504 E. Hébrard et al., J. Phys. Chem. A 113 :11227-11237 (2009)
Exemples Incertitudes en extrapolation linéaire Importance de la corrélation des paramètres ln A E a/r (K) Correl Sato et al. (1999) -22.193 ± 0.13 503 ± 50 n/a E. Hébrard et al., J. Phys. Chem. A 113 :11227-11237 (2009)
Exemples Incertitudes en extrapolation linéaire Importance de la corrélation des paramètres ln A E a/r (K) Correl Réanalyse -22.222 ± 0.66 504 ± 170 0.996 E. Hébrard et al., J. Phys. Chem. A 113 :11227-11237 (2009)
Exemples Incertitudes en extrapolation linéaire La loi d Arrhenius n est pas universelle O( 3 P) + alkenes : Sabbah et al. (2007) Science 317 :102-105.
Conclusions Conclusions les incertitudes paramétriques sont importantes dans de nombreux modèles leur gestion avec des méthodes raisonnées permet d apprendre beaucoup sur le modèle c est une étape nécessaire pour envisager la comparaison avec des expériences