$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le cadre de la calibration moteur, des essais sur banc sont effectués afin de rechercher un réglage optimum apportant le meilleur compromis entre pollution, consommation et agrément de conduite. Le coût des mesures, la complexité des moteurs notamment Diesel et les contraintes de temps de mise au point de plus en plus serrées ont naturellement orienté les ingénieurs d essais vers la démarche plans d expériences et plus généralement encouragés le déploiement des méthodes statistiques adéquates. Pour cela, la méthode de génération de plan d expérience de type space-filling et de construction de modèle de Krigeage (ou Stochastic Model Process) avec erreur de mesure permettant de modéliser des comportements non linéaires des réponses (polluant, bruit interne moteur ) a été déployée. De plus, afin de d éviter quelques désagréables surprises en terme de capacité prédictive du modèle, cet article décrit les différentes étapes à suivre pour le rendre le plus robuste possible..h\:rugv.uljlqjprghovsdfhiloolqjghvljqydolgdwlrqsrlqwvsrzhuwudlqfdoleudwlrq $EVWUDFW For the powertrain calibration, test runs on a test bench are carried out to find the best settings that bring the best compromise between pollution, consumption and noise. Design of Experiment approach and more generally the deployment of the adequate statistics methods has been chosen by the test engineer because of the measurement cost, the increasing complexity of diesel engines and the time constraints of development. In this context, space filling design and Kriging model approach which allow to modelize nonlinear trends of pollutants was deployed. Furthermore, to avoid any model prediction s surprises, different steps are describes for keeping the assessing of the model as robust as possible.
0RGqOHGHNULJHDJHDYHFHUUHXUGHPHVXUH Le modèle de krigeage classique interpolant les mesures ne répond pas à la problématique de modélisation des mesures polluantes, en effet sur banc d essai, l erreur de mesure est non-négligeable. 'HVFULSWLRQGXPRGqOH Le modèle est de la forme : Y(x) = moyenne nulle. X(x) β Régression linéaire + Γ(x), Processus résiduel H[ où e(x) est un terme indépendant de Γ(x) de ;[E (><[@ est la partie déterministe du modèle, on peut la choisir constante. *[ est un processus aléatoire, introduit pour tenir compte du résidu de l'approximation, il sert à corriger la prédiction en moyenne. Il permet de combler l écart systématique qui existe entre la réponse moyenne présumée (modélisée par la régression linéaire ou polynomiale) et les observations, et ainsi de tenir compte de l information locale autour du point de prédiction x. H[ est un terme d'erreur introduit pour prendre en compte l erreur de mesure du phénomène mesuré. Il est indépendant de Γ(x), tel que x [-1,1] d, u [-1,1] d. E [ e(x) ] = 0 HW cov( e(x),e(u) ) σe δ xu = C'est donc un modèle avec terme d'erreur qui intervient ici. Celui-ci est utilisé dans le cadre des expériences simulées, notamment par 6DFNV HW DO. (1989). Un prédicteur sans terme d'erreur interpole les observations, il va donc prédire la réponse d un simulateur et non pas le phénomène simulé. Or dans le contexte de modélisation de mesure de polluant le modèle en interpolation n est pas adapté. On introduit en fait une HUUHXUGHPHVXUH pour prédire le phénomène mesuré. )RUPXOHVGXPRGqOH&KULVWHQVHQ 6RLWOHSDUDPqWUH η FRY = σ σ e ( < [ < X ) RQGpILQLWDORUVODIRQFWLRQGHFRYDULDQFH ( + η 5 [X ) σ 1 = σ 9 [X = σ η 5 [X [ = X [ X 6LOHYHFWHXUGHVSDUDPqWUHVHVWHVWLPDEOHDORUVOHPHLOOHXUSUpGLFWHXUOLQpDLUHVDQVELDLVGH<[HVW GHODIRUPH < Ö Ö [ = ; [ β + η U [ 9 1 ( < ; Ö β ) x []
Ö 1 1 DYHF β = ( ;9 1 ; ) ;9 < OHVWLPDWHXUGH*DXVV0DUNRYGHβR9HVWODPDWULFHFDUUpHGRUGUH 1jpOpPHQWV9[ [ 3DUDPqWUHVGHFRUUpODWLRQ Il est possible d introduire un coefficient de corrélation à plusieurs dimensions. Dans le modèle de krigeage sans terme d erreur la fonction de corrélation ne dépendant que d un seul paramètre de corrélation T ( θ [ ) 5 ( [, X ) = exp [ X θ = exp X = 1 Il est possible d associer un paramètre de corrélation propre à chaque facteur (les TM) et de mettre la puissance de la valeur absolue comme paramètre variable (les ν j ) : (, ) = exp θ = 1 Il y a donc dans ce cas, ( * d) +1 paramètres à estimer &HVSDUDPqWUHVjHVWLPHUGpWHUPLQHODIRUPHGHODVXUIDFHGHUpSRQVHGXPRGqOH (VWLPDWLRQGHVSDUDPqWUHVGHFRUUpODWLRQGXPRGqOH Ces paramètres de corrélation sont estimés par maximum de vraisemblance. Il s agit de maximiser l expression suivante : Avec 3 9 ±9 ;; 9 ; ORJ_9_QORJ< 7 3 < ; 9 Cette maximisation est effectuée actuellement sous MATLAB par un algorithme d optimisation SQP (Sequential Quadratic Process). Le temps de calcul dépend bien sûr de la taille de la matrice d entrée. De plus un nombre important de facteur complexifie d autant plus la forme de la surface de réponse du maximum de vraisemblance, afin d éviter tant que possible les minimums locaux, plusieurs optimisation sont lancées successivement à partir de point de départ aléatoirement choisis dans l espace en d+1 dimensions. De plus il s agit d une optimisation sous contraintes car les paramètres θj,η² et ν j sont limités à certain domaine de variation considéré comme probable au vu du phénomène étudié. Des contraintes sur les paramètres θj et η² ainsi que pour les puissances ν j sont nécessaires durant l optimisation afin d éviter d obtenir un modèle proche de l interpolation.
,PSRUWDQFHGHVYDOHXUVDEHUUDQWHVSRXUFHW\SHGHPRGqOH Ce type de modèle non-paramètrique étant très proche des points d essai, une mesure aberrante aura tendance à modifier de manière non négligeable la surface de réponse jusqu à la faire tendre vers un modèle en interpolation (sur-apprentissage du modèle) déformant ainsi de manière conséquente la surface de prédiction multidimensionnelle. Un travail important est donc à effectuer en amont de la modélisation par les personnes compétentes pour l interprétation des résultats des essais. Ce type d étape est sûrement moins fondamental lorsqu on utilise des méthodes des moindres carrés plus robustes aux valeurs aberrantes. Pour les mêmes raisons, une précaution particulière sur les essais répétés pour deux points de simulation très proches le prédicteur peut devenir très instable. /HVSODQVG H[SpULHQFHVVSDFHILOOLQJ Dans l optique d utiliser des modèles plus évolués, les plans SPACE-FILLING ont la particularité de minimiser le risque de laisser une partie du domaine expérimental non testée où la qualité du modèle est potentiellement plus faible. Le but de ces plans est de couvrir au maximum le domaine de variation des facteurs afin de trouver une prédiction la plus juste possible de la surface de réponse réelle et afin de tester par les essais toutes les parties de [-1,1] d. Ce type de plan peut permettre la compréhension de réponses ayant des comportements non-linéaires que les modèles polynomiaux ne font qu ajuster. Pour la génération de nos plans, nous avons utilisé deux types de plan space-filling : Les LATINS HYPERCUBES DESIGN (LHD) et les plans S-OPTIMUM Figure 1: Plan s-optimum obtenus (5 points et facteurs)
9DOLGDWLRQGXPRGqOH &KRL[GHVSRLQWVGHYDOLGDWLRQV Comment savoir si mon modèle est prédictif en dehors des points d essai? La méthode de validation croisée peut d avérer coûteuse pour ce type de modèle de plus, comme nous l avons dit précédemment, l intervalle de confiance du modèle de krigeage est très faible au voisinage des points d essai, il est donc indispensable de choisir des points de validations judicieusement choisis : )LJXUH: Plan s-optimum 5 points () et facteurs +10 points de validation () On construit dans le processus d essai une série de points de validation servant à mesurer sa capacité prédictive. Ces points de validations sont obtenus de manière à être le plus éloigner possible des points d essais dans l espace donc ce sont des points difficiles à prédire à priori. Un algorithme permet de tester une série de candidats et de sélectionner un nombre n de points les plus éloignés. Cette méthode est nécessaire mais pas suffisante car dépendante du nombre de points de validations dont peut disposer l utilisateur et de leur localisation. Il faut préciser que l estimation des paramètres du krigeage ne prend à aucun moment en compte ces points de validation mais se base uniquement sur la matrice de donnée initiale ce qui n est pas le cas lors de la construction d un réseau de neurone par exemple qui se base sur la qualité des prévisions sur un jeu de validation pour construire le modèle le plus performant. Si les prévisions du modèle sur le jeu de validation donnent satisfaction, celui-ci peut être concaténé à la matrice initiale d essai afin de construire un autre modèle de krigeage plus complet.
&RQFOXVLRQ La modélisation de phénomènes complexes par l intermédiaire d un modèle non-linéaire peut apporter une précision supplémentaire non négligeable. Le modèle de krigeage répond à cette spécificité et sa construction est relativement peu onéreuse comparée à d autres méthodes type Réseau de Neurone où la période d apprentissage peut s avérer coûteuse. Cependant afin de s assurer du meilleur ajustement possible, certaines précautions doivent être prises comme le choix de point de validation judicieusement disposé dans l espace expérimental afin de tester la capacité prédictive du modèle. Le post-traitement des essais est aussi une étape importante du processus et nécessite la compétence d un technicien ou d un ingénieur ayant toutes les compétences pour évaluer la pertinence des mesures. Si le coût des essais s avère trop important, l utilisation des plans d expériences VSDFH ILOOLQJV est conseillée, d autres plans plus classiques comme les D-optimaux seront moins efficaces car proposant plus de points au bord du domaine. La méthode proposée par Astrid Jourdan de commencer l approche par un plan en carré latin puis compléter si nécessaire l espace par d autres points d essai, peut-être un bon compromis. Le modèle de krigeage pour la modélisation et l optimisation des émissions polluantes sur moteur a été validée mais reste encore du ressort des statisticiens car difficile à mettre en œuvre par des non-spécialistes en statistique. Références bibliographiques «Analyse statistique et échantillonnage d'expériences simulées» A.JOURDAN «Designs for computer experiments» SACKS J., SCHILLER S.B., WELCH «Uniform Coverage Designs for Molecule Selection» WELCH WJ. «Algorithmic construction of optimal symmetric Latin hyper cube designs»