Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui 3, F. Dugardin 4 1,3,4 Institut Charles Delaunay, LOSI, Université de Technologie de Troyes, 12 rue Marie Curie, BP 2060, 10010 Troyes Cedex, France, {andres.bernate_lara 1, farouk.yalaoui 3,frederic.dugardin 4 }@utt.fr 2 OSIRIS, Groupe SOUFFLET, rue de la Poterne à Sel, 10400 Nogent sur Seine, France, fentzmann@soufflet-group.com Résumé- L utilisation de modèles prédictifs est très courante dans les industries biochimiques principalement carleurs processus de production incluent des réactions chimiques qui parfois ne peuvent pas être complétement contrôlés. Cet article propose une méthodologie pour la construction d un modèle prédictif efficace pour un cas réel. Mots clefs Modèle mathématique, métaheuristique, modèle prédictif, production biochimique, cas appliqué Abstract Using predictive model is acommon activity in biochemical industries, basically due to the complexity of the production process that includes chemical reactions which parameters are not alwayscontrolled. This article proposes a predictive construction efficient model method applied to a real case. Key words Mathematical model, metaheuristic, predictive model, biochemical production, applied case I. INTRODUCTION Cet article traite du problème de la création et l amélioration d un modèle prédictif à utiliser pour l estimationde la valeur d un paramètre de production difficile à mesurer. Cette étude a été effectuée sur un cas réel, dans une industrie biochimique. Ce type d industrie est caractérisé par le fait que, outrequelques réactions chimiques connues, un nombre important de paramètres ne sont pas suivis, soit parce qu ils sont difficilesà mesurer, soit parce que leur impact sur le rendement du produit est inconnue [3].Différentes procédures sont instaurées pour contrôler et suivre certains paramètres, mais pour ceux qui n ont pas une procédure définie, une estimation est souvent utilisée. L objectif de cette étude est de fournir un modèle d estimation pour un paramètre qui ne peut pas être mesuré en temps réel et dont la variation influesur le rendement de la production d un produit biochimique. Ce modèle est construit à partir d un historique de données qui ont été collectées pendant plus de 2 ans. Cet article est construit d après les sections suivantes : dans la deuxième partie, les données sont caractérisées et répertoriées. Ensuite, le modèle est défini, et une méthodologie de construction est proposée, en expliquant ses points fondamentaux. Une deuxième méthode est introduite. Cela est une méthode classique mais elle sert comme point de comparaison. Les résultats et les conclusions finissent l article. II. LA COLLECTE DES DONNEES Deux types de données sont à considérer. Les deux données sont des variables mesurées sur le système de production. La première variable est un paramètre qui 25
A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin est contrôlé selon une politique qui est propre au système de production. Cette variable est mesurée sans aucune difficulté particulière. Elle est donc vérifiée régulièrement. Dans le cas de cette étude nous considérons qu elle est maîtrisée. Nous l appellerons désormais «variable indépendante». Chaque mesure de cette variable est composée d une série de points. Un vecteur est utilisé pour représenter les valeurs de cette variable. =,,,,,,,, (1) L équation (1) montre l exemple d un vecteur de la variable indépendante, avec n le nombre de points par mesure, et, le point j du vecteur (ou mesure) i. La deuxième variable est un paramètre de production qui n est peut pas être contrôlé directement, mais qui varie en fonction d autres paramètres. Mesurer cette variable est difficile et nécessite de longs temps de traitement. La lenteur de la mesure de ce paramètre, empêche de maîtriser ce paramètre qui a une influence importante sur la qualité du produit final. Désormais, nous appellerons cette variable «variable dépendante». Ce paramètre est mesuré avec une seule valeur. Cette variable sera représentée par, avec i l identifiant de la mesure. Les données seront donc représentées par ces deux types de variables. Les deux paramètres sont mesurés sur le même échantillon. Le modèle prédictif doit prendre chaque vecteur de la variable indépendante, et lui associer une valeur estimée de la variable dépendante, la plus proche de la valeur réelle. = i (2) III. MODELE MATHEMATIQUE Le modèle prédictif cherché est un modèle linéaire qui permet, à partir des variables indépendantes, d estimer une valeur pour le paramètre que nous souhaitons contrôler. Le choix de ce modèle a été influencé par le fait que nous disposons d un grand nombre de variables indépendantes pour calculer une seule valeur du paramètre étudié. Ce nombre de variables est accompagné d un nombre aussi important de données historiques. =, +, +, + +, (3) Historiquement, des méthodes de classement sont utilisées, [2]pour estimer la valeur par rapport aux similitudes avec des ensembles de données pour lesquelles nous connaissons la valeur du paramètre étudié. Pour réduire l impact du bruit présent dans les données utilisées dans la modélisation, des méthodes du type réseau neuronal sont souvent utilisées [4]. IV. METHODEDE CONSTRUCTION DU MODELE MATHEMATIQUE BLYD Pour contrôler le bruit présent sur les données historiques, et ainsi réduire son effet sur le modèle mathématique cherché, nous proposons une méthodologie qui fonctionne sur le principe de sélection des données. Nous appellerons cette méthode BLYD. Pour notre méthodologie, nous partons de l hypothèse que le bruit vient de certaines données.par conséquent si nous ne prenons pas en compte ces données dans la modélisation, nous arriverons à construire un modèle mathématique plus Etude d un cas industriel : Optimisation de la modélisation de paramètre de production 26
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production efficace. Cela se réduit à ne pas prendre en compte certaines données et construire un modèle mathématique avec les données restantes. Nous fixons la taille des ensembles de modélisation et des données écartées selon le paramètretaux de modélisation. Ce taux indique le pourcentage des données à utiliser dans la construction du modèle.les données restantes ne sont pas prises en compte.le taux de modélisation peut varier. Il représente la quantité de données qui doivent être prises pour le modèle. Etant donné que l information dont nous disposons ne nous permet pas d identifier quelles sont les données les plus affectées par le bruit, et que le nombre de données est assez important, notre méthodologie cherche d une manière heuristique à identifier les données à ignorer. Cela se traduit par une recherche combinatoire dont l objectif est de trouver l ensemble des données qui produit le modèle le plus efficace. La méthodologie heuristique proposée est construite sur le principe des algorithmes génétiques, lesquels ont été utilisés pour résoudre ce type de problèmes combinatoires. Cette métaheuristique a montré de bons résultats dans la résolution des problèmes industriels comme [1]. Les algorithmes génétiques sont des méthodes fondés sur le principe de la sélection naturelle, qui indique que pour un ensemble d individus, ceux qui ont les meilleures caractéristiques pour survivre, ont plus de chances de passer leurs gènes pour la génération suivante. Ainsi, après la fin des générations, normalement les éléments qui restent ont les meilleures caractéristiques pour survivre. L application de ce principe sur notre cas, se traduit par le fait que nous arrivons à identifier, après un nombre de générations définis, les données qui sont les moins affectées par le bruit, qui engendrent donc un modèle efficace. Les éléments fondamentaux de la méthodologie des algorithmes génétiques sont décrits ci-après. 1. Représentation de la solution Dans le cas de cette étude, nous avons choisi d utiliser un vecteur binaire lequel permet la construction de la solution complète sans risque d ambigüité. Le vecteur binaire nous fournit les informations sur quelles sont les données (ou échantillons) que nous devons utiliser dans la modélisation, et quelles sont celles que nous devons ignorer. Un exemple de la représentation utilisée est dans la Figure 1. Ce vecteur indique avec un 1 si la donnée correspondante doit être utilisée dans la modélisation ou 0 sinon. Les données sont rangées par rapport à leurs identifiants, qui est un numéro entier croissent. Le nombre de données (ou échantillons) sélectionnées pour la construction du modèle doit correspondre à la valeur donnée par le Taux de modélisation fixé. 2. Population initiale Les algorithmes génétiques partent d un ensemble de solutions initialesque nous appellerons population initiale. Cet ensemble doit être le plus représentatif possible pour ne pas biaiser la recherche de solutions. Nous utilisons une méthode aléatoire pour construire la population initiale. Nous imposons la contrainte que toutes les données doivent être sélectionnées au moins dans une des solutions de la population initiale.enfin, la méthodologie aléatoire est construite sur une distribution uniforme. A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin 27
A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin Afin que les solutions soient valides, chacune doit sélectionner une seule fois le même vecteur de variables indépendantes. Une deuxième condition donne le nombre de 1 dans chaque vecteur. Cette valeur est donnée par le taux de modélisation. Id. Donnée 102436 102437 102551 102552 102553 102601 111111 Valeur binaire 0 1 0 1 1 1 0 Données à prendre pour la calibration du modèle Fig. 1. Exemple de représentation de la solution 3. Croisement et mutation A partir des données initiales, nous devons trouver de nouveaux individus (des nouvelles solutions). Pour cela, nous utilisons les deux types de mouvements utilisés normalement pour les algorithmes génétiques : le croisement et la mutation. Le croisement suppose qu en accouplant deux bonnes solutions, nous devons obtenir une nouvelle solution, qui a de fortes chances d être meilleure que ses prédécesseurs. Un opérateur de croisement doit être défini pour structurer la manière d accoupler les deux solutions sources, que nous appellerons «parents».la procédure de croisement est décrite ci-dessous: - Sélection des parents : les parents sont choisis par rapport à sa fonction de performance (expliquée après). - Couplage à un point : la structure de la représentation de la solution nous permet de réaliser l accouplement avec un seul point. Ce point d intersection est choisi aléatoirement. Le nouveau élément est constitué des gènes du parent 1 jusqu au point d intersection. Le nouvel individu est complété avec les gènes du parent 2 à partir du point d intersection. - Correction de la solution : dans le cas où la nouvelle solution ne soit pas faisable, nous effectuons un procédé pour la corriger de manière aléatoire. Un exemple d application est donné dans la Fig. 2, pour un problème avec 9 échantillons, parmi lesquels 5 sélectionnés pour la construction du modèle mathématique. La Fig. 2 n inclut pas le processus de correction qui rend la solution faisable. L objectif du croisement est d intensifier la recherche sur les solutions qui ont montré de bonnes performances. La mutation cherche à créer des nouvelles solutions en introduisant des nouveaux gènes. Un opérateur doit être aussi défini pour effectuer la mutation. L objectif est de diversifier la population. La procédure pour effectuer la mutation est décrite ci-dessous: Etude d un cas industriel : Optimisation de la modélisation de paramètre de production 28
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production - Sélection des parents : les parents sont choisis par rapport à sa fonction de performance (expliquée après). - Mutation sur intervalle : la mutation par intervalle cherche à définir un intervalle pour modifier les valeurs de la solution parent. Deux valeurs sont trouvées aléatoirement, la première donne le premier point de cet intervalle; la deuxième sa fin. Les éléments compris entre ces deux points sont échangés. Fig. 2. Exemple de l opérateur de croisement La Fig. 3 donne un exemple d application de l opérateur de mutation pour un cas avec 9 échantillons disponibles et 5 échantillons à utiliser pour modéliser. Fig. 3. Exemple de l opérateur de mutation Les opérateurs de croisement et mutation ont été choisis par sa facilité d application et ses performances pour créer de nouveaux individus. 4. Evaluation de la solution Les solutions de la population initiale comme celles créées avec le croisement et la mutation sont évaluées. Cette évaluation consiste à trouver un modèle mathématique et à calculer un indicateur de performance. Le modèle mathématique est créé avec une méthode de minimisation de l erreur carré, comme il est décrit sur équation (4), avec p le nombre total de vecteurs de variables indépendantes. ( i ) (4) i =, (5) La solution du système de p équations est le vecteur des coefficients, qui est composé des différents coefficients de l équation (3). Etant donné que le nombre de données est plus grande que nombre de coefficients, cesystème d équations peut être résolu avec l équation (6). = ( ) (6) A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin 29
A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin L équation (6) est composée des termes, et, qui sont respectivement la matrice des vecteurs sélectionnés pour construire le modèle, la matrice transposée de X, et le vecteur des valeurs réelles des données sélectionnées pour la modélisation. 5. Sélection des parents Pour sélectionner les parents qui vont engendrer des nouvelles solutions, nous utilisons la méthode sélection de la roulette de sélection. Ainsi, chaque élément de la population de parents est associé à une probabilité de sélection. Plus le parent est performant, plus il aura de chances d être sélectionné pour engendrer un ou plusieurs éléments de la génération suivante. La probabilité de sélection est calculée avec la performance trouvée lors de l évaluation de la solution. = ( ( i ) (7) = 1 (8) Où ( ) i est la valeur estimée pour la mesure i avec le modèle trouvé selon la solution k. Les parents sont sélectionnés avec un numéro aléatoire entre 0 et la valeur maximal des probabilités accumulées. Pour le croisement, la sélection de parents est contrainte de donner deux parents différents. 6. Critère d arrêt L algorithme génétique a été construit avec deux critères d arrêt : le nombre de générations et le temps depuis la dernière solution qui a amélioré le critère de performance. La méthode proposée cherche l ensemble de données qui minimise la somme des erreurs carrées sur toutes les données disponibles (même celles qui n ont pas été prises pour la construction du modèle). V. METHODE CONSTRUCTION DU MODELE PAR MINIMISATION DE L ERREUR CARREE SIMPLE Une deuxième méthodologie de solution est proposée. L objectif est de comparer les performances de la méthode BLYD avec cette méthode. La minimisation de l erreur carrée simple, utilise toutes les données disponibles pour en construire un modèle mathématique, en effectuant une minimisation de l erreur carrée. = ( ) (9) Cette méthode utilise une matrice X qui a la même forme que celle utilisé par la méthode BLYD, mais qui est composée de toutes les données disponibles. VI. METHODE D EVALUATION DES MODELES L objectif de cet article est de fournir une méthodologie pour construire un modèle prédictif, c est-à-dire d un modèle qui peut calculer une valeur estimée pour le paramètre étudié même sur des mesures d échantillons différentsde ceux utilisées pour la construction du modèle. Etude d un cas industriel : Optimisation de la modélisation de paramètre de production 30
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Pour assurer une performance maximale lors de la prédiction de la valeur du paramètre étudié, le modèle prédictif construit avec la méthode BLYD a été testée sur des échantillons inconnus par la méthode. Idem pour le model construit avec la méthode simple décrite dans la section V. VII. TESTS ET RESULTATS Les deux méthodologies proposées ont été programmées sur le langage de programmation orienté objet PYTHON. Les tests ont été effectués sur un ordinateur portable sur la plateforme Windows 7, avec un processeur Intel i5 et 4 gigaoctet de RAM. Les données utilisées pour les tests sont des valeurs réelles prises sur deux processus de contrôle du système de production. Les variables indépendantes sont le résultat d une analyse de l empreinte biologique des échantillons de contrôle. La variable dépendante est issue de l analyse d une caractéristique physique de l échantillon qui nécessite des long temps de préparation pour être mesurée. L impact d ignorer la valeur de cette variable lors de la production, est très significatif. Au total nous disposons de 757 échantillons. Le nombre de variables indépendantes par échantillon n varie entre 100 et 300, selon la précision souhaitée de la mesure de cette variable. L impact du nombre de variables indépendantes par échantillon est montré dans les résultats. Un coefficient est ajouté dans l algorithme BLYD pour éviter les matrices singulières. L équation (6) est donc remplacé par : = ( + ) (10) Empiriquement nous avons fixé la valeur de à 0.0001. La méthode BLYD a été paramétrée selon le Tableau 1.Ces paramètres ont été établis dès le début de la programmation. Tableau 1. Paramètres de l algorithme BLYD D autres opérateurs de croisement et de mutation ont été testés sans aucune amélioration. Des méthodes alternatives à la phase de correction ont été aussi A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin 31
A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin testées. L objectif étant de réduire le temps de résolution, les nouveaux individus ont été construit sans avoir risque de trouver des solutions infaisables. Trois indicateurs ont été choisis pour sélectionner la meilleure configuration et améliorer les résultats donnés par la méthode de minimisation de l erreur carrée. Ces indicateurs ont été mesurés sur les deux ensembles de données décrits dans la section VI. Parmi les 757 données, 80% ont été utilisés par les méthodologies de construction, tandis que les 20% restant composent l ensemble d évaluation de prédiction. A. Somme des erreurs carrées Nous utilisons le même critère de performance que celui utilisé pendant la phase d optimisation de l algorithme BLYD, la somme des erreurs carrées. Deux valeurs peuvent être ainsi calculées, chacun sur l un des deux ensembles de données proposés dans la section VI. Le premier sur l ensemble utilisé pour la construction du modèle. Le deuxième critère est calculé sur les données restantes. Nous ferons référence à l erreur carrée avec (80%)ou (20%). B. Coefficient de corrélation de Pearson Le coefficient de corrélation de Pearson est le coefficient le plus souvent utilisé. Il est calculé avec l équation (11) : ( ) =, = (, ) (11) Cette équation donne une valeur à la relation entre les valeurs réelles de la variable indépendante et les valeurs estimées sur l ensemble de données. Ce coefficient est calculé sur les deux ensemble des données décrits (80%)et (20%). C. Erreur maximale absolue Sur l ensemble de données utilisées dans la modélisation, nous calculons l erreur maximale commise. Nous pouvons également calculer cette même valeur pour l ensemble d évaluation de la prédiction des modèles. Ainsi deux indicateurs sont fournis (80%)et (20%). ( ) = i (12) Le Tableau 2 montre les résultats obtenus par rapport aux indicateurs expliqués auparavant.. Trois valeurs sont proposées pour le Taux de modélisation de l algorithme BLYD : 0.8, 0.9 et 0.95.De ce fait, le pourcentage d échantillons à ignorer est donc 20%, 10% et 5%. Trois nombre de variables n sont testés : 100, 200 et 300. Ce tableau montre que la méthode BLYD obtient les meilleurs résultats en utilisant le taux de modélisation égal à 0.8. C est-à-dire, 20% des données disponibles pour la modélisation ont été identifiées comme en étant très affectées par le bruit, et donc elles n ont pas été prises pour la construction du modèle prédictif. Le Tableau 3 donne les résultats de la méthode de minimisation de l erreur carrée simple. Ces tests ont été effectués sur les mêmes instances que pour la méthode BLYD. Le nombre de variables n a également varié entre les valeurs définies (100, 200 et 300). Etude d un cas industriel : Optimisation de la modélisation de paramètre de production 32
Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Nombre de variables TABLEAU 2. RESULTATS POUR LA METHODE BLYD 100 200 300 Taux de modelisation Indicateur 0,8 0,9 0,95 0,8323 0,8318 0,8323 0,8451 0,8463 0,8459 6311,01 6296,53 6293,56 1475,69 1456,61 1465,27 10,72 10,66 10,6 8,57 8,76 8,59 0,855 0,8551 0,8553 0,8295 0,8278 0,8277 5475,03 5448,41 5429,59 1807,96 1809,57 1813,39 10,47 10,9 10,73 11,22 11,42 11,34 0,8683 0,869 0,8697 0,8314 0,8286 0,8304 5026,2 4975,38 4957,99 1623,52 1635,24 1625,16 10,99 11,02 10,34 10,18 11,02 11,21 TABLEAU 3 : RESULTATS POUR LA METHODE DE MINIMISATION DE L ERREUR CARREE Indicateur Méthode simple 0,8522 0,8117 5609,41 100 1804,53 9,73 9,24 0,8974 0,7303 3914,42 200 3101,63 9,78 13,24 0,9256 0,6647 2921,31 300 3619,24 8,36 18,18 Nombre de variables A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin 33
A.F. Bernate Lara, F. Entzmann, F. Yalaoui, F. Dugardin Parmi les indicateurs de performance évalués, ceux calculés sur les données qui n ont pas été pris pour la construction du modèle (les 20%), qualifient les performances d estimation du modèle. L analyse de ces indicateurs montre que la méthode BLYD donne des estimations plus proches de la réalité que la méthode de minimisation de l erreur carrée. De la même manière, pour les données testées, les indicateurs montrent que le nombre de variables par échantillon n a pas une influence significative. VIII. CONCLUSION L objectif de cet article est de présenter une méthodologie pour rendre plus efficace un modèle prédictif de données pour un paramètre qui ne peut pas être mesuré ou contrôlé directement. La méthodologie présentée donne de bons résultats lors de l évaluation sur des données qui n ont pas été prises lors de la phase de modélisation, par rapport à la méthode simple de minimisation de l erreur carrée. Les résultats ne nous permettent pas de définir avec exactitude quel est le «taux de modélisation» le plus efficace. En revanche, les résultats montrent que sur les indicateurs de performances mesurés sur l ensemble 20%, la méthode BLYD donne des résultats plus proches de la réalité que la méthode de minimisation de l erreur carrée. IX. REFERENCES [1] F. Dugardin& L. Amodeo& F. Yalaoui, Fuzzy Lorenz ant colony system to solve multiobjective reentrant hybrideflowshop scheduling problem, International Conference on Communications, Computing and Control Applications, CCCA 2011 [2] A. K. Jain & M. N. Murthy & P. J. Flynn, Data Clustering: a review, ACM Computing Surveys (CSUR), vol. 31, no. 3, Septembre 1991, 264-323. [3] K. Koutroumpas& E Cinquemani& P. Kouretas & J. Lugeros, Parameter identification for stochastic hybrid systems using randomized optimization: A case study on subtilin production by Basillussubtilis, Nonlinear Analysis: Hybrid Systems, vol. 2, no. 3, Août 2008, 786-802. [4] M. Paliwal& U. A. Kumar, Neural networks and statistical techniques: A review of applications, Expert Systems with Applications, vol. 36, no. 1, Janvier 2009, 2-17. Etude d un cas industriel : Optimisation de la modélisation de paramètre de production 34