Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande

Transcription

1 Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Satish MOSELLE & Emmanuel VERRON 21 mars

2 Introduction Nous disposons de données, recueillies au sein de «Tecator Infratec Food and Feed Analyzer, nous donnant des longueurs d ondes en proche infra-rouge (NIR) situé entre 850 nm et 1050 nm par le principe de la transmission par proche infra-rouge (NIT) ainsi que le taux de moisissure (variable water), de la matière grasse (variable fat) et des protéines (variable protein) recueillies sur des échantillons de viande. Nos données sont réparties en deux parties : absorp qui contient 100 spectres d absorbances pour 215 échantillons (dont les 129 premiers ont été utilisés comme échantillon d apprentissage. endpoints qui contients les pourcentages en eau, matière grasse et de protéines de chaque échantillon. Su chaque échantillon de viande les compositions en moisissure, matières grasses et en protéines ont été déterminées par mesure chimique. Rappelons que la courbe d absorbance mesurée pour le ne échantinnon est donnée par Xn (t) = log10 ( II0 ) où t est la longuer d onde de la lumière, I0 l intensité de la lumière mesuré incidente et I l intensité de la lumière transmise après le passage à travers l échantillon de viande. Le problème est que l analyse des taux de moisissure,de matière grasse et de protéines sont longues et coûteuse. Nous souhaitons donc créer un modèle de prévision qui nous permettent de prédire ces taux. Figure 1 Représentation de l absorbance en fonction des différentes longueurs d onde en proche infra-rouge En centrant et en réduisant chaque individu nous obtenons le spectre d absorbance suivant : Figure 2 Représentation de l absorbance en fonction des différentes longueurs d onde en proche infra-rouge Nous travaillerons ainsi par la suite avec les données centrées réduites. 2

3 1 Comparaison de différents modèles d étalonnage Dans cette partie nous allons comparer les performances de différents modèles d étalonnage : PCR, PLS1 et PLS2. Nous diviserons notre jeu de données en deux parties : l une pour l apprentissage contenant les 129 premières observations et l autre pour la validation externe du modèle. Pour le choix du nombre de composantes principales, nous regardons l évolution de la racine carrée de l erreur quadratrique moyenne (Root Mean Squared Error of Prediction), le coefficient de détermination et la la racine carrée de l erreur quadratique moyenne obtenue par validation croisée (Root Mean Square Error of Cross- Validation) en fonction du nombre de composantes principales. Le RMSECV est défini par : n i= (y i ŷ i LOO ) 2 n où ŷ est le vecteur contenant les valeurs de la variable y qui sont estimées par la méthode de validation croisée Leave on out (la valeur de ŷ i est estimée en utilisant le modèle construit sans la i e observation), y contient les valeurs observées et n est le nombre d échantillons utilisés. n Le RMSEP est défini par : où ŷ est le vecteur contenant les valeurs prédites, y les valeurs observées et n est le nombre d échantillons utilisés. i= (y i ŷ i ) 2 n 1.1 Principal Component Regression (PCR) Cette méthode utilise la matrice des covariances des absorbances centrées, A A. Le principe est de choisir une nouvelle base de variables indépendantes. La matrice de changement de base (qui va rendre la matrice de covariance diagonale), est donc construite à partir des vecteurs propres de A A. Les valeurs propres représentent alors la variance des scores, et donc leur contribution à la modélisation : Pour effectuer la réduction de données, il suffit alors de ne conserver que les h scores correspondant aux plus fortes valeurs propres. Nous effectuons une régression sur composantes principales sur les variables de moisissure, de gras et de proteines en prenant 20 composantes principales et en utilisant la méthode de validation croisée : Leave one out RMSECV Figure 3 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 4 composantes principales pour la variable water 5 pour fat et 13 pour protein. 3

4 Nb var latentes (Intercept) RMSECV-water RMSECV-fat RMSECV-protein Table 1 Evolution du RMSECV en fonction du nombre de variables latentes Figure 4 Inertie expliquée par les variables Nombre de variables latentes Variance expliquée (en %) X Variance expliquée (en %) water Variance expliquée (en %) fat Variance expliquée (en %) protein Table 2 Evolution de la variance expliquée en fonction du nombre de variables latentes Notre choix de nombre de composantes pour chaques variables permet à chaque fois d expliquer plus de 95% de la variance du tableau initial. 4

5 Figure 5 Représentation valeurs observées vs valeurs prédites On observe peu de dispersion autour de la droite identité. Les valeurs prédites semblent correctes pour chaque modèle. Figure 6 Représentation des vecteurs des loadings 5

6 1.1.2 Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. Figure 7 Evolution du R 2 en fonction du nombre de variables latentes Nb var latentes R2-water R2-fat R2-protein Table 3 Evolution du R 2 en fonction du nombre de variables latentes Le R 2 mesure l ajustement du modèle à nos données de départ. Nous obtenons un R 2 très proche de 1 pour nos trois modèles, on conclut à l excellente qualité d ajustement de nos modèles Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 8 Représentation valeurs observées vs valeurs prédites 6

7 Les valeurs prédites sur l échantillon test semblent proches de leur vraies valeurs. On souhaite quantifier cette observation en calculant la moyenne des erreurs au carré (RMSEP) RMSEP Figure 9 Evolution du RMSEP en fonction du nombre de variables latentes Nb var latentes RMSEP-water RMSEP-fat RMSEP-protein Table 4 Evolution du RMSEP en fonction du nombre de variables latentes Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif : water fat protein

8 1.2 Partial Least Square Regression 1 (PLS1) On cherche à prévoir chacune des variables en fonction des valeurs d absorbance. Comme pour la régression sur composantes principales, le principe est de rechercher un modèle de régression linéaire sur un ensemble de composantes orthogonales (ou variables latentes) construites à partir de combinaisons linéaires des valeurs d absorbance centrées dont les pondérations contituent les vecteurs des loadings. Dans le cas de la PLS, la construction des composantes est optimisée pour que celles-ci soient les plus liées à la variable Y à prédire au sens de la covariance empirique, alors que les composantes principales ne visent qu à extraire une part de variance maximale sans tenir compte d une variable cible. Nous effectuons une régression des moindres carrés partiels (Partial Least Square) sur chacune des variables de moisissure, de gras et de proteines en prenant 20 composantes principales en utilisant la méthode de validation croisée Leave one out RMSECV Figure 10 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 9 composantes principales pour la variable water 5 pour fat et 12 pour protein. Nb variables latentes (Intercept) RMSECV-water RMSECV-fat RMSECV-protein

9 Figure 11 Inertie expliquée par les variables Comme pour la régression PCR, notre choix de nombre de composantes permet à chaque fois de restituer plus de 95% d inertie. Figure 12 Représentation valeurs observées vs valeurs prédites On observe peu de dispersion autour de la droite identité. Les valeurs prédites semblent à première vue être satisfaisantes. 9

10 Figure 13 Représentation des vecteurs des loadings Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. Figure 14 Evolution du R 2 en fonction du nombre de variables latentes Nb variables latentes R2-water R2-fat R2-protein

11 1.2.3 Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 15 Représentation valeurs observées vs valeurs prédites Les variables prédites ont l air de plutôt bien correspondre à leur vraies valeurs. On va calculer l erreur de prédiction RMSEP Figure 16 Evolution du RMSEP en fonction du nombre de variables latentes Nb variables latentes RMSEP-water RMSEP-fat RMSEP-protein

12 Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif water fat protein

13 1.3 Partial Least Square Regression 2 (PLS2) La PLS est une généralisation multidimensionnelle de la PLS1. Dans ce cas, on étallonne toutes les variables en fonction des valeurs d absorbance. Nous effectuons une régression des moindres carrés partiels (Partial Least Square) sur la matrice constituée des variables de moisissure, de gras et de proteines, en prenant en compte 20 composantes principales et en utilisant la méthode de validation croisée Leave one out RMSECV Figure 17 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 5 composantes principales pour les variables water, fat et protein. Nb variables latentes (Intercept) RMSECV-water RMSECV-fat RMSECV-protein Figure 18 Evolution de la somme des RMSECV et de l inertie expliquée en fonction du nombre de variables latentes Le graphique confirme que ce choix de 5 composantes semble être un bon compromis. De plus, le pourcentage d inertie restituée est de plus de 95%. 13

14 Figure 19 Représentation valeurs observées vs valeurs prédites Figure 20 Représentation des vecteurs des loadings Comme pour nos deux autres types de régression, il apparaît des prédictions satisfaisantes. On cherche maintenant à vérifier nos observations en calculant le coefficient de détermination puis en utilisant nos données test. 14

15 1.3.2 Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. 7 Figure 21 Evolution du R 2 en fonction du nombre de variables latentes Nb variables latentes R2-water R2-fat R2-protein L ajustement de notre modèle à nos données est une fois de plus bon. Il faut noter cependant l apparition d une valeur inférieure à 0.95 pour la variable protéine. 15

16 1.3.3 Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 22 Représentation valeurs observées vs valeurs prédites RMSEP Figure 23 Evolution du RMSEP en fonction du nombre de variables latentes Nb variables latentes RMSEP-water RMSEP-fat RMSEP-protein

17 Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif water fat protein Comparaison des modèles de régression Nous avons donc mis en place 7 modèles de prédiction (3 par PCR, 3 par PLS1 et 1 PLS2). Pour les modèles de régression sur composantes principales (PCR) et moindres carrés partiels (PLS1), la variable protein est à chaque fois la variable pour laquelle on obtient les plus faibles RMSECV et RMSEP. Pour les autres modèles et pour les autres variables, les erreurs de validation croisée et de prédiction sont du même ordre de grandeur ( 2). Cependant on préfèrera sans doute une méthode PLS2. En effet, pour obtenir une prédiction sur les trois variables water, fat et protein, on a un seul modèle avec PLS2 alors que PCR et PLS1 nécessitent de calculer de nouvelles composantes et de nouveaux coefficients pour chaque variable régressée. Avec un seul modèle de régression pour les 3 variables et des erreurs de prédiction satisfaisantes, la méthode PLS2 est la méthode choisie dans une optique de prévision de la compositions en moisissure, matières grasses et en protéines de viandes. 17

18 2 Influence des groupes d individus Dans cette partie, nous allons d abord créer trois groupes d individus avec des effectifs relativement proches. Ces trois groupes sont obtenus de manière aléatoire. Leur caractère artificiel doit nous aider à étudier l influence de tels groupes sur la prédiction d appartenance à une classe à partir des données spectrales. Nous générons trois groupes à l aide d une méthode de nuées dynamiques : la méthode des k-means. Notés 1, 2 et 3, ces groupes d individus sont d effectifs 86, 92 et 37 respectivement. On construit un tableau à 3 colonnes, donnant pour chaque individu l indicatrice d appartence à son groupe. On l appelle tableau disjonctif complet. 2.1 ACP des données et visualisations des groupes Figure 24 ACP du tableau avec indication d appartenance On représente la cartographie des individus sur les deux premières composantes d une ACP sur les données spectrales. On voit très bien que la discrimination des groupes est faite sur le premier axe factoriel qui explique 98% de la variance du tableau original. 18

19 2.2 Méthode PLS2 pour prédiction d appartenance à un groupe On souhaite mettre en place un modèle de prédiction d appertenance à l un des trois groupes. Pour cela, on réalise une régression PLS2 des données spectrales sur le tableau disjonctif complet. On en tire ainsi 10 composantes, qu on utilisera dans une analyse factorielle discriminante pour classer les individus. Comme dans la partie précédente, on utilise les 129 premiers individus pour apprentissage et les 86 derniers pour test. La première étape consiste donc en la réalisation d une PLS2 sur nos données d apprentissage. Figure 25 Evolution de l inertie expliquée en fonction du nombre de variables latentes et 10 premiers vecteurs des loadings Le choix de ne considérer que seulement 10 composantes pour la suite est légitimé par le pourcentage d inertie expliquée, très proche de 100 à partir de 5 composantes AFD des composantes PLS2 Nous mettons en place maintenant une analyse factorielle discriminante sur les composants PLS2. Cette méthode consiste en la recherche de variables latentes qui discriminent le mieux les groupes. Ces variables sont des combinaisons linéaires des 10 composantes PLS2 sélectionnées. Comme il y a trois groupes à classer, le nombre de variables latentes obtenues par AFD est 2, on les note LD1 et LD2. Figure 26 Représentation des individus d apprentissage dans le plan formé par les deux variables discriminantes La première variable discriminante (LD1) sépare plutôt bien les groupes 1 et 3. Le deuxième groupe a plus de mal à être bien discriminé bien que l axe LD2 semble le séparer des deux autres groupes. 19

20 Poids des composantes dans LD1 et LD2 LD1 LD2 Comp Comp Comp Comp Comp Comp Comp Comp Comp Comp On utilise maintenant une règle d affectation afin de classer nos 129 individus dans un groupe. On compare le groupe prédit avec le vrai groupe à l aide d une matrice de confusion. groupe prediction La méthode de classement nous donne un taux de bonnes prédictions d environ 74%. On remarque que seulement la moitié des individus du groupe 3 sont bien classés et que 14 individus du groupe 2 ont été classé dans le premier groupe Application à l échantillon de validation Nous devons vérifier la qualité d un telle règle de classement en s appuyant sur nos données test. On récupère la matrice des dix vecteurs des loadings de la PLS2 et on fait le produit matriciel avec les données spectrales de l échantillon test. On obtient alors une matrice avec les 10 composantes de la PLS2 calculées sur le deuxième échantillon. Comme LD1 et LD2 sont connues, on peut calculer les projections des individus de validations sur ces variables discriminantes. Figure 27 Représentation des individus de validation dans le plan formé par les deux variables discriminantes Graphiquement, la discrimination des 3 groupes semble peu évidente. On réutilise notre règle de classement pour prédire le groupe de chacune des individus de l échantillon test : 20

21 groupe prediction Les prédictions obtenues sont très mauvaises. La méthode de classement n a pas réussi à classer un seul individu des groupes 1 et 2 dans son bon groupe. Tout le groupe 3 est bien classé, mais la méthode a fait plus de 80% d erreur de prédictions. Un modèle de classement basé sur un calcul de composantes PLS2 ne semble pas être adapté à la prévision. Le taux d erreur de prédiction (26%) obtenu par Analyse Factorielle Discriminante sur les données d apprentissage semble correct mais le passage à l échantillon de validation ne donne pas les résultats escomptés (plus de 80% d individus mal classés). 21