Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande



Documents pareils
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Extraction d informations stratégiques par Analyse en Composantes Principales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction à l approche bootstrap

La classification automatique de données quantitatives

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

ACP Voitures 1- Méthode

Statistique Descriptive Multidimensionnelle. (pour les nuls)

1 Complément sur la projection du nuage des individus

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

L'analyse des données à l usage des non mathématiciens

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

ESIEA PARIS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 3. Les distributions à deux variables

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Transmission d informations sur le réseau électrique

Exercice : la frontière des portefeuilles optimaux sans actif certain

INF6304 Interfaces Intelligentes

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Évaluation de la régression bornée

FICHE 1 Fiche à destination des enseignants

Logiciel XLSTAT version rue Damrémont PARIS

Travaux pratiques avec RapidMiner

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

Aide-mémoire de statistique appliquée à la biologie

Séries Statistiques Simples

Cours 9 : Plans à plusieurs facteurs

Chapitre 02. La lumière des étoiles. Exercices :

Systèmes de transmission

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Module HVAC - fonctionnalités

MODELE A CORRECTION D ERREUR ET APPLICATIONS

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction au Data-Mining

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Exemples d application

Table des matières. I Mise à niveau 11. Préface

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Optimisation, traitement d image et éclipse de Soleil

Introduction au Data-Mining

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Théorie des sondages : cours 5

A chaque couleur dans l'air correspond une longueur d'onde.

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Exemple PLS avec SAS

Initiation à l analyse en composantes principales

Comment suivre l évolution d une transformation chimique? + S 2 O 8 = I SO 4

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Spectrophotomètre double faisceau modèle 6800

Spécificités, Applications et Outils

Introduction. Préambule. Le contexte

Enjeux mathématiques et Statistiques du Big Data

PRISE EN MAIN DU SPECTROPHOTOMETRE UV-VISIBLE SHIMADZU U.V. 240

Mise en pratique : Etude de spectres

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction au datamining

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Modèles pour données répétées

ANALYSE SPECTRALE. monochromateur

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

NON-LINEARITE ET RESEAUX NEURONAUX

Spectrophotométrie - Dilution 1 Dilution et facteur de dilution. 1.1 Mode opératoire :

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

FORMULAIRE DE STATISTIQUES

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Individus et informations supplémentaires

23. Interprétation clinique des mesures de l effet traitement

Projet Matlab : un logiciel de cryptage

UviLight XTW Spectrophotomètre UV-Vis

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Validation probabiliste d un Système de Prévision d Ensemble

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Apprentissage Automatique

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

STATISTIQUES. UE Modélisation pour la biologie

Gestion obligataire passive

Cours de méthodes de scoring

RDP : Voir ou conduire

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau

Séance 0 : Linux + Octave : le compromis idéal

pka D UN INDICATEUR COLORE

Statistique Descriptive Élémentaire

Données longitudinales et modèles de survie

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

TP 2: LES SPECTRES, MESSAGES DE LA LUMIERE

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Niveau 2 nde THEME : L UNIVERS. Programme : BO spécial n 4 du 29/04/10 L UNIVERS

Transcription:

Université de Nantes M2 Ingénierie Mathématiques Rapport de chimiométrie Analyse de spectres d absorbance pour la prédiction des taux de moisissure, de matières grasses et de protéines d échantillons de viande Satish MOSELLE & Emmanuel VERRON 21 mars 2015 1

Introduction Nous disposons de données, recueillies au sein de «Tecator Infratec Food and Feed Analyzer, nous donnant des longueurs d ondes en proche infra-rouge (NIR) situé entre 850 nm et 1050 nm par le principe de la transmission par proche infra-rouge (NIT) ainsi que le taux de moisissure (variable water), de la matière grasse (variable fat) et des protéines (variable protein) recueillies sur des échantillons de viande. Nos données sont réparties en deux parties : absorp qui contient 100 spectres d absorbances pour 215 échantillons (dont les 129 premiers ont été utilisés comme échantillon d apprentissage. endpoints qui contients les pourcentages en eau, matière grasse et de protéines de chaque échantillon. Su chaque échantillon de viande les compositions en moisissure, matières grasses et en protéines ont été déterminées par mesure chimique. Rappelons que la courbe d absorbance mesurée pour le ne échantinnon est donnée par Xn (t) = log10 ( II0 ) où t est la longuer d onde de la lumière, I0 l intensité de la lumière mesuré incidente et I l intensité de la lumière transmise après le passage à travers l échantillon de viande. Le problème est que l analyse des taux de moisissure,de matière grasse et de protéines sont longues et coûteuse. Nous souhaitons donc créer un modèle de prévision qui nous permettent de prédire ces taux. Figure 1 Représentation de l absorbance en fonction des différentes longueurs d onde en proche infra-rouge En centrant et en réduisant chaque individu nous obtenons le spectre d absorbance suivant : Figure 2 Représentation de l absorbance en fonction des différentes longueurs d onde en proche infra-rouge Nous travaillerons ainsi par la suite avec les données centrées réduites. 2

1 Comparaison de différents modèles d étalonnage Dans cette partie nous allons comparer les performances de différents modèles d étalonnage : PCR, PLS1 et PLS2. Nous diviserons notre jeu de données en deux parties : l une pour l apprentissage contenant les 129 premières observations et l autre pour la validation externe du modèle. Pour le choix du nombre de composantes principales, nous regardons l évolution de la racine carrée de l erreur quadratrique moyenne (Root Mean Squared Error of Prediction), le coefficient de détermination et la la racine carrée de l erreur quadratique moyenne obtenue par validation croisée (Root Mean Square Error of Cross- Validation) en fonction du nombre de composantes principales. Le RMSECV est défini par : n i= (y i ŷ i LOO ) 2 n où ŷ est le vecteur contenant les valeurs de la variable y qui sont estimées par la méthode de validation croisée Leave on out (la valeur de ŷ i est estimée en utilisant le modèle construit sans la i e observation), y contient les valeurs observées et n est le nombre d échantillons utilisés. n Le RMSEP est défini par : où ŷ est le vecteur contenant les valeurs prédites, y les valeurs observées et n est le nombre d échantillons utilisés. i= (y i ŷ i ) 2 n 1.1 Principal Component Regression (PCR) Cette méthode utilise la matrice des covariances des absorbances centrées, A A. Le principe est de choisir une nouvelle base de variables indépendantes. La matrice de changement de base (qui va rendre la matrice de covariance diagonale), est donc construite à partir des vecteurs propres de A A. Les valeurs propres représentent alors la variance des scores, et donc leur contribution à la modélisation : Pour effectuer la réduction de données, il suffit alors de ne conserver que les h scores correspondant aux plus fortes valeurs propres. Nous effectuons une régression sur composantes principales sur les variables de moisissure, de gras et de proteines en prenant 20 composantes principales et en utilisant la méthode de validation croisée : Leave one out. 1.1.1 RMSECV Figure 3 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 4 composantes principales pour la variable water 5 pour fat et 13 pour protein. 3

Nb var latentes (Intercept) 1 2 3 4 5 6 10 13 RMSECV-water 9.944 6.942 4.123 2.416 2.037 2.041 2.055 1.973 1.936 RMSECV-fat 12.71 9.34 5.895 3.049 2.341 2.264 2.260 2.243 2.185 RMSECV-protein 3.002 2.459 2.322 1.375 1.364 1.304 1.312 1.165 0.6790 Table 1 Evolution du RMSECV en fonction du nombre de variables latentes Figure 4 Inertie expliquée par les variables Nombre de variables latentes 1 2 3 4 5 6 7 8 9 13 Variance expliquée (en %) X 71.26 97.35 98.77 99.56 99.88 99.95 99.98 99.99 100 100 Variance expliquée (en %) water 52.97 83.17 94.57 96.22 96.26 96.26 96.36 96.37 96.64 97.4 Variance expliquée (en %) fat 47.85 78.95 94.80 97.04 97.28 97.33 97.36 97.46 97.5 97.91 Variance expliquée (en %) protein 34.33 42.01 80.28 80.84 82.73 82.79 83.52 85.10 88.09 96.26 Table 2 Evolution de la variance expliquée en fonction du nombre de variables latentes Notre choix de nombre de composantes pour chaques variables permet à chaque fois d expliquer plus de 95% de la variance du tableau initial. 4

Figure 5 Représentation valeurs observées vs valeurs prédites On observe peu de dispersion autour de la droite identité. Les valeurs prédites semblent correctes pour chaque modèle. Figure 6 Représentation des vecteurs des loadings 5

1.1.2 Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. Figure 7 Evolution du R 2 en fonction du nombre de variables latentes Nb var latentes 1 2 3 4 5 6 10 13 R2-water 0.530 0.832 0.946 0.962 0.963 0.963 0.970 0.974 R2-fat 0.478 0.790 0.948 0.970 0.973 0.973 0.977 0.979 R2-protein 0.343 0.420 0.803 0.808 0.827 0.828 0.884 0.963 Table 3 Evolution du R 2 en fonction du nombre de variables latentes Le R 2 mesure l ajustement du modèle à nos données de départ. Nous obtenons un R 2 très proche de 1 pour nos trois modèles, on conclut à l excellente qualité d ajustement de nos modèles. 1.1.3 Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 8 Représentation valeurs observées vs valeurs prédites 6

Les valeurs prédites sur l échantillon test semblent proches de leur vraies valeurs. On souhaite quantifier cette observation en calculant la moyenne des erreurs au carré (RMSEP). 1.1.4 RMSEP Figure 9 Evolution du RMSEP en fonction du nombre de variables latentes Nb var latentes 1 2 3 4 5 6 10 13 RMSEP-water 7.41 4.30 2.27 1.86 1.84 1.84 1.93 1.82 RMSEP-fat 10.05 6.30 2.88 2.06 2.01 1.89 1.93 2.03 RMSEP-protein 2.61 2.34 1.40 1.34 1.30 1.30 1.05 0.60 Table 4 Evolution du RMSEP en fonction du nombre de variables latentes Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif : water 4 2.037 0.962 1.86 fat 5 2.264 0.973 2.01 protein 13 0.679 0.963 0.60 7

1.2 Partial Least Square Regression 1 (PLS1) On cherche à prévoir chacune des variables en fonction des valeurs d absorbance. Comme pour la régression sur composantes principales, le principe est de rechercher un modèle de régression linéaire sur un ensemble de composantes orthogonales (ou variables latentes) construites à partir de combinaisons linéaires des valeurs d absorbance centrées dont les pondérations contituent les vecteurs des loadings. Dans le cas de la PLS, la construction des composantes est optimisée pour que celles-ci soient les plus liées à la variable Y à prédire au sens de la covariance empirique, alors que les composantes principales ne visent qu à extraire une part de variance maximale sans tenir compte d une variable cible. Nous effectuons une régression des moindres carrés partiels (Partial Least Square) sur chacune des variables de moisissure, de gras et de proteines en prenant 20 composantes principales en utilisant la méthode de validation croisée Leave one out. 1.2.1 RMSECV Figure 10 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 9 composantes principales pour la variable water 5 pour fat et 12 pour protein. Nb variables latentes (Intercept) 1 2 3 4 5 6 7 8 9 10 11 12 RMSECV-water 9.94 5.28 3.90 2.09 2.04 2.04 2.04 1.97 1.95 1.89 1.88 1.92 2.03 RMSECV-fat 12.71 7.25 5.55 2.42 2.28 2.25 2.26 2.28 2.24 2.23 2.21 2.19 2.17 RMSECV-protein 3.00 2.34 2.18 1.34 1.30 1.29 1.23 1.15 1.06 0.98 0.86 0.74 0.67 8

Figure 11 Inertie expliquée par les variables Comme pour la régression PCR, notre choix de nombre de composantes permet à chaque fois de restituer plus de 95% d inertie. Figure 12 Représentation valeurs observées vs valeurs prédites On observe peu de dispersion autour de la droite identité. Les valeurs prédites semblent à première vue être satisfaisantes. 9

Figure 13 Représentation des vecteurs des loadings 1.2.2 Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. Figure 14 Evolution du R 2 en fonction du nombre de variables latentes Nb variables latentes 1 2 3 4 5 6 7 8 9 10 11 12 R2-water 0.72 0.85 0.96 0.96 0.96 0.97 0.97 0.97 0.97 0.97 0.97 0.98 R2-fat 0.68 0.81 0.97 0.97 0.97 0.97 0.98 0.98 0.98 0.98 0.98 0.98 R2-protein 0.41 0.49 0.82 0.83 0.83 0.86 0.88 0.90 0.92 0.95 0.96 0.96 10

1.2.3 Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 15 Représentation valeurs observées vs valeurs prédites Les variables prédites ont l air de plutôt bien correspondre à leur vraies valeurs. On va calculer l erreur de prédiction. 1.2.4 RMSEP Figure 16 Evolution du RMSEP en fonction du nombre de variables latentes Nb variables latentes 1 2 3 4 5 6 7 8 9 10 11 12 RMSEP-water 5.60 4.04 1.98 1.84 1.83 1.90 1.85 1.86 1.87 1.80 1.78 1.83 RMSEP-fat 7.79 5.89 2.29 1.98 2.00 1.95 1.95 1.97 1.94 1.93 2.03 2.04 RMSEP-protein 2.44 2.15 1.34 1.25 1.28 1.20 1.08 1.06 0.89 0.74 0.60 0.61 11

Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif water 9 1.89 0.97 1.87 fat 5 2.25 0.97 2.00 protein 12 0.67 0.96 0.61 12

1.3 Partial Least Square Regression 2 (PLS2) La PLS est une généralisation multidimensionnelle de la PLS1. Dans ce cas, on étallonne toutes les variables en fonction des valeurs d absorbance. Nous effectuons une régression des moindres carrés partiels (Partial Least Square) sur la matrice constituée des variables de moisissure, de gras et de proteines, en prenant en compte 20 composantes principales et en utilisant la méthode de validation croisée Leave one out. 1.3.1 RMSECV Figure 17 Evolution du RMSECV en fonction du nombre de variables latentes D après les résultats graphiques, on choisit de retenir 5 composantes principales pour les variables water, fat et protein. Nb variables latentes (Intercept) 1 2 3 4 5 6 RMSECV-water 9.944 5.231 3.883 2.096 2.035 2.045 2.061 RMSECV-fat 12.71 7.315 5.562 2.44 2.295 2.259 2.261 RMSECV-protein 3.002 2.308 2.285 1.355 1.359 1.297 1.308 Figure 18 Evolution de la somme des RMSECV et de l inertie expliquée en fonction du nombre de variables latentes Le graphique confirme que ce choix de 5 composantes semble être un bon compromis. De plus, le pourcentage d inertie restituée est de plus de 95%. 13

Figure 19 Représentation valeurs observées vs valeurs prédites Figure 20 Représentation des vecteurs des loadings Comme pour nos deux autres types de régression, il apparaît des prédictions satisfaisantes. On cherche maintenant à vérifier nos observations en calculant le coefficient de détermination puis en utilisant nos données test. 14

1.3.2 Validation interne Pour la phase de validation interne, nous regardons l évolution du coefficient de détermination (R2) en fonction du nombre de composantes principales. 7 Figure 21 Evolution du R 2 en fonction du nombre de variables latentes Nb variables latentes 1 2 3 4 5 6 R2-water 0.73 0.85 0.96 0.96 0.96 0.96 R2-fat 0.68 0.81 0.97 0.97 0.97 0.97 R2-protein 0.42 0.44 0.81 0.81 0.83 0.83 L ajustement de notre modèle à nos données est une fois de plus bon. Il faut noter cependant l apparition d une valeur inférieure à 0.95 pour la variable protéine. 15

1.3.3 Validation externe Pour la phase de validation externe, nous utilisons l échantillon test pour prédire les valeurs de nos variables. Figure 22 Représentation valeurs observées vs valeurs prédites 1.3.4 RMSEP Figure 23 Evolution du RMSEP en fonction du nombre de variables latentes Nb variables latentes 1 2 3 4 5 6 RMSEP-water 5.54 4.00 1.99 1.84 1.84 1.85 RMSEP-fat 7.86 5.90 2.32 2.00 2.00 1.97 RMSEP-protein 2.36 2.29 1.30 1.32 1.29 1.26 16

Variables Nb de variables latentes RMSECV R 2 RMSEP Tableau récapulatif water 5 2.045 0.96 1.84 fat 5 2.259 0.97 2.00 protein 5 1.297 0.83 1.29 1.4 Comparaison des modèles de régression Nous avons donc mis en place 7 modèles de prédiction (3 par PCR, 3 par PLS1 et 1 PLS2). Pour les modèles de régression sur composantes principales (PCR) et moindres carrés partiels (PLS1), la variable protein est à chaque fois la variable pour laquelle on obtient les plus faibles RMSECV et RMSEP. Pour les autres modèles et pour les autres variables, les erreurs de validation croisée et de prédiction sont du même ordre de grandeur ( 2). Cependant on préfèrera sans doute une méthode PLS2. En effet, pour obtenir une prédiction sur les trois variables water, fat et protein, on a un seul modèle avec PLS2 alors que PCR et PLS1 nécessitent de calculer de nouvelles composantes et de nouveaux coefficients pour chaque variable régressée. Avec un seul modèle de régression pour les 3 variables et des erreurs de prédiction satisfaisantes, la méthode PLS2 est la méthode choisie dans une optique de prévision de la compositions en moisissure, matières grasses et en protéines de viandes. 17

2 Influence des groupes d individus Dans cette partie, nous allons d abord créer trois groupes d individus avec des effectifs relativement proches. Ces trois groupes sont obtenus de manière aléatoire. Leur caractère artificiel doit nous aider à étudier l influence de tels groupes sur la prédiction d appartenance à une classe à partir des données spectrales. Nous générons trois groupes à l aide d une méthode de nuées dynamiques : la méthode des k-means. Notés 1, 2 et 3, ces groupes d individus sont d effectifs 86, 92 et 37 respectivement. On construit un tableau à 3 colonnes, donnant pour chaque individu l indicatrice d appartence à son groupe. On l appelle tableau disjonctif complet. 2.1 ACP des données et visualisations des groupes Figure 24 ACP du tableau avec indication d appartenance On représente la cartographie des individus sur les deux premières composantes d une ACP sur les données spectrales. On voit très bien que la discrimination des groupes est faite sur le premier axe factoriel qui explique 98% de la variance du tableau original. 18

2.2 Méthode PLS2 pour prédiction d appartenance à un groupe On souhaite mettre en place un modèle de prédiction d appertenance à l un des trois groupes. Pour cela, on réalise une régression PLS2 des données spectrales sur le tableau disjonctif complet. On en tire ainsi 10 composantes, qu on utilisera dans une analyse factorielle discriminante pour classer les individus. Comme dans la partie précédente, on utilise les 129 premiers individus pour apprentissage et les 86 derniers pour test. La première étape consiste donc en la réalisation d une PLS2 sur nos données d apprentissage. Figure 25 Evolution de l inertie expliquée en fonction du nombre de variables latentes et 10 premiers vecteurs des loadings Le choix de ne considérer que seulement 10 composantes pour la suite est légitimé par le pourcentage d inertie expliquée, très proche de 100 à partir de 5 composantes. 2.2.1 AFD des composantes PLS2 Nous mettons en place maintenant une analyse factorielle discriminante sur les composants PLS2. Cette méthode consiste en la recherche de variables latentes qui discriminent le mieux les groupes. Ces variables sont des combinaisons linéaires des 10 composantes PLS2 sélectionnées. Comme il y a trois groupes à classer, le nombre de variables latentes obtenues par AFD est 2, on les note LD1 et LD2. Figure 26 Représentation des individus d apprentissage dans le plan formé par les deux variables discriminantes La première variable discriminante (LD1) sépare plutôt bien les groupes 1 et 3. Le deuxième groupe a plus de mal à être bien discriminé bien que l axe LD2 semble le séparer des deux autres groupes. 19

Poids des composantes dans LD1 et LD2 LD1 LD2 Comp 1-0.8499628-0.008757642 Comp 2-0.4989489 0.141894089 Comp 3-2.7957106-1.040952316 Comp 4 0.2117250 3.881270621 Comp 5-2.1505289 7.760643324 Comp 6-0.3490824 6.202636129 Comp 7 4.0405968 9.468853546 Comp 8-16.9701181 24.957508034 Comp 9 1.9377312 20.016047549 Comp 10-36.7940083 6.216631958 On utilise maintenant une règle d affectation afin de classer nos 129 individus dans un groupe. On compare le groupe prédit avec le vrai groupe à l aide d une matrice de confusion. groupe prediction 1 2 3 1 42 14 0 2 6 40 6 3 0 7 14 La méthode de classement nous donne un taux de bonnes prédictions d environ 74%. On remarque que seulement la moitié des individus du groupe 3 sont bien classés et que 14 individus du groupe 2 ont été classé dans le premier groupe. 2.2.2 Application à l échantillon de validation Nous devons vérifier la qualité d un telle règle de classement en s appuyant sur nos données test. On récupère la matrice des dix vecteurs des loadings de la PLS2 et on fait le produit matriciel avec les données spectrales de l échantillon test. On obtient alors une matrice avec les 10 composantes de la PLS2 calculées sur le deuxième échantillon. Comme LD1 et LD2 sont connues, on peut calculer les projections des individus de validations sur ces variables discriminantes. Figure 27 Représentation des individus de validation dans le plan formé par les deux variables discriminantes Graphiquement, la discrimination des 3 groupes semble peu évidente. On réutilise notre règle de classement pour prédire le groupe de chacune des individus de l échantillon test : 20

groupe prediction 1 2 3 1 0 0 0 2 3 0 0 3 35 31 17 Les prédictions obtenues sont très mauvaises. La méthode de classement n a pas réussi à classer un seul individu des groupes 1 et 2 dans son bon groupe. Tout le groupe 3 est bien classé, mais la méthode a fait plus de 80% d erreur de prédictions. Un modèle de classement basé sur un calcul de composantes PLS2 ne semble pas être adapté à la prévision. Le taux d erreur de prédiction (26%) obtenu par Analyse Factorielle Discriminante sur les données d apprentissage semble correct mais le passage à l échantillon de validation ne donne pas les résultats escomptés (plus de 80% d individus mal classés). 21