PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Transcription

1 PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée, le bruit inhérent aux données naturelles répartit les maxima entre des individus légèrement disjoints dans l espace. Une même structure spatiale peut être décrite par des variables qui vont se répartir en plusieurs facteurs de l ACP ; au vu des cartographies correspondantes, l utilisateur a néanmoins l intuition que ces facteurs reflètent un phénomène dont l organisation spatiale à grande échelle est commune. L analyse factorielle joue alors mal son rôle pour résumer les données, puisque l on ne parvient pas à regrouper en une cartographie unique le phénomène étudié. Comme la cause réside dans un bruit local, il est logique d envisager un lissage préalable. Nous reproduisons cette situation en construisant un lot de données synthétiques, comportant 500 individus répartis dans le plan géographique selon un réseau irrégulier, et décrits par 9 variables. Trois structures spatiales sont imposées : une structure circulaire, une structure diagonale, et une structure isotrope (bruit blanc). Pour chacune des structures circulaire et linéaire, 3 variables sont obtenues par duplication de la variable source décrivant la structure idéale, on ajoute à chaque variable un bruit blanc dont on contrôle l importance. METHODOLOGIE Trois approches sont classiquement proposées pour la description multivariée de données réparties dans l espace : préprocessing (par ex. : Benali et Escoffier, 1990), intégration des cooordonnées (x y) dans la chaîne de calcul, à la suite de Lebart (1969), ou postprocessing, (par exemple méthode RBM dans Berry & Linoff, 1997). Si l avantage d une procédure intégrée est d optimiser directement le résultat en fonction de la contrainte spatiale, souvent traduite sous forme d un graphe de contiguïté - voir par exemple Faraj (1993) -, des difficultés de mise en œuvre peuvent intervenir, comme signalé par Aragon & al ( 2001). Comme nous nous plaçons dans le cas où plusieurs structures spatiales différentes organisent les données, il peut être tentant de revenir à un préprocessing mis en œuvre variable par variable - ou par groupe cohérent de variables -, susceptible de contrôler avec plus de souplesse qu un calcul intégré l importance donnée à la contrainte spatiale. Pour cet objectif, des avantages sont offerts par l algorithme de lissage LOESS, proposé par Cleveland (1991) et postérieur aux travaux de Benali et Escoffier (ib) ; il permet un lissage plus ou moins fort, et fournit des critères de qualité sur le résultat. Nous cherchons ici à optimiser le lissage LOESS et les modalités de calcul de l ACP, en utilisant une approche itérative.

2 CRITERE DE COVARIANCE UTILISE Puisque l on cherche à regrouper en un facteur unique des variables suspectées de refléter un même phénomène (ici par exemple les 3 variables représentant la structure circulaire), nous prenons la part d inertie occupée par les p variables incriminées, choisies dans les N variables disponibles, on calcule donc pour chacun des K facteurs : %inertie K = 100 ( Σ v=1 à p cos 2 (V K ) / N ) (1) Cette formule est analogue à celle donnant la part d inertie d un facteur, on la restreint ici aux p variables d intérêt (connues a priori dans notre exemple). Comme on cherche une représentation sur un facteur unique en vue d une imagerie, on prend le facteur donnant, pour les variables considérées, la part d inertie maximale. Le coefficient de corrélation entre les coordonnées factorielles des individus et la variable initiale décrivant la structure est également considéré. Le critère (1) permet de comparer les résultats obtenus avec différentes modalités de préprocessing : en mettant en oeuvre ou non - le lissage Loess et, dans ce cas, en utilisant les données prédites ou les résidus comme proposé par Cliff & Ord (1981). L algorithme Loess peut être mis en œuvre successivement avec différentes tailles pour la fenêtre mobile. Des critères ont été proposés pour sélectionner la taille de fenêtre optimale : critère d Akaike (1973) ou validation croisée, voir Hurvich et al., (1998) et Cravan et Wahba, (1979). Enfin, la régression effectuée dans chaque fenêtre peut être calculée sur toutes les valeurs, ou avec des itérations pour éliminer des outliers. Enfin des conditions calculatoires variées peuvent être appliquées à l ACP ellemême. Sur la matrice factorielle décrivant les variables, une rotation des axes peut être appliquée, nous avons testé les algorithmes Varimax de Kayser (1958) et oblique de Harris Kayser (1964). Le nombre de facteurs retenus a également été pris en compte. Pour ces tests méthodologiques, on donc est amené à effectuer un grand nombre d analyses factorielles dans des conditions calculatoires différentes. Les résultats sont présentés sommairement. RESULTATS OBTENUS Sur les données synthétiques produites, les résultats obtenus pour la structure circulaire et pour la structure linéaires sont très proches (ci-après résultats pour la structure circulaire). La stratégie employée améliore fortement le critère (1). Selon ce critère, les meilleures solutions sont fournies par les valeurs prédites issues de LOESS reprises par ACP avec une rotation d axes oblique, surclassant d une dizaine de points en % d inertie les résultats d ACP Varimax sur valeurs brutes, et a fortiori ceux obtenus sans préprocessing ni rotation d axe. Cette tendance s affirme si on augmente le bruit introduit dans les données. Les critères testés pour sélectionner le lissage optimum fournissent des résultats équivalents sur ce jeu de données. Il peut arriver qu une solution itérative produise un choix meilleur. Les meilleurs résultats sont obtenus soit sur valeurs prédites sans

3 itération, soit avec 4 ou 5 itérations (pour éliminer les outliers), mais en prenant alors les résidus de la régression. Concernant la rotation des axes factoriels, les systèmes de rotation Varimax (Kayser 1958) ou oblique (Harris Kayser 1964) font jeu à peu près égal, avec un léger avantage pour la rotation oblique. DISCUSSION Le critère proposé est simple et rapide à calculer, il s inscrit dans la logique des résultats examinés habituellement par l utilisateur. Il est en relation satisfaisante avec le r 2, mais est probablement plus fiable dans les faibles niveaux de valeur. Son intérêt est de pouvoir sélectionner la combinaison (préprocessing, analyse factorielle) qui fournit la solution se rapprochant le plus de l objectif recherché, et de pouvoir trier un grand nombre de solutions, ce que l on ne peut faire par un examen subjectif d une collection de cartes. Dans le cas de l exemple simple ici traité, nous avons une connaissance a priori des variables à examiner conjointement. Dans d autres cas, une classification des variables pourrait être préalablement mise en œuvre. L intérêt des rotations d axes, antérieurement évoqué par Valois (1986) est ici quantifié. On constate qu une organisation des données, qui comme dans les milieux naturels, comporte une part au moins locale de stationnarité, permet à cet algorithme développé sur les variables, d avoir une efficacité pour regrouper les individus. L intérêt est la simplicité de mise en œuvre, et l absence de contrainte spatiale, donc la garantie de pouvoir s adapter à des structures spatiales très variées. Dans notre cas deux structures spatiales complètement différentes coexistent dans les données et sont correctement détectées. Concernant le lissage LOESS, nous n avons pas connaissance de critère sélectionnant le taux de lissage optimum en prenant en compte un point de vue multivarié. Les critères testés ne fonctionnent que pour chaque variable prise isolément. Une approche itérative a été mise en oeuvre pour pallier ce point. Il s avère que l optimum de lissage, d un point de vue multivarié, peut diffèrer de celui déduit variable par variable par les critères mentionnés. Remarquons qu aucune hypothèse sur la structure des données ni graphe de contiguïté n est introduit dans le traitement. Il s avère capable de rendre compte dans le même calcul de 2 structures spatiales complètement différentes (figures en annexe). L étude a été limitée à l ACP traditionnelle, elle pourrait être évidemment prendre en compte des modalités particulières d ACP : ACPLocale de Carlier (1985) ou l ACPUSC d Aragon et Caussinus (1980), ou d autres méthodes plus récentes mentionnées par Loader (1999) ou Hastie et al. (2001). Si le bruit contenue dans les données est plus fort que la gamme considérée ici, il peut être avantageux de coder les variables en seuils, ce qui reviendrait à proposer une AFCM lissée. Si certaines des conclusions sont spécifiques au cas de données utilisé, la méthodologie mise en œuvre peut être appliquée à d autres situations expérimentales.

4 Bibliographie [1] Akaike H. (1973), "Information Theory and an Extension of the Maximum Likelihood Principle," in Proceedings of the Second International Symposium on Information Theory, Petrov and Csaki, [2] Aragon Y., Caussinus H. (1980), Une analyse en composantes principales pour des unités statistiques corrélées. Data Analysis and Informatics, [3] Aragon Y., Goulard M., Malin E., Perrin O., Thomas-Agnan C. (2001), Estimation d une matrice de contiguïté et tests dans un modèle de dépendance, application à l offre de soins dans la région Midi-Pyrénées, XXXIIIèmes Journées de Statistiques, SFdS, Nantes. [4] Benali H. Escofier B. 1990, Analyse factorielle lissée et analyse factorielle des différences locales, Revue de Statistique Appliquée. XXXVIII (2), [5] Berry M.J.A. et Linoff G. (1997), Data Mining : for marketing, sales and customer support, John Wiley & sons, New York. [6] Carlier A. (1985), Application de l analyse factorielle des evolutions et de l analyse intra-périodes. Statistiques et Analyse des données. 10, 1, [7] Cleveland W.S. et Grosse E. (1991), Computational Methods for Local Regression, Statistics and Computing, 1, [8] Cliff A.D. et Ord J.K. (1981), Spatial processes, models and applications, Pion Limited. [9] Craven, P. and Wahba, G. (1979), "Smoothing Noisy Data with Spline Functions," Numerical Mathematics, 31, [10] Faraj A. (1993), Analyse de contiguïté, une analyse discriminante généralisée à plusieurs variables qualitatives. Revue de Statistique Appliquée, XLI (3), [11] Harris C.W., Kayser H.F. (1964) Oblique factor analytic solution in factor analysis, psychometrica, 29, [12] Hastie T., Tibshirani R. et Friedman J. (2001) The elements of statistical learning : Data Mining, Inference and Predition, Springer Series in Statistics. [13] Hurvich, C.M., Simonoff, J.S., and Tsai, C.L. (1998), "Smoothing Parameter Selection in Nonparametric Regression Using an Improved Akaike Information Criterion," Journal of the Royal Statistical Society B, 60, [14] Kayser H. (1958) The Varimax criterion, The varimax criterion for analytic rotation in factor analysis, Psychometrica, 23, [15] Lebart L. (1969), Analyse statistique de la contiguïté, Publications de l Université de Paris, 18, [16] Loader C. (1999) Local regression and likelihood, Statistics and Computing, Springer. [17] Valois J.-P. (1986), Mise en oeuvre interactive des choix algorithmiques : application à l'analyse factorielle des données géochimiques, in Data Analysis and Informatics, IV, Diday and al éd., Elsevier (North Holland),

5 ANNEXE : Figure illustrative Structure initiale 1, non bruitée Structure 1 bruitée (variable 1) Résultat du traitement Structure initiale 2, non bruitée Structure 2 bruitée (variable 4) Résultat du traitement Le sous-tableau gauche montre les structures prises pour test. Le sous-tableau médian reproduit l une des 3 variables, obtenues par duplication de la structure initiale additionnée d un bruit blanc (ici 60% de bruit sur chaque structure, pas de bruit en périphérie). Le sous-tableau droit visualise les résultats obtenus après préprocessing LOESS, utilisé sans itération, les valeurs prédites étant fournies en entrée d une ACP avec rotation d axes oblique.