PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE



Documents pareils
Extraction d informations stratégiques par Analyse en Composantes Principales

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

L'analyse des données à l usage des non mathématiciens

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Introduction au datamining

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Arbres binaires de décision

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La classification automatique de données quantitatives

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Théorèmes de Point Fixe et Applications 1

Modélisation géostatistique des débits le long des cours d eau.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Cycle de formation certifiante Sphinx

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

STATISTIQUES. UE Modélisation pour la biologie

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

(Customer Relationship Management, «Gestion de la Relation Client»)

Le CRM en BFI : une approche du pilotage stratégique

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Introduction à l approche bootstrap

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Logiciel XLSTAT version rue Damrémont PARIS

ESIEA PARIS

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2012/50

Echantillonnage Non uniforme

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Principe de symétrisation pour la construction d un test adaptatif

1 Complément sur la projection du nuage des individus

Production des Services d Assurance non-vie selon le SCN 2008

IBM SPSS Regression 21

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Évaluation de la régression bornée

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Intelligence précoce

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

TABLE DES MATIERES. C Exercices complémentaires 42

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Spécificités, Applications et Outils

NON-LINEARITE ET RESEAUX NEURONAUX

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

De la mesure à l analyse des risques

INTRODUCTION AU DATA MINING

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Analyse de grandes bases de données en santé

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Conseil économique et social

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

EVOLUTION SPATIO-TEMPORELLE DE L OCCUPATION DES ESPACES SUR LE TRIANGLE MARNAIS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Mémo d utilisation de ADE-4

LES MODELES DE SCORE

Intégration de la dimension sémantique dans les réseaux sociaux

Annexe 6. Notions d ordonnancement.

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Cloud Computing, discours marketing ou solution à vos problèmes?

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

TUTORIEL Qualit Eval. Introduction :

Le risque Idiosyncrasique

INF6304 Interfaces Intelligentes

Apprentissage symbolique et statistique à l ère du mariage pour tous

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Analyse en Composantes Principales

Gestion obligataire passive

Projet de Traitement du Signal Segmentation d images SAR

FORMULAIRE DE STATISTIQUES

Item 169 : Évaluation thérapeutique et niveau de preuve

Les clients puissance cube

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Laboratoire 4 Développement d un système intelligent

Publications, ressources, liens, logiciels,

1 Installer des packages

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Opérations de base sur ImageJ

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

Transcription:

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée, le bruit inhérent aux données naturelles répartit les maxima entre des individus légèrement disjoints dans l espace. Une même structure spatiale peut être décrite par des variables qui vont se répartir en plusieurs facteurs de l ACP ; au vu des cartographies correspondantes, l utilisateur a néanmoins l intuition que ces facteurs reflètent un phénomène dont l organisation spatiale à grande échelle est commune. L analyse factorielle joue alors mal son rôle pour résumer les données, puisque l on ne parvient pas à regrouper en une cartographie unique le phénomène étudié. Comme la cause réside dans un bruit local, il est logique d envisager un lissage préalable. Nous reproduisons cette situation en construisant un lot de données synthétiques, comportant 500 individus répartis dans le plan géographique selon un réseau irrégulier, et décrits par 9 variables. Trois structures spatiales sont imposées : une structure circulaire, une structure diagonale, et une structure isotrope (bruit blanc). Pour chacune des structures circulaire et linéaire, 3 variables sont obtenues par duplication de la variable source décrivant la structure idéale, on ajoute à chaque variable un bruit blanc dont on contrôle l importance. METHODOLOGIE Trois approches sont classiquement proposées pour la description multivariée de données réparties dans l espace : préprocessing (par ex. : Benali et Escoffier, 1990), intégration des cooordonnées (x y) dans la chaîne de calcul, à la suite de Lebart (1969), ou postprocessing, (par exemple méthode RBM dans Berry & Linoff, 1997). Si l avantage d une procédure intégrée est d optimiser directement le résultat en fonction de la contrainte spatiale, souvent traduite sous forme d un graphe de contiguïté - voir par exemple Faraj (1993) -, des difficultés de mise en œuvre peuvent intervenir, comme signalé par Aragon & al ( 2001). Comme nous nous plaçons dans le cas où plusieurs structures spatiales différentes organisent les données, il peut être tentant de revenir à un préprocessing mis en œuvre variable par variable - ou par groupe cohérent de variables -, susceptible de contrôler avec plus de souplesse qu un calcul intégré l importance donnée à la contrainte spatiale. Pour cet objectif, des avantages sont offerts par l algorithme de lissage LOESS, proposé par Cleveland (1991) et postérieur aux travaux de Benali et Escoffier (ib) ; il permet un lissage plus ou moins fort, et fournit des critères de qualité sur le résultat. Nous cherchons ici à optimiser le lissage LOESS et les modalités de calcul de l ACP, en utilisant une approche itérative.

CRITERE DE COVARIANCE UTILISE Puisque l on cherche à regrouper en un facteur unique des variables suspectées de refléter un même phénomène (ici par exemple les 3 variables représentant la structure circulaire), nous prenons la part d inertie occupée par les p variables incriminées, choisies dans les N variables disponibles, on calcule donc pour chacun des K facteurs : %inertie K = 100 ( Σ v=1 à p cos 2 (V K ) / N ) (1) Cette formule est analogue à celle donnant la part d inertie d un facteur, on la restreint ici aux p variables d intérêt (connues a priori dans notre exemple). Comme on cherche une représentation sur un facteur unique en vue d une imagerie, on prend le facteur donnant, pour les variables considérées, la part d inertie maximale. Le coefficient de corrélation entre les coordonnées factorielles des individus et la variable initiale décrivant la structure est également considéré. Le critère (1) permet de comparer les résultats obtenus avec différentes modalités de préprocessing : en mettant en oeuvre ou non - le lissage Loess et, dans ce cas, en utilisant les données prédites ou les résidus comme proposé par Cliff & Ord (1981). L algorithme Loess peut être mis en œuvre successivement avec différentes tailles pour la fenêtre mobile. Des critères ont été proposés pour sélectionner la taille de fenêtre optimale : critère d Akaike (1973) ou validation croisée, voir Hurvich et al., (1998) et Cravan et Wahba, (1979). Enfin, la régression effectuée dans chaque fenêtre peut être calculée sur toutes les valeurs, ou avec des itérations pour éliminer des outliers. Enfin des conditions calculatoires variées peuvent être appliquées à l ACP ellemême. Sur la matrice factorielle décrivant les variables, une rotation des axes peut être appliquée, nous avons testé les algorithmes Varimax de Kayser (1958) et oblique de Harris Kayser (1964). Le nombre de facteurs retenus a également été pris en compte. Pour ces tests méthodologiques, on donc est amené à effectuer un grand nombre d analyses factorielles dans des conditions calculatoires différentes. Les résultats sont présentés sommairement. RESULTATS OBTENUS Sur les données synthétiques produites, les résultats obtenus pour la structure circulaire et pour la structure linéaires sont très proches (ci-après résultats pour la structure circulaire). La stratégie employée améliore fortement le critère (1). Selon ce critère, les meilleures solutions sont fournies par les valeurs prédites issues de LOESS reprises par ACP avec une rotation d axes oblique, surclassant d une dizaine de points en % d inertie les résultats d ACP Varimax sur valeurs brutes, et a fortiori ceux obtenus sans préprocessing ni rotation d axe. Cette tendance s affirme si on augmente le bruit introduit dans les données. Les critères testés pour sélectionner le lissage optimum fournissent des résultats équivalents sur ce jeu de données. Il peut arriver qu une solution itérative produise un choix meilleur. Les meilleurs résultats sont obtenus soit sur valeurs prédites sans

itération, soit avec 4 ou 5 itérations (pour éliminer les outliers), mais en prenant alors les résidus de la régression. Concernant la rotation des axes factoriels, les systèmes de rotation Varimax (Kayser 1958) ou oblique (Harris Kayser 1964) font jeu à peu près égal, avec un léger avantage pour la rotation oblique. DISCUSSION Le critère proposé est simple et rapide à calculer, il s inscrit dans la logique des résultats examinés habituellement par l utilisateur. Il est en relation satisfaisante avec le r 2, mais est probablement plus fiable dans les faibles niveaux de valeur. Son intérêt est de pouvoir sélectionner la combinaison (préprocessing, analyse factorielle) qui fournit la solution se rapprochant le plus de l objectif recherché, et de pouvoir trier un grand nombre de solutions, ce que l on ne peut faire par un examen subjectif d une collection de cartes. Dans le cas de l exemple simple ici traité, nous avons une connaissance a priori des variables à examiner conjointement. Dans d autres cas, une classification des variables pourrait être préalablement mise en œuvre. L intérêt des rotations d axes, antérieurement évoqué par Valois (1986) est ici quantifié. On constate qu une organisation des données, qui comme dans les milieux naturels, comporte une part au moins locale de stationnarité, permet à cet algorithme développé sur les variables, d avoir une efficacité pour regrouper les individus. L intérêt est la simplicité de mise en œuvre, et l absence de contrainte spatiale, donc la garantie de pouvoir s adapter à des structures spatiales très variées. Dans notre cas deux structures spatiales complètement différentes coexistent dans les données et sont correctement détectées. Concernant le lissage LOESS, nous n avons pas connaissance de critère sélectionnant le taux de lissage optimum en prenant en compte un point de vue multivarié. Les critères testés ne fonctionnent que pour chaque variable prise isolément. Une approche itérative a été mise en oeuvre pour pallier ce point. Il s avère que l optimum de lissage, d un point de vue multivarié, peut diffèrer de celui déduit variable par variable par les critères mentionnés. Remarquons qu aucune hypothèse sur la structure des données ni graphe de contiguïté n est introduit dans le traitement. Il s avère capable de rendre compte dans le même calcul de 2 structures spatiales complètement différentes (figures en annexe). L étude a été limitée à l ACP traditionnelle, elle pourrait être évidemment prendre en compte des modalités particulières d ACP : ACPLocale de Carlier (1985) ou l ACPUSC d Aragon et Caussinus (1980), ou d autres méthodes plus récentes mentionnées par Loader (1999) ou Hastie et al. (2001). Si le bruit contenue dans les données est plus fort que la gamme considérée ici, il peut être avantageux de coder les variables en seuils, ce qui reviendrait à proposer une AFCM lissée. Si certaines des conclusions sont spécifiques au cas de données utilisé, la méthodologie mise en œuvre peut être appliquée à d autres situations expérimentales.

Bibliographie [1] Akaike H. (1973), "Information Theory and an Extension of the Maximum Likelihood Principle," in Proceedings of the Second International Symposium on Information Theory, Petrov and Csaki, 267-281. [2] Aragon Y., Caussinus H. (1980), Une analyse en composantes principales pour des unités statistiques corrélées. Data Analysis and Informatics, 121-131. [3] Aragon Y., Goulard M., Malin E., Perrin O., Thomas-Agnan C. (2001), Estimation d une matrice de contiguïté et tests dans un modèle de dépendance, application à l offre de soins dans la région Midi-Pyrénées, XXXIIIèmes Journées de Statistiques, SFdS, Nantes. [4] Benali H. Escofier B. 1990, Analyse factorielle lissée et analyse factorielle des différences locales, Revue de Statistique Appliquée. XXXVIII (2), 55-76. [5] Berry M.J.A. et Linoff G. (1997), Data Mining : for marketing, sales and customer support, John Wiley & sons, New York. [6] Carlier A. (1985), Application de l analyse factorielle des evolutions et de l analyse intra-périodes. Statistiques et Analyse des données. 10, 1, 27-53. [7] Cleveland W.S. et Grosse E. (1991), Computational Methods for Local Regression, Statistics and Computing, 1, 47-62. [8] Cliff A.D. et Ord J.K. (1981), Spatial processes, models and applications, Pion Limited. [9] Craven, P. and Wahba, G. (1979), "Smoothing Noisy Data with Spline Functions," Numerical Mathematics, 31, 377-403. [10] Faraj A. (1993), Analyse de contiguïté, une analyse discriminante généralisée à plusieurs variables qualitatives. Revue de Statistique Appliquée, XLI (3), 73-84. [11] Harris C.W., Kayser H.F. (1964) Oblique factor analytic solution in factor analysis, psychometrica, 29, 347-362. [12] Hastie T., Tibshirani R. et Friedman J. (2001) The elements of statistical learning : Data Mining, Inference and Predition, Springer Series in Statistics. [13] Hurvich, C.M., Simonoff, J.S., and Tsai, C.L. (1998), "Smoothing Parameter Selection in Nonparametric Regression Using an Improved Akaike Information Criterion," Journal of the Royal Statistical Society B, 60, 271-293. [14] Kayser H. (1958) The Varimax criterion, The varimax criterion for analytic rotation in factor analysis, Psychometrica, 23, 187-200 [15] Lebart L. (1969), Analyse statistique de la contiguïté, Publications de l Université de Paris, 18, 81-112. [16] Loader C. (1999) Local regression and likelihood, Statistics and Computing, Springer. [17] Valois J.-P. (1986), Mise en oeuvre interactive des choix algorithmiques : application à l'analyse factorielle des données géochimiques, in Data Analysis and Informatics, IV, Diday and al éd., Elsevier (North Holland), 625-641.

ANNEXE : Figure illustrative Structure initiale 1, non bruitée Structure 1 bruitée (variable 1) Résultat du traitement Structure initiale 2, non bruitée Structure 2 bruitée (variable 4) Résultat du traitement Le sous-tableau gauche montre les structures prises pour test. Le sous-tableau médian reproduit l une des 3 variables, obtenues par duplication de la structure initiale additionnée d un bruit blanc (ici 60% de bruit sur chaque structure, pas de bruit en périphérie). Le sous-tableau droit visualise les résultats obtenus après préprocessing LOESS, utilisé sans itération, les valeurs prédites étant fournies en entrée d une ACP avec rotation d axes oblique.