Une pénalité de groupe pour des données multivoie de grande dimension



Documents pareils
Arbres binaires de décision

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La classification automatique de données quantitatives

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Soutenance de stage Laboratoire des Signaux et Systèmes

Introduction au Data-Mining

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Classification non supervisée

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction au Data-Mining

23. Interprétation clinique des mesures de l effet traitement

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Why Software Projects Escalate: The Importance of Project Management Constructs

INF6304 Interfaces Intelligentes

Projet de Traitement du Signal Segmentation d images SAR

Etude des propriétés empiriques du lasso par simulations

Méthodes d apprentissage statistique «Machine Learning»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Principe de symétrisation pour la construction d un test adaptatif

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

TABLE DES MATIERES. C Exercices complémentaires 42

Laboratoire 4 Développement d un système intelligent

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction de la journée

Introduction au datamining

Interception des signaux issus de communications MIMO

NON-LINEARITE ET RESEAUX NEURONAUX

Enjeux mathématiques et Statistiques du Big Data

BIG Data et R: opportunités et perspectives

Foscolo (1), J Felblinger (2), S Bracard (1) CHU Hôpital central, service de neuroradiologie, Nancy (1) CHU BRABOIS, Centre d investigation clinique

Introduction à l approche bootstrap

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Simulation de variables aléatoires

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Régionalisation des régimes de perturbations et implications pour l aménagement dans un contexte de changement climatique

Mesure agnostique de la qualité des images.

Travaux pratiques avec RapidMiner

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Évaluation de la régression bornée

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Cours de méthodes de scoring

Méthodes de Simulation

Exercice : la frontière des portefeuilles optimaux sans actif certain

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

1 Complément sur la projection du nuage des individus

Apprentissage statistique dans les graphes et les réseaux sociaux

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

Modélisation géostatistique des débits le long des cours d eau.

Contributions à l apprentissage statistique en grande dimension, adaptatif et sur données atypiques

Séries Statistiques Simples

Laboratoire d Automatique et Productique Université de Batna, Algérie

LES MODELES DE SCORE

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Apprentissage Automatique

De la mesure à l analyse des risques

Théorie de l estimation et de la décision statistique

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Spécificités, Applications et Outils

Intérêt du découpage en sous-bandes pour l analyse spectrale

Extraction d informations stratégiques par Analyse en Composantes Principales

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Resolution limit in community detection

intelligence artificielle et cognitique"

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Publications, ressources, liens, logiciels,

Classification supervisée et credit scoring

FORMULAIRE DE STATISTIQUES

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Big Data et Graphes : Quelques pistes de recherche

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

CAPTEURS - CHAINES DE MESURES

Transmission d informations sur le réseau électrique

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

TEPZZ A_T EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (51) Int Cl.: G07F 7/08 ( ) G06K 19/077 (2006.

Couples de variables aléatoires discrètes

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Exemple PLS avec SAS

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

L Econométrie des Données de Panel

Data Mining. Master 1 Informatique - Mathématiques UAG

Transcription:

Une pénalité de groupe pour des données multivoie de grande dimension Laurent Le Brusquet 1, Arthur Tenenhaus 1,2, Gisela Lechuga 1, Vincent Perlbarg 2, Louis Puybasset 3 & Damien Galanaud 4. 1 Laboratoire des Signaux et Systèmes (L2S, UMR CNRS 856) CentraleSupelec - CNRS - Université Paris-Sud 3, rue Joliot Curie 91192, Gif-sur-Yvette, prenom.nom@centralesupelec.fr 2 Bioinformatics/Biostatistics Platform IHU-A-ICM, Brain and Spine Institute 47-83, Bd de l hôpital; Paris, France, vperlbar@imed.jussieu.fr 3 AP-HP, Pitié-Salpêtrière Hospital, Surgical Neuro-Intensive Care Unit, Paris, France 4 AP-HP, Pitié-Salpêtrière Hospital, Department of Neuroradiology, Paris, France Résumé. Le problème de la classification supervisée de données multivoie de grande dimension avec un a priori de structure de groupes sur les variables est étudié. Plus précisément une pénalité adaptée à cette structure de données est proposée. Sans surcoût calculatoire notable, cette pénalité favorise l interprétabilité des modèles obtenus. La pénalité est ici développée pour l analyse discriminante et la régression logistique. Une application à l analyse de données de neuroimagerie multimodale est présentée. Mots-clés. Pénalité structurée, analyse multivoie, analyse discriminante, régression logistique. Abstract. Supervised classification of multiway data with group structure at the level of the variables is considered in this paper. More specifically, a penalty that fits the natural structure of the data is presented. This penalty promotes a better interpretablity of the resulting model. The proposed penalty is plugged to discriminant analysis and logistic regression and tested on a real multimodal neuroimaging dataset. Keywords. Structured penality, multiway analysis, Fisher discriminant analysis, logistic regression 1

1 Introduction Ce papier s inscrit dans le contexte de classification supervisée où les variables explicatives sont organisées en groupes de variables observées suivant plusieurs modalités. Ce type de structure se retrouve par exemple dans le cas de données spatio-temporelles où chaque modalité correspond à un instant d observation et où les groupes correspondent à une partition de l espace (par exemple le découpage d un territoire en différentes régions). De cette structure peut découler un nombre total de variables important, et donc un potentiel problème de sur-apprentissage, Pour éviter ce type de problème, il est usuel de pénaliser les modèles. Ce papier présente l utilisation d une pénalité quadratique qui tient compte à la fois de la structure multivoie et de la structure par groupe des variables. La figure 1 illustre la structure des données : {X ijk } 1 i n,1 j J,1 k K est un tenseur d ordre 3 avec n le nombre d individus, J le nombre de variables (spatiales lorsque les groupes représentent des régions) et K le nombre de modalités. L ensemble des G groupes forment une partition de l ensemble des J variables. Pour 1 g G, on note J g l ensemble des variables du groupe g. Le papier est décomposé comme suit : la section 2 présente une application de neuroimagerie multimodale permettant de motiver la pénalité présentée. La section 3 rappelle brièvement l analyse discriminante multivoie (Lechuga et al (214)) et la régression logistique multivoie (Le Brusquet et al (214)) et la section 4 discute leur version avec pénalité structurante. La section 5 présente les résultats obtenus sur les données de neuroimagerie multimodale. 2 Les données COMA Les méthodes proposées ont été testées sur des données de neuroimagerie récoltées sur des personnes victimes d un coma et pour lesquelles on souhaite prédire leur capacité de récupération à partir d images IRM multimodales. Pour chaque individu, K = 4 modalités d imagerie ont été enregistrées (images de 91 19 91 voxels). Les voxels situés dans la matière blanche, principale siège des phénomènes explicatifs (Lechuga et al (214)), ont été sélectionnés et constituent un ensemble de J = 2764 variables. Au sein de la matière blanche, les médecins ont identifié G = 17 régions (voir figure 2). Cette partition de l espace va être utilisée comme a priori pour construire la pénalité. Enfin, les données ont été collectées pour n = 143 individus. 2

groupe 1 groupe groupe modalité 1 individu 1 variables 1 vecteur (classe) Figure 1: Tenseur X des variables explicatives et vecteur Y de la variable à prédire. Les données sont multivoie et les variables sont structurées en groupes disjoints: chaque individu est représenté par G groupes de variables observées selon K modalités. Figure 2: Coupe frontale de la matière blanche et partition en 17 régions distinctes. Les régions sont repérées par des couleurs différentes. Le contour de la boite crânienne est repéré par le trait noir. 3 Classifieurs pour données multivoie Dans (Lechuga et al (214) et Le Brusquet et al (214)), l analyse discriminante et la régression logistique binaire multiple ont été étendues aux données mutivoie. Cette section rappelle brièvement ces deux méthodes. Soit X u ( u pour unfolded) la matrice de taille n (JK) obtenue en dépliant le tenseur, c est-à-dire en concaténant les K matrices X..k. La matrice X u est ainsi composée de n vecteurs x i = vec(x i.. ) de longueur JK. Analyse discriminante. L analyse factorielle discriminante consiste à rechercher des projections de la forme g(x) = β x. Le vecteur de poids β est choisi de sorte à maximiser le rapport variance interclasse / variance intraclasse. Ce rapport de variance s écrit (voir Hastie, Tibshirani et Friedman (29)): R(β) = β (X u ) M Between X u β β (X u ) M Within X u β +µβ β M Between et M Within sont des matrices n n semi-définies positive ne dépendant que du vecteur Y. L analyse discriminante régularisée faitintervenir leterme µβ β afin depalier les problèmes numériques et contrer le phénomène de sur-apprentissage. Régression logistique. La régression logistique s appuie sur la maximisation de la logvraisemblance conditionnelle i=1...n logp(y i/x i ). P(y i /x i ) est modélisée en supposant (1) 3

P(y = 1/x) affine son log-ratio, c est-à-dire log 1 P(y = 1/x) = β + β x. Après réécriture de la log-vraisemblance, le problème revient à choisir les paramètres β et β qui maximisent : C(β,β) = n ( ) ( ( )) ( y i β +β x i log 1+exp β +β x i µ β 2 +β β ) (2) i=1 Comme pour l analyse discriminante, le terme µβ 2 +µβ β sert à pénaliser la solution. Extension aux données multivoie. La version multivoie des deux précédentes méthodes consiste à maximiser les deux critères (1) ou (2) sous la contrainte que le vecteur β soit de la forme β = β K β J où β K et β J sont deux vecteurs de taille K et J pondérant l influence des modalités et des variables. Cette contrainte permet de réduire à K +J les KJ degrés de liberté initiaux du vecteur β cherché tout en lui imposant une structure cohérente avec la structuration tensorielle des données. Un algorithme de type directions alternées permet d optimiser les critères (1) et (2) par rapport à β K et β J. 4 Pénalité proposée La pénalité proposée vise à modifier les termes de régularisation de la forme µβ β pour tenir compte d une part de la structure tensorielle et d autre part le la structure de groupes de X. S imposant de ne pas dégrader le temps calculatoire (il faut garder à l esprit que le vecteur β est de longueur KJ donc potentiellement grand), nous nous restreignons ici à des pénalités quadratiques, donc de la forme β Rβ. Le but cherché étant un gain en interprétabilité, la pénalité a été conçue de manière à : (i) Séparer l influence des variables de l influence des modalités et (ii) Homogénéiser les poids associés à des variables d un même groupe, sans contraindre les variations entre groupes. Séparer l influence des variables de l influence des modalités. Cet objectif a été atteint en imposant à R une structure tensorielle de la forme R = R K R J. L a priori imposé via la régularisation est ainsi cohérent avec la structure tensorielle des données et présente de plus l avantage ( de ne pas alourdir le coût calculatoire puisque (β β Rβ = (β K β J ) R(β K β J K ) = ) )( (β R K β ) ) K J R J β J. Homogénéiser les poids associés à des variables d un même groupe, sans contraindre les variations entre groupes. Le choix de R J permet de gérer l homogénéité par région. De nombreuses pénalités de groupe existent dont les plus récentes sont fondées sur une norme l 1/2 afin d introduire de la parcimonie (voir par exemple Bach et al (212)). Nous avons préféré conserver une pénalité quadratique en raison du grand nombre de variables (autant que de voxels dans notre application). Nous avons choisi R J tel que : 4

( β J ) R J β J = G g=1 v,v J g,v et v voisins ( β J v βj v ) 2. Cette pénalité a tendance à rendre homogènes les poids associés aux variables d un même groupe puisqu elle pénalise les variations à l intérieur d un groupe sans pénaliser les écarts entre voxels de deux groupes distincts. L interprétabilité en est ainsi facilitée. À noter que la matrice R J proposée a une structure bloc-diagonale (2 voxels de 2 groupes différents ne sont pas pénalisés pour leur écart entre poids) et que chaque bloc est lui même creux (2 voxels éloignés d un même groupe ne sont pas pénalisés). Cela permet une manipulation aisée de la matrice R J (définition, stockage, coût calculatoire de ( β J) R J β J ). D autres choix de R J sont possibles pour limiter les écarts entre variables issues d un même groupe et proches géographiquement l une de l autre. On pourrait par exemple modéliser les variations entre variables par un processus gaussien et choisir une fonction de covariance traduisant la régularité entre variables proches l une de l autre. Avec cette modélisation, R J aurait alors été l inverse de la matrice de covariance du processus. 5 Application aux données COMA Seuls les résultats obtenus avec l analyse discriminante sont présentés. Les résultats de l analyse discriminante régularisée appliquée à X u sont comparés à ceux obtenus par analyse discriminante multivoie avec et sans pénalité de groupes. La figure 3 montre que la version standard de l analyse discriminante conduit à des poids β difficilement interprétables en raison des fortes variations entre poids pour des voxels au sein d une même région. modalité 1.1.1 modalité 2 x 1 5 modalité 3 5 5 1 x 1 4 modalité 4 1 1 x 1 5 5 5 1 Figure 3: Analyse discriminante standard + pénalité standard : poids β. La version multivoie avec une pénalité constuite avec R = I (résultats de la figure 4) permet de séparer l influence des voxels de celle des 4 modalités. L identification des régions de la matière blanche les plus discriminantes reste difficile en raison de la forte hétérogénéité au sein d une même région. Les résultats de la figure 5 montre que la pénalité de groupe proposée permet de contourner cette difficulté : on reconnait le découpage en régions de la figure 2. De plus, les poids au sein d une même région sont homogènes. 5

.15.1.5.5.1.15.15.1.5.5.1 Figure 4: Analyse discriminante multivoie + pénalité standard : poids β J. Figure 5: Analyse discriminante multivoie + pénalité proposée : poids β J. Remarque. Les hyperparamètres µ ont été ajustés pour chacune des trois méthodes envisagées de sorte à fournir des taux de classification similaires. 6 Conclusion En grande dimension, il apparaît indispensable de forcer l interprétabilité des modèles obtenus en imposant des contraintes de régularité. Ce papier présente une pénalité volontairement simple pour qu elle soit facilement utilisable sur des données de grande dimension. Les cas de l analyse discriminante et de la régression logistique sont ici détaillés mais la pénalité envisagée pourrait être très facilement adaptée à d autres méthodes. Le nombre de groupes impliqués dans la prédiction pouvant être limité, une extension parcimonieuse est envisagée comme perspective afin de pouvoir sélectionner les groupes de variables les plus discriminants. Bibliographie [1] Lechuga G., Le Brusquet L., Perlbarg V., Puybasset L., Galanaud D. et Tenenhaus A. (214), Discriminant Analysis for Multi-way Data, PLS 214. [2] Le Brusquet L., Lechuga G., Tenenhaus A. (214), Régression Logistique Multivoie, 46 eme Journée de Statistique. [3] Bro, R. (2), Multi-way Analysis in the Food Industry - Models, Algorithms, and Applications ICSLP Proceedings. [4] Hastie, T., Tibshirani, R. and Friedman, J. (29), The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer. [5] Bach F., Jenatton R., Mairal J., Obozinski G. (212) Structured sparsity through convex optimization. Statistical Science, 27(4), 45 468. 6