Clustering par quantification en présence de censure



Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

La classification automatique de données quantitatives

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Agrégation des portefeuilles de contrats d assurance vie

Introduction au Data-Mining

Modélisation aléatoire en fiabilité des logiciels

Modélisation géostatistique des débits le long des cours d eau.

FIMA, 7 juillet 2005

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

MODELES DE DUREE DE VIE

Introduction au datamining

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Chapitre 3 : INFERENCE

Programmation linéaire

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Application des courbes ROC à l analyse des facteurs pronostiques binaires

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Modèles et Méthodes de Réservation

Programmes des classes préparatoires aux Grandes Ecoles

Évaluation de la régression bornée

Prototype de canal caché dans le DNS

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Probabilités conditionnelles Exercices corrigés

Simulation de variables aléatoires

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Une application des algorithmes génétiques à l ordonnancement d atelier

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

PROBABILITES ET STATISTIQUE I&II

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

1 Complément sur la projection du nuage des individus

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Classification non supervisée

Introduction à l approche bootstrap

Entreposage de données complexes pour la médecine d anticipation personnalisée

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Application de K-means à la définition du nombre de VM optimal dans un cloud

NON-LINEARITE ET RESEAUX NEURONAUX

VI. Tests non paramétriques sur un échantillon

INF6304 Interfaces Intelligentes

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

BIG Data et R: opportunités et perspectives

Algorithmes de recommandation, Cours Master 2, février 2011

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Eléments de statistique

Mesure et gestion des risques d assurance

Texte Agrégation limitée par diffusion interne

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

MCMC et approximations en champ moyen pour les modèles de Markov

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Économétrie, causalité et analyse des politiques

Echantillonnage Non uniforme

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Que faire lorsqu on considère plusieurs variables en même temps?

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Logiciel XLSTAT version rue Damrémont PARIS

3 Approximation de solutions d équations

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Scénarios économiques en assurance

TABLE DES MATIERES. C Exercices complémentaires 42

MAP 553 Apprentissage statistique

Base de données opérationnelle pour les phénomènes PAN Commission SIGMA 2 - AAAF

Chapitre 5 : Flot maximal dans un graphe

Les débats sur l évolution des

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Méthodes de Simulation

Enjeux mathématiques et Statistiques du Big Data

SONDAGE OMNIBUS TÉLÉPHONIQUE - OPINION AU SUJET DU PROJET ÉNERGIE EST -

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Chapitre 3. Les distributions à deux variables

Item 169 : Évaluation thérapeutique et niveau de preuve

Le No.1 de l économie d énergie pour patinoires.

Probabilités Loi binomiale Exercices corrigés

Introduction à la statistique non paramétrique

Introduction au Data-Mining

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Économetrie non paramétrique I. Estimation d une densité

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

L apprentissage automatique

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Nouveaux enjeux de recherche en sécurité routière liés à l'automatisation des véhicules : conséquences sur l'activité de conduite

Méthodes d apprentissage statistique «Machine Learning»

Programmation Linéaire - Cours 1

Transcription:

Clustering par quantification en présence de censure Svetlana Gribkova 1 Laboratoire de Statistique Théorique et Appliquée, Université Pierre et Marie Curie Paris 6, 4 place Jussieu, 75005 Paris Résumé. Les méthodes de clustering ont pour but de déterminer au sein d une population hétérogène plusieurs groupes d objets homogènes avec une séparation maximale entre les groupes. Cette problématique apparaît dans de nombreux domaines comme la biologie, la médecine ou encore l économie et la finance. Dans cet exposé, on s intéressera plus particulièrement au problème de clustering pour les données de survie où l éventuelle présence de censure rend les méthodes existantes inapplicables. Le but de ce travail est de proposer une nouvelle méthode de clustering pour une configuration où les observations sont composées d une variable de durée (éventuellement censurée) et d un vecteur de covariables qui est observé pour tous les individus. Cette méthode utilise la notion de quantification et généralise l algorithme classique des k means. On étudiera théoriquement la consistance de la méthode et on présentera une inégalité exponentielle qui permet de contrôler la différence entre la distorsion minimale et celle d un quantificateur empirique optimal. En conclusion on présentera des applications numériques aux données simulées et réelles. Mots-clés. Clustering, quantification, censure, k-means. Abstract. Clustering methods in statistics permit do distinguish in heterogeneous population several separated homogeneous groups. This type of problem appears in numerous areas such as biology, medicine, economy or finance. In this paper, we are interested by clustering algorithms for survival data where an eventual presence of censoring makes impossible the using of existing methods. We aim to propose a new method of clustering for the configuration where observations are composed of a lifetime variable, subjected to censoring and a vector of covariates which is observed for all subjects. This method is based on the notion of quantization and generalizes the classical k means algorithm. The consistency of the empirical design will be studied in terms of exponential inequality which permits to control the difference between the distortion of the empirically optimal quantizer and the minimal distortion. In conclusion we will present some applications to simulated and real data. Keywords. Clustering, quantization, censoring, k-means. 1

1 Introduction En analyse de survie ou en fiabilité l objet principal de l étude est la durée T écoulée entre le début de la période d observation et l occurrence d un certain événement d intérêt. Un exemple important dans la médecine est une étude de survie de patients atteints d une certaine maladie où l événement d intérêt est le temps de décès. En assurance on s intéresse souvent au temps écoulé jusqu à ce qu un accident survienne. Généralement, en plus de la durée T on observe un vecteur X R d de variables explicatives. En médecine par exemple ce vecteur peut être composé des caractéristiques individuelles des patients comme l âge, le sexe, les résultats de prélèvements sanguins, etc. En assurance ce sont les informations diverses sur les souscripteurs de contrat. Habituellement, le vecteur de covariables est observé pour tous les individus de la population, alors que la variable de durée peut ne pas toujours l être. Cela est dû au phénomène de censure qui est souvent présent dans les données de survie. Dans ce contexte, on n observe pas la variable d intérêt T, mais le minimum entre cette variable et une autre variable aléatoire parasite C, appelée la censure. Dans le cas d une étude médicale, C peut représenter la date de la fin d étude ou celle à laquelle le patient a été perdu de vue. Pour résumer, en présence de censure, au lieu d observer un vecteur aléatoire (T, X) R d+1, on observe (Y, X, δ) = (min(t, C), X, 1 T C ). La population étudiée en analyse de survie est souvent hétérogène et plusieurs clusters peuvent être naturellement présents dans les données. Parmi les patients atteints d une maladie, il peut y avoir plusieurs sous groupes de survie et des caractéristiques histologiques similaires. En assurance vie la population est forcement hétérogène, lorsque les personnes issues de plusieurs générations sont présentes. La détection des groupes homogènes apporte une information sur la structure de données et permet de modéliser séparément les données liées à chaque sous groupe, ce qui peut améliorer significativement la qualité de prévisions. Le problème de détection de groupes d objets similaires au sein d une population hétérogène est bien connu en statistique. Dans le cadre classique, où l on dispose des observations indépendantes identiquement distribuées, il existe plusieurs méthodes de partitionnement. En présence d observations censurées, une application directe de ces méthodes fournit des résultats incorrects, car elle amène à constituer des groupes basés sur les valeurs observées de la variable Y et non pas sur celles de la durée T qui nous intéresse. Le but de ce travail est de proposer une nouvelle méthode de clustering par quantification permettant de traiter les données de survie multivariées dont une composante est une variable de durée éventuellement censurée et les autres composantes sont des variables explicatives observées pour tous les sujets. 2

2 Quantification en présence de censure On considère un vecteur aléatoire (T, X) à valeurs dans R d+1, de la loi P où T R est une variable de durée et X R d est un vecteur de covariables. Au lieu d observer (T, X) on observe les réalisations i.i.d. du triplet (Y, X, δ) = (min(t, C), X, 1 T C ) où C est une variable de censure. Un N-quantificateur dans R d+1 est une application de R d+1 dans un dictionnaire c, où c = (c 1,..., c N ) ( R d+1) N. On notera par QN l ensemble des N quantificateurs. Une erreur commise par un N quantificateur q Q N (sa distorsion) est définie par D(P, q) = E P (T, X) q(t, X) 2. (1) La distorsion minimale pour la classe de N quantificateurs est donnée par D(P, q ) := D N(P ) = inf q Q N D(P, q). Un quantificateur q est dit optimal si D(P, q ) = DN (P ). On montre qu un tel quantificateur existe et c est un quantificateur des plus proches voisins dont la distorsion est donnée par D(P, q ) = inf E min (T, X) y i 2. (2) c (R d+1 ) N y i c On cherchera donc par la suite le meilleur quantificateur parmi ceux des plus proches voisins. En réalité dans la plupart des cas la loi P du vecteur aléatoire (T, X) n est pas connue et on ne peut pas obtenir un quantificateur optimal q par la minimisation du critère (2). Ce critère doit alors être remplacé par sa version empirique. Si on disposait des observations i.i.d. (T i, X i ) 1 i n du vecteur (T, X), on aurait remplacé la loi inconnue P par la loi empirique engendrée par les observations. Dans notre cas, les observations i.i.d. de (T, X) ne sont pas disponibles. Pour pallier cette difficulté, on remplace la fonction de répartition inconnue de (T, X) par son estimateur adapté à la présence de censure, proposé par Stute (1993). Cet estimateur est donné par où ˆF n (t, x) = n W in 1 Yi t,x i x, t R, x R d, (3) i=1 W in = δ i n(1 Ĝ(Y i )), et Ĝ(y) est un estimateur de Kaplan-Meier de la fonction de distribution G(y) de la variable de censure. Cet estimateur engendre une mesure P n = i=1 W inδ (Yi,X i ) sur R d+1 ce qui nous amène à une définition suivante de distorsion empirique: D(P n, q) = 1 n W in (Y i, X i ) q(y i, X i ) 2. (4) n i=1 3

On appellera q n Q N un quantificateur empirique optimal s il minimise la distorsion empirique, c est-à-dire D(P n, q n) = inf q QN D(P n, q). Le résultat suivant montre la consistance du critère empirique. Théorème 1. Pour tout N 1, la suite (q n) n=1,2,... de quantificateurs empiriques optimales n = 1, 2,..., vérifie lim n D(P n, q n) = p.s. D N(P n ). 3 Algorithm de clustering par quantification Dans cette partie on propose un algorithme de clustering par quantification qui est une généralisation de méthode des k means au cas des données censureées. On suppose que l on a disposition des observations i.i.d. (Y i, X i, δ i ) 1 i n de (Y, X, δ) = (min(t, C), X, δ). On cherche à déterminer k groupes homogènes du point de vue de la variable de durée T qu on n observe pas et de la covariable X. L algorithme se dcompose en deux étapes. En première étape on détermine les centres des k clusters, de faon suivante, Étape 1: Initialiser les coordonnées de k centres c (0) 1,..., c (0) k. Calculer les valeurs des poids W in l échantillon (Y i, X i, δ i ) 1 i n de l estimateur de Kaplan-Meier à partir de Pour une itération l avec l = 0, 1, 2,... Calculer les cellules de Voronoi S1, l..., Sk l qui correspondent au centres c(l) 1,..., c (l) k pour l ensemble des observations non censurées {(Y i, X i ) : δ i = 1} Pour j = 1,..., k calculer les nouveaux centres (c (l+1) j ) 1 j k comme c (l+1) j = i=1 (Y i, X i ) T W in 1 {(Yi,X i ) S j,δ i =1} i=1 W. in1 {(Yi,X i ) S j,δ i =1} c (l+1) j représente un estimateur de l espérance conditionnelle E[(T, X) (T, X) Sj] l et dans le cadre classique est évaluée comme la moyenne empirique des observations qui se trouvent dans la cellule. Dans notre cas, ce calcul est remplacé par la moyenne prise uniquement sur les observations non censurées qui appartiennent à la cellule, chaque observation étant pondérée par son poids W in. L algorithme s arrête à une certaine itération l. Pour j = 1,..., k on attribue à chaque observation (Y i, X i ) avec δ i = 1 le label j si (Y i, X i ) S l j. 4

A la fin de la première étape les centres de clusters sont déterminés et les observations non censurées ont obtenu leur labels. Le but de la deuxième étape consiste à attribuer les labels aux observations censurées, pour lesquelles les distances euclidiennes aux centres de clusters ne sont pas observées. Étape 2 [Attribution de labels aux observations censurées]. Les distances entre les observations non censurées {(Y i, X i ) : δ i = 0} et les centres c (l ) 1,..., c (l ) k ne sont pas observées, par conséquence on ne peut pas déterminer pour eux le centre le plus proche. Pour résoudre ce problème on estime la distance de chaque observation censurée (Y i, X i ) avec δ i = 0 au centre c (l ) j par ˆd ij = Y i (t, X i ) c (l ) j 2 d ˆF (t X i ) Y i d ˆF, (5) (t X i ) où ˆF (t x) est un estimateur de F (t X = x) = P (T t X = x), défini dans Beran (1981) et donné par n K( ˆF x X i (t x) = W ) h in ( )1 n i=1 j=1 K Yi x Xj t, (6) h avec un noyau K(x), c est-à-dire une fonction non négative intégrable avec K(x)dx = 1. Avec (5) et (6) on obtient, ˆd ij = m=1 W mn (Y m, X i ) c (l ) 2 K ( X i X m n m=1 W mnk( X i X m Pour attribuer les labels aux observations censureées, ) 1Ym Y i h. (7) )1 h Ym Yi Pour chaque observation (Y i, X i ) avec δ i = 0 calculer l estimateur de distance ˆd ij en utilisant (7). Attribuer à (Y i, X i ) le label j = arg min j ˆdij. Bibliographie [1] Beran, R. (1981), Nonparametric regression with randomly censored survival data,technical report, Univ. California, Berkeley. [2] Stute, W. (1993), Consistent estimation under random censorship when covariables are present, Journal of Multivariate Analysis. 5