Etude comparative des procedures d estimation du local False Discovery Rate

Transcription

1 Etude comparative des procedures d estimation du local False Discovery ate Cyril Dalmasso & Philippe Broët INSEM U472 - Faculté de médecine Paris Sud 16, avenue Paul Vaillant-Couturier Villejuif ésumé Les nouvelles technologies de la génomique fonctionnelle produisent des quantités de données de plus en plus importantes conduisant l investigateur à e ectuer simultanément des milliers de tests statistiques. Dans ce contexte, le local False Discovery ate (localfd), qui est étroitement lié au False Discovery ate (FD) introduit par Benjamini et Hochberg (1995), est un critère particulièrement adapté pour prendre en compte ce problème de multiplicité des tests. Dans le cadre des procédures d estimation du localfd pour lesquelles aucune hypothèse n est faite sur la distribution de la statistique de test sous l hypothèse alternative, nous considérons les méthodes proposées par Efron (2004), Aubert et coll. (2004), et Scheid et coll. (2004). Après une présentation de ces trois méthodes, nous proposons une nouvelle procédure d estimation du localfd. Une étude de simulations est conduite a n de comparer les quatre procédures, et ces di érentes méthodes sont ensuite appliquées à des données d oncologie. Mots-clés Tests multiples, False Discovery ate, local False Discovery ate. Abstract New technologies in functional genomics produce huge datasets leading to thousands of statistical tests being performed. In this context, the local False Discovery ate (localfd), which is closely related to the Benjamini and Hochberg s False Discovery ate (FD), is an interesting criterion in order to address the multiple testing problem. In the framework of estimating procedures of the localfd without any assumption on the distribution of the test statistic under the alternative hypothesis, we consider the methods proposed by Efron (2004), Aubert et al. (2004), and Scheid et al. (2004). After a presentation of these three methods, we propose a novel procedure for estimating the localfd. A simulation study is conducted in order to compare the four procedures, and the di erent methods are then applied to clinical data. Keywords Multiple tests, False Discovery ate, local False Discovery ate. 1

2 1 Introduction Pour toute analyse de données impliquant simultanément un nombre important de tests statistiques, l un des problèmes majeurs est la prise en compte de la multiplicité de ces tests. L ampleur du nombre de comparaisons e ectuées dans le cas d études de génomique fonctionnelle à grande échelle qui ont pour objectif d identi er les gènes ou séquences dont les modi cations sont liées à un facteur biologique ou clinique particulier a entraîné un renouveau d intérêt pour le problème des comparaisons multiples. Alors que les stratégies habituellement utilisées pour tester une seule hypothèse visent à contrôler le risque de première espèce, les procédures de comparaisons multiples visent à contrôler (ou estimer) un autre critère d erreur tenant compte de l ensemble des comparaisons e ectuées. Dans le cadre de l analyse des données de génomique fonctionnelle, le critère le plus utilisé est aujourd hui le False Discovery ate (FD) introduit en 1995 par Benjamini et Hochberg [1]. Notant V le nombre total de faux positifs et le nombre total de positifs (gènes/séquences déclarés intéressants), le FD est dé ni comme l espérance du taux de faux positifs : F D = E V 1 f>0g : Ce critère, moins restrictif que le classique Family Wise Error ate (FWE), qui est la probabilité d avoir au moins un faux positif, est bien adapté au cadre exploratoire considéré dans l analyse des données de génomique fonctionnelle. A partir du FD, plusieurs extensions ont été proposées, dont les principales sont le positive False Discovery ate (pfd) et le local False Discovery rate (localfd). Le positive False Discovery ate (pfd) est dé ni comme l espérance du taux de faux positives conditionnelle à l existence d au moins une découverte (pf D = E V j > 0 ). Si les statistiques de test sont indépendantes et identiquement distribuées sous l hypothèse nulle, Storey [2] a démontré que, pour une région de rejet xée, le pf D peut s écrire comme une probabilité conditionnelle : pf D( ) = Pr(H = 0jT 2 ) où T est la statistique de test et H est la variable indicatrice telle que H = 0 si l hypothèse nulle H 0 est vraie, H = 1 si l hypothèse alternative H 1 est vraie. Le localfd, introduit par Efron en 2001 [3], est dé ni comme la probabilité pour un gène de véri er l hypothèse nulle conditionnellement à une valeur particulière de la statistique de test : localf D(t) = P r(h = 0jT = t): En notant f la densité marginale de la statistique de test, f 0 et f 1 les densités conditionnelles sous H 0 et H 1, et 0 = Pr(H = 0), la densité marginale de T s écrit : f(t) = 0 f 0 (t) + (1 0 )f 1 (t): (1) A partir de cette relation, le localfd s écrit : localf D = 0 f 0 (t)=f(t): Alors que le pfd fournit une information globale pour toute une région de rejet, sans distinguer les gènes proches de la frontière des autres gènes, le localfd est une quantité qui fournit une information spéci que à chaque gène/séquence. Ces critères sont 2

3 cependant étroitement liés. En e et, pour une région de rejet comme l espérance conditionnelle du localfd pour t 2 :, le pf D peut s écrire pf D( ) = 0 Pr(T 2 jh = 0) Pr(T 2 ) = 0 f0 (z)dz f(z)dz = localf D(z)f(z)dz f(z)dz Ainsi, le localfd peut permettre à l investigateur de comparer les taux de faux positifs de plusieurs sous-ensembles de gènes/séquences dé nis, par exemple, à partir des fonctions biologiques ou bien des localisations chromosomiques. En pratique, un estimateur du FD pour un sous-ensemble sera obtenu par la moyenne des localf D de tous les gènes/séquences du sous-ensemble. A partir de la modélisation explicite des distributions de la statistique de test sous H 0 et sous H 1 et selon une approche fréquentiste (EM algorithme) ou Bayésienne, une estimation directe du localfd peut être obtenue. Plusieurs procédures proposent cependant une estimation du localfd sans aucune hypothèse sur la distribution de la statistique de test sous H 1. Ces dernières procédures constituent le cadre de notre exposé. A notre connaissance, il en existe actuellement trois : la procédure d Efron [4], celle de Aubert et coll. [5] et celle de Scheid et coll. [6]. Après avoir présenté ces trois procédures, nous proposerons une nouvelle procédure d estimation du localfd. Puis, nous présenterons les résultats d une étude de simulation comparant les di érentes procédures. En n, nous illustrerons les di érentes méthodes sur des données réelles issues d une étude en oncologie. 2 Estimation du localfd sans hypothèse sur H 1 Les di érentes procédures d estimation du localfd présentées sont basées sur une estimation séparée des trois quantités 0, f 0 (t) et f(t): Procédure d Efron (2004) Le cadre pratique dans lequel Efron situe l ensemble de sa procédure est celui dans lequel une faible proportion de gènes est modi é ( 10%). L estimateur retenu pour 0 est la constante 1. La densité marginale f(t) est quant à elle estimée par une régression de Poisson. En pratique, l ensemble des valeurs observées de la statistique est partitionné en K intervalles de même longueur, dont les valeurs centrales sont notées x k. L espérance k du nombre d observations contenues dans chaque intervalle, qui est proportionnelle à la densité f k = f(x k ); est ensuite estimé par une régression de Poisson: Supposons que la distribution théorique de la statistique de test sous l hypothèse nulle est une loi normale centrée réduite (lorsque ce n est pas le cas, il est toujours possible de calculer les degrés de signi cation et de se ramener à une distribution normale en 3

4 e ectuant la transformation 1 (P ) où est la fonction de répartition d une distribution normale centrée réduite). Lorsqu il existe des covariables non observées ou de fortes corrélations sou H 0 entre les statistiques, la distribution réelle sous l hypothèse nulle peut être éloignée de la distribution théorique, et l utilisation de la distribution théorique peut avoir des conséquences importantes sur les conclusions de l analyse. La méthode proposée par Efron [4] reste basée sur l hypothèse que la statistique de test suit sous l hypothèse nulle une distribution normale, mais les paramètres de cette distribution sont estimés à partir des données observées. Sous cette hypothèse, la variance 2 2 d 0 est égale à 2 log f(t) = d2 1 dt 2 dt cte : L espérance 0 est estimée par la t 0 0 valeur correspondant au maximum de la densité marginale estimée. Pour estimer la variance, une régression polynomiale d ordre 2 des valeurs estimées de log f k sur les valeurs de x k proches de b 0 est e ectuée, ce qui permet d obtenir une estimation de la variance 2 0. Procédure de Aubert et coll. (2004) La méthode proposée par Aubert et coll. [5] est basée sur la distribution des degrés de signi cations ordonnés P (1) P (2) ::: P (m). En supposant que les degrés de signi cation suivent, sous H 0, une loi uniforme, la densité conditionnelle des degrés de signi cation sous H 0 est égale à 1. La probabilité 0 est estimée suivant la méthode proposée par Storey et Tibshirani [7]. Si les P values suivent une loi uniforme sous l hypothèse nulle, la relation (1) devient: f(p) = 0 + (1 0 )f 1 (p); et f(1) est le plus petit majorant de 0 basé sur (1). En considérant ^ 0 () = #fp i > ; i = 1; :::; mg=m(1 ) qui est un estimateur de 1 F () 1 (où F la fonction de répartition marginale de P ), Storey et Tibshirani [7] ont proposé d utiliser une méthode de lissage basée sur des splines cubiques pour estimer la quantité lim!1 ^ 0 () qui est égale à ^f(1). La densité marginale f(p) est estimée en deux étapes. Dans une première étape, pour Pr(P 2[p chaque gène i, la densité f(p (i) ) = lim (i) ;p (i) +])!0 est approchée par la quantité 2 Pr(P 2[p (i 1) ;p (i) ]) p (i) p (i 1) qui est estimée par m(p (i) p (i 1) ) 1 : La variabilité de cet estimateur étant importante, la densité est estimée dans une deuxième étape par un lissage des valeurs obtenues (moyennes mobiles ou régression locale pondérée), de façon à ce que la densité soit monotone. Procédure de Scheid et coll. (2004) La méthode proposée par Sheid et coll. [6] est également basée sur l hypothèse que les degrés de signi cation suivent, sous l hypothèse nulle, une loi uniforme. La densité conditionnelle des degrés de signi cation sous l hypothèse nulle est donc supposée égale à 1, et les deux quantités à estimer sont 0 et f(t). La probabilité 0 est estimée à partir d un algorithme séquentiel descendant (stochastic downhill) visant à séparer l ensemble des gènes/séquences en deux sous ensembles 4

5 de gènes/séquences dont l un suit approximativement une loi uniforme. Un score de Kolmogoro -Smirno mesurant l ajustement des p-values avec une distribution uniforme est calculé pour l ensemble de tous les gènes/séquences. Puis, de manière itéarative, des valeurs, tirées au hasard, sont retirées du premier ensemble de façon à ce que le score calculé sur le sous-ensemble restant soit le plus petit possible. En pratique, la procédure s arrête lorsque aucun score plus petit n a pu être trouvé après 2m itérations. A n de tenir compte de la taille de l échantillon et pour éviter un surajustement, un terme de pénalité est ajouté au score. La distribution marginale des degrés de signi cation est estimée à partir d un découpage de l intervalle [0; 1] en 100 intervalles de mêmes longueur. Le nombres de valeurs contenues dans chaque intervalle permet d obtenir une estimation de la densité f(t). Le localfd est calculé pour ces 100 valeurs, et une estimation du critère est obtenue en tout point à partir de splines cubiques à 7 degrés de liberté appliqués aux 100 valeurs calculées. 3 Procédure d estimation proposée Nous supposons également les degrés de signi cation uniformément distribués sous l hypothèse nulle. Si cette hypothèse n est pas vraie en général, les méthodes de permutations qui peuvent être utilisées pour le calcul des degrés de signi cation (ou dans le calcul de la loi de la statistique de test) [3] permettent de s a ranchir des hypothèses distributionnelles et la distribution des p-values ainsi obtenues approche dans la plupart des cas une distribution uniforme. La probabilité 0 est estimée suivant la méthode LBE que nous avons proposée. Tout d abord, notons que E(P ) E 0 = (P ) 0 + (1 0 ) E 1(P ) où E E 0 (P ) 0(P ) et E 1 (P ) sont les espérances de la distribution conditionnelle de P sous H 0 et sou H 1. En supposant P que les p-values sont uniformément distribuées sous H 0, E 0 (P ) = 1=2. Ainsi, b 0 = 2 1 m m i=1 P i qui est un estimateur sans biais de E(P ) ; est un estimateur de E 0 (P ) 0 dont le biais est positif: Sous certaines conditions non détaillées ici, nous avons montré qu une P transformation des p-values conduit à un estimateur de 0 moins biaisé que b 0 = 2 1 m m i=1 P i. Dans l ensemble des fonctions véri ant les conditions requises, nous avons considéré les fonctions '(P ) = ln(1 x) n ; n 2 N, et nous avons montré que ces fonctions conduisent à une famille d estimateurs de 0 dont le biais est décroissant avec n. Comme sous l hypothèse nulle, ln(1 P ) suit une loi exponentielle de paramètre 1; E 0 ([ ln(1 P )] n ) = n! et la famille d estimateurs proposée est : ^ 0(n) = (n!) P 1 m m i=1 [ Log(1 p i)] n ; n 2 N: Pour cette famille d estimateurs, nous avons montré qu une borne supérieure de la variance asymptotique peut s écrire m 1 n 1 : Comme le biais est décroissant avec 2n n alors que la variance est croissante, nous avons proposé une règle pratique pour choisir un estimateur particulier dans la famille d estimateurs. Pour un nombre spéci que m d hypothèses testées, nous avons proposé de choisir n en fonction d un seuil arbitraire l 5

6 pour le majorant de la variance asymptotique. En utilisant cette transformation '(P ) des degrés de signi cation, nous présenterons une estimation de la densité marginale à partir d estimateurs à noyaux. Une estimation du localfd en sera déduite. 4 Simulations et application Nous présenterons les résultats d une étude de simulation visant à comparer les di érentes procédures d estimation du localfd. Les données simulées seront générées de façon à mimer des données correspondant au cadre considéré par Efron [4]. Des situations pour lesquelles une forte proportion de gènes sont modi és seront également considérées. Nous présenterons en n les di érentes méthodes appliquées à di érents jeux de données d oncologie clinique. eferences [1] Benjamini Y., Hochberg Y. (1995) Controlling the false discovery rate : a practical and powerful approach to multiple testing. J Stat Soc Ser B, 57, [2] Storey J.D. (2001) A direct approach to false discovery rates. J Stat Soc Ser B; 64, [3] Efron B., Tibshirani., Storey J., Tusher V. (2001) Empirical Bayes Analysis of a Microarray experiment. J Am Stat Assoc, 96, [4] Efron, B. (2004) Large-scale simultaneous hypothesis testing: the choice of a null hypothesis. J Am Stat Assoc, 99, [5] Aubert, J.; Bar-Hen, A.; Daudin, J.J.; obin, S. (2004) Determination of the di erentially expressed genes in microarray experiments using localfd, BMC Bioinformatic, Sep 06;5(1):125. [6] Scheid S, Spang (2004). A stochastic downhill search algorithm for estimating the local false discovery rate. IEEE Transactions on Computational Biology and Bioinformatics 1(3), [7] Storey JD, Tibshirani. (2003) Statistical signi cance for genome-wide studies. Proc Natl Acad Sci, 100, [8] Dalmasso, C; Broet, P.; Moreau, T. (2004) A simple procedure for estimating the false discovery rate. Bioinformatics. Advance Access published on 12 Oct. 6