Etude comparative des procedures d estimation du local False Discovery Rate



Documents pareils
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Principe de symétrisation pour la construction d un test adaptatif

Méthodes de Simulation

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Limites finies en un point

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Chapitre 2 Le problème de l unicité des solutions

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

TABLE DES MATIERES. C Exercices complémentaires 42

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Modélisation géostatistique des débits le long des cours d eau.

MODELES DE DUREE DE VIE

INF6304 Interfaces Intelligentes

IFT3245. Simulation et modèles

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Introduction à l approche bootstrap

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Chapitre 7 : Intégration sur un intervalle quelconque

Continuité en un point

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Modélisation et simulation

NON-LINEARITE ET RESEAUX NEURONAUX

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Simulation de variables aléatoires

Annexe commune aux séries ES, L et S : boîtes et quantiles

Coup de Projecteur sur les Réseaux de Neurones

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Probabilités conditionnelles Loi binomiale

Principe d un test statistique

TSTI 2D CH X : Exemples de lois à densité 1

3 Approximation de solutions d équations

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Quantification Scalaire et Prédictive

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

4 Distributions particulières de probabilités

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

FIMA, 7 juillet 2005

Cours de méthodes de scoring

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Programmes des classes préparatoires aux Grandes Ecoles

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

1 Définition de la non stationnarité

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Gestion obligataire passive

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

UNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE

Arbres binaires de décision

Estimation et tests statistiques, TD 5. Solutions

Probabilités sur un univers fini

Correction du baccalauréat ES/L Métropole 20 juin 2014

Soutenance de stage Laboratoire des Signaux et Systèmes

Évaluation de la régression bornée

Moments des variables aléatoires réelles

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Image d un intervalle par une fonction continue

Probabilités III Introduction à l évaluation d options

Classification non supervisée

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

PROBABILITES ET STATISTIQUE I&II

MCMC et approximations en champ moyen pour les modèles de Markov

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Rappels sur les suites - Algorithme

VI. Tests non paramétriques sur un échantillon

Suites numériques 3. 1 Convergence et limite d une suite

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercice 3 (5 points) A(x) = 1-e -0039' e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

données en connaissance et en actions?

LE PROBLEME DU PLUS COURT CHEMIN

La classification automatique de données quantitatives

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Introduction à la statistique non paramétrique

La fonction exponentielle

Introduction au Data-Mining

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Chapitre 7. Récurrences

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Modélisation aléatoire en fiabilité des logiciels

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Continuité d une fonction de plusieurs variables

1 Recherche en table par balayage

Transcription:

Etude comparative des procedures d estimation du local False Discovery ate Cyril Dalmasso & Philippe Broët INSEM U472 - Faculté de médecine Paris Sud 16, avenue Paul Vaillant-Couturier 94 807 Villejuif ésumé Les nouvelles technologies de la génomique fonctionnelle produisent des quantités de données de plus en plus importantes conduisant l investigateur à e ectuer simultanément des milliers de tests statistiques. Dans ce contexte, le local False Discovery ate (localfd), qui est étroitement lié au False Discovery ate (FD) introduit par Benjamini et Hochberg (1995), est un critère particulièrement adapté pour prendre en compte ce problème de multiplicité des tests. Dans le cadre des procédures d estimation du localfd pour lesquelles aucune hypothèse n est faite sur la distribution de la statistique de test sous l hypothèse alternative, nous considérons les méthodes proposées par Efron (2004), Aubert et coll. (2004), et Scheid et coll. (2004). Après une présentation de ces trois méthodes, nous proposons une nouvelle procédure d estimation du localfd. Une étude de simulations est conduite a n de comparer les quatre procédures, et ces di érentes méthodes sont ensuite appliquées à des données d oncologie. Mots-clés Tests multiples, False Discovery ate, local False Discovery ate. Abstract New technologies in functional genomics produce huge datasets leading to thousands of statistical tests being performed. In this context, the local False Discovery ate (localfd), which is closely related to the Benjamini and Hochberg s False Discovery ate (FD), is an interesting criterion in order to address the multiple testing problem. In the framework of estimating procedures of the localfd without any assumption on the distribution of the test statistic under the alternative hypothesis, we consider the methods proposed by Efron (2004), Aubert et al. (2004), and Scheid et al. (2004). After a presentation of these three methods, we propose a novel procedure for estimating the localfd. A simulation study is conducted in order to compare the four procedures, and the di erent methods are then applied to clinical data. Keywords Multiple tests, False Discovery ate, local False Discovery ate. 1

1 Introduction Pour toute analyse de données impliquant simultanément un nombre important de tests statistiques, l un des problèmes majeurs est la prise en compte de la multiplicité de ces tests. L ampleur du nombre de comparaisons e ectuées dans le cas d études de génomique fonctionnelle à grande échelle qui ont pour objectif d identi er les gènes ou séquences dont les modi cations sont liées à un facteur biologique ou clinique particulier a entraîné un renouveau d intérêt pour le problème des comparaisons multiples. Alors que les stratégies habituellement utilisées pour tester une seule hypothèse visent à contrôler le risque de première espèce, les procédures de comparaisons multiples visent à contrôler (ou estimer) un autre critère d erreur tenant compte de l ensemble des comparaisons e ectuées. Dans le cadre de l analyse des données de génomique fonctionnelle, le critère le plus utilisé est aujourd hui le False Discovery ate (FD) introduit en 1995 par Benjamini et Hochberg [1]. Notant V le nombre total de faux positifs et le nombre total de positifs (gènes/séquences déclarés intéressants), le FD est dé ni comme l espérance du taux de faux positifs : F D = E V 1 f>0g : Ce critère, moins restrictif que le classique Family Wise Error ate (FWE), qui est la probabilité d avoir au moins un faux positif, est bien adapté au cadre exploratoire considéré dans l analyse des données de génomique fonctionnelle. A partir du FD, plusieurs extensions ont été proposées, dont les principales sont le positive False Discovery ate (pfd) et le local False Discovery rate (localfd). Le positive False Discovery ate (pfd) est dé ni comme l espérance du taux de faux positives conditionnelle à l existence d au moins une découverte (pf D = E V j > 0 ). Si les statistiques de test sont indépendantes et identiquement distribuées sous l hypothèse nulle, Storey [2] a démontré que, pour une région de rejet xée, le pf D peut s écrire comme une probabilité conditionnelle : pf D( ) = Pr(H = 0jT 2 ) où T est la statistique de test et H est la variable indicatrice telle que H = 0 si l hypothèse nulle H 0 est vraie, H = 1 si l hypothèse alternative H 1 est vraie. Le localfd, introduit par Efron en 2001 [3], est dé ni comme la probabilité pour un gène de véri er l hypothèse nulle conditionnellement à une valeur particulière de la statistique de test : localf D(t) = P r(h = 0jT = t): En notant f la densité marginale de la statistique de test, f 0 et f 1 les densités conditionnelles sous H 0 et H 1, et 0 = Pr(H = 0), la densité marginale de T s écrit : f(t) = 0 f 0 (t) + (1 0 )f 1 (t): (1) A partir de cette relation, le localfd s écrit : localf D = 0 f 0 (t)=f(t): Alors que le pfd fournit une information globale pour toute une région de rejet, sans distinguer les gènes proches de la frontière des autres gènes, le localfd est une quantité qui fournit une information spéci que à chaque gène/séquence. Ces critères sont 2

cependant étroitement liés. En e et, pour une région de rejet comme l espérance conditionnelle du localfd pour t 2 :, le pf D peut s écrire pf D( ) = 0 Pr(T 2 jh = 0) Pr(T 2 ) = 0 f0 (z)dz f(z)dz = localf D(z)f(z)dz f(z)dz Ainsi, le localfd peut permettre à l investigateur de comparer les taux de faux positifs de plusieurs sous-ensembles de gènes/séquences dé nis, par exemple, à partir des fonctions biologiques ou bien des localisations chromosomiques. En pratique, un estimateur du FD pour un sous-ensemble sera obtenu par la moyenne des localf D de tous les gènes/séquences du sous-ensemble. A partir de la modélisation explicite des distributions de la statistique de test sous H 0 et sous H 1 et selon une approche fréquentiste (EM algorithme) ou Bayésienne, une estimation directe du localfd peut être obtenue. Plusieurs procédures proposent cependant une estimation du localfd sans aucune hypothèse sur la distribution de la statistique de test sous H 1. Ces dernières procédures constituent le cadre de notre exposé. A notre connaissance, il en existe actuellement trois : la procédure d Efron [4], celle de Aubert et coll. [5] et celle de Scheid et coll. [6]. Après avoir présenté ces trois procédures, nous proposerons une nouvelle procédure d estimation du localfd. Puis, nous présenterons les résultats d une étude de simulation comparant les di érentes procédures. En n, nous illustrerons les di érentes méthodes sur des données réelles issues d une étude en oncologie. 2 Estimation du localfd sans hypothèse sur H 1 Les di érentes procédures d estimation du localfd présentées sont basées sur une estimation séparée des trois quantités 0, f 0 (t) et f(t): Procédure d Efron (2004) Le cadre pratique dans lequel Efron situe l ensemble de sa procédure est celui dans lequel une faible proportion de gènes est modi é ( 10%). L estimateur retenu pour 0 est la constante 1. La densité marginale f(t) est quant à elle estimée par une régression de Poisson. En pratique, l ensemble des valeurs observées de la statistique est partitionné en K intervalles de même longueur, dont les valeurs centrales sont notées x k. L espérance k du nombre d observations contenues dans chaque intervalle, qui est proportionnelle à la densité f k = f(x k ); est ensuite estimé par une régression de Poisson: Supposons que la distribution théorique de la statistique de test sous l hypothèse nulle est une loi normale centrée réduite (lorsque ce n est pas le cas, il est toujours possible de calculer les degrés de signi cation et de se ramener à une distribution normale en 3

e ectuant la transformation 1 (P ) où est la fonction de répartition d une distribution normale centrée réduite). Lorsqu il existe des covariables non observées ou de fortes corrélations sou H 0 entre les statistiques, la distribution réelle sous l hypothèse nulle peut être éloignée de la distribution théorique, et l utilisation de la distribution théorique peut avoir des conséquences importantes sur les conclusions de l analyse. La méthode proposée par Efron [4] reste basée sur l hypothèse que la statistique de test suit sous l hypothèse nulle une distribution normale, mais les paramètres de cette distribution sont estimés à partir des données observées. Sous cette hypothèse, la variance 2 2 d 0 est égale à 2 log f(t) = d2 1 dt 2 dt 2 2 + cte : L espérance 0 est estimée par la t 0 0 valeur correspondant au maximum de la densité marginale estimée. Pour estimer la variance, une régression polynomiale d ordre 2 des valeurs estimées de log f k sur les valeurs de x k proches de b 0 est e ectuée, ce qui permet d obtenir une estimation de la variance 2 0. Procédure de Aubert et coll. (2004) La méthode proposée par Aubert et coll. [5] est basée sur la distribution des degrés de signi cations ordonnés P (1) P (2) ::: P (m). En supposant que les degrés de signi cation suivent, sous H 0, une loi uniforme, la densité conditionnelle des degrés de signi cation sous H 0 est égale à 1. La probabilité 0 est estimée suivant la méthode proposée par Storey et Tibshirani [7]. Si les P values suivent une loi uniforme sous l hypothèse nulle, la relation (1) devient: f(p) = 0 + (1 0 )f 1 (p); et f(1) est le plus petit majorant de 0 basé sur (1). En considérant ^ 0 () = #fp i > ; i = 1; :::; mg=m(1 ) qui est un estimateur de 1 F () 1 (où F la fonction de répartition marginale de P ), Storey et Tibshirani [7] ont proposé d utiliser une méthode de lissage basée sur des splines cubiques pour estimer la quantité lim!1 ^ 0 () qui est égale à ^f(1). La densité marginale f(p) est estimée en deux étapes. Dans une première étape, pour Pr(P 2[p chaque gène i, la densité f(p (i) ) = lim (i) ;p (i) +])!0 est approchée par la quantité 2 Pr(P 2[p (i 1) ;p (i) ]) p (i) p (i 1) qui est estimée par m(p (i) p (i 1) ) 1 : La variabilité de cet estimateur étant importante, la densité est estimée dans une deuxième étape par un lissage des valeurs obtenues (moyennes mobiles ou régression locale pondérée), de façon à ce que la densité soit monotone. Procédure de Scheid et coll. (2004) La méthode proposée par Sheid et coll. [6] est également basée sur l hypothèse que les degrés de signi cation suivent, sous l hypothèse nulle, une loi uniforme. La densité conditionnelle des degrés de signi cation sous l hypothèse nulle est donc supposée égale à 1, et les deux quantités à estimer sont 0 et f(t). La probabilité 0 est estimée à partir d un algorithme séquentiel descendant (stochastic downhill) visant à séparer l ensemble des gènes/séquences en deux sous ensembles 4

de gènes/séquences dont l un suit approximativement une loi uniforme. Un score de Kolmogoro -Smirno mesurant l ajustement des p-values avec une distribution uniforme est calculé pour l ensemble de tous les gènes/séquences. Puis, de manière itéarative, des valeurs, tirées au hasard, sont retirées du premier ensemble de façon à ce que le score calculé sur le sous-ensemble restant soit le plus petit possible. En pratique, la procédure s arrête lorsque aucun score plus petit n a pu être trouvé après 2m itérations. A n de tenir compte de la taille de l échantillon et pour éviter un surajustement, un terme de pénalité est ajouté au score. La distribution marginale des degrés de signi cation est estimée à partir d un découpage de l intervalle [0; 1] en 100 intervalles de mêmes longueur. Le nombres de valeurs contenues dans chaque intervalle permet d obtenir une estimation de la densité f(t). Le localfd est calculé pour ces 100 valeurs, et une estimation du critère est obtenue en tout point à partir de splines cubiques à 7 degrés de liberté appliqués aux 100 valeurs calculées. 3 Procédure d estimation proposée Nous supposons également les degrés de signi cation uniformément distribués sous l hypothèse nulle. Si cette hypothèse n est pas vraie en général, les méthodes de permutations qui peuvent être utilisées pour le calcul des degrés de signi cation (ou dans le calcul de la loi de la statistique de test) [3] permettent de s a ranchir des hypothèses distributionnelles et la distribution des p-values ainsi obtenues approche dans la plupart des cas une distribution uniforme. La probabilité 0 est estimée suivant la méthode LBE que nous avons proposée. Tout d abord, notons que E(P ) E 0 = (P ) 0 + (1 0 ) E 1(P ) où E E 0 (P ) 0(P ) et E 1 (P ) sont les espérances de la distribution conditionnelle de P sous H 0 et sou H 1. En supposant P que les p-values sont uniformément distribuées sous H 0, E 0 (P ) = 1=2. Ainsi, b 0 = 2 1 m m i=1 P i qui est un estimateur sans biais de E(P ) ; est un estimateur de E 0 (P ) 0 dont le biais est positif: Sous certaines conditions non détaillées ici, nous avons montré qu une P transformation des p-values conduit à un estimateur de 0 moins biaisé que b 0 = 2 1 m m i=1 P i. Dans l ensemble des fonctions véri ant les conditions requises, nous avons considéré les fonctions '(P ) = ln(1 x) n ; n 2 N, et nous avons montré que ces fonctions conduisent à une famille d estimateurs de 0 dont le biais est décroissant avec n. Comme sous l hypothèse nulle, ln(1 P ) suit une loi exponentielle de paramètre 1; E 0 ([ ln(1 P )] n ) = n! et la famille d estimateurs proposée est : ^ 0(n) = (n!) P 1 m m i=1 [ Log(1 p i)] n ; n 2 N: Pour cette famille d estimateurs, nous avons montré qu une borne supérieure de la variance asymptotique peut s écrire m 1 n 1 : Comme le biais est décroissant avec 2n n alors que la variance est croissante, nous avons proposé une règle pratique pour choisir un estimateur particulier dans la famille d estimateurs. Pour un nombre spéci que m d hypothèses testées, nous avons proposé de choisir n en fonction d un seuil arbitraire l 5

pour le majorant de la variance asymptotique. En utilisant cette transformation '(P ) des degrés de signi cation, nous présenterons une estimation de la densité marginale à partir d estimateurs à noyaux. Une estimation du localfd en sera déduite. 4 Simulations et application Nous présenterons les résultats d une étude de simulation visant à comparer les di érentes procédures d estimation du localfd. Les données simulées seront générées de façon à mimer des données correspondant au cadre considéré par Efron [4]. Des situations pour lesquelles une forte proportion de gènes sont modi és seront également considérées. Nous présenterons en n les di érentes méthodes appliquées à di érents jeux de données d oncologie clinique. eferences [1] Benjamini Y., Hochberg Y. (1995) Controlling the false discovery rate : a practical and powerful approach to multiple testing. J Stat Soc Ser B, 57, 289-300. [2] Storey J.D. (2001) A direct approach to false discovery rates. J Stat Soc Ser B; 64, 479-498. [3] Efron B., Tibshirani., Storey J., Tusher V. (2001) Empirical Bayes Analysis of a Microarray experiment. J Am Stat Assoc, 96, 1151-1160. [4] Efron, B. (2004) Large-scale simultaneous hypothesis testing: the choice of a null hypothesis. J Am Stat Assoc, 99, 96-104 [5] Aubert, J.; Bar-Hen, A.; Daudin, J.J.; obin, S. (2004) Determination of the di erentially expressed genes in microarray experiments using localfd, BMC Bioinformatic, Sep 06;5(1):125. [6] Scheid S, Spang (2004). A stochastic downhill search algorithm for estimating the local false discovery rate. IEEE Transactions on Computational Biology and Bioinformatics 1(3),98-108. [7] Storey JD, Tibshirani. (2003) Statistical signi cance for genome-wide studies. Proc Natl Acad Sci, 100, 9440-9445. [8] Dalmasso, C; Broet, P.; Moreau, T. (2004) A simple procedure for estimating the false discovery rate. Bioinformatics. Advance Access published on 12 Oct. 6