Influence du nombre de réplicats dans une analyse différentielle de données RNA-Seq



Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Principe de symétrisation pour la construction d un test adaptatif

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Lois de probabilité. Anita Burgun

Annexe commune aux séries ES, L et S : boîtes et quantiles

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

De la mesure à l analyse des risques

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Classe de première L

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

23. Interprétation clinique des mesures de l effet traitement

Introduction à l approche bootstrap

Big data et sciences du Vivant L'exemple du séquençage haut débit

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

SysFera. Benjamin Depardon

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

NON-LINEARITE ET RESEAUX NEURONAUX

IFT3245. Simulation et modèles

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Chapitre 3 : INFERENCE

Modélisation aléatoire en fiabilité des logiciels

Chapitre 3. Les distributions à deux variables

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Que faire lorsqu on considère plusieurs variables en même temps?

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Modèles et simulations informatiques des problèmes de coopération entre agents

Analyse de la variance Comparaison de plusieurs moyennes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

MABioVis. Bio-informatique et la

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Statistiques Descriptives à une dimension

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Représentation d une distribution

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Evaluation de la variabilité d'un système de mesure

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Précision d un résultat et calculs d incertitudes

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Exemple PLS avec SAS

Etude des propriétés empiriques du lasso par simulations

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

VI. Tests non paramétriques sur un échantillon

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Mesures et incertitudes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Les débats sur l évolution des

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Gènes Diffusion - EPIC 2010

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Données longitudinales et modèles de survie

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Cet article s attache tout d abord

Relation entre deux variables : estimation de la corrélation linéaire

Introduction au Data-Mining

Extraction d informations stratégiques par Analyse en Composantes Principales

TSTI 2D CH X : Exemples de lois à densité 1

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Introduction au datamining

Logiciel XLSTAT version rue Damrémont PARIS

données en connaissance et en actions?

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

La simulation probabiliste avec Excel

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

4. Résultats et discussion

CNAM léments de cours Bonus-malus et Crédibilité

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

INF6304 Interfaces Intelligentes

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Estimation et tests statistiques, TD 5. Solutions

Moments des variables aléatoires réelles

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Forum AMOA ADN Ouest. Présentation du BABOK. 31 Mars 2013 Nadia Nadah

Évaluation de la régression bornée

Lire ; Compter ; Tester... avec R

Transcription:

Influence du nombre de réplicats dans une analyse différentielle de données RNA-Seq Sophie Lamarre 1, Stéphane Pyronnet 2, Emeline Sarot 2, Sébastien Déjean 3, Magali San Cristobal 3,4 & Matthieu Vignes 5 1 Plateforme GeT-Biopuces, LISBP, INSA, Toulouse, France 2 Inserm U 1037, CHU de Rangueil, Toulouse, France 3 IMT et INSA Toulouse, France 4 GenPhyse, INRA Toulouse, France 5 MIA-T, INRA Toulouse, France Résumé. Cet article traite du nombre de réplicats biologiques dans une analyse différentielle de l expression des gènes mesurée par la technique RNA-Seq. Nous montrons sur un jeu de données réelles que 4 réplicats semble un minimum pour garantir la précision et la robustesse des résultats et proposons une étude sur données simulées pour répondre à cette question en environnement contrôlé. Mots-clés. expression génique, analyse différentielle, réplicat biologique Abstract. This work deals with the question of the number of biological replicates in differential gene analysis as measured by RNA-Seq technique. The analysis of a real data set tends to show that 4 replicates is the bare minimum to achieve acceptable accuracy and robustness in the results. We also propose a simulated framework to better quantify the influence of different parameters to this answer. Keywords. gene expression, differential analysis, biological replicate 1 Introduction Le génome est l ensemble du matériel génétique d un individu. Le décrypter est un enjeu majeur pour la recherche scientifique. L information qu il contient est codée dans l ADN grâce à un alphabet à 4 lettres (ou nucléotides) A, C, G et T. Elle est partagée par toutes les cellules d un individu. Cependant, seules certaines parties s expriment, c est à dire sont lues et utilisées pour la production de molécules fonctionnelles (les protéines) selon le stade de développement et/ou l environnement qui sont propres à chaque cellule. Des mécanismes de régulation contrôlent cette expression. Pour simplifier, nous focaliserons notre étude sur l expression des gènes, les unités codant pour les protéines. Ainsi, dans différentes conditions, l expression génique est différente pour un même individu. Des techniques statistiques standards existent pour la détection des gènes différentiellement exprimés (DE) dont l expression est mesurée par la technologie des puces ADN (Dudoit et al. 2002). 1

Des techniques de séquençage de nouvelle génération telles que le RNA-Seq quantifient directement par fragments l expression du produit des gènes dans un échantillon. La longueur de ces fragments (ou reads ) varie en fonction des technologies et des bouts du génome observés. Le génome complet d un organisme s obtient par assemblage de ces reads et l expression des gènes par la quantification des reads qui correspondent à la séquence du gène. Toutefois le séquençage à haut débit génère des quantités importantes de données dont la gestion n est pas totalement maîtrisée, ni automatisée. L analyse des données brutes requiert une grande puissance de calcul et leur exploitation nécessite le développement ou l utilisation de méthodes bioinformatiques qui ne sont pas aujourd hui standardisées. Beaucoup de paramètres sont en constante évolution pour limiter les biais non dûs à l effet biologique que l on souhaite mesurer : réglages au niveau manipulation, traitements bioinformatiques et prétraitements statistiques. Comme dans toute analyse statistique, il est également nécessaire de disposer d un minimum d individus par condition (réplicats). Le coût de séquençage étant assez élevé et les ressources matérielles parfois limitées, il est encore difficile d obtenir un grand nombre de réplicats biologiques par condition. Si l objectif est de déterminer les gènes DE entre deux conditions, on voudra détecter si le nombre de comptages de leur reads entre les deux conditions est significativement différent pour ces gènes, en contrôlant les erreurs possibles. Les desiderata des biologistes, des financeurs et des statisticiens sont antagonistes ; l objectif du travail présent est de donner quelques éléments de décision quant au nombre minimum de réplicats. Liu et al. (2014) propose une étude sur données réelles de compromis entre profondeur de lecture (nombre de séquences qui couvrent un locus du génome) et nombre de réplicats. Notre étude sur un jeu de données réelles chez l homme qui a motivé notre questionnement, et nous proposons un cadre de simulations pour apporter des réponses en environnement où biais techniques, effets biologiques sont maîtrisés. Nous ne disposons pas encore des résultats exploitables mais ils seront bientôt disponibles. 2 Données de RNA-Seq, quelques caractéristiques Distribution des données Une approche naturelle pour les données de comptage est d utiliser une distribution de Poisson. Elle modélise bien les évènements rares, comme le séquençage d une molécule. Mais lorsqu une corrélation positive existe entre le séquençage de plusieurs fragments pour un même gène, la dispersion observée est plus importante ; Robinson & Smyth (2008) notent une non-adéquation à la sur-dispersion de ces données lors d observations répetées de la même condition (les réplicats biologiques). Le consensus actuel est d utiliser une distribution binomiale négative, sorte de modèle de Poisson surdispersé. Lu et al. (2005) montrent sur données simulées que l hypothèse de distribution binomiale négative peut être robuste même lorsque les données ne suivent pas exactement cette distribution. La paramétrisation comprend la moyenne µ des comptages et la dispersion φ. La 2

probabilité d observer k comptages pour la variable X N B(µ, φ) est: P (X = k) = ( ) 1/φ ( ) k Γ(k + 1/φ) 1 µ. Γ(1/φ)Γ(k + 1) 1 + µφ 1/φ + µ On a alors la moyenne de X : E[X] = µ et sa variance var(x) = µ + φµ 2, ce qui implique la contrainte que φ > 1/µ et φ > 0 pour la sur-dispersion des données de RNA-Seq. Dans notre modélisation, le comptage moyen pourra dépendre du gène et de la condition expérimentale mais pas du réplicat. La paramètre de dispersion sera lui estimé commun sur les conditions, de manière approchée par maximum de vraisemblance conditionnelle pondérée (Robinson & Smyth 2008). Test d analyse différentielle Cela permet de définir un test exact d égalité des moyennes entre les conditions pour chaque gène; données et paramètres de la distribution sont corrigés par un ajustement quantile. Les données ajustées ne sont alors qu approximativement identiquement distribuées. Pour simplifier, nous limitons la présentation au cas de deux conditions. Une généralisation de ce test est disponible pour des tests à plus de deux conditions et a été utilisée pour l analyse des données réelles à la Section 3. Sous l hypothèse nulle, les valeurs de comptage normalisés observées ne dépendent pas de la condition. L idée est d utiliser la somme des comptages dans les deux conditions qui a aussi une distribution conditionnelle binomiale négative. Si cette somme a un comptage anormal, le gène concerné sera déclaré DE. La p-valeur associée est la probabilité que la valeur observée ne soit pas plus extrême que celle attendue sous l hypothèse nulle de distribution identique de comptage dans les deux conditions. Ce test est un analogue du test exact de Fisher pour les tables de contingence où la loi hypergéométrique est remplacée par la loi binomiale négative. Toutes les analyses présentées ici ont été faites avec le logiciel R et avec le package Bioconductor edger. 3 Motivation : l analyse du jeu de données réelles Nous avons étudié l action d une protéine impliquée dans la déstabilisation du processus de traduction des ARN cellulaires. Quatre conditions (design hiérarchique) ont été comparées : ARN non traduits (+) versus ARN traduits (-) via un contrôle par induction, en absence (L) ou en présence (H) de la protéine d intérêt (traitement). La question biologique est de savoir s il y a une interaction entre ces quatre conditions. Pour chaque gène le contraste d interaction défini par [(L ) (L+)] [(H ) (H+)] est donc testé. L hypothèse nulle correspond à la nullité de ce contraste. Cette étude n a pas permis d obtenir des gènes différentiellement exprimés avec une p- valeur corrigée (Benjamini & Hochberg 1995) significative. Pour ne pas perdre le bénéfice d avoir 5 réplicats par condition, une des particularité forte des caractéristiques de cette 3

Nombre de réplicats 5 4 3 2 min 152 120 93 88 Q1 152 133 132 122 Nombre de gènes DE mediane 152 147 178 214 Q3 152 157 261 367 max 152 207 2445 2328 Table 1: Comptages des gènes DE selon le nombre de réplicats tirés de manière aléatoire Figure 1: Diagramme de Venn des gènes DE (p-valeur brute à 1%) pour deux essais (essai 10 à gauche et 14 à droite) selon le nombre de réplicats utilisés dans l analyse. expérience, nous avons réalisé l analyse en prenant la p-valeur brute, fixée à 1% (résultats à 5% non montrés ici). Ensuite, nous avons réalisé 30 essais sous forme de rééchantillonage des données en enlevant un ou des réplicats ; pour chacun des essais, nous avons tiré aléatoirement sans remise 4 réplicats et réalisé ensuite l analyse différentielle. La même opération a été réalisée avec 3 réplicats au lieu de 4 puis 2. Pour chacun de ces essais, nous avons exhibé la liste des gènes DE et les avons comptés (voir Tableau 1). Toutes ces listes ont été comparées à la liste des gènes DE avec 5 réplicats. Par exemple, la Figure 1 montre deux exemples de comparaisons sous forme de diagramme de Venn. Le diagramme de Venn de gauche (essai 10) est une situation assez favorable où une intersection satisfaisante entre les analyses à 5 et 4 replicats est observée. Le diagramme de Venn de droite (essai 14) montre une intersection nettement plus limitée. Les résultats obtenus montrent que globalement avec 4 réplicats, nous obtenons des résultats proches de ceux obtenus avec 5 réplicats. A partir de 3 réplicats, le nombre de gènes DE et la liste de ces gènes devient très aléatoire. De plus les diagrammes de Venn, montrent qu entre 4 et 5 réplicats, nous obtenons environ 45% de gènes communs avec 4

une p-valeur brute à 1%. A 3 réplicats, ce pourcentage chute à environ 30% dans des cas favorables et peut être bien en deça. Aussi, très peu de gènes sont communs entre les 4 listes. Enfin, lorsque l on mesure la stabilité du rééchantillonage, c est à dire que l on regarde dans combien d essais on retrouve chaque gène DE lorsque l on a de 4 à 2 réplicats, on voit que moins on a de réplicats, moins on retrouve de manière systématique chacun des gènes DE. Pour 4 réplicats, seulement 4 gènes sont retrouvés DE parmi les 30 essais, l immense majorité des gènes DE n est pas détectée pour plus de 2 essais. Les chiffres sont encore plus dramatiques pour 3 réplicats où aucun gène n est DE dans les 30 essais, 1 seul l est dans plus de 12 essais et environ 75% des gènes ne sont détectés DE que dans un unique essai! La conclusion de cette partie est que sur un critère de robustesse des résultats, 4 réplicats semble le minimum vital pour arriver à aboutir à des résultats fiables et reproductibles dans notre cas de figure. Cependant, la fiabilité des gènes DE (en limite de détection) ne permet pas répondre de manière satisfaisante à la question de l influence du nombre de réplicats dans une analyse différentielle de données RNA-Seq avec seulement ce jeu de données. Nous proposons donc une étude sur données simulées avec différents paramètres qui représenteront de manière simplifiée des caractéristiques de la complexité des jeux de données RNA-Seq traditionnels. Elle permettra des premiers éléments de réponse dans un cadre maîtrisé, où la liste des gènes DE est connue. On pourra quantifier les performances du test mis en jeu selon le nombre de réplicats utilisés. L alternative de travailler sur un jeu de données réelles dont la liste des gènes DE est (plus ou moins) connue est séduisante mais (i) nous ne disposons pas d un tel jeu de données avec 5 réplicats et (ii) même avec un bon niveau de confiance sur cette liste, la décision de déclarer un gène DE/non DE comporte toujours un risque. 4 Construction de jeux de données simulées Par rapport à la Section 3, nous simplifions le design expérimental à c = 2 conditions. Nous conservons un maximum de n = 5 réplicats et nous considérons p = 10 000 gènes, dont une proportion q = 5% sera DE. L idée est de construire des jeux de données simples d abord (un écart de moyenne entre les 2 conditions pour les gènes DE) puis se complexifiant au fur et à mesure comme nous l expliquons ci-après: Le comptage des gènes non DE suivent une loi N B(µ, φ). Les gènes DE suivent la même loi sous une condition (vue comme un contrôle) et sous la deuxième condition, ils suivent une loi N B(µ, µ µ +φµ 2 ) afin d avoir une moyenne différente (µ ) 2 et une variance identique. La différence µ µ donne l intensité du signal et le paramêtre φ contrôle l intensité du bruit. On pourra aussi simuler des gènes DE activés (µ µ > 0) ou inhibés (µ µ < 0). 5

La deuxième configuration des simulations, au lieu de considérer une différence µ µ fixe, aura une intensité de signal aléatoire ; tous les gènes DE ne le sont pas avec la même intensité. Alors chaque gène i suit une loi N B(µ i,1, φ) dans la condition 1 et une loi identique dans la condition 2 (gènes non DE) où une loi N B(µ i,2, µ i,1 µ i,2 +φµ 2 i,1 (µ i,2 ) (gènes DE) ; les lois de µ ) 2 i,1/2 devront être précisées, e.g. gaussiennes de moyennes différentes. On pourra aussi proposer une loi Gamma pour φ. la troisième proposition aura pour but d introduire des corrélations entre les gènes sous la forme d un modèle binomial négatif multivarié. Le but est de rendre compte du fait que les gènes ne sont pas indépendants et sont organisés sous forme de réseau. On s inspirera de Kopociński (1999) et de Nikoloulopoulos & D. Karlis (2010) ; la structure de variance-covariance pourra être spécifiée de manière analogue à celle d un modèle gaussien multivarié mais les calculs des distributions sont assez lourds à notre connaissance. Cette piste ne sera explorée que lorsque les modèles des deux premiers points auront été exploités. Eventuellement, on pourra considérer des distributions multivariées mieux étudiéees (comme la loi de Poisson multivariée) mais toujours lourde sur le plan calculatoire. Remerciements Les auteurs remercient David Alter, Hatim Hadria et Kais Sahli pour leur participation à ce travail pendant leur projet étudiant. Bibliographie [1] S Dudoit et al. (2002) Statistical methods for identifying differentially expressed genes in replicated cdna microarray experiments. Stat. Sinica, 12:111-139. [2] MD Robinson & GK Smyth (2008) Small sample estimation of negative binomial dispersion, with applications to SAGE data. Biostatistics, 9:321 332. [3] Y Benjamini & Y Hochberg (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. Roy. Stat. Soc, B, 57: 289 300. [4] Y Liu et al. (2014) RNA-seq differential expression studies: more sequence or more replication? Bioinformatics, 30(3):301 4. [5] B Kopociński (1999) Multivariate negative binomial distributions generated by multivariate exponential distributions. Appl. Math., 25(4):463 472. [6] AK Nikoloulopoulos & D Karlis (2010). Modelling multivariate count data using copulas. Commun. stat.-simul. C., 39:182 197. 6