TRANSFORMATION DES DONNÉES ET COMPARAISON DE



Documents pareils
Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

SÉRIES STATISTIQUES À DEUX VARIABLES

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Formation d un ester à partir d un acide et d un alcool

Limites des Suites numériques

Processus géométrique généralisé et applications en fiabilité

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

STATISTIQUE AVANCÉE : MÉTHODES

Chapitre 3 : Fonctions d une variable réelle (1)

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

Chap. 5 : Les intérêts (Les calculs financiers)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Chapitre 3 : Transistor bipolaire à jonction

STATISTIQUE : TESTS D HYPOTHESES

20. Algorithmique & Mathématiques

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Statistique Numérique et Analyse des Données

Principes et Méthodes Statistiques

Statistique descriptive bidimensionnelle

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Cours de Statistiques inférentielles

55 - EXEMPLES D UTILISATION DU TABLEUR.

Séquence 5. La fonction logarithme népérien. Sommaire

Comportement d'une suite

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Les Nombres Parfaits.

Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

14 Chapitre 14. Théorème du point fixe

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

EXERCICES : DÉNOMBREMENT

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Baccalauréat S Asie 19 juin 2014 Corrigé

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Etude de la fonction ζ de Riemann

Cours 5 : ESTIMATION PONCTUELLE

Donnez de la liberté à vos données. BiBOARD.

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Le chef d entreprise développe les services funéraires de l entreprise, en

Séries réelles ou complexes

1 Mesure et intégrale

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Dénombrement. Chapitre Enoncés des exercices

Processus et martingales en temps continu

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

La maladie rénale chronique

Échantillonnage et estimation

4 Approximation des fonctions

Les algorithmes de tri

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Régulation analogique industrielle ESTF- G.Thermique

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Université Pierre et Marie Curie. Biostatistique PACES - UE

Module 3 : Inversion de matrices

CHAPITRE 2 SÉRIES ENTIÈRES

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Les études. Recommandations applicables aux appareils de levage "anciens" dans les ports. Guide Technique

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

Mécanique non linéaire

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Initiation à l analyse factorielle des correspondances

Solutions particulières d une équation différentielle...

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Sommaire Chapitre 1 - L interface de Windows 7 9

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Compte Sélect Banque Manuvie Guide du débutant

Comment les Canadiens classent-ils leur système de soins de santé?

Neolane Leads. Neolane v6.0

Suites et séries de fonctions

Nous imprimons ce que vous aimez!

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Le Sphinx. Enquêtes, Sondages. Analyse de données. Internet :

Terminale S. Terminale S 1 F. Laroche

Dominique Tapsoba, Vincent Fortin, François Anctil et Mario Haché

Exercices de mathématiques

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

Probabilités et statistique pour le CAPES

COMMENT ÇA MARCHE GUIDE DE L ENSEIGNANT 9 E ANNÉE

Transcription:

TRANSFORMATION DES DONNÉES ET COMPARAISON DE MODÈLES POUR LA CLASSIFICATION DES DONNÉES RNA-SEQ Mélia Gallopi 1,2,3 & Adrea Rau 2,3 & Gilles Celeux 4 & Florece Jaffrézic 2,3 1 Laboratoire de Mathématiques UMR 8628, Uiversité Paris-Sud 11, 91405, Orsay. melia.gallopi@math.u-psud.fr 2 Géétique Aimale et Biologie Itégrative, UMR 1313, 78350, Jouy-e-Josas. 3 AgroParisTech, UMR 1313, 75005, Paris. adrea.rau@jouy.ira.fr, florece.jaffrezic@jouy.ira.fr 4 Iria Saclay Ile-de-Frace, Projet select, Bât 425, Uiversité Paris-Sud 11, 91405 Orsay. gilles.celeux@iria.fr Résumé. Les doées d expressio issues du séqueçage haut-débit (RNA-seq) sot des doées de comptage très hétérogèes. Il est aturel de les représeter par des modèles basés sur des lois discrètes comme la loi de Poisso ou la loi biomiale égative. Mais des trasformatios simples des doées peuvet permettre de se rameer à des modèles plus répadus fodés sur des lois gaussiees. Nous motros commet comparer objectivemet les vraisemblaces de ces modèles travaillat sur des doées différetes. Nous ous focalisos pour meer ces comparaisos sur des problèmes de classificatio où les mélages de Poisso et gaussies peuvet être mis e compétitio. Mots-clés. Modèles de mélage, doées RNA-seq, sélectio de modèle, trasformatio des doées, BIC. Abstract. High-throughput trascriptome sequecig data (RNA-seq) are made up of highly heterogeeous couts. Although they are ofte modeled with discrete distributios, icludig the Poisso ad egative biomial distributios, Gaussia models o trasformed data could alteratively be cosidered. We show how the likelihood of these differet models ca be objectively compared. We focus attetio o the problem of clusterig gee profiles, where Poisso mixtures o cout data are compared with Gaussia mixtures o trasformed data. eywords. Mixture models, RNA-seq data, model selectio, data trasformatio, BIC. 1 Itroductio Les modèles de mélage ot été itroduits e aalyse des doées d expressio de gèes par Yeug et al. (2001). Les doées de puces à ADN, utilisées depuis le milieu des aées 1990, 1

sot cotiues et bie modélisées par des mélages de lois gaussiees. Depuis la fi des aées 2000, la techologie de séquaçage à haut-débit révolutioe la maière de mesurer l expressio des gèes (RNA sequecig, ou RNA-seq), produisat des doées discrètes et très hétérogèes. U choix aturel de modélisatio de ces doées est u mélage de lois de Poisso, proposé par Rau et al. (2015) détaillé ci-dessous. U modèle de mélage de lois de Poisso pour les doées RNA-seq O dispose d ue matrice de mesures d expressio de gèes x = (x 1,...,x ). Pour chaque gèe i (i = 1,...,), le vecteur x i idique l expressio du gèe pour les d coditios expérimetales j ( j = 1,...,d). O suppose que les doées x sot la réalisatio d u mélage de variables aléatoires de lois de Poisso de desité: d f (x i ;,θ ) = p k P(x i j ; µ i jk ). (1) k=1 j=1 Les paramètres (p 1,..., p ) sot les proportios de chaque composate du mélage et d j=1 P(x i j; µ i jk ) est la desité d u vecteur de d variables aléatoires idépedates de lois de Poisso de moyees respectives µ i jk = w i s j λ jk pour k = 1,...,. Les facteurs s j = x. j x.. corriget u biais techique spécifique aux doées RNA-seq. Sas cette correctio, les mesures d expressio d u gèe pour deux coditios x i j et x i j différetes e sot pas comparables. Les facteurs w i = x i. preet e compte le iveau d expressio de chaque gèe. Les paramètres λ k = (λ 1k,...,λ dk ) correspodet aux profils d expressio des gèes de la composate k. Aisi, le modèle classe les gèes e foctio de leur dyamique d expressio (λ k ) et o e foctio de leur iveau d expressio absolu (w i ). Les paramètres p k et λ jk sot estimés e maximisat la vraisemblace du modèle sous les cotraites k=1 p k = 1 et d j=1 λ jks j = 1. L implémetatio de l estimatio des paramètres de ce modèle est proposée das le package HTSCluster par Rau et al. (2015) (http://cra.r-project.org/web/packages/htscluster). U modèle de mélage de lois gaussiees sur doées RNA-seq trasformées Ue alterative à ce modèle de mélage de lois de Poisso est u modèle de mélage de lois gaussiees, classiquemet utilisé pour les doées de puces à ADN. Das u cadre différet, celui de l aalyse différetielle d expressio de gèes, Law et al. (2014) ot proposé ue trasformatio logarithmique des doées RNA-seq afi d utiliser les modèles liéaires gaussies développés iitialemet pour l aalyse des doées de puces. Das le même esprit, o propose ici le même type de trasformatio pour l utilisatio d u modèle de mélage de lois gaussiees. Les doées x sot trasformées de sorte que l objectif de classificatio reste le plus proche de celui du modèle de mélage de Poisso précédet (modélisatio de la dyamique d expressio etre coditios). Chaque comptage x i j est divisé par le facteur N j = x i j/10 6 afi de corriger le biais techique spécifique aux doées RNA-seq. Le facteur N j est le ombre de millios de comptages de la coditio j. Il correspod au facteur s j du modèle de mélage de lois de Poisso. Afi de modéliser la variatio d expressio du gèe, o compare le comptage ormalisé x i j /N j à m i = d 1 d x i j j =1 N j, l expressio moyee du gèe i. Le facteur m i correspod 2

au facteur w i das le modèle de mélage de lois de Poisso. O omme cette trasformatio des doées t: t(x i j ) = log( x i j/n j + 1 m i + 1 ). O modélise le vecteur des doées trasformées y i = t(x i ) par u mélage de lois gaussiees de desité: g(y i ;,η k ) = p k φ(y i ;ν k,σ k ). (2) k=1 Les paramètres ( p 1,..., p ) sot les proportios de chaque composate du mélage et φ(y i ;ν k,σ k ) est la desité d ue loi ormale de dimesio d de moyee ν k et de variacecovariace Σ k. Ue implémetatio de l estimatio des paramètres de ce modèle est proposée das le package Rmixmod par Lebret et al. (2013). 2 Trasformatio des doées et comparaiso de modèles La vraisemblace du modèle de mélage de lois de Poisso s écrit: l f (x 1,...,x ;,θ ) = f (x i ;,θ ). La vraisemblace du modèle de mélage gaussie sur les doées trasformées s écrit: De y i = t(x i ), o tire l g (y 1,...,y ;,η ) = g(y i ;,η k ). g(y i ;,η k )dy i = g(t(x i );,η k )t (x i )dx i, ce qui permet de réécrire la vraisemblace du modèle de mélage sur doées trasformées e foctio des doées iitiales x = (x 1,...,x ): l g (x 1,...,x ;,η ) = g(t(x i );,η k )t (x i ). Les deux modèles peuvet alors être comparés par u critère de vraisemblace péalisée comme le BIC: BIC f (x 1,...,x ;) = BIC g (x 1,...,x ;) = log f (x i ;, ˆθ ) ν f 2 log(), logg(y i ;, ˆη k ) + 3 logt (x i ) ν g 2 log().

Les quatités ˆθ et ˆη sot les estimateurs du maximum de vraisemblace des paramètres des modèles respectifs, ν f et ν g sot les ombres de paramètres des modèles respectifs. Le modèle s ajustat le mieux aux doées est le modèle maximisat le critère BIC associé. Cette prise e compte de la trasformatio appliquée aux doées das le calcul du BIC a été utilisée auparavat das u autre domaie par Thomas et al. (2008). 3 Illustratios sur des doées simulées Afi d illustrer la comparaiso de modèles proposée, ous simulos des doées sous le modèle de mélage de lois de Poisso détaillé à l équatio (1), e fixat le ombre de coditios expérimetales d à 3, le ombre de gèes à 5000, les facteurs de ormalisatio (s 1,s 2,s 3 ) = ( 1 3, 1 3, 1 3 ) et les facteurs w i à partir d u jeu de doées réelles e sélectioat aléatoiremet trois coditios expérimetales et gèes parmi les gèes du jeu de doées ayat au mois 20 comptages par gèes. Les valeurs des w i variet aisi de 20 à 1 800 000 comptages. Nous fixos esuite le ombre de classes = 4, les proportios de chaque classe (p 1, p 2, p 3, p 4 ) = ( 1 4, 1 4, 1 4, 1 4 ) et les paramètres λ jk pour j = 1,2,3 et k = 1,2,3,4 tels que j λ jk s j = 1: 1.5 1 0.5 1.5 λ = 0.5 1.5 1 1. 1 0.5 1.5 0.5 La figure 1 (gauche) illustre les comptages simulées trasformés pour la coditio 1 versus la coditio 2. Coformémet au résultat attedu, la figure 1 (droite) motre que le BIC du modèle de mélage gaussie, ajusté pour la trasformatio des doées est iférieur au BIC du modèle de mélage de lois de Poisso pour u ombre de classes supérieur ou égal à 4. 4 Doées réelles Pour deux jeux de doées RNA-seq, ous effectuos la classificatio des gèes à l aide du modèle de mélage de Poisso sur les doées de comptage brutes, et à l aide du modèle de mélage gaussie sur les doées trasformées. Sulta et al. (2008) ot aalysé l expressio des gèes das les cellules humaies embryoaires du rei (HE293T) et das les cellules de la ligée Ramos B e séqueçat deux réplicats biologiques das chaque type de cellule par la techologie RNA-seq. Après avoir supprimé les gèes peu exprimées, ous effectuos la classificatio des 4959 gèes restats. Mach et al. (2014) ot aalysé les différeces d expressio etre trois tissus (le duodeum, le jejuum et l ileum) de l itesti grêle de quatre porcelets sais. Après avoir sélectioé les gèes différetiellemet exprimés etre ces trois tissus à l aide d u modèle liéaire gééralisé basé sur ue loi égative biomiale, o effectue la classificatio des 4021 gèes restats. Nous costatos sur la figure 2 que le modèle s ajustat le mieux aux doées est différet pour les deux jeux de doées. 4

bic 300000 250000 200000 150000 100000 4 6 8 10 12 14 bic Poisso bic Gaussia Figure 1: A gauche, comptages simulés sous u modèle de mélage de lois de Poisso et t- trasformés pour la coditios 1 versus la coditio 2. Les différetes couleurs correspodet aux quatre classes simulées. A droite, BIC du modèle de mélage de Poisso et BIC du modèle de mélage gaussie ajusté pour la trasformatio de doées t pour u ombre de classes variat de 3 à 15. Le poit sur chaque courbe BIC idique le ombre de classes sélectioé par chacu des modèles. bic 250000 200000 150000 100000 bic Poisso bic Gaussia bic 1e+07 8e+06 6e+06 4e+06 2e+06 0e+00 bic Poisso bic Gaussia 0 5 10 15 20 25 30 0 10 20 30 40 50 Figure 2: BIC du modèle de mélage de Poisso sur doées brutes et du modèle de mélage gaussie sur doées trasformées pour les doées de Sulta et al. (2008) (gauche) et Mach et al. (2004) (droite). 5

5 Discussio A l aide de la comparaiso proposée, o peut aisi détermier si ue trasformatio des doées fourit u meilleur modèle. Das cet exposé, o illustrera l itérêt pratique de la comparaiso de modèles sur plusieurs jeux de doées réelles, e comparat otammet les méthodes de sélectio de modèles pour le choix du ombre de classes associées aux différets modèles (modèles de mélage de Poisso, modèles de mélage gaussie) aisi que les classificatios obteues. Nous verros otammet que la trasformatio logarithmique des doées que ous avos proposée fourit souvet des modèles beaucoup plus covaicats que le modèle de mélage de Poisso. Toutefois, il est pas sûr que l usage du critère BIC soit toujours le plus adéquat compte teu des objectifs de classificatio. Ue comparaiso des modèles par le critère ICL, proposé par Bieracki et al. (2000), pourrait être cosidérée. Bibliographie [1] Yeug,. Y., Fraley, C., Murua, A., Raftery, A. E. et Ruzzo, W. L. (2001), Model-based clusterig ad data trasformatios for gee expressio data, Bioiformatics 17 (10), 977-987. [2] Rau, A., Maugis-Rabusseau, C., Marti-Magiette, M.L. et Celeux, G. (2015), Co-expressio aalysis of high-throughput trascriptome sequecig data with Poisso mixture models, Bioiformatics, doi: 10.1093/bioiformatics/btu845. [3] Law C.W., Che, Y., Shi, W. et Smyth, G.. (2014), Voom: precisio weights ulock liear model aalysis tools for RNA-seq read couts, Geome Biology, 15:R29. [4] Lebret, R., Iovleff, S., Lagroget, F., Bieracki, C., Celeux, G. et Govaert, G. (2013), Rmixmod: The R package of the model-based usupervised, supervised ad semi-supervised classificatio Mixmod library, Joural of Statistical Software (i revisio). [5] Thomas, I., Frakhauser, P., et Bieracki, C. (2008), The Fractal Morphology of the Built- Up Ladscape, Ladscape of Urba Pla, Vol. 84, No. 2, pp. 99-115. [6] Sulta, M. et al. (2008), A global view of gee activity ad alterative splicig by deep sequecig of the huma trascriptome, Sciece, 321, 956. [7] Mach, N. et al. (2014) Extesive expressio differeces alog porcie small itestie evideced by trascriptome sequecig. PLoS ONE 9(2): e88515. [8] Bieracki, C., Celeux, G. et Govaert,G. (2000), Assessig a mixture model for clusterig with the itegrated classificatio likelihood, IEEE Trasactio o PAMI, 22, 719-725. 6