Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Marie Verbanck Laboratoire de Mathématiques Appliquées, Agrocampus OUEST Soutenance de thèse - 4 septembre 2013
Données transcriptomiques Cellules d un organisme mêmes gènes Tous les gènes ne s expriment pas (production d ARNm) Données transcriptomiques (puce à ADN) mesure du Transcriptome : ensemble des ARNm (tissu, condition expérimentale (CE), temps donnés) Tableau sujets gènes transcriptome : ligne Comparaison des transcriptomes entre les CE hypothèses sur le rôle et les interactions entre les gènes Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 2 / 38
Données transcriptomiques Cellules d un organisme mêmes gènes Tous les gènes ne s expriment pas (production d ARNm) Données transcriptomiques (puce à ADN) mesure du Transcriptome : ensemble des ARNm (tissu, condition expérimentale (CE), temps donnés) Tableau sujets gènes transcriptome : ligne Comparaison des transcriptomes entre les CE hypothèses sur le rôle et les interactions entre les gènes Nécessité de développer des outils statistiques adaptés Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 2 / 38
Traitements statistiques classiques 1 Tests multiples gènes différentiellement exprimés (DE) en fonction des CE 2 Visualisation des gènes DE analyse factorielle 3 Clustering clusters de gènes coexprimés 4 Caractérisation biologique fonctions biologiques caractéristiques des gènes DE ou des clusters de gènes coexprimés (tests d enrichissement) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 3 / 38
Traitements statistiques classiques : limites Données bruitées variabilité technologique (prétraitement) variabilité biologique (sujets structurés selon un plan) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38
Traitements statistiques classiques : limites Données bruitées variabilité technologique (prétraitement) variabilité biologique (sujets structurés selon un plan) Connaissance du seul transcriptome non suffisante relations complexes entre gènes large variété d interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38
Traitements statistiques classiques : limites Données bruitées Débruitage des données Connaissance du seul transcriptome non suffisante Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38
Traitements statistiques classiques : limites Données bruitées Débruitage des données Connaissance du seul transcriptome non suffisante Intégration d information extérieure Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38
1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 5 / 38
1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 5 / 38
Contexte ACP couramment appliquée aux données transcriptomiques Visualisation Débruitage - réduction de la dimension Clustering Estimation matrice de variance-covariance (réseaux) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 6 / 38
Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38
Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38
Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Point de vue modèle Modèle à effets fixes (Caussinus, 1986) X = X + ε x ij = S ds q is r js + ε ij, ε ij N (0, σ 2 ) s=1 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38
Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Point de vue modèle Modèle à effets fixes (Caussinus, 1986) X = X + ε x ij = S ds q is r js + ε ij, ε ij N (0, σ 2 ) s=1 Estimateurs du MV du modèle = Estimateurs des MC Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38
Modèle de l ACP ACP Point de vue exploratoire min X ˆX 2 Point de vue modèle (X = X + ε) min X ˆX 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 8 / 38
Modèle de l ACP ACP Point de vue exploratoire min X ˆX 2 Point de vue modèle (X = X + ε) min X ˆX 2 Erreur quadratique moyenne (EQM) EQM = E i,j (ˆx ij x ij ) 2 Minimiser l EQM Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 8 / 38
Régularisation Termes de régularisation Estimateurs régularisés réduction de l EQM EQM = E i,j EQM = E i,j (ˆx ij x ij ) 2 min(n 1;p) s=1 ˆx (s) ij x (s) ij 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 9 / 38
Régularisation Termes de régularisation Estimateurs régularisés réduction de l EQM Termes de régularisation (φ s ) s=1,...,min(n 1;p) qui minimisent : EQM = E i,j min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 9 / 38
Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38
Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38
Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : φ s = d s K min(i 1;K) I = σ2 + d s variance signal (dim s) variance totale (dim s) s = 1,..., S 0 sinon Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38
Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : d s K φ s = min(i 1;K) I σ2 + d s 0 K λ s min(i 1;K) I ˆσ2 s = 1,..., S ˆφ s = λ s 0 sinon Rq : Paramètre de réglage S nb de dimensions sous-jacentes du signal Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38
Régularisation ACP régularisée Définition de l ACP régularisée (ACPr) : ˆx ACPr ij = ˆx ACPr ij = ˆx ACPr ij = S ˆφ s λs u is v js s=1 S λ s s=1 ( S λs s=1 K min(i 1;K) I ˆσ2 λ s λs u is v js K min(i 1;K) I ˆσ2 λs ) u is v js Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 11 / 38
Résultats Plan de simulations Simulation jeux de données sous le modèle signal + bruit (X = X + ε, ε ij N (0, σ 2 )) Variation de paramètres I /K (100/20 = 5, 50/50 = 1 and 20/100 = 0.2) S (2, 4, 10) SNR (4, 1, 0.8) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 12 / 38
Résultats Méthodes prises en compte ACP régularisée (vrai S) ACP classique (vrai S) Méthode SURE (Candès et al., 2012) Stratégie de seuillage doux ˆx doux ij = min(i 1;K) ( s=1 λs λ ) + u isv js Choix du λ Minimisation de l estimateur sans biais de Stein (SURE) Paramètre de réglage : pas S, mais variance du bruit (vrai σ 2 ) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 13 / 38
Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38
Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38
Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38
Résultats Application aux données à jeun/nourris Problématique agronomique (Désert et al., 2008) 12664 expressions de gènes (puce à ADN) chez 27 poulets CE : 4 états nutritionnels à jeun pendant 16 h (F16) à jeun pendant 16h puis renourris pendant 5h (F16R5) à jeun pendant 16 h puis renourris pendant 16h (F16R16) nourris en continu (N) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 15 / 38
Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38
Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38
Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38
Résultats Conclusions et perspectives ACP régularisée permet de visualiser et débruiter les données transcriptomiques Bon résultats en termes d estimation du signal sous-jacent Intérêt de l ACP régularisée : terme de régularisation explicite Autre domaine d application débruitage d images (Candès et al. 2012) Interaction avec débruitage préalable Estimation du nombre de dimensions sous-jacentes Extension à l AFM Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 17 / 38
Intégration d information extérieure Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38
Intégration d information extérieure Prise en compte du seul transcriptome insuffisante mécanismes de régulation de l expression (transcription) Protéines régulatrices, réseaux de régulation Localisation chromosomique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38
Intégration d information extérieure Prise en compte du seul transcriptome insuffisante mécanismes de régulation de l expression (transcription) Protéines régulatrices, réseaux de régulation Intégration d information sur le rôle fonctionnel des gènes d après la littérature : Gene Ontology Localisation chromosomique Étude des données transcriptomiques en lien avec la localisation chromosomique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38
1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 19 / 38
1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 19 / 38
Contexte Clustering de gènes à partir des données transcriptomiques seules (ex : heatmap, réseau) Interprétation sur la base des clusters à partir d une information extérieure (ex : Gene Ontology) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 20 / 38
Contexte Clustering de gènes à partir des données transcriptomiques seules (ex : heatmap, réseau) connexions biologiques systématiques entre gènes coexprimés Interprétation sur la base des clusters à partir d une information extérieure (ex : Gene Ontology) une partie de l information peut être reliée à l expérience Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 20 / 38
Principe Nouveau point de vue Coexpression 2 phénomènes véritables connexions biologiques (ex : dans un réseau de régulation génique) activation indépendante de différentes réponses biologiques Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 21 / 38
Principe Nouveau point de vue Coexpression 2 phénomènes véritables connexions biologiques (ex : dans un réseau de régulation génique) activation indépendante de différentes réponses biologiques Conserver véritable coexpression au moyen de l information biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 21 / 38
Principe Données Données transcriptomiques un gène est défini par son profil d expression Information biologique : annotations Gene Ontology décrivant l implication d un gène dans des fonctions biologiques un gène est défini par son profil fonctionnel Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 22 / 38
Principe Codage de l information biologique Matrice T, T kj = 1 si le gène k est associé à la fonction biologique j, 0 sinon 1 j J Marges 1 T 1. k T kj T k. K T K. Marges T.1 T.j T.J T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 23 / 38
Algorithme Principe général Similarité des profils fonctionnels de gènes coexprimés existence de véritables connexions biologiques Intégration d une information de coexpression dans l information biologique obtention de fonctions biologiques coexprimées Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 24 / 38
Algorithme Fonctions biologiques coexprimées 1 j J Marges 1 T 1. k T kj T k. K T K. Marges T.1 T.j T.J T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38
Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38
Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38
Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38
Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Fcts biologiques coexprimées Fct j 1 Fct j 2 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38
Algorithme Matrice T coexp T coexp substitution des fonctions biologiques par des fonctions biologiques coexprimées Gènes de K j l associés avec la lème fonction coexprimée issue de j Fonction 1 Fonction j Fonction J 1 l L j Marges 1 T 1. k T kj 1 k K j l T k. K T K. Marges card(k 1 1 ) card(k j l ) card(k J L J ) T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 26 / 38
Algorithme Analyse de la matrice T coexp AFC de la matrice T coexp étude du degré de similarité des profils fonctionnels sous condition de coexpression Deux gènes sont proches s ils ont des profils fonctionnels et d expression similaires Algorithme de clustering sur les coordonnées des gènes sur les axes de l AFC Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 27 / 38
Algorithme Évaluation des clusters de gènes Pour interpréter un cluster comme une entité biologique Coexpression Homogénéité biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 28 / 38
Algorithme Évaluation des clusters de gènes Pour interpréter un cluster comme une entité biologique Coexpression indicateur de coexpression (CI) Homogénéité biologique indicateur d homogéneité biologique (BHI) Procédure d évaluation : 2 indicateurs multidimensionnels + 2 probabilités critiques (permutations) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 28 / 38
Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées (K gènes et I sujets) sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 29 / 38
Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées (K gènes et I sujets) T sim : information biologique simulée structure hiérarchique de GO part de l information biologique reliée étude & part non reliée Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 29 / 38
Résultats Simulation de l information biologique Jeu de données d expression simulée E sim sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38
Résultats Simulation de l information biologique Jeu de données d expression simulée E sim CAH sur les gènes de E sim sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38
Résultats Simulation de l information biologique Construction de l information biologique simulée T e sim gène 1 gène 2 gène 3 gène 4 gène 5 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38
Résultats Simulation de l information biologique Construction de l information biologique simulée Tsim e A B C D D gène 1 B gène 2 A gène 3 0 1 0 1 1 1 0 1 1 1 0 1 gène 4 0 0 1 1 C gène 5 0 0 1 1 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38
Résultats Simulation de l information biologique Tsim e : information biologique simulée à partir des données d expression simulées (E sim ) Introduction d information biologique aléatoire par permutations intra-colonnes de T e sim T r sim Obtention de T sim = [T e sim, r T r sim ] r : intensité aléatoire Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 31 / 38
Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38
Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Comparaison clustering Heatmap clustering sur la base d un réseau de régulation (WGCNA, Zhang et Horvath, 2005) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38
Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Comparaison clustering Heatmap clustering sur la base d un réseau de régulation (WGCNA, Zhang et Horvath, 2005) Evaluation : proportion de clusters significatifs (CI et BHI) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38
Résultats Simulations CI BHI Deux I K r H W I H W I H W I 10 300 1 92.15 94.90 98.65 65.50 81.5 89.5 64.60 78.95 88.80 10 300 2 92.31 94.80 96.55 50.40 60.15 67.25 49.75 58.30 66.25 10 300 3 92.00 95.32 94.52 36.77 45.81 54.03 36.61 45.00 53.39 25 1000 1 88.70 99.12 91.33 7.67 28.00 45.44 7.35 27.09 44.72 25 1000 2 90.25 99.12 90.55 3.79 11.89 29.62 3.54 11.17 28.95 25 1000 3 89.00 98.99 85.67 1.94 3.55 18.66 1.80 3.34 18.06 Intégration plus grande proportion de bons candidats à l interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 33 / 38
Résultats Application aux données à jeun/nourris I Coexpression I Homogénéité biologique Deux Heatmap 91.50 13.50 13.50 WGCNA 63.00 68.00 46.00 Integration 53.50 79.50 53.50 Intégration plus grande proportion de bon candidats à l interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 34 / 38
Résultats Application aux données à jeun/nourris I Coexpression I Homogénéité biologique Deux Heatmap 91.50 13.50 13.50 WGCNA 63.00 68.00 46.00 Integration 53.50 79.50 53.50 Intégration plus grande proportion de bon candidats à l interprétation Interprétation des clusters de gènes : ex phospolipides et sphingolipides Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 34 / 38
Résultats Conclusion Proportion satisfaisante de bons candidats à l interprétation Amélioration des tests d enrichissement (+ cohérence) Validation biologique plus poussée à faire Prise en compte incertitude sur les GO Prise en compte d autres types de données (tableaux multiples) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 35 / 38
Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38
Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38
Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38
Références I Emmanuel J. Candès, Carlos A. Sing-Long, and Joshua D. Trzasko, Unbiased risk estimates for singular value thresholding and spectral estimators, (Submitted), 2012. H. Caussinus, Models and uses of principal component analysis (with discussion), p. 149 178, DSWO Press, 1986. C. Désert, MJ. Duclos, P. Blavy, F. Lecerf, F. Moreews, C. Klopp, M. Aubry, F. Herault, P. Le Roy, C. Berri, M. Douaire, C. Diot, and Lagarrigue S., Transcriptome profiling of the feeding-to-fasting transition in chicken liver, BMC Genomics (2008). Michael B. Eisen, Paul T. Spellman, Patrick O. Brown, and David Botstein, Cluster analysis and display of genome-wide expression patterns, Proceedings of the National Academy of Sciences 95 (1998), no. 25, 14863 14868. Marie Verbanck, Julie Josse, and François Husson, Regularised PCA to denoise and visualise data, Statistics and Computing (submitted) (2013). Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 37 / 38
Références II Marie Verbanck, Sébastien Lê, and Jérôme Pagès, A new unsupervised gene clustering algorithm based on the integration of biological knowledge into expression data, BMC Bioinformatics 14 (2013), no. 1, 42 (en), Highly Accessed. Bin Zhang and Steve Horvath, A general framework for weighted gene co-expression network analysis, Statistical applications in genetics and molecular biology 4 (2005). Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 38 / 38