Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure



Documents pareils
La classification automatique de données quantitatives

Soutenance de stage Laboratoire des Signaux et Systèmes

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Analyse de la variance Comparaison de plusieurs moyennes

Filtrage stochastique non linéaire par la théorie de représentation des martingales

MABioVis. Bio-informatique et la

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Intérêt du découpage en sous-bandes pour l analyse spectrale

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Introduction aux bases de données: application en biologie

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Gènes Diffusion - EPIC 2010

TRAVAUX DE RECHERCHE DANS LE

INF6304 Interfaces Intelligentes

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Extraction d informations stratégiques par Analyse en Composantes Principales

Intégration de la dimension sémantique dans les réseaux sociaux

Quantification Scalaire et Prédictive

Restaurer la confiance? Etudes Empiriques Conclusion et ouverture

TP N 57. Déploiement et renouvellement d une constellation de satellites

Introduction au datamining

Introduction au Data-Mining

Application de K-means à la définition du nombre de VM optimal dans un cloud

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

Big Data et Graphes : Quelques pistes de recherche

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Découverte et analyse de dépendances dans des réseaux d entreprise

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Conception et contrôle des SMA tolérants aux fautes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Mémo d utilisation de ADE-4

SysFera. Benjamin Depardon

De la mesure à l analyse des risques

Une méthode d apprentissage pour la composition de services web

Résumés des projets de GMM5-2014/2015

4.2 Unités d enseignement du M1

Valeur ajoutée relative basée sur les comparaisons indirectes Giens 2008, TR 5

Big Data et Graphes : Quelques pistes de recherche

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Apprentissage Automatique

Introduction à l approche bootstrap

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Enjeux mathématiques et Statistiques du Big Data

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Programmation linéaire

Le Focus Group. - Bases de données, personnes ayant déjà participé à des expériences et acceptant de participer à des études ultérieures.

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Introduction au Data-Mining

Biomarqueurs en Cancérologie

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Etude comparative de différents motifs utilisés pour le lancé de rayon

Classification Automatique de messages : une approche hybride

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Agrégation des portefeuilles de contrats d assurance vie

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Traitement bas-niveau

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Plus courts chemins, programmation dynamique

Chapitre 3. Les distributions à deux variables

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Précision d un résultat et calculs d incertitudes

Projet de Traitement du Signal Segmentation d images SAR

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Modélisation du comportement habituel de la personne en smarthome

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Dr YAO Kouassi Patrick

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Compte rendu. Réunion du CREA du mercredi 6 juin Salle : V210

Évaluation de la régression bornée

Format de l avis d efficience

Capital économique en assurance vie : utilisation des «replicating portfolios»

Identification de nouveaux membres dans des familles d'interleukines

Environmental Research and Innovation ( ERIN )

Modélisation géostatistique des débits le long des cours d eau.

TABLE DES MATIERES. C Exercices complémentaires 42

Spécificités, Applications et Outils

Transcription:

Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Marie Verbanck Laboratoire de Mathématiques Appliquées, Agrocampus OUEST Soutenance de thèse - 4 septembre 2013

Données transcriptomiques Cellules d un organisme mêmes gènes Tous les gènes ne s expriment pas (production d ARNm) Données transcriptomiques (puce à ADN) mesure du Transcriptome : ensemble des ARNm (tissu, condition expérimentale (CE), temps donnés) Tableau sujets gènes transcriptome : ligne Comparaison des transcriptomes entre les CE hypothèses sur le rôle et les interactions entre les gènes Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 2 / 38

Données transcriptomiques Cellules d un organisme mêmes gènes Tous les gènes ne s expriment pas (production d ARNm) Données transcriptomiques (puce à ADN) mesure du Transcriptome : ensemble des ARNm (tissu, condition expérimentale (CE), temps donnés) Tableau sujets gènes transcriptome : ligne Comparaison des transcriptomes entre les CE hypothèses sur le rôle et les interactions entre les gènes Nécessité de développer des outils statistiques adaptés Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 2 / 38

Traitements statistiques classiques 1 Tests multiples gènes différentiellement exprimés (DE) en fonction des CE 2 Visualisation des gènes DE analyse factorielle 3 Clustering clusters de gènes coexprimés 4 Caractérisation biologique fonctions biologiques caractéristiques des gènes DE ou des clusters de gènes coexprimés (tests d enrichissement) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 3 / 38

Traitements statistiques classiques : limites Données bruitées variabilité technologique (prétraitement) variabilité biologique (sujets structurés selon un plan) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38

Traitements statistiques classiques : limites Données bruitées variabilité technologique (prétraitement) variabilité biologique (sujets structurés selon un plan) Connaissance du seul transcriptome non suffisante relations complexes entre gènes large variété d interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38

Traitements statistiques classiques : limites Données bruitées Débruitage des données Connaissance du seul transcriptome non suffisante Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38

Traitements statistiques classiques : limites Données bruitées Débruitage des données Connaissance du seul transcriptome non suffisante Intégration d information extérieure Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 4 / 38

1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 5 / 38

1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 5 / 38

Contexte ACP couramment appliquée aux données transcriptomiques Visualisation Débruitage - réduction de la dimension Clustering Estimation matrice de variance-covariance (réseaux) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 6 / 38

Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38

Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38

Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Point de vue modèle Modèle à effets fixes (Caussinus, 1986) X = X + ε x ij = S ds q is r js + ε ij, ε ij N (0, σ 2 ) s=1 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38

Modèle de l ACP ACP X : matrice de données transcriptomiques sujets gènes Point de vue exploratoire ˆX en rang inférieur (S) qui minimise X ˆX 2 Moindres carrés Point de vue modèle Modèle à effets fixes (Caussinus, 1986) X = X + ε x ij = S ds q is r js + ε ij, ε ij N (0, σ 2 ) s=1 Estimateurs du MV du modèle = Estimateurs des MC Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 7 / 38

Modèle de l ACP ACP Point de vue exploratoire min X ˆX 2 Point de vue modèle (X = X + ε) min X ˆX 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 8 / 38

Modèle de l ACP ACP Point de vue exploratoire min X ˆX 2 Point de vue modèle (X = X + ε) min X ˆX 2 Erreur quadratique moyenne (EQM) EQM = E i,j (ˆx ij x ij ) 2 Minimiser l EQM Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 8 / 38

Régularisation Termes de régularisation Estimateurs régularisés réduction de l EQM EQM = E i,j EQM = E i,j (ˆx ij x ij ) 2 min(n 1;p) s=1 ˆx (s) ij x (s) ij 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 9 / 38

Régularisation Termes de régularisation Estimateurs régularisés réduction de l EQM Termes de régularisation (φ s ) s=1,...,min(n 1;p) qui minimisent : EQM = E i,j min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij 2 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 9 / 38

Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38

Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38

Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : φ s = d s K min(i 1;K) I = σ2 + d s variance signal (dim s) variance totale (dim s) s = 1,..., S 0 sinon Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38

Régularisation Minimisation de l EQM EQM = E i,j avec ˆx (s) ij min(n 1;p) s=1 φ s ˆx (s) ij x (s) ij = λ s u is v js et x (s) ij 2 (1) = d s q is r js Minimisation de l équation (1) comme une fonction de φ s : d s K φ s = min(i 1;K) I σ2 + d s 0 K λ s min(i 1;K) I ˆσ2 s = 1,..., S ˆφ s = λ s 0 sinon Rq : Paramètre de réglage S nb de dimensions sous-jacentes du signal Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 10 / 38

Régularisation ACP régularisée Définition de l ACP régularisée (ACPr) : ˆx ACPr ij = ˆx ACPr ij = ˆx ACPr ij = S ˆφ s λs u is v js s=1 S λ s s=1 ( S λs s=1 K min(i 1;K) I ˆσ2 λ s λs u is v js K min(i 1;K) I ˆσ2 λs ) u is v js Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 11 / 38

Résultats Plan de simulations Simulation jeux de données sous le modèle signal + bruit (X = X + ε, ε ij N (0, σ 2 )) Variation de paramètres I /K (100/20 = 5, 50/50 = 1 and 20/100 = 0.2) S (2, 4, 10) SNR (4, 1, 0.8) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 12 / 38

Résultats Méthodes prises en compte ACP régularisée (vrai S) ACP classique (vrai S) Méthode SURE (Candès et al., 2012) Stratégie de seuillage doux ˆx doux ij = min(i 1;K) ( s=1 λs λ ) + u isv js Choix du λ Minimisation de l estimateur sans biais de Stein (SURE) Paramètre de réglage : pas S, mais variance du bruit (vrai σ 2 ) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 13 / 38

Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38

Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38

Résultats I K S SNR EQM(ˆX ACP, X) EQM(ˆX ACPr, X) EQM(ˆX SURE, X) 100 20 2 4 4.22E-04 4.22E-04 8.17E-04 100 20 2 1 1.26E-01 1.08E-01 1.60E-01 100 20 2 0.8 3.34E-01 2.40E-01 3.10E-01 100 20 4 4 8.25E-04 8.24E-04 1.42E-03 100 20 4 1 2.60E-01 1.96E-01 2.43E-01 100 20 4 0.8 7.41E-01 4.27E-01 4.36E-01 50 50 2 4 2.81E-04 2.81E-04 5.95E-04 50 50 2 1 8.48E-02 7.82E-02 1.26E-01 50 50 2 0.8 2.30E-01 1.93E-01 2.55E-01 50 50 4 4 5.48E-04 5.48E-04 1.04E-03 50 50 4 1 1.75E-01 1.53E-01 2.00E-01 50 50 4 0.8 5.07E-01 3.87E-01 3.85E-01 20 100 2 4 4.22E-04 4.22E-04 8.15E-04 20 100 2 1 1.25E-01 1.06E-01 1.57E-01 20 100 2 0.8 3.30E-01 2.35E-01 3.06E-01 20 100 4 4 8.28E-04 8.27E-04 1.41E-03 20 100 4 1 2.55E-01 1.97E-01 2.45E-01 20 100 4 0.8 7.13E-01 4.15E-01 4.37E-01 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 14 / 38

Résultats Application aux données à jeun/nourris Problématique agronomique (Désert et al., 2008) 12664 expressions de gènes (puce à ADN) chez 27 poulets CE : 4 états nutritionnels à jeun pendant 16 h (F16) à jeun pendant 16h puis renourris pendant 5h (F16R5) à jeun pendant 16 h puis renourris pendant 16h (F16R16) nourris en continu (N) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 15 / 38

Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38

Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38

Résultats Heatmaps Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 16 / 38

Résultats Conclusions et perspectives ACP régularisée permet de visualiser et débruiter les données transcriptomiques Bon résultats en termes d estimation du signal sous-jacent Intérêt de l ACP régularisée : terme de régularisation explicite Autre domaine d application débruitage d images (Candès et al. 2012) Interaction avec débruitage préalable Estimation du nombre de dimensions sous-jacentes Extension à l AFM Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 17 / 38

Intégration d information extérieure Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38

Intégration d information extérieure Prise en compte du seul transcriptome insuffisante mécanismes de régulation de l expression (transcription) Protéines régulatrices, réseaux de régulation Localisation chromosomique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38

Intégration d information extérieure Prise en compte du seul transcriptome insuffisante mécanismes de régulation de l expression (transcription) Protéines régulatrices, réseaux de régulation Intégration d information sur le rôle fonctionnel des gènes d après la littérature : Gene Ontology Localisation chromosomique Étude des données transcriptomiques en lien avec la localisation chromosomique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 18 / 38

1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 19 / 38

1 Visualisation et débruitage des données transcriptomiques par ACP régularisée Modèle de l ACP Régularisation Résultats 2 Clustering de gènes basé sur l intégration d information biologique de type Gene Ontology Principe Algorithme Résultats Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 19 / 38

Contexte Clustering de gènes à partir des données transcriptomiques seules (ex : heatmap, réseau) Interprétation sur la base des clusters à partir d une information extérieure (ex : Gene Ontology) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 20 / 38

Contexte Clustering de gènes à partir des données transcriptomiques seules (ex : heatmap, réseau) connexions biologiques systématiques entre gènes coexprimés Interprétation sur la base des clusters à partir d une information extérieure (ex : Gene Ontology) une partie de l information peut être reliée à l expérience Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 20 / 38

Principe Nouveau point de vue Coexpression 2 phénomènes véritables connexions biologiques (ex : dans un réseau de régulation génique) activation indépendante de différentes réponses biologiques Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 21 / 38

Principe Nouveau point de vue Coexpression 2 phénomènes véritables connexions biologiques (ex : dans un réseau de régulation génique) activation indépendante de différentes réponses biologiques Conserver véritable coexpression au moyen de l information biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 21 / 38

Principe Données Données transcriptomiques un gène est défini par son profil d expression Information biologique : annotations Gene Ontology décrivant l implication d un gène dans des fonctions biologiques un gène est défini par son profil fonctionnel Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 22 / 38

Principe Codage de l information biologique Matrice T, T kj = 1 si le gène k est associé à la fonction biologique j, 0 sinon 1 j J Marges 1 T 1. k T kj T k. K T K. Marges T.1 T.j T.J T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 23 / 38

Algorithme Principe général Similarité des profils fonctionnels de gènes coexprimés existence de véritables connexions biologiques Intégration d une information de coexpression dans l information biologique obtention de fonctions biologiques coexprimées Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 24 / 38

Algorithme Fonctions biologiques coexprimées 1 j J Marges 1 T 1. k T kj T k. K T K. Marges T.1 T.j T.J T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38

Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38

Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38

Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38

Algorithme Fonctions biologiques coexprimées Fct j gène 1 1 gène 2 0 gène 3 1 gène 4 1 gène 5 0 gène 6 1 gène 7 0 gène 8 0 gène 9 1... Fct biologique S 1 S 2 S 3 S 4...... Expressions Fcts biologiques coexprimées Fct j 1 Fct j 2 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 25 / 38

Algorithme Matrice T coexp T coexp substitution des fonctions biologiques par des fonctions biologiques coexprimées Gènes de K j l associés avec la lème fonction coexprimée issue de j Fonction 1 Fonction j Fonction J 1 l L j Marges 1 T 1. k T kj 1 k K j l T k. K T K. Marges card(k 1 1 ) card(k j l ) card(k J L J ) T.. Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 26 / 38

Algorithme Analyse de la matrice T coexp AFC de la matrice T coexp étude du degré de similarité des profils fonctionnels sous condition de coexpression Deux gènes sont proches s ils ont des profils fonctionnels et d expression similaires Algorithme de clustering sur les coordonnées des gènes sur les axes de l AFC Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 27 / 38

Algorithme Évaluation des clusters de gènes Pour interpréter un cluster comme une entité biologique Coexpression Homogénéité biologique Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 28 / 38

Algorithme Évaluation des clusters de gènes Pour interpréter un cluster comme une entité biologique Coexpression indicateur de coexpression (CI) Homogénéité biologique indicateur d homogéneité biologique (BHI) Procédure d évaluation : 2 indicateurs multidimensionnels + 2 probabilités critiques (permutations) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 28 / 38

Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées (K gènes et I sujets) sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 29 / 38

Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées (K gènes et I sujets) T sim : information biologique simulée structure hiérarchique de GO part de l information biologique reliée étude & part non reliée Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 29 / 38

Résultats Simulation de l information biologique Jeu de données d expression simulée E sim sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38

Résultats Simulation de l information biologique Jeu de données d expression simulée E sim CAH sur les gènes de E sim sujet 1 sujet 2 sujet 3 sujet 4... gène 1 gène 2 gène 3 gène 4 gène 5... Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38

Résultats Simulation de l information biologique Construction de l information biologique simulée T e sim gène 1 gène 2 gène 3 gène 4 gène 5 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38

Résultats Simulation de l information biologique Construction de l information biologique simulée Tsim e A B C D D gène 1 B gène 2 A gène 3 0 1 0 1 1 1 0 1 1 1 0 1 gène 4 0 0 1 1 C gène 5 0 0 1 1 Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 30 / 38

Résultats Simulation de l information biologique Tsim e : information biologique simulée à partir des données d expression simulées (E sim ) Introduction d information biologique aléatoire par permutations intra-colonnes de T e sim T r sim Obtention de T sim = [T e sim, r T r sim ] r : intensité aléatoire Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 31 / 38

Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38

Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Comparaison clustering Heatmap clustering sur la base d un réseau de régulation (WGCNA, Zhang et Horvath, 2005) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38

Résultats Plan de simulations Simulation de jeux de données E sim : données d expression simulées T sim : information biologique simulée Comparaison clustering Heatmap clustering sur la base d un réseau de régulation (WGCNA, Zhang et Horvath, 2005) Evaluation : proportion de clusters significatifs (CI et BHI) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 32 / 38

Résultats Simulations CI BHI Deux I K r H W I H W I H W I 10 300 1 92.15 94.90 98.65 65.50 81.5 89.5 64.60 78.95 88.80 10 300 2 92.31 94.80 96.55 50.40 60.15 67.25 49.75 58.30 66.25 10 300 3 92.00 95.32 94.52 36.77 45.81 54.03 36.61 45.00 53.39 25 1000 1 88.70 99.12 91.33 7.67 28.00 45.44 7.35 27.09 44.72 25 1000 2 90.25 99.12 90.55 3.79 11.89 29.62 3.54 11.17 28.95 25 1000 3 89.00 98.99 85.67 1.94 3.55 18.66 1.80 3.34 18.06 Intégration plus grande proportion de bons candidats à l interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 33 / 38

Résultats Application aux données à jeun/nourris I Coexpression I Homogénéité biologique Deux Heatmap 91.50 13.50 13.50 WGCNA 63.00 68.00 46.00 Integration 53.50 79.50 53.50 Intégration plus grande proportion de bon candidats à l interprétation Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 34 / 38

Résultats Application aux données à jeun/nourris I Coexpression I Homogénéité biologique Deux Heatmap 91.50 13.50 13.50 WGCNA 63.00 68.00 46.00 Integration 53.50 79.50 53.50 Intégration plus grande proportion de bon candidats à l interprétation Interprétation des clusters de gènes : ex phospolipides et sphingolipides Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 34 / 38

Résultats Conclusion Proportion satisfaisante de bons candidats à l interprétation Amélioration des tests d enrichissement (+ cohérence) Validation biologique plus poussée à faire Prise en compte incertitude sur les GO Prise en compte d autres types de données (tableaux multiples) Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 35 / 38

Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38

Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38

Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 36 / 38

Références I Emmanuel J. Candès, Carlos A. Sing-Long, and Joshua D. Trzasko, Unbiased risk estimates for singular value thresholding and spectral estimators, (Submitted), 2012. H. Caussinus, Models and uses of principal component analysis (with discussion), p. 149 178, DSWO Press, 1986. C. Désert, MJ. Duclos, P. Blavy, F. Lecerf, F. Moreews, C. Klopp, M. Aubry, F. Herault, P. Le Roy, C. Berri, M. Douaire, C. Diot, and Lagarrigue S., Transcriptome profiling of the feeding-to-fasting transition in chicken liver, BMC Genomics (2008). Michael B. Eisen, Paul T. Spellman, Patrick O. Brown, and David Botstein, Cluster analysis and display of genome-wide expression patterns, Proceedings of the National Academy of Sciences 95 (1998), no. 25, 14863 14868. Marie Verbanck, Julie Josse, and François Husson, Regularised PCA to denoise and visualise data, Statistics and Computing (submitted) (2013). Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 37 / 38

Références II Marie Verbanck, Sébastien Lê, and Jérôme Pagès, A new unsupervised gene clustering algorithm based on the integration of biological knowledge into expression data, BMC Bioinformatics 14 (2013), no. 1, 42 (en), Highly Accessed. Bin Zhang and Steve Horvath, A general framework for weighted gene co-expression network analysis, Statistical applications in genetics and molecular biology 4 (2005). Marie Verbanck Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure 38 / 38