Présenté par Xi LIU ATCGCGCTAGCTGGTGTATCGCATCGCGCTAGCTGGTGTATCGCGCTAGCTGGTGTATCGCGCTAGCCTGGTGTATCGCCATCGCGCTAGCTGGCGCTAGCTGAATCGCGCATATG 17 Septembre 2013 Homéoallèles Génome Normalisation Analyse différentielle Blé RNA-seq Expression des gènes Loi Binomiale Négative NGS Transcriptomique Python R Polyploïdisation
INTRODUCTION Lieu de stage Biologiste Boulos CHALHOUB Bioinformaticienne Claudine DEVAUCHELLE Biostatisticienne Edith LE FLOCH Unité de Recherche en Génomique Végétale (Evry) Laboratoire Statistique et Génome (Evry)
INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Donneur du génome B 0,5 MA Triticum urartu (AA) 2n = 2x = 14 Blé dur Triticum turgidum (AABB) 2n = 4x = 28
INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Donneur du génome B 0,5 MA Triticum urartu (AA) 2n = 2x = 14 Blé dur Triticum turgidum (AABB) 2n = 4x = 28 7000-12000A Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 Aegilops tauschii (DD) 2n = 2x = 14
INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Polyploïdisation Donneur du génome B 0,5 MA Triticum urartu (AA) duplication globale de l ensemble du génome 1+1 2: changements structuraux, fonctionnels, 2n = 2x = 14 expressionnels, épigénétiques Blé dur Triticum turgidum (AABB) 2n = 4x = 28 7000-12000A Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 Aegilops tauschii (DD) 2n = 2x = 14
INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Polyploïdisation Donneur du génome B 0,5 MA Triticum urartu (AA) duplication globale de l ensemble du génome 1+1 2: changements structuraux, fonctionnels, 2n = 2x = 14 expressionnels, épigénétiques 7000-12000A Blé dur Triticum turgidum Aegilops tauschii (AABB) (DD) Expression des gènes Effet de la polyploïdisation 2n = 4x = 28 Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 2n = 2x = 14
Lectures (reads) RNA-seq ( NGS) INTRODUCTION Expression des gènes
INTRODUCTION Expression des gènes Génome A Génome B Lectures (reads) RNA-seq ( NGS) Génome D Alignement (mapping) des lectures RNA-seq Quantification de l expression des gènes
INTRODUCTION Expression des gènes Génome A Lectures (reads) RNA-seq ( NGS) Génome B Génome du blé pas totalement assemblé un ensemble de gènes de référence Génome D Alignement (mapping) des lectures RNA-seq Quantification de l expression des gènes
INTRODUCTION Expression des gènes gène 1 gène 2 gène 3 Génome A gène 2 gène 3 Génome B Lectures (reads) RNA-seq ( NGS) gène 1 gène 2 Génome D
INTRODUCTION Expression des gènes gène 1 gène 2 gène 3 Génome A gène 2 gène 3 Génome B Lectures (reads) RNA-seq ( NGS) gène 1 gène 2 Génome D gène 2 Génome A Génome B Génome D
ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Lectures (génomes A, B et D) Contigs Contigs Contigs Gènes partiels chimériques Assemblage Prédiction SVM A D A B A B Assemblage chimérique Paramètres stringents D Quel génome? A Paramètres permissifs
ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Lectures (génomes A, B et D) Contigs Contigs Assemblage Paramètres stringents Prédiction SVM A D A B Contigs Gènes partiels chimériques Homéoallèles A B Assemblage chimérique Assignation aux génomes A, B et D D Paramètres permissifs Construction des homéoallèles de référence A B D A A D
ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Gènes partiels chimériques Catalogue de SNPs 313,556 gènes partiels chimériques: Longueur moyenne=624bp 132,552 SNPs: 50403 gènes partiels chimériques SNPs (polymorphisme nucléotidique) variations d une seule paire de bases entre les individus d une même espèce
ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_A ATCCAGCATGACNTGGCATTGGACGTGAC
ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_D ATCCTGCATGACNTGGCATTGGACGTGAC
ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_B ATTCAGCATGACNTGGCATTGGACGTGAC
ENSEMBLE DE GÈNES DE RÉFÉRENCE Gènes de référence (homéoallèles) >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_A ATCCAGCATGACNTGGCATTGGACGTGAC >ORTHOMCL2732_cap3_Contig1_B ATTCAGCATGACNTGGCATTGGACGTGAC >ORTHOMCL2732_cap3_Contig1_D ATCCTGCATGACNTGGCATTGGACGTGAC Ensemble de gènes de référence 121339 homéoallèles A: 50403 B: 20533 D: 50403 longueur moyenne=927bp 7765 homéoallèles A = D
ALIGNEMENT DES LECTURES RNA-SEQ Données RNA-seq SNPs spécifiques C G C SNP spécifique B A T Homéoallèle A Homéoallèle B Homéoallèle D T SNP spécifique A
ALIGNEMENT DES LECTURES RNA-SEQ Données RNA-seq SNPs spécifiques C G C SNP spécifique B A T Homéoallèle A Homéoallèle B Homéoallèle D T SNP spécifique A Alignement Effectué par Smahane CHALABI Données RNA-seq Quantitatives Discrètes
NORMALISATION Biais des données RNA-seq Dépendance Profondeur de séquençage (nombre de lectures/échantillon) Plus elle est grande plus de lectures alignées Longueur du gène ou le nombre de SNPs spécifiques Plus long plus de chance d avoir des SNPs spécifiques plus de lectures alignées
Dépendance NORMALISATION Biais des données RNA-seq Profondeur de séquençage (nombre de lectures/échantillon) Plus elle est grande plus de lectures alignées Longueur du gène ou le nombre de SNPs spécifiques Plus long plus de chance d avoir des SNPs spécifiques plus de lectures alignées On veut normaliser Chaque échantillon: profondeur de séquençage Chaque gène: longueur ou nombre de SNPs spécifiques Données normalisées = nombres de lectures alignées facteurs de normalisation
NORMALISATION Méthodes de normalisation Lectures par Kilobase par Million de lectures alignées (RPKM) S ij = N j 10 6 L i Nj: comptage dans l échantillon j 10 3 Li: longueur du gène i Ajustement: la profondeur de séquençage et la longueur du gène
NORMALISATION Méthodes de normalisation Lectures par Kilobase par Million de lectures alignées (RPKM) S ij = N j 10 6 L i 10 3 Nj: comptage dans l échantillon j Li: longueur du gène i Ajustement: la profondeur de séquençage et la longueur du gène Nouvelle méthode: Comptages Totaux et SNPs Spécifiques (TCSS) S ij = 1 n N j I N I 1 m S i I S I Nj: comptage dans l échantillon j Si: nombre de SNPs spécifiques pour l homéoallèle i TC Ajustement: la profondeur de séquençage et le nombre de SNPs spécifiques
NORMALISATION Comparaison des normalisations On normalise sur 18 échantillons
NORMALISATION Comparaison des normalisations TCSS
NORMALISATION Comparaison des normalisations TCSS est la plus adaptée pour nos données de blé Stabilise la variation intra-condition, conserve la différence inter-condition TCSS
ANALYSE DIFFÉRENTIELLE Loi Binomiale Négative sur-dispersées (variance > moyenne) loi Binomiale Négative (NB): Xij: comptage pour le gène i de l échantillon j X ij ~ NB μ ij, σ² ij µij et ²ij inconnues
ANALYSE DIFFÉRENTIELLE Loi Binomiale Négative sur-dispersées (variance > moyenne) loi Binomiale Négative (NB): Xij: comptage pour le gène i de l échantillon j X ij ~ NB μ ij, σ² ij µij et ²ij inconnues comparer l expression du gène i entre les 2 conditions a et b H0: μz ia = μ ib H1: μ ia μ ib
ANALYSE DIFFÉRENTIELLE Estimation des paramètres pour gène i de la condition a : σ² ia = μ ia 1 + μ ia ia Estimer µia et ²ia estimer µia et ia (dispersion) Estimer µia Moyenne empirique : μ ia
Estimer ia ANALYSE DIFFÉRENTIELLE Estimation des paramètres (Package R DESeq) 1. variance empirique : σ² ia 2. dispersion empirique ia 3. Régression ia = f(μ ia ) Dispersion ia correspondante à la μ ia sur la courbe de régression Pour chaque gène et la plus grande est choisie ia ia DESeq est plus conservatif que edger
ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)
ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Erreurs possibles dans les homéoallèles Validation des homéoallèles Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)
ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Erreurs possibles dans les homéoallèles Validation des homéoallèles Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Analyses de l effet polyploïdie Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)
ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB Homéoallèle A Homéoallèle B Homéoallèle D Parent D
< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB Homéoallèle A Homéoallèle B Homéoallèle D Parent D
< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB < Homéoallèle A Homéoallèle B Homéoallèle D Parent D
< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) PSH A PSH B PSH D Homéoallèle A Homéoallèle B Homéoallèle D Parent AB < Homéoallèle A Homéoallèle B Homéoallèle D Parent D
< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) PSH A PSH B PSH D Homéoallèle A Homéoallèle B Homéoallèle D Contrôle PSH: Conserve les triplets avec 3 PSH Parent AB Triplet (gène partiel: homéoallèle A, B, D) < Homéoallèle A Homéoallèle B Homéoallèle D Parent D
Résultats ANALYSE DIFFÉRENTIELLE Application au blé L ensemble des homéoallèles de référence 121339 homéoallèles 20533 triplets 9351 triplets: 28053 homéoallèles: A B D, au moins 1 lecture sur au moins 1 homéoallèle et pour au moins un réplicat du parent AB ou D Après contrôle PSH 820 triplets avec 3 PSHs
CONCLUSIONS ET PERSPECTIVES Conclusions Mise au point d un protocole pour l analyse: En bioinformatique Construction des homéoallèles de référence En bioinformatique: code Python En statistique 1. Comparaison de 9 méthodes de normalisations 2. Comparaison de 2 méthodes d analyse différentielle (edger,deseq) En statistique: normalisation TCSS, analyse différentielle DESeq
CONCLUSIONS ET PERSPECTIVES Perspectives 1. Analyse différentielle pour l étude des effets de la polyploïdie: les matériels synthétique, naturel, parent AB, parent D et MPV 2. Analyses de l expression des gènes sur le deuxième jeu de données avec le même protocole
Carène RIZZON Claudine DEVAUCHELLE Edith LE FLOCH Julien CHIQUET Boulos CHALHOUB Smahane CHALABI
PLAN DE L ÉTUDE Réalisations pendant le stage Bases de données publiés (Brenchley et al., 2012) Blés Construction: programmes en Python RNA-seq Comparaison Ensemble d AKhunov (données personnelles: l équipe de l Eduard Akhunov) Ensemble des gènes de référence Brenchley Lectures (reads) RNA-seq Alignement (mapping) Données quantitatives Biais Normalisation Analyse différentielle de l expression des gènes
POLYPLOÏDISATION Polyploïdisation Multiplication naturelle ou artificielle du nombre des chromosomes 2n=2x=6 2n=4x=12 Autopolyploïdisation duplication du même génome Allopolyploïdisation association de génomes différents Homologues Homéologues
ANALYSES BIOINFORMATIQUES Lectures Contigs Assemblage permissif Contigs non assemblés Construction des homéoallèles Assemblage stringent Singletons + Supercontigs = Gènes partiels chimériques + Assignation aux génomes par des SNPs Homéoallèles SNP (polymorphisme nucléotidique) Variation d une seule paire de bases du génome entre les individus d une même espèce.
Objectif ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Déterminer la partie incluse et la partie différente de l ensemble Brenchley et Akhunov : proportion de la partie commune choix de la référence pour l alignement des lectures RNA-seq Méthodes Brenchley : 121339 homéoallèles chimériques (50403 A, 20533B, 50403D), longueur=927bp Akhunov : 58529 homéoallèles non chimériques (20047A, 19079B, 19403D), longueur=1249bp 1. Comparaison de la similarité entre les homéoallèles de ces 2 ensembles Blastall (2.2.25 local): compare chaque homéoallèle Akhunov avec tous les homéoallèles Brenchley paramètres (-p blastn -e 10 -f F) Séquences sujets (subject): Brenchley Séquences requête (Query): Akhunov Filtrage: sélectionne les meilleurs alignements E-valeur,%id et %S 8 filtrages sont comparés Le filtrage le plus pertinent : E -valeur 10-10 et %id 95% et %S 95% 2. Comparaison des assignations
ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence 2. Comparaison des assignations entre les ensembles Akhunov et Brenchley Akhunov1_A Akhunov1_A Akhunov1_A Akhunov2_A Akhunov3_A Brenchley1_A Brenchley2_B Brenchley1_D Brenchley1_A Brenchley3_B Séries de scores Akhunov1_A Brenchley1_A Brenchley2_B Brenchley1_D Akhunov2_A Brenchley1_A Akhunov3_A Brenchley3_B
ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Akhunov1_D Brenchley2_D Brenchley2_A T Akhunov2_A Brenchley4_A Brenchley4_D Brenchley5_A Akhunov3_B Brenchley5_D F Akhunov4_A Brenchley6_B Brenchley7_D F Akhunov5_A Brenchley8_A 99% Brenchley8_B 98% I t Akhunov6_B Brenchley9_D 100% Brenchley9_B 99% I f Akhunov7_D Brenchley10_A Brenchley10_D Brenchley11_A Akhunov8_A Brenchley11_A Brenchley11_B 99% Brenchley12_A 99% 100% 99% 99% 98% 98% 97% Etape 1: quand les alignements contiennent des Brenchley_A et Brenchley_D identiques, élimine l homéoallèle de Brenchley possédant l assignation différente que l homéoallèle d Akhunov. Etape 2: détermination d égalité vraie «T», fausse «F» et incluse «I». Etape3: en présence d au moins 2 homéoallèles de Brenchley, sélectionne le meilleur homéoallèle de Brenchley quand les égalités sont «T» et «I». Les %id sont écrit en bleu et les meilleurs homéoallèles sont entourés par des cadres bleus. Etape 4: détermination des sous-égalités «t» et «f» pour les égalités «T» et «I». T I I t t f
Résultats ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Ensemble Brenchley : 121339 homéoallèles Blastall Ensemble Akhunov : 58529 homéoallèles 5350929 alignements : 1280891 (99,63%) homéollèles de Brenchley 58526 (99,99%) homéoallèles d Akhunov Filtrage le plus pertinent E -valeur 10-10 et %id 95% et %S 95% 3939 (0,07%) alignements: 12742 (2,26%) homéollèles de Brenchley 1485 (2,53%) homéoallèles d Akhunov Comparaison des assignations 976 assignations communes, 509 assignation différentes 976 homéoallèles 0,8% de l ensemble de Brenchley 1,7% de l ensemble d Akhunov Petite intersection peu en accord pour les assignations aux génomes parentaux
NORMALISATION Comparaison des normalisations Boxplots de log2(comptages de lectures+1) pour toutes les conditions et les réplicats en fonction des méthodes de normalisation TCSS est le plus adaptée pour nos données du blé Stabilise la variation intra-condition, conserve la différence inter-condition
ANALYSE DIFFÉRENTIELLE Application au blé Résultats Comparaison des expressions des PSHs AB et D entre la condition AABB et DD
Contrôle MPV ANALYSE DIFFÉRENTIELLE Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre: MPV in vitro (mélange équimolaire des ARN parentaux) MPV in silico (½ comptages de parent AB + ½ comptages de parent D) au niveau de chaque homéoallèle au niveau de chaque gène partiel (expression globale=somme de l expression des 3 homéoallèles) Contrôle MPV: Conserve les gènes partiels non différentiellement exprimés