Homéoallèles. Analyse différentielle. Normalisation. NGS Transcriptomique Python R. Blé RNA-seq



Documents pareils
Gènes Diffusion - EPIC 2010

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Lois de probabilité. Anita Burgun

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

MABioVis. Bio-informatique et la

Introduc)on à Ensembl/ Biomart : Par)e pra)que

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Big data et sciences du Vivant L'exemple du séquençage haut débit

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Principe d un test statistique

Qu est-ce qu une probabilité?

Chapitre 3. Les distributions à deux variables

Génétique et génomique Pierre Martin

Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

Que faire lorsqu on considère plusieurs variables en même temps?

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La classification automatique de données quantitatives

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CHAPITRE 3 LA SYNTHESE DES PROTEINES

STATISTIQUES. UE Modélisation pour la biologie

Statistiques Descriptives à une dimension

Introduction au Data-Mining

Chapitre 3 : INFERENCE

Validation probabiliste d un Système de Prévision d Ensemble

Maintenabilité d un parc applicatif

Identification de nouveaux membres dans des familles d'interleukines

Bases de données des mutations

données en connaissance et en actions?

Introduction au Data-Mining

Analyse de la variance Comparaison de plusieurs moyennes

FORMULAIRE DE STATISTIQUES

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

INF6304 Interfaces Intelligentes

Compte-rendu de fin de projet

Annexe commune aux séries ES, L et S : boîtes et quantiles

PROBABILITES ET STATISTIQUE I&II

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Analyse des données de séquençage massif par des méthodes phylogénétiques

Modèles et simulations informatiques des problèmes de coopération entre agents

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Biomarqueurs en Cancérologie

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Nombre dérivé et tangente

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Estimation et tests statistiques, TD 5. Solutions

Stages - le calendrier

Représentation d une distribution

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Poker. A rendre pour le 25 avril

1 les caractères des êtres humains.

Valorisation d es des options Novembre 2007

Détection et prise en charge de la résistance aux antirétroviraux

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Mesure agnostique de la qualité des images.

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

4. Résultats et discussion

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Ingénieur R&D en bio-informatique

CATALOGUE DES PRESTATIONS DE LA

Plus courts chemins, programmation dynamique

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

1S Modèles de rédaction Enoncés

TD de Biochimie 4 : Coloration.

Bases de données documentaires et distribuées Cours NFE04

Eco-système calcul et données

TESTS D'HYPOTHESES Etude d'un exemple

Définition d un Template

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Coefficients binomiaux

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Introduction aux bases de données: application en biologie

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

PHY2723 Hiver Champs magnétiques statiques. Notes partielles accompagnant le cours.

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

REFERENTIEL DE CERTIFICATION APPLICABLE AUX SEMENCES :

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Sylvain Meille. Étude du comportement mécanique du plâtre pris en relation avec sa microstructure.

Environmental Research and Innovation ( ERIN )

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Analyse en Composantes Principales

Gestion obligataire passive

Enjeux mathématiques et Statistiques du Big Data

Glossaire de termes relatifs à l assurance de la qualité et aux bonnes pratiques de laboratoire

Association nationale de la meunerie française

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

IBM SPSS Direct Marketing 21

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Transcription:

Présenté par Xi LIU ATCGCGCTAGCTGGTGTATCGCATCGCGCTAGCTGGTGTATCGCGCTAGCTGGTGTATCGCGCTAGCCTGGTGTATCGCCATCGCGCTAGCTGGCGCTAGCTGAATCGCGCATATG 17 Septembre 2013 Homéoallèles Génome Normalisation Analyse différentielle Blé RNA-seq Expression des gènes Loi Binomiale Négative NGS Transcriptomique Python R Polyploïdisation

INTRODUCTION Lieu de stage Biologiste Boulos CHALHOUB Bioinformaticienne Claudine DEVAUCHELLE Biostatisticienne Edith LE FLOCH Unité de Recherche en Génomique Végétale (Evry) Laboratoire Statistique et Génome (Evry)

INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Donneur du génome B 0,5 MA Triticum urartu (AA) 2n = 2x = 14 Blé dur Triticum turgidum (AABB) 2n = 4x = 28

INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Donneur du génome B 0,5 MA Triticum urartu (AA) 2n = 2x = 14 Blé dur Triticum turgidum (AABB) 2n = 4x = 28 7000-12000A Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 Aegilops tauschii (DD) 2n = 2x = 14

INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Polyploïdisation Donneur du génome B 0,5 MA Triticum urartu (AA) duplication globale de l ensemble du génome 1+1 2: changements structuraux, fonctionnels, 2n = 2x = 14 expressionnels, épigénétiques Blé dur Triticum turgidum (AABB) 2n = 4x = 28 7000-12000A Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 Aegilops tauschii (DD) 2n = 2x = 14

INTRODUCTION Blé Aegilops speltoides ( BB ) 2n = 2x = 14 Polyploïdisation Donneur du génome B 0,5 MA Triticum urartu (AA) duplication globale de l ensemble du génome 1+1 2: changements structuraux, fonctionnels, 2n = 2x = 14 expressionnels, épigénétiques 7000-12000A Blé dur Triticum turgidum Aegilops tauschii (AABB) (DD) Expression des gènes Effet de la polyploïdisation 2n = 4x = 28 Blé tendre Triticum aestivum (AABBDD) 2n = 6x = 42 2n = 2x = 14

Lectures (reads) RNA-seq ( NGS) INTRODUCTION Expression des gènes

INTRODUCTION Expression des gènes Génome A Génome B Lectures (reads) RNA-seq ( NGS) Génome D Alignement (mapping) des lectures RNA-seq Quantification de l expression des gènes

INTRODUCTION Expression des gènes Génome A Lectures (reads) RNA-seq ( NGS) Génome B Génome du blé pas totalement assemblé un ensemble de gènes de référence Génome D Alignement (mapping) des lectures RNA-seq Quantification de l expression des gènes

INTRODUCTION Expression des gènes gène 1 gène 2 gène 3 Génome A gène 2 gène 3 Génome B Lectures (reads) RNA-seq ( NGS) gène 1 gène 2 Génome D

INTRODUCTION Expression des gènes gène 1 gène 2 gène 3 Génome A gène 2 gène 3 Génome B Lectures (reads) RNA-seq ( NGS) gène 1 gène 2 Génome D gène 2 Génome A Génome B Génome D

ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Lectures (génomes A, B et D) Contigs Contigs Contigs Gènes partiels chimériques Assemblage Prédiction SVM A D A B A B Assemblage chimérique Paramètres stringents D Quel génome? A Paramètres permissifs

ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Lectures (génomes A, B et D) Contigs Contigs Assemblage Paramètres stringents Prédiction SVM A D A B Contigs Gènes partiels chimériques Homéoallèles A B Assemblage chimérique Assignation aux génomes A, B et D D Paramètres permissifs Construction des homéoallèles de référence A B D A A D

ENSEMBLE DE GÈNES DE RÉFÉRENCE Base de données (Brenchley et al., 2012) Gènes partiels chimériques Catalogue de SNPs 313,556 gènes partiels chimériques: Longueur moyenne=624bp 132,552 SNPs: 50403 gènes partiels chimériques SNPs (polymorphisme nucléotidique) variations d une seule paire de bases entre les individus d une même espèce

ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_A ATCCAGCATGACNTGGCATTGGACGTGAC

ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_D ATCCTGCATGACNTGGCATTGGACGTGAC

ENSEMBLE DE GÈNES DE RÉFÉRENCE Construction de gènes de référence (homéoallèles) Récupération des gènes partiels chimériques possédant au moins un SNP >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_B ATTCAGCATGACNTGGCATTGGACGTGAC

ENSEMBLE DE GÈNES DE RÉFÉRENCE Gènes de référence (homéoallèles) >ORTHOMCL2732_cap3_Contig1 ATTCAGCATGACNTGGCATTGGACGTGAC ORTHOMCL2732_cap3_Contig1 3 C T C ORTHOMCL2732_cap3_Contig1 5 A? T >ORTHOMCL2732_cap3_Contig1_A ATCCAGCATGACNTGGCATTGGACGTGAC >ORTHOMCL2732_cap3_Contig1_B ATTCAGCATGACNTGGCATTGGACGTGAC >ORTHOMCL2732_cap3_Contig1_D ATCCTGCATGACNTGGCATTGGACGTGAC Ensemble de gènes de référence 121339 homéoallèles A: 50403 B: 20533 D: 50403 longueur moyenne=927bp 7765 homéoallèles A = D

ALIGNEMENT DES LECTURES RNA-SEQ Données RNA-seq SNPs spécifiques C G C SNP spécifique B A T Homéoallèle A Homéoallèle B Homéoallèle D T SNP spécifique A

ALIGNEMENT DES LECTURES RNA-SEQ Données RNA-seq SNPs spécifiques C G C SNP spécifique B A T Homéoallèle A Homéoallèle B Homéoallèle D T SNP spécifique A Alignement Effectué par Smahane CHALABI Données RNA-seq Quantitatives Discrètes

NORMALISATION Biais des données RNA-seq Dépendance Profondeur de séquençage (nombre de lectures/échantillon) Plus elle est grande plus de lectures alignées Longueur du gène ou le nombre de SNPs spécifiques Plus long plus de chance d avoir des SNPs spécifiques plus de lectures alignées

Dépendance NORMALISATION Biais des données RNA-seq Profondeur de séquençage (nombre de lectures/échantillon) Plus elle est grande plus de lectures alignées Longueur du gène ou le nombre de SNPs spécifiques Plus long plus de chance d avoir des SNPs spécifiques plus de lectures alignées On veut normaliser Chaque échantillon: profondeur de séquençage Chaque gène: longueur ou nombre de SNPs spécifiques Données normalisées = nombres de lectures alignées facteurs de normalisation

NORMALISATION Méthodes de normalisation Lectures par Kilobase par Million de lectures alignées (RPKM) S ij = N j 10 6 L i Nj: comptage dans l échantillon j 10 3 Li: longueur du gène i Ajustement: la profondeur de séquençage et la longueur du gène

NORMALISATION Méthodes de normalisation Lectures par Kilobase par Million de lectures alignées (RPKM) S ij = N j 10 6 L i 10 3 Nj: comptage dans l échantillon j Li: longueur du gène i Ajustement: la profondeur de séquençage et la longueur du gène Nouvelle méthode: Comptages Totaux et SNPs Spécifiques (TCSS) S ij = 1 n N j I N I 1 m S i I S I Nj: comptage dans l échantillon j Si: nombre de SNPs spécifiques pour l homéoallèle i TC Ajustement: la profondeur de séquençage et le nombre de SNPs spécifiques

NORMALISATION Comparaison des normalisations On normalise sur 18 échantillons

NORMALISATION Comparaison des normalisations TCSS

NORMALISATION Comparaison des normalisations TCSS est la plus adaptée pour nos données de blé Stabilise la variation intra-condition, conserve la différence inter-condition TCSS

ANALYSE DIFFÉRENTIELLE Loi Binomiale Négative sur-dispersées (variance > moyenne) loi Binomiale Négative (NB): Xij: comptage pour le gène i de l échantillon j X ij ~ NB μ ij, σ² ij µij et ²ij inconnues

ANALYSE DIFFÉRENTIELLE Loi Binomiale Négative sur-dispersées (variance > moyenne) loi Binomiale Négative (NB): Xij: comptage pour le gène i de l échantillon j X ij ~ NB μ ij, σ² ij µij et ²ij inconnues comparer l expression du gène i entre les 2 conditions a et b H0: μz ia = μ ib H1: μ ia μ ib

ANALYSE DIFFÉRENTIELLE Estimation des paramètres pour gène i de la condition a : σ² ia = μ ia 1 + μ ia ia Estimer µia et ²ia estimer µia et ia (dispersion) Estimer µia Moyenne empirique : μ ia

Estimer ia ANALYSE DIFFÉRENTIELLE Estimation des paramètres (Package R DESeq) 1. variance empirique : σ² ia 2. dispersion empirique ia 3. Régression ia = f(μ ia ) Dispersion ia correspondante à la μ ia sur la courbe de régression Pour chaque gène et la plus grande est choisie ia ia DESeq est plus conservatif que edger

ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)

ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Erreurs possibles dans les homéoallèles Validation des homéoallèles Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)

ANALYSE DIFFÉRENTIELLE Données RNA-seq du blé Erreurs possibles dans les homéoallèles Validation des homéoallèles Application au blé 18 échantillons: 6 conditions biologiques x 3 réplicats Le parent D Le parent AB Blé hexaploïde synthétique ABD Analyses de l effet polyploïdie Blé hexaploïde naturel ABD (2 variétés: Courtot, Chinese Spring) Mid Parent Value (MPV): mélange équimolaire des ARN parentaux (1/2 AB +1/2 D)

ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB Homéoallèle A Homéoallèle B Homéoallèle D Parent D

< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB Homéoallèle A Homéoallèle B Homéoallèle D Parent D

< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) Homéoallèle A Homéoallèle B Homéoallèle D Parent AB < Homéoallèle A Homéoallèle B Homéoallèle D Parent D

< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) PSH A PSH B PSH D Homéoallèle A Homéoallèle B Homéoallèle D Parent AB < Homéoallèle A Homéoallèle B Homéoallèle D Parent D

< < ANALYSE DIFFÉRENTIELLE Validation des homéoallèles Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre parents AB et D: Contrôle PSH (Homéoallèle Parent Spécifique) PSH A PSH B PSH D Homéoallèle A Homéoallèle B Homéoallèle D Contrôle PSH: Conserve les triplets avec 3 PSH Parent AB Triplet (gène partiel: homéoallèle A, B, D) < Homéoallèle A Homéoallèle B Homéoallèle D Parent D

Résultats ANALYSE DIFFÉRENTIELLE Application au blé L ensemble des homéoallèles de référence 121339 homéoallèles 20533 triplets 9351 triplets: 28053 homéoallèles: A B D, au moins 1 lecture sur au moins 1 homéoallèle et pour au moins un réplicat du parent AB ou D Après contrôle PSH 820 triplets avec 3 PSHs

CONCLUSIONS ET PERSPECTIVES Conclusions Mise au point d un protocole pour l analyse: En bioinformatique Construction des homéoallèles de référence En bioinformatique: code Python En statistique 1. Comparaison de 9 méthodes de normalisations 2. Comparaison de 2 méthodes d analyse différentielle (edger,deseq) En statistique: normalisation TCSS, analyse différentielle DESeq

CONCLUSIONS ET PERSPECTIVES Perspectives 1. Analyse différentielle pour l étude des effets de la polyploïdie: les matériels synthétique, naturel, parent AB, parent D et MPV 2. Analyses de l expression des gènes sur le deuxième jeu de données avec le même protocole

Carène RIZZON Claudine DEVAUCHELLE Edith LE FLOCH Julien CHIQUET Boulos CHALHOUB Smahane CHALABI

PLAN DE L ÉTUDE Réalisations pendant le stage Bases de données publiés (Brenchley et al., 2012) Blés Construction: programmes en Python RNA-seq Comparaison Ensemble d AKhunov (données personnelles: l équipe de l Eduard Akhunov) Ensemble des gènes de référence Brenchley Lectures (reads) RNA-seq Alignement (mapping) Données quantitatives Biais Normalisation Analyse différentielle de l expression des gènes

POLYPLOÏDISATION Polyploïdisation Multiplication naturelle ou artificielle du nombre des chromosomes 2n=2x=6 2n=4x=12 Autopolyploïdisation duplication du même génome Allopolyploïdisation association de génomes différents Homologues Homéologues

ANALYSES BIOINFORMATIQUES Lectures Contigs Assemblage permissif Contigs non assemblés Construction des homéoallèles Assemblage stringent Singletons + Supercontigs = Gènes partiels chimériques + Assignation aux génomes par des SNPs Homéoallèles SNP (polymorphisme nucléotidique) Variation d une seule paire de bases du génome entre les individus d une même espèce.

Objectif ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Déterminer la partie incluse et la partie différente de l ensemble Brenchley et Akhunov : proportion de la partie commune choix de la référence pour l alignement des lectures RNA-seq Méthodes Brenchley : 121339 homéoallèles chimériques (50403 A, 20533B, 50403D), longueur=927bp Akhunov : 58529 homéoallèles non chimériques (20047A, 19079B, 19403D), longueur=1249bp 1. Comparaison de la similarité entre les homéoallèles de ces 2 ensembles Blastall (2.2.25 local): compare chaque homéoallèle Akhunov avec tous les homéoallèles Brenchley paramètres (-p blastn -e 10 -f F) Séquences sujets (subject): Brenchley Séquences requête (Query): Akhunov Filtrage: sélectionne les meilleurs alignements E-valeur,%id et %S 8 filtrages sont comparés Le filtrage le plus pertinent : E -valeur 10-10 et %id 95% et %S 95% 2. Comparaison des assignations

ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence 2. Comparaison des assignations entre les ensembles Akhunov et Brenchley Akhunov1_A Akhunov1_A Akhunov1_A Akhunov2_A Akhunov3_A Brenchley1_A Brenchley2_B Brenchley1_D Brenchley1_A Brenchley3_B Séries de scores Akhunov1_A Brenchley1_A Brenchley2_B Brenchley1_D Akhunov2_A Brenchley1_A Akhunov3_A Brenchley3_B

ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Akhunov1_D Brenchley2_D Brenchley2_A T Akhunov2_A Brenchley4_A Brenchley4_D Brenchley5_A Akhunov3_B Brenchley5_D F Akhunov4_A Brenchley6_B Brenchley7_D F Akhunov5_A Brenchley8_A 99% Brenchley8_B 98% I t Akhunov6_B Brenchley9_D 100% Brenchley9_B 99% I f Akhunov7_D Brenchley10_A Brenchley10_D Brenchley11_A Akhunov8_A Brenchley11_A Brenchley11_B 99% Brenchley12_A 99% 100% 99% 99% 98% 98% 97% Etape 1: quand les alignements contiennent des Brenchley_A et Brenchley_D identiques, élimine l homéoallèle de Brenchley possédant l assignation différente que l homéoallèle d Akhunov. Etape 2: détermination d égalité vraie «T», fausse «F» et incluse «I». Etape3: en présence d au moins 2 homéoallèles de Brenchley, sélectionne le meilleur homéoallèle de Brenchley quand les égalités sont «T» et «I». Les %id sont écrit en bleu et les meilleurs homéoallèles sont entourés par des cadres bleus. Etape 4: détermination des sous-égalités «t» et «f» pour les égalités «T» et «I». T I I t t f

Résultats ANALYSES BIOINFORMATIQUES Comparaison de deux ensembles de gènes de référence Ensemble Brenchley : 121339 homéoallèles Blastall Ensemble Akhunov : 58529 homéoallèles 5350929 alignements : 1280891 (99,63%) homéollèles de Brenchley 58526 (99,99%) homéoallèles d Akhunov Filtrage le plus pertinent E -valeur 10-10 et %id 95% et %S 95% 3939 (0,07%) alignements: 12742 (2,26%) homéollèles de Brenchley 1485 (2,53%) homéoallèles d Akhunov Comparaison des assignations 976 assignations communes, 509 assignation différentes 976 homéoallèles 0,8% de l ensemble de Brenchley 1,7% de l ensemble d Akhunov Petite intersection peu en accord pour les assignations aux génomes parentaux

NORMALISATION Comparaison des normalisations Boxplots de log2(comptages de lectures+1) pour toutes les conditions et les réplicats en fonction des méthodes de normalisation TCSS est le plus adaptée pour nos données du blé Stabilise la variation intra-condition, conserve la différence inter-condition

ANALYSE DIFFÉRENTIELLE Application au blé Résultats Comparaison des expressions des PSHs AB et D entre la condition AABB et DD

Contrôle MPV ANALYSE DIFFÉRENTIELLE Application au blé Analyse différentielle avec DESeq sur les données normalisées par TCSS entre: MPV in vitro (mélange équimolaire des ARN parentaux) MPV in silico (½ comptages de parent AB + ½ comptages de parent D) au niveau de chaque homéoallèle au niveau de chaque gène partiel (expression globale=somme de l expression des 3 homéoallèles) Contrôle MPV: Conserve les gènes partiels non différentiellement exprimés