Master 1 BFA (Parcours Biochimie) 7 février 2006 Hélène Dauchel (60 min) Transcriptome Analysis of Zebrafish Embryogenesis Using Microarrays D après Sinnakaruppan Mathavan et al. PLoS Genet. 2005 August; 1(2): e29. Genome Institute of Singapore, Singapore, Department of Biological Sciences, National University of Singapore, Singapore; Institute of Molecular and Cell Biology, Singapore; Bioinformatics Institute, Singapore Contexte scientifique : Le poisson zèbre ou Danio rerio (dont les rainures bleu-vert lui ont donné son nom) est un petit poisson tropical (3 à 4 cm à l âge adulte), originaire de l Inde et de la Malaisie, il peuple les petits courts d eau et les eaux stagnantes. Depuis 1990, ce poisson est devenu un animal modèle pour l étude du développement des vertébrés et des pathologies héréditaires humaines dans la formation des organes. Il présente pour les études génétiques du développement de nombreux avantages : élevage aisé en aquarium, temps de génération court, nombreuse descendance, transparence à tous les stades du développement permettant une observation microscopique directe de la formation des organes, mutagenèse ciblée aisée Le séquençage de son génome (1700 Mb; Haploid chromosomes: 25; Mitochondrion) est entrepris depuis 2001 grâce à une collaboration entre le Sanger Institute et la communauté des scientifiques spécialistes du zebrafish. La stratégie de séquençage en shotgun combinée à d autres méthodes classiques de cartographies physiques/séquençage de clones ancrés a permis d obtenir la première version d assemblage en juillet 2005. Des études de génomique comparative ont mis en évidence de nombreux gènes orthologues humains. (5pts) Question 1. Différents projets EST ont aboutit au séquençage de près de 700,000 ESTs pour cet organisme modèle. 1. Définissez le sigle «EST» et donnez en une phrase le principe d obtention. 2. Le tableau ci-dessous rapporte le dénombrement des EST et des clusters UniGene du zebrafish de janvier 2006. a. Schématisez la notion de «cluster d EST» b. Que pouvez dire de la répartition des tailles de cluster ci-dessous? c. Donnez approximativement le nombre de gènes de ce vertébré. Pourquoi peut on estimer qu il s agit d une sous-estimation? nombre d EST/cluster nombre de clusters (5pts) Question 2 : protocole 1. Ecrivez sous forme d organigramme le protocole ci-dessous. 2. Dégagez en conclusion une phrase synthétique expliquant l objectif et la démarche expérimentale. Embryo collection : Wild-type zebrafish (Singapore local stock) embryos were obtained from the zebrafish facility of the Institute of Molecular and Cell Biology. [ ]. Embryos were collected at 12 time points snap-frozen in liquid nitrogen, and stored at 80 C. The 12 time points were assigned to the following developmental stages: (1) maternal (unfertilized egg), (2) blastula (3.0 and 4.5 hpf), (3) gastrula (6.0, 7.7, and 9.0 hpf), (4) segmentation (10.7, 12.0, and 15.0 hpf), and (5) pharyngula (24.0, 30.0, and 48.0 hpf). hpf = hours post-fertilization RNA isolation and reference RNA. Total RNA was extracted from all the frozen embryos using Trizol reagent (Gibco BRL, Gaithersburg, Maryland, United States). RNA quality was evaluated by gel electrophoresis, and the concentration was measured with a UV
spectrophotometer. To prepare reference RNA, total RNA was collected from the following stages (embryos/adults) and mixed in equal concentration: 1 hpf, 4 hpf, 24 hpf, 48 hpf, 3-wk-old fry, adult of male and female. Sufficient amount of reference RNA required for the entire project was prepared at one time, and the aliquots were stored at 80 C. Zebrafish oligonucleotide probe design and microarray construction. The arrays contained 16,416 probes representing 65-mer oligonucleotide specific probe of selected genes (cluster EST). Oligonucleotide probes were re-suspended in 3XSSC at 20 µm concentration and spotted onto poly-l-lysinecoated microscope slides using a custom-built DNA microarrayer. Target labeling and hybridization strategy. For fluorescence labeling of target cdnas, 20 µg of total RNA from the reference and experimental samples was reverse transcribed in the presence of Cy3-dUTP and Cy5-dUTP (Amersham Biosciences, Little Chalfont, United Kingdom), respectively. Labeled target cdnas were pooled, concentrated, and resuspended in buffer for hybridization. Data acquisition and statistical analysis. The arrays were scanned using the GenePix 4000B microarray scanner (Axon Instruments, USA) to generate 16- bit TIFF images of Cy3 and Cy5 signal intensities. GenePix Pro 4.0 image analysis software (Axon Instruments, Union City, California, United States) was employed to measure the fluorescence signal intensities of the array features and local background. (5pts) Question 3 : Analyse des Résultats part I figure B Figure A Figure C 1. Donnez un titre à la figure A. (red color (foncée ici) indicates the higher expression, and green color (claire ici) indicates the lower expression of the gene in the embryos). Coordinated expression of the beta-actin gene is indicated. (M) maternal (unfertilized egg), (B) blastula (3.0 and 4.5 hpf), (G) gastrula (6.0, 7.7, and 9.0 hpf), (S) segmentation (10.7, 12.0, and 15.0 hpf), and (P) pharyngula (24.0, 30.0, and 48.0 hpf)
2. Gènes d actine : 172 copies du gène de d actine beta ont été positionnés sur la lame. a. Quel est le sens de cette expérience? b. A l aide des figures B (quantification individuelle de l expression des actines) et C (quantification moyenne), concluez sur cette expérience. 3. Pour chaque point de la cinétique, quatre expériences d hybridation ont été réalisées à partir de deux expériences biologiques différentes. Donnez le nom de ces deux types de contrôles. 4. Les auteurs ont également employé la méthode de dye-swapping. De quoi s agit til? (5pts) Question 4 : Analyse des Résultats part II 1. Parmi les 16,416 gènes étudiés, les auteurs ont sélectionnés à partir de la figure (A) 3,657 gènes présentant des profils d expression très marqués. La figure D ci-dessous montre le résultat de leur nouvelle représentation. Figure D. Overview of the Expression Patterns of Genes Peaking at Selected Developmental Stages (maternal: 622 gènes; blastula, 609 gènes; gastrula 1600 gènes; segmentation 688 gènes ; pharyngula 732 gènes) a. Que pouvez-vous déduire de ces résultats? b. L annotation fonctionnelle des EST sur la base des annotations GO a permis aux auteurs de s intéresser particulièrement à l expression de certains gènes dont les fonctions biologiques sont connues chez les orthologues. La figure E montre le résultat de leur sous-étude. Pour chaque groupe ( A, B, C), (D, E) et F, proposez une hypothèse intègrant les résultats de vos observations individuelles.
Figure E. Expression of Genes Involved in Specific Functions (A) Expression patterns of genes involved in the cell cycle. (B and C) Genes involved in ubiquitin function (proteasomes and ubiquitins) (D) Gene expression during somitogenesis* ( MSP : muscle specific protein)) (E) Expression pattern of somitogenic (myotome-specific) transcription factors (F) Coordinated expression of RP genes. *Somites : D'origine mésodermique, les somites sont des structures embryonnaires des Cordés, situées de part et d'autre du tube neural et de la corde et composées d'unités répétées le long de l'axe antéro-postérieur de l'embryon. Ils donnent naissance au sclérotome qui génère les vertèbres (chez les vertébrés), au dermatome qui génère le derme et au myotome qui génère les muscles squelettiques du tronc et des membres.
Les erreurs : Question 1 : 1. EST : - Extended ST, Element ST, Enhance ST, Eukaryotic ST, E Short T, ES Transcrit - 100taines de pb, qques nucléotides, - synthétisés à partir d amorces de chaque extrémité d un GENE - par fragmentation du génome, obtenu par séquençage du génome, obtenu par PCR imprécise puis RT - premières bases positionnées DE PART et D AUTRE de l ADNc ou de chaque coté du brin, morceaux 5 ou 3, en amont et en aval du gène - construction massive d une banque ADNc - séquencage par amorçage par PCR 2. Cluster d EST : notion particulièrement mal comprise, au total : 12 copies avec a peu près le sens juste - Somme des EST qui ont hybridé avec les différents ADNc du gène étudié. - SéQUENCE D adn COMPORTANT UN GèNE DE TAILLE VARIABLE - Cluster d EST après shotgun sur génome - Correspond au nombre d EST pouvant être mis bout à bout en une seule séquence - Groupe d EST déterminées - EST mises bout à bout Taille des cluster : souvent une simple observation ( parfois chiffrée) sans mettre en relation avec la réalité biologique qu elle représente, c'est-à-dire une expression forte de quelques gènes( constitutifs) et une faible expression de nombreux gènes l(e plus souvent spécifique). Nombre de gènes : des chiffres très folklo! quelques rares copies annoncent qu il faut faire la somme de tous les clusters puisque un cluster = un gène a priori, mais ne savent pas faire ce calcul et sortent un nombre farfelu!. peut être 3 copies seulement donnent le bon résultat 32400 gènes. Sous-estimation : question dans l ensemble comprise. Biais biologique de représentativité du transcriptome en général car comme dit plus haut peu de gènes représentent à eux seul la majorité du transcriptome et ceux qui sont faiblement exprimés ont moins de chance d être découverts. Mais également biais technique à cause de la représentativité par les EST : séquençage de clones pris au hasard, donc non exhaustif. Quelques rares copies (heureusement) annoncent que c est parce que l on n a pas séquencé le génome complet : centromère et télomère!!!! Question 2 : 1 Organigramme : - du texte simplement traduit paraphrasé - un organigramme lapidaire
- les points mal traités : fabrication de la lame de microarray ( origine des oligomères) et rôle de l ARN de référence dans l hybridation compétitive., le marquage des cibles est mal positionné dans l organigramme - En général pas assez d explications sur le sens de chaque phase 2.Objectif et démarche - Question non traitée oubliée- sur de très nombreuses copies! - Des réponses incomplètes : manque l organisme, ou le processus biologique étudié ou la démarche expérimentale adoptée - Des énormités!! : Isoler les gènes Visualiser de nouveaux transcrits Mettre en évidence les ARN totaux au cours du dvpt Obtenir une idée sur l évolution des Arn au cours du dvpt Mesurer et savoir la concentration en ARN de chaque stade et comparer à l ARN de l embryon adulte manipuler l ARN afin d obtenir le cdna pour enfin obtenir une grande quantité de cdna Question 3 : 1. titre figure A : - pour les bonnes réponses, souvent incomplètes : manque l organisme, ou le processus biologique étudié ou la démarche expérimentale adoptée - une grosse confusion retrouvée fréquemment : il ne s agirait que de l étude des gènes de beta actine! quelques réponses très farfelues - contre coloration par fluorescence - tableau de lecture graphique - analyse des ARN totaux - carte des gènes du poisson zèbre - spectre de micro-array - intégration du gène beta globine par Cy3 et par Cy5 - niveau d expression DU gène de l embryon. 2 Actine : a. et b sens de l expérience avec les copies d actine et résultat : - 4 copies seulement donnent une bonne réponse : contrôle/validation/ reproductibilité endogène mais 1 seule mention de la confirmation par RT-PCR, en fait peu de différentiation des résultats en fig B et fig C - les autres le plus souvent partent sur le rôle de l actine au cours du dvpt, du cytosquelette - quelques réponses très farfelues : «conté» les pseudogènes! 3. 2 types de contrôle : question mal comprise? 1 seule copie donne la bonne réponse : répétition/réplicat biologique et technique 2 mots sont demandés la plupart du temps la réponse n a qu un seul type de contrôle réponses erronnées : efficacité, vérifier ci s est bien l actine beta que l on observe, microarray et RT-PCR, southern et FISH, SB et RT-PCRq, 4. Dye swap :
- 3 copies donnent la bonne réponse : répétition technique en inversant les fluorochromes pour le marquage des cibles contrecarrer les biais de marquage par différents fluorochromes. - Absence de réponse sur les autres copies Question 4 : - a. 3 constats majeurs : o expression différentielle au cours du dvpt embryonnaire : cascade d activité o «vagues successives «ou «onde» d expression de 5 groupes de gènes : abandon des gènes «d expression maternelle» et pics d activité spécifique de phase pour 4 types de gènes embryonnaires o phase B, G, et S sont les stades comportant le plus de gènes exprimés hypothèse : forte activité de division cellulaire puis moindre maisplus spécifique pour différentiation cellulaire spécifique? - quelques très bonnes réponses - réponse erronnée : la forme et l opacité de l embryon dépend de l expression des protéines c. quelques réponses interessantes dommage pas abouties par manque de temps une réponse TB