Examen de Génomique et Protéomique Fonctionnelle M2 BBSG (Mastères Recherche et Pro) 2 février 2006 Durée 3h. Partie1. Génomique fonctionnelle

Examen de Génomique et Protéomique Fonctionnelle M2 BBSG (Mastères Recherche et Pro) 2 février 2006 Durée 3h L examen comporte deux parties, l une axée sur la génomique fonctionnelle et l autre sur la protéomique fonctionnelle, chacune notée sur 10 points. Les réponses à chacune des deux parties devront être rédigées sur DEUX FEUILLES séparées. Ces deux parties s appuient chacune sur un article récent pour lequel nous vous présentons des extraits de l article et posons des questions correspondantes. Ces questions font appel à vos capacités de raisonnement et à des notions qui ont été vues en cours. Elles sont en principe indépendantes les unes des autres. Partie1. Génomique fonctionnelle Les résultats présentés ici (feuilles suivantes) sont extraits d un article publié récemment (Sugino et al. 2006 Nature Neuroscience 9(1) :99107). 1) Quel est le but de l étude? (1 point) 2) Analyse des résultats. L étude a été réalisée sur des cerveaux de souris. Douze populations neuronales ont été isolées (Table1). Les expériences de microarrays ont été réalisées avec trois réplicats par population neuronale. Les données d expression ont été traitées et normalisées avec les logiciels MAS et dchip. Les gènes présentant des différences d expression ont été identifiés (ANOVA ou analyse de variance, template matching et test t) et sélectionnés pour l étude de classification. La distance euclidienne a été utilisée pour évaluer la similarité du profil d expression entre deux échantillons. Vous expliquerez les résultats sur lesquels les auteurs s appuient pour affirmer : - l existence de profils d expression spécifiques pour chacune des 12 populations neuronales. (Partie 1 ; Fig 2 et Fig 9) (1,5 points) - l appartenance des gènes caractéristiques de ces profils à des classes fonctionnelles surreprésentées. (Partie 2; Fig 5) (1,5 points) - une surreprésentation de paralogues dans le set de gènes présentant des différences d expression. (Partie 3 ; Fig 6 et Fig 8) (1,5 points) - la possibilité de classer objectivement les populations neuronales sur une base moléculaire. (Partie 4 ; Fig 2, Fig 6 et Fig 9) (1,5 points) 3) La lignée de souris consanguine XZQ/HeJ est déficiente au niveau de la synthèse du neuromédiateur GABA tandisque la lignée de souris consanguine C57BL6/J ne l est pas. Vous avez le projet de cartographier le ou les gènes contrôlant la production du neuromédiateur GABA. Proposez et justifiez une approche pour atteindre ce but. (3 points)

Partie 2. Protéomique fonctionnelle Le sujet est tiré d un article très récent, sous presse dans la revue Nature («Proteome survey reveals modularity of the yeast cell machinery», AC Gavin et al.). Les auteurs ont utilisé la technique de «Tandem affinity Purification» couplée à la spectrométrie de masse (TAP-MS ou TAP-TAG) sur les 6466 ORFs annotés du génome de la levure Saccharomyces cerevisiae. Ils ont obtenu 1993 protéines de fusion différentes dont 88% ont, une fois purifiées et utilisées, permis d identifier au moins un partenaire par TAP-tag. Au total, 2760 protéines différentes ont été isolées, une ou plusieurs fois dans l ensemble des expériences. 1) Alors qu il y a plus de 6000 protéines chez la levure, moins de 50% d entre elles ont pu être observées dans les différents complexes isolés. Donner, en les commentant, quelques raisons qui permettent d expliquer ce résultat a priori décevant (1 point). 2) Afin de présenter et analyser les résultats expérimentaux obtenus sur les complexes protéiques, les auteurs introduisent les concepts d «isoformes» de complexe, de «core complex», de «module» et d «attachment». a. En vous basant sur la figure 1 ci-dessous, expliquez de façon simple ce que recouvre chacun de ces 4 termes (Dans la figure, chaque bille colorée représente une protéine et le numéro à l intérieur est un identifiant arbitraire). (2 points). b. Les auteurs purifient 5488 isoformes de 491 complexes qui, au total contiennent 2760 protéines différentes, chaque «core» pouvant contenir de 1 à 23 protéines différentes. Dans 48 complexes, ils identifient 87 modules mutuellement exclusifs. Quelles conclusions tirez-vous sur la «façon» dont les protéines se regroupent dans les complexes? comment la cellule arrive t elle à réaliser un très grand nombre de fonctions spécifiques (plusieurs milliers) en fonction du temps ou des conditions du mileu avec seulement 491 types de complexes (1 point)? Pour répondre aux questions 3a et 3b vous pouvez aussi vous appuyer sur une analyse de la figure 3 (page suivante) qui présente des exemples concrets de complexes, cores et modules.

3) La figure 3, panneaux e, f, g et h (page suivante) présente des comptages et pourcentages concernant les protéines trouvées dans les différents constituants des complexes : e) variation observée dans l abondance relative des protéines des différents constituants, f) pourcentage de co-localisation des protéines, g) pourcentage de similarité de fonction cellulaire des protéines, h) pourcentage de conservation phylogénétique. Les nombres à l extrémité des barres donnent le comptage exact des observations correspondantes. a. Commentez dans la figure 3e les variations d abondance relative dans les «core», les «attachments» et les «modules» et en quoi ces variations sont en accord avec le modèle proposé en 4 types de composants (0,5 points) b. Pour les «core», les «attachments» et les «modules» commentez et comparer les pourcentages obtenus dans les figures 3f, 3g, 3h (1,5 points)

4) Afin d établir les modèles définis dans la question 2, les auteurs ont utilisé un «indice de socio-affinité» dont le but est de décrire, pour toute paire de protéines (i,j) la vraisemblance d interaction qu ont ces deux protéines. Cet indice, A(i,j), défini cidessous, est basé sur les données brutes de purification et intègre deux modèles d interaction dans un complexe appellés «spoke» et «matrix». Le modèle «spoke» (ou modèle roue de vélo) représente, pour un complexe donné, toutes les interactions comme étant centrées sur une seule protéine. Le modèle «matrix» imagine pour un ensemble de protéines dans un complexe, que chaque protéine peut interagir avec toutes les autres. a. Si deux protéines ont tendance à être retrouvées souvent ensemble dans des purifications, auront-elles un indice plus élevé, moins elevé ou identique par rapport à

deux protéines jamais retrouvées ensemble (0,5 points)? b. Que pouvez-vous dire de l index de socio-affinité A de deux protéines présentes dans un même module par rapport à deux protéines «non-modules» retrouvées dans un même «attachment». Justifiez vos réponses pour a et b (0,5 points) 5) Question générale Le Tap-tag, utilisé dans l article, est une méthode à partir de laquelle on peut étudier des interactions protéine-protéine. a. Citer deux autres méthodes qui permettent d étudier expérimentalement les interactions protéine-protéine. Expliciter brièvement leur principe (quelques phrases) (1 point) b. Un chercheur possède, pour un même organisme (la levure) d une part des données issues de Tap-tag (par exemple le détail des données brièvement présentées dans la question 2) et d autre part plusieurs milliers d interactions provenant d un crible double-hybride. Que pouvez-vous dire sur ce que représentent ces données dans chacun des cas. Que peut-on attendre de la comparaison de ces données (2 points)?