ANALYSE DES TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE RÉNALES



Documents pareils
TD de Biochimie 4 : Coloration.

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CATALOGUE DES PRESTATIONS DE LA

Les OGM. 5 décembre Nicole Mounier

Biomarqueurs en Cancérologie

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Rôle des acides biliaires dans la régulation de l homéostasie du glucose : implication de FXR dans la cellule bêta-pancréatique

La filtration glomérulaire et sa régulation

3: Clonage d un gène dans un plasmide

Biochimie I. Extraction et quantification de l hexokinase dans Saccharomyces cerevisiae 1. Assistants : Tatjana Schwabe Marcy Taylor Gisèle Dewhurst

Professeur Diane GODIN-RIBUOT

Introduction à la Génomique Fonctionnelle

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

Rapport Scientifique Seine-Aval 3

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

MYRIAD. l ADN isolé n est à présent plus brevetable!

Introduction au datamining

Hépatite chronique B Moyens thérapeutiques

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

LASER DOPPLER. Cependant elle n est pas encore utilisée en routine mais reste du domaine de la recherche et de l évaluation.

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Introduction aux bases de données: application en biologie

Transport des gaz dans le sang

Conférence technique internationale de la FAO

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Résonance Magnétique Nucléaire : RMN

7. Recherche des essais

Tableau récapitulatif : composition nutritionnelle de la spiruline

Transport des gaz dans le sang

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Hémochromatose génétique non liée à HFE-1 : quand et comment la rechercher? Cécilia Landman 11 décembre 2010

EXERCICES : MECANISMES DE L IMMUNITE : pages

Chapitre II La régulation de la glycémie

L INSUFFISANCE CARDIAQUE

Contrôle de l'expression génétique :

NEPHROGRAMME ISOTOPIQUE EXPLORATION DE L HYPERTENSION RENO-VASCULAIRE

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Compléments - Chapitre 5 Spectroscopie

ACIDES BASES. Chap.5 SPIESS

Physiopathologie : de la Molécule à l'homme

Université de Montréal

INFORMATION À DESTINATION DES PROFESSIONNELS DE SANTÉ LE DON DU VIVANT

LE CHEMINEMENT COMPLEXE D UN VACCIN

AGREGATION DE BIOCHIMIE GENIE BIOLOGIQUE

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

5. Matériaux en contact avec l eau

K W = [H 3 O + ] [OH - ] = = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide

Depuis des milliers de générations, le ver à soie est l objet d une sélection

chronique La maladie rénale Un risque pour bon nombre de vos patients Document destiné aux professionnels de santé

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

L immunoenzymologie. Technique puissante couramment utilisée e en recherche et en diagnostic cificité des anticorps pour leurs nes

Consensus Scientifique sur. les. Champs statiques

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Génétique et génomique Pierre Martin

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Les débats sur l évolution des

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique

University of Tokyo Graduate School of Agricultural and Life Sciences et. Kanagawa Academy of Science and Technology

LITHIASE RÉNALE ET TUBULOPATHIE COMPLEXE : LE PARADIGME DE LA MALADIE DE DENT

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Molécules et Liaison chimique

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Cours d électricité. Circuits électriques en courant constant. Mathieu Bardoux. 1 re année

Information génétique

Foscolo (1), J Felblinger (2), S Bracard (1) CHU Hôpital central, service de neuroradiologie, Nancy (1) CHU BRABOIS, Centre d investigation clinique

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Projet de synthèse de l'électronique analogique : réalisation d'une balance à jauges de contrainte

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

ÉCOLES NORMALES SUPÉRIEURES ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES CONCOURS D ADMISSION SESSION 2013 FILIÈRE BCPST COMPOSITION DE BIOLOGIE

- 2 - faire industriel dans la mise au point des produits biologiques. L Institut Roche de Recherche et Médecine Translationnelle (IRRMT, basé à

Assurer l intégrité environnementale du système québécois de plafonnement et d échange pour les émissions de gaz à effet de serre

Compatibilité Électromagnétique

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Le don de moelle osseuse :

GUIDE D INFORMATIONS A LA PREVENTION DE L INSUFFISANCE RENALE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

AVIS. de l'agence nationale de sécurité sanitaire de l alimentation, de l environnement et du travail

Présentation Générale

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

TEST ELISA (ENZYME-LINKED IMMUNOSORBENT ASSEY)

Energie Nucléaire. Principes, Applications & Enjeux. 6 ème /2015

5.5.5 Exemple d un essai immunologique

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 3 : INFERENCE


THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE

Utilisation des substrats énergétiques

HRP H 2 O 2. O-nitro aniline (λmax = 490 nm) O-phénylène diamine NO 2 NH 2

Entrepôt de données 1. Introduction

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Transcription:

ANALYSE DES TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE RÉNALES par L. CHEVAL, B. VIRLON, E. BILLON, J.-C. AUDE, J.-M. ELALOUF et A. DOUCET La deuxième moitié du siècle dernier a vu l émergence et le succès de l approche réductionniste en physiologie rénale, approche qui a permis de caractériser les mécanismes cellulaires de transport tubulaire et de leur régulation, et d en déterminer le support moléculaire. Il s est agi d une approche essentiellement déductive de type gène cible : ayant caractérisé une protéine d intérêt dans un processus physiologique, on a recherché celles qui interagissent en amont et en aval, et par itérations successives on a pu, dans le meilleur des cas, déterminer toute la chaîne d intermédiaires moléculaires qui sous-tendent la régulation d un effecteur. Cette approche est très performante pour analyser le fonctionnement d architectures quasi linéaires. Cependant, l approche réductionniste a mis en évidence la complexité des processus de régulation des fonctions tubulaires rénales, complexité qui résulte de plusieurs phénomènes : a) une régulation physiologique peut être initiée par plusieurs facteurs inducteurs agissant en synergie ; b) chacun de ces facteurs peut contrôler plusieurs voies de signalisation ; c) ces différentes voies de signalisation interagissent les unes avec les autres ; et d) chacune contrôle l activité de multiples effecteurs. En d autres termes, il s agit d une structure en réseaux multiplexés dont l analyse nécessite de nouvelles stratégies et de nouveaux outils. Or, le changement de siècle a été contemporain de deux nouveautés qui permettent d envisager de nouvelles stratégies : a) la connaissance de génomes complets de mammifères, en particulier celui de l homme [1, 2] va théoriquement rendre caduque les démarches de clonage de gènes cibles ; et b) le développement de techniques qui permettent l analyse à grande échelle de l expression de ces génomes. * CEA Saclay, Service de Biologie Cellulaire et Laboratoire de Biologie Intégrée des Cellules Rénales, CNRS URA 1859, Gif sur Yvette, France. FLAMMARION MÉDECINE-SCIENCES ACTUALITÉS NÉPHROLOGIQUES 2002 TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE

194 L. CHEVAL ET COLL. Il convient de remarquer que les principales molécules d intérêt, d un point de vue physiologique, sont les protéines et non pas les transcrits. Malheureusement, les méthodes d analyse globale des protéines sont loin d être suffisamment exhaustives pour permettre des approches globales. C est pourquoi de nombreux projets et espoirs sont fondés sur l étude des transcriptomes. Celle-ci est d ailleurs pleinement justifiée pour l étude de phénomènes de régulation essentiellement fondés sur des phénomènes transcriptionnels, comme les adaptations physiologiques ou physiopathologiques à moyen ou long terme. ANALYSE À GRANDE ÉCHELLE DES TRANSCRIPTOMES Quelques chiffres permettent de situer les difficultés inhérentes à l analyse des transcriptomes. On admet aujourd hui que le génome d un mammifère contient 30 000 à 50 000 gènes qui codent pour 5-10 fois plus de transcrits différents du fait de la présence d un grand nombre d exons dans chaque gène, et donc d un grand nombre de variants d épissage possibles. Chaque cellule contiendrait environ 300 000 molécules d ARNm correspondant à 15 000 espèces moléculaires distinctes. Chacun de ces transcrits faisant en moyenne 1,5 kb, le transcriptome d une cellule correspond à environ 5 10 8 bases. À cela, il convient d ajouter que les différents transcrits sont présents en quantités qui varient de quelques copies à > 10 000 copies par cellule. Les méthodes d analyse des trancriptomes doivent donc allier une capacité d étudier un très grand nombre d espèces moléculaires différentes à un domaine de sensibilité étendu sur plus de trois ordres de grandeur. En 1995, deux nouvelles méthodes satisfaisant ces critères d analyse à grande échelle de l expression des gènes ont été décrites simultanément [3, 4]. Elles sont respectivement fondées sur l hybridation des ADNc sur des sondes spécifiques immobilisées sur un support solide, et sur le séquençage de courtes séquences spécifiques des ADNc. Chacune d elles présente ses propres avantages et inconvénients qui dérivent de son principe. Les technologies fondées sur l hybridation, que ce soit celle des microarrays à ADNc [3] ou les puces à ADN [5] sont fondées sur la quantification de réactions d hybridation spécifique d ADNc ou d ARNc issus du tissu d intérêt et marqués (avec des sondes fluorescentes ou des nucléotides biotinylés) sur des sondes spécifiques de transcrits (produits de PCR ou oligonucléotides) fixées sur une lame de verre selon un réseau ordonné. La performance de ces techniques résulte de leur pouvoir d analyse parallèle de plusieurs milliers d espèces moléculaires différentes. Leur majeure limitation tient à la nécessité de connaître a priori la séquence des transcrits étudiés, et de disposer d une sonde spécifique pour chacun d eux. Leur mise en œuvre nécessite aussi de lourds investissements tant en équipements spécifiques (robotisation du dépôt des sondes sur les lames de verre, lecteurs pour la quantification des réactions d hybridation) que dans la production des milliers de sondes spécifiques. À l opposé, la technique de Serial Analysis of Gene Expression (SAGE) ne bénéficie pas des avantages des approches massivement parallèles, mais elle ne nécessite ni connaissance a priori sur la séquence des transcrits d intérêt, ni équipement spécifique.

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 195 PRINCIPE GÉNÉRAL DE SAGE Pour ces raisons, nous avons choisi de développer la méthode SAGE au laboratoire. Cette méthode consiste à ne retenir de chaque ADNc qu une courte séquence nucléotidique informative de 10-pb, appelée étiquette. Les étiquettes correspondant à plusieurs transcrits sont ensuite concaténées en longues chaînes d ADN qui sont clonées et séquencées. L analyse informatisée des séquences permet d extraire les différentes étiquettes, de les classer et de les dénombrer. Enfin, l interrogation des banques de données permet de les identifier. Cette méthode repose sur trois principes qui ont été vérifiés expérimentalement a posteriori : a) Une étiquette de 10-pb, qui peut théoriquement discriminer 4 10 (> 10 6 ) entités différentes, est suffisamment longue pour être spécifique du transcrit dont elle est issue ; b) la condensation de l information par concaténation de plusieurs étiquettes en une seule molécule d ADN augmente considérablement le rendement d obtention des résultats ; et c) la proportion relative des différentes étiquettes dans la librairie est le reflet de l abondance des transcrits correspondants dans l échantillon biologique. La figure 1 permet de comprendre les étapes clés de la génération d une banque SAGE. Après extraction des ARNm d un tissu d intérêt, les ADNc sont synthétisés et clivés par une enzyme de restriction, appelée enzyme d ancrage, ayant un site de reconnaissance à 4-pb. Nous avons choisi l enzyme Sau3A qui reconnaît le site GATC. Une telle enzyme coupe les ADNc tous les 256-pb (4 4 ) en moyenne. Les ADNc étant généralement beaucoup plus longs, chacun est théoriquement coupé plusieurs fois. À ce stade, il faut cependant indiquer que certains ADNc ne contiennent pas de site pour l enzyme d ancrage et sont de ce fait exclus de l analyse. Après coupure par l enzyme d ancrage, la fraction la plus 3 des ADNc est purifiée et séparée en deux fractions A et B. Sur chacune est ligaturée une séquence adaptatrice (A ou B) d environ 45-pb constituée de trois domaines distincts : a) un domaine complémentaire de celui du site de l enzyme d ancrage ; b) un domaine permettant l amorçage d une amplification par PCR (domaine qui distingue les adaptateurs A et B) ; et c) un domaine de reconnaissance pour une endonucléase de type IIS utilisée comme enzyme d étiquetage. Les endonucléases de type IIS ont la propriété de posséder des sites de reconnaissance et d hydrolyse distincts et séparés par un nombre constant de bases (une dizaine de pb). Nous avons utilisé l enzyme BsmFI qui reconnaît le site GGGAC et coupe 14-pb plus loin. La digestion par l enzyme d étiquetage libère donc des séquences correspondant à un adaptateur lié à un fragment d ADNc de 14-pb constituant son étiquette. L étiquette d un transcrit correspond à la dizaine de pb situées en aval du site le plus 3 de l enzyme d ancrage. Chaque étiquette est donc définie par sa séquence mais aussi par sa position le long de l ADNc. Les constructions «adaptateur-étiquette» sont ensuite séparées des fragments 3 des ADNc, les fractions A et B sont mélangées et ligaturées les unes avec les autres et les constructions de type «adaptateur A- étiquette 1-étiquette 2-adaptateur B» sont amplifiées par PCR en utilisant les amorces spécifiques de A et de B. Toutes les cibles sont amplifiées avec une même efficacité car elles font la même longueur et sont amplifiées avec un même couple d amorces. Cette particularité rend la méthode quantitative. Les produits d amplification sont purifiés et soumis à une digestion par l enzyme d ancrage qui libère d une part les adaptateurs et d autre part les constructions «étiquette 1-étiquette 2».

196 L. CHEVAL ET COLL. Purification ARNm TTTTT AAAAA Synthèse ADNc EA Sau3A EA Sau3A EA Sau3A GATC EA Sau3A EA Sau3A Coupure Sau3A Purification extrémités 3 Ligation adaptateurs A ou B Amorce A EE: BsmF1 GATC CTAG EE: BsmF1 Amorce B Coupure BsmF1 Purification «adaptateur-étiquette» GATC Amorce A BsmF1 CTAG Amorce B EE: BsmF1 Ligation des 2 fractions Amplification PCR EA Sau3A Amorce A EE: BsmF1 GATC CTAG EE: BsmF1 Amorce B EA Sau3A Coupure Sau3A Purification «étiquette 1 - étiquette 2» Concatémérisation GATC GATC CTAG GATC CTAG GATC CTAG CTAG Clonage Séquençage Analyse informatisée FIG. 1. Principe de la méthode SAGE.

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 197 Ces dernières sont purifiées et concaténées, puis les concatémères les plus longs sont clonés et séquencés. Chaque concatémère est donc constitué par une succession de constructions de type «étiquette 1-étiquette 2» faisant 20-pb séparées par la séquence de reconnaissance de l enzyme d ancrage (GATC dans le cas de Sau3A). L analyse informatisée qui permet l extraction des séquences des étiquettes est fondée sur l existence de cette ponctuation régulière. Bien qu elle ne bénéficie pas de la puissance des méthodes d analyse parallèle des puces à ADN qui permettent d analyser simultanément l expression de plusieurs dizaine de milliers de gènes, la technique SAGE présente des avantages évidents. N étant pas fondée sur des données de séquence pré-éxistantes, elle ne nécessite aucune connaissance a priori sur la nature des transcrits étudiés. De ce fait, elle permet la découverte de nouveaux gènes. Ainsi, l analyse du transcriptome de levure Saccharomyces cerevisiae par la méthode SAGE a permis de caractériser plusieurs centaines de gènes qui n avaient pas été prédits par les techniques informatisées d annotation du génome [6], alors même que le génome entier de cette espèce avait été séquencé [7]. Elle ne nécessite pas la préparation, le contrôle et la gestion de milliers de sondes spécifiques, une entreprise qui sur le long terme est source de multiples erreurs [8]. SAGE permet potentiellement de réaliser une analyse exhaustive du transcriptome. Si l on admet qu une cellule contient environ 300 000 molécules d ARNm, il conviendrait de séquencer 1,2 millions d étiquettes (couverture de 4 fois le transcriptome) pour théoriquement explorer de façon significative l intégralité du transcriptome d une préparation cellulaire homogène. De façon plus réaliste, le séquençage d environ 30 000 étiquettes permet d analyser 10 p. 100 du transcriptome. Dans ces conditions, une étiquette dénombrée 5 fois dans la librairie révèle un taux d expression du transcrit correspondant de 50 copies par cellules. Les données SAGE sont immuables, et il est donc possible de comparer les données obtenues dans plusieurs laboratoires. Pour permettre ces comparaisons, Légende FIG. 1. (suite) Les ARNm sont purifiés à partir du lysat cellulaire par hybridation sur des oligo (dt) liés de façon covalente à des billes paramagnétiques (cercles noirs). Après synthèse des ADNc par des méthodes conventionnelles, ceux-ci sont clivés par l enzyme d ancrage (EA) Sau3A. Les extrémités les plus 3 des ADNc libérées par Sau3A sont purifiées, séparées en 2 fractions et liées sur des adaptateurs A ou B constitués d un site complémentaire du site de coupure Sau3A, d un site de reconnaissance pour l enzyme d étiquetage (EE) BsmF1, et d un site de fixation pour les amorces de PCR (amorce A ou B). La coupure par BsmFI libère les fragments d ADN les plus 3 liés aux billes et des constructions de type «adaptateur-étiquette». Après purification de ces dernières, les fractions A et B sont mélangées et ligaturées ensemble, puis les constructions de type «adaptateur A-étiquette 1-étiquette 2-adaptateur B» sont amplifiées par PCR. Un nouveau clivage par Sau3A libère les adaptateurs et des constructions de type «étiquette 1- étiquette 2» qui sont purifiées et concaténées en longues chaînes d ADN. Chacun de ces ADN est constitué d une succession de constructions de type «étiquette-étiquette» séparées par la ponctuation GATC correspondant au site de clivage de l enzyme d ancrage Sau3A. Après clonage et séquençage de ces chaînes d ADN, une analyse informatisée des séquences permet d extraire les étiquettes, de les dénombrer et de les identifier.

198 L. CHEVAL ET COLL. toutes les données SAGE publiées sont regroupées sur un site Internet (http:// www.sagenet.org/). Une limitation des techniques d analyse à grande échelle de l expression des gènes tient à leur relative faible sensibilité ; la construction d une banque SAGE ou la réalisation d une expérience d hybridation sur microarray nécessite environ 5 µg d ARNm, ce qui correspond à environ 50 millions de cellules ou 500 mg de tissu frais. Dans ces conditions, l application de ces techniques à des populations homogènes de cellules de mammifères reste limitée aux cellules en culture, aux différentes lignées sanguines et à certains tissus relativement homogènes (muscle squelettique, foie). L application de SAGE à des populations de cellules rénales homogènes, telles que des segments microdisséqués de néphron, a nécessité d augmenter sa sensibilité de plusieurs ordres de grandeur. ÉTUDE DES TRANSCRIPTOMES DE TUBULES RÉNAUX PAR SADE Un gain de sensibilité > 500 a été obtenu en simplifiant la procédure d extraction des ARNm et en augmentant le rendement de la synthèse des ADNc et des différentes étapes d extraction et de purification des ADN [9]. Cette micro-adaptation de SAGE, baptisée SADE (pour SAGE Adaptation for Downsized Extracts), n altère pas la qualité des profils d expression en terme de diversité et d abondance des transcrits [10]. D autre part, son domaine d application s étend des microéchantillons (5ng d ARNm soit 50 000 cellules ou 0,5 mg de tissu) à ceux analysables par SAGE (500 mg de tissu). Une librairie SADE a été réalisée à partir d environ 150 segments de branche large ascendante de l anse de Henle (MTAL) microdisséqués à partir de reins de souris après hydrolyse ménagée par la collagénase. Les 7 500 étiquettes séquencées correspondent à 3 470 espèces moléculaires différentes : la plus abondante est dénombrée 369 fois (5 p. 100 des transcrits), 58 sont dénombrées au moins 10 fois, et 2 796 le sont une seule fois. La liste complète des étiquettes détectées au moins 2 fois est consultable sur Internet (http://www-dsv.cea.fr/thema/get/sade.html). Les étiquettes les plus abondantes correspondent à des transcrits du génome mitochondrial qui codent pour des protéines de la chaîne respiratoire. Cette propriété, retrouvée dans toutes les librairies d origine rénale, reflète probablement le métabolisme énergétique très élevé des cellules épithéliales rénales. La figure 2 indique les résultats concernant un choix de transcrits nucléaires d intérêt. Outre des transcrits ubiquitaires comme la glycéraldéhyde-3-phosphate déshydrogénase et les trois sous-unités de la Na, K-ATPase, on trouve des transcrits codant pour des protéines spécifiques de l anse large ascendante de Henle. Ainsi, le transcrit nucléaire le plus abondant (0,5 p. 100) est celui de l uromoduline (ou protéine de Tamm-Horsfall), une protéine exclusivement synthétisée dans l anse large ascendante de Henle et abondamment sécrétée dans l urine [11]. En fait, il existe trois étiquettes de l uromoduline (représentant 1,2 p. 100 des transcrits totaux) qui correspondent à des sites distincts de polyadénylation ou à des épissages alternatifs. Parmi les étiquettes abondantes dans le MTAL, on trouve aussi la créatine kinase B, nécessaire à la forte production d ATP indispensable au fonctionnement de ces cellules [12], les deux isoformes du cotransporteur Na, K, 2Cl apical BSC1-C4 et BSC1-C9 [13], et le

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 199 Nombre d étiquettes 0 10 20 30 40 Uromoduline 1 Uromoduline 2 Uromoduline 3 Na,K-ATPase α Na,K-ATPase β L Na,K-ATPase β C Na,K-ATPase γ ClC-K1 BSC1-C4 BSC1-C9 NHE1 ROMK2 Créatine kinase B GAPDH 0 0,1 0,2 0,3 0,4 0,5 Abondance (% du nombre total) FIG. 2. Profil d expression des gènes dans le MTAL de souris. Les résultats, issus de Virlon et al. [10], indiquent le nombre absolu d étiquettes (échelle supérieure) et leur abondance relative (p. 100 du nombre total d étiquettes séquencées 7 500, échelle inférieure). Les colonnes noires et hachurées correspondent respectivement à des gènes dont l expression est préférentielle dans le MTAL ou ubiquitaire. Na, K-ATPase β L et Na, K-ATPase β C, formes longues et courtes de la sous-unité β1 de la Na, K-ATPase ; ClC-K1, canal chlorure rénal de type 1 ; BSC1-C4 et BSC1-C9, isoformes C4 et C9 du cotransporteur apical Na, K, 2Cl sensible au furosémide ; NHE1, échangeur sodium proton de type I ; ROMK2, canal potassique rénal à rectification entrante de type 2 ; GAPDH, glycéraldéhyde-3-phosphate déshydrogénase. canal chlorure ClC-K1 responsable de la sortie des ions chlorure au pôle basolatéral [14]. Les étiquettes d autres transporteurs exprimés de façon non spécifique dans le MTAL, comme l échangeur sodium proton de type I [15] ou le canal potassique à rectification entrante ROMK2 [16], sont aussi identifiés dans le MTAL, mais à des taux relativement faibles. La caractérisation de plusieurs étiquettes pour l uromoduline, le cotransporteur Na, K, 2Cl, et la sous-unité β 1 de la Na, K-ATPase (correspondant à deux sites distincts de polyadénylation [17]) illustre la capacité de SADE à distinguer des transcrits apparentés. La capacité de SADE à identifier des transcrits spécifiques de certains segments de néphron est mieux illustrée par la figure 3 qui indique les étiquettes d origine

200 L. CHEVAL ET COLL. Nombre d étiquettes 0 10 20 30 40 120 130 AQP-2 ESTs Thymosine β-4 β-actine OMCD MTAL Rein 11βOHSDH EMAP Inconnu EST ESTs ESTs ESTs Inconnu ADNc FIG. 3. Expression différentielle des gènes dans l OMCD, le MTAL et le rein de souris.

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 201 nucléaire préférentiellement exprimées ( 10 fois) dans le tubule collecteur de la médullaire externe (OMCD) par rapport au MTAL et/ou au rein entier (représentatif du tubule proximal). L étiquette la plus abondante dans l OMCD correspond à l aquaporine 2, le canal hydrique, régulé par la vasopressine, de la membrane apicale des cellules principales du tubule collecteur [18]. La 11β-hydroxystéroïde déshydrogénase de type II est aussi une protéine spécifiquement exprimée dans le tubule collecteur où elle confère la spécificité des récepteurs minéralocorticoïdes vis-à-vis de l aldostérone [19]. Huit de ces 13 étiquettes enrichies dans l OMCD par rapport au rein total ne sont pas définies fonctionnellement : l une correspond à un ADNc déposé dans Genbank mais sans aucune donnée concernant sa fonction potentielle, 5 correspondent à des séquences d EST non annotées, et enfin 2 ne correspondent à aucune séquence déposée dans Genbank (Inconnu). Ces derniers résultats illustrent l intérêt des techniques SAGE et SADE par rapport aux techniques fondées sur l hybridation pour découvrir de nouveaux gènes d intérêt : en effet l abondance relative de ces transcrits et la spécificité cellulaire de leur expression suggèrent une importante fonction. DOMAINES D APPLICATION ET LIMITES DE L ANALYSE DES TRANSCRIPTOMES TUBULAIRES RÉNAUX PAR SADE L ensemble de ces résultats montre que la méthode SADE est appropriée pour caractériser des profils d expression des gènes au niveau de segments de néphrons. Elle permet en particulier de définir des marqueurs spécifiques des différents segments de néphron, et de découvrir de nouveaux gènes d intérêt. Sur la base de ces résultats, nous avons entrepris en collaboration avec le Service de Néphrologie de l hôpital Necker (Paris) et le Centre National de Séquençage (Evry) la caractérisation des transcriptomes du glomérule et de 7 segments de néphron humains [20]. Ce projet, qui vise à séquencer environ 50 000 étiquettes par librairie, donnera accès aux transcrits exprimés à des taux 5-10 fois par cellule. Le séquençage du génome humain étant dans sa phase de finition, la quasi totalité des étiquettes devrait pouvoir être identifiée dans les librairies humaines. SADE permet aussi de déterminer les ARNm différentiellement exprimés (induits ou réprimés) dans une même structure tubulaire microdisséquée chez des individus maintenus dans des conditions physiologiques ou physiopathologiques différentes. Cette potentialité est très intéressante pour les modèles physiopathologiques chez la souris, qu ils soient génétiques (transgenèse) ou somatiques (manipulation du régime alimentaire, administration de substances pharmaceutiques, ). Légende FIG. 3. (suite) La figure indique le nombre absolu des étiquettes enrichies au moins 10 fois dans la librairie d OMCD par rapport aux librairies de MTAL et/ou de rein total. Les résultats sont issus de Virlon et al. [10], après normalisation à 7 500 étiquettes pour chaque librairie. AQP-2, aquaporine 2 ; 11βOHSDH, 11β-hydroxystéroïde déshydrogénase de type 2 ; EMAP, endothelial monocyte-activating polypeptid ; ADNc, étiquette correspondant à un ADNc sans fonction connue ; EST, étiquette correspondant à une ou plusieurs EST ; Inconnu, étiquette sans correspondance dans Genbank.

202 L. CHEVAL ET COLL. À titre d exemple, nous avons montré que la carence alimentaire en potassium induit dans l OMCD de souris une variation significative du taux d expression de près de 200 gènes (120 induits, 60 réprimés). En particulier, la carence en potassium induit l expression dans l OMCD du transporteur de cations organiques OCTN1 qui, chez les souris normokaliémiques, est exclusivement exprimé dans les segments tubulaires plus proximaux [21]. Contrairement aux segments initiaux du néphron qui sont chacun constitués d un seul type cellulaire, les tubules contournés distaux et collecteurs corticaux et médullaires sont constitués de plusieurs types cellulaires. Pour ces structures, la microdissection ne permet pas de pallier totalement l hétérogénéité, ce qui a incité divers groupes à développer des lignées cellulaires issues des tubules distaux. La lignée mpkccd c14 est une lignée de cellules principales du tubule collecteur de souris [22] qui présente plusieurs des propriétés fonctionnelles des cellules natives (réabsorption de sodium et d eau respectivement stimulées par l aldostérone et la vasopressine). Cependant, la comparaison des profils d expression des gènes obtenus par SADE dans l OMCD et les cellules mpkccd c14 indique que ces dernières sont considérablement dédifférenciées (Tableau I). En effet, des transcrits ubiquitaires comme la GAPDH ou la sous-unité α de Na, K-ATPase sont exprimés à des taux comparables dans le tissu natif et la lignée cellulaire, alors que les marqueurs cellulaires comme le canal ENaC, la 11β-hydroxystéroïde déshydrogénase de type 2 ou l aquaporine 2 sont exprimés à des taux 4 à 300 fois supérieurs dans l OMCD [23]. Ces derniers résultats soulignent l intérêt de disposer d une microméthode d analyse des transcriptomes compatible avec l étude de segments microdisséqués de néphron. Comme toutes les techniques fondées sur le séquençage d ADN, SAGE est sujette aux erreurs de séquençage. Celles-ci sont certainement la première cause d erreurs de cette méthode puisque le séquençage est réalisé sur le mode simple brin et lecture unique. Si l on admet que dans ces conditions le taux d erreur de lecture est d environ 10-2 (une erreur toutes les 100 bases), il existe une erreur de séquençage toutes les 10 étiquettes en moyenne (10 p. 100 d étiquettes erronées). Ces erreurs étant des phénomènes aléatoires, la probabilité que la même erreur survienne deux fois au même endroit dans une même étiquette est négligeable, et cela d autant plus que le taux d expression de l étiquette est faible. Cela implique que TABLEAU I. EXPRESSION COMPARATIVE DE GÈNES DANS L OMCD ET LES CELLULES MPKCCD C14. Glycéraldéhyde-3-phosphate déshydrogénase Sous-unité α de la Na,K-ATPase Sous-unité α de ENaC Sous-unité β de ENaC 11β-hydroxystéroïde déshydrogénase de type II Aquaporine 2 OMCD 11 8 8 8 32 328 MPKCCD C14 16 6 0 2 2 1 Les chiffres correspondent aux nombres d étiquettes dénombrées dans des librairies SADE réalisées à partir d OMCD de souris microdisséqués et de la lignée mpkccd C14 de cellules principales de tubule collecteur de souris. Les résultats sont issus de données non publiées du laboratoire (OMCD) et de Robert-Nicoud et al. [23] (mpkccd C14 ), après normalisation à 20 000 étiquettes dans chaque librairie.

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 203 la majorité des «fausses étiquettes» issues d erreurs de séquençage n apparaissent qu une fois dans la librairie. En corrélation, un nombre non négligeable d étiquettes présentes une seule fois sont dues à des erreurs de séquençage, et n ont donc aucune signification biologique. Ainsi, dans la librairie de MTAL sur laquelle nous avons séquencé 7 500 étiquettes, 10 p. 100 des étiquettes (soit 750 étiquettes) seraient de «fausses étiquettes», ce qui représente environ 25 p. 100 des 2 796 étiquettes dénombrées une seule fois. Ce pourcentage élevé conduit à éliminer les étiquettes présentes une seule fois dans les librairies dans la publication des résultats sur le site Internet. Cette attitude est aussi justifiée par le fait que tant que l exhaustivité dans la constitution d un transcriptome n est pas atteinte, un nombre d occurrence de 1 n a guère plus de signification biologique qu une occurrence de 0. Une difficulté des approches SAGE concerne l identification des étiquettes dans Genbank. Trois problèmes sont à considérer. L identification des étiquettes est d autant plus aisée que le nombre de séquences d ADNc déposées dans Genbank est élevé. Ceci limite aujourd hui l utilisation efficace de SAGE à deux espèces de mammifères, l homme et la souris. L étiquette SAGE correspond aux 10-pb situées en aval du site de l enzyme d ancrage le plus 3 de l ADNc complet. Une étiquette ne peut donc pas être formellement identifiée à une séquence déposée dans Genbank lorsque celle-ci ne contient pas le site de polyadénylation (ce qui reste une situation fréquente). La banque de données du RIKEN Genome Exploration Research Group (http:// genome.rtc.riken.go.jp/) met à disposition une collection d ADNc complets de souris très utile pour l identification des étiquettes SAGE chez cette espèce. L identification d une étiquette à un ADNc même complet n éclaire pas nécessairement sur la fonction du gène. D un point de vue pratique, le logiciel SAGE 2000, initialement développé par Velculescu et al. [4] (disponible gratuitement auprès de John Hopkins University dans le cadre de recherches académiques sans but lucratif ni clinique : http:// www.sagenet.org/sage_protocol. htm) pour extraire les étiquettes à partir des données brutes de séquençage et les dénombrer permet un lien direct avec Genbank. Cette approche pour l identification des étiquettes est très insuffisante car beaucoup d identifications proposées ne satisfont pas les critères énoncés ci-dessus. Pour pallier cette insuffisance, le site SAGEmap (http://www.ncbi.nlm.nih.gov/sage/) a été spécifiquement développé pour permettre l identification d étiquettes SAGE (pour deux enzymes d ancrage) à partir des données Unigene. Outre les ADNc complets (y compris les données RIKEN), Unigene regroupe des clusters d EST (ce qui permet parfois la reconstruction d un ADNc complet) et les EST isolées. Rappelons enfin que le fait que certaines étiquettes ne puissent pas être identifiées en terme d ADNc reste un des avantages de SAGE, puisqu il permet la découverte de nouveaux gènes. Il est en effet possible de cloner ces gènes à partir de l information de séquence des seules étiquettes [4, 24]. CONCLUSION Cette brève revue démontre qu en dépit des indéniables difficultés inhérentes à la technique SAGE, SADE permet une analyse quantitative et à grande échelle de l expression des gènes au niveau de segments bien définis du néphron. SADE rend

204 L. CHEVAL ET COLL. possible non seulement une quantification d un grand nombre de transcrits exprimés dans les différents segments de néphron, mais aussi l identification des sousensembles de transcrits dont l expression est modifiée au cours d un processus physiologique ou physiopathologique. Trois principaux champs d application semblent s ouvrir. Le premier concerne la découverte de nouveaux gènes d intérêt. Il est issu de l analyse des transcriptomes de structures bien définies du néphron qui montre que certains transcrits abondamment exprimés ne sont pas identifiables dans Genbank, et cela chez la souris comme chez l homme. Cela démontre le caractère encore très incomplet du séquençage complet du génome humain et de la détermination du nombre de gènes et d ARNm effectivement présents chez cette espèce. L abondance et la spécificité de l expression de ces transcrits inconnus dans certaines structures du néphron suggèrent qu ils codent pour des protéines fonctionnellement importantes dans ces cellules. Ce domaine d application ne peut évidemment pas être envisagé avec les techniques d analyse des transcriptomes de type puces à ADN ou microarrays. Le second concerne l identification de l ensemble des transcrits qui participent à une fonction physiologique ou à un dysfonctionnement pathologique. Il est fondé sur l analyse différentielle de l expression des gènes dans un même segment de néphron dans deux situations physiopathologiques différentes. La génétique a permis de caractériser les gènes responsables de la majorité des maladies génétiques d origine rénale : syndromes néphrotiques (néphrine NPHS1, podocine NPHS2, α-actinine 4 et facteur de transcription WT1), cystinose (transporteur d acide aminé CTNS), syndrome de Lowe (phosphatidylinositol-4,5-bisphosphate 5-phosphatase), rachitisme hypophosphatémique résistant à la vitamine D (endopeptidase PEX), maladie de Dent (canal chlorure ClC-N5), hypomagnésémie (paracelline PCLN1), syndromes de Bartter et de Gitelman (cotransporteur Na, K, 2Cl BSC1, canal potassique ROMK, canal chlorure ClC-K1, cotransporteur Na, Cl TCS), diabète néphrogénique (aquaporine 2 et récepteur V2 de la vasopressine), acidose tubulaires distales (échangeur Cl/HCO 3 SLC4A1, H-ATPase), syndromes de Liddle (canal sodium ENaC) et de Gordon (kinases WNK 1 & WNK4), polykystose rénale autosomique dominante (polykystine PKD1 & PKD2). À l inverse, de fréquentes maladies rénales non génétiques (syndrome néphrotique idiopathique, hypertension artérielle essentielle, néphropathie diabètique) demeurent méconnues quant à leurs mécanismes. L analyse comparative des transcriptomes au niveau des cellules cibles de ces pathologies devrait aider à déterminer leur mécanisme moléculaire et à définir de nouvelles cibles thérapeutiques. Ce type de recherche reste aujourd hui restreint aux maladies pour lesquelles il existe des modèles murins, étant données les restrictions évidentes à travailler sur du matériel humain. Le dernier concerne la caractérisation fonctionnelle des milliers de gènes identifiés par les programmes de séquençage de génomes complets. Il s agit d un objectif essentiel de la recherche dite post-génomique. Associée aux méthodes classiques d investigation des fonctions tubulaires rénales, l analyse des transcriptomes permet d une part de caractériser les quelques milliers de transcrits les plus abondants qui sous-tendent l ensemble des propriétés fonctionnelles d un segment de néphron, et d autre part de définir les sous-ensembles de quelques centaines de transcrits et les fonctions tubulaires qui sont modifiés en réponse à des adaptations. L intersection des sous-ensembles définis en réponse à diverses adaptations permet de restreindre le nombre de transcrits et de fonctions. En réitérant l opération on

TRANSCRIPTOMES : APPLICATIONS EN PHYSIOLOGIE ET PHYSIOPATHOLOGIE 205 peut espérer définir les transcrits correspondant à une fonction unique. Une telle approche nécessite l optimisation de l analyse des transcriptomes puisqu un grand nombre de conditions différentes doivent être étudiées. Pour cela, il conviendrait d utiliser SADE pour caractériser les quelques milliers de gènes d intérêt qui pourraient être ensuite analysés en parallèle par la technologie des puces ou des microarrays dans un grand nombre de conditions. BIBLIOGRAPHIE 1. LANDER ES, LINTON LM, BIRREN B et al. Initial sequencing and analysis of the human genome. Nature, 2001, 409, 860-921. 2. VENTER JC, ADAMS MD, MYERS EW et al. The sequence of the human genome. Science, 2001, 291, 1304-1351. 3. SCHENA M, SHALON D, DAVIS RW et al. Quantitative monitoring of gene expression patterns with complementary DNA microarray. Science, 1995, 270, 467-470. 4. VELCULESCU VE, ZHANG L, VOGELSTEIN B et al. Serial analysis of gene expression. Science, 1995, 270, 484-487. 5. WODICKA L, DONG H, MITTMAN M et al. Genome-wide expression monitoring in Saccharomyces cerevisiae. Nature Biotechnol, 1997, 15, 1359-1367. 6. VELCULESCU VE, ZHANG L, ZHOU W et al. Characterization of the yeast transcriptome. Cell, 1997, 88, 243-251. 7. GOFFEAU A, BARRELL BG, BUSSEY H et al. Life with 6000 genes. Science, 1996, 274, 546-567. 8. KNIGHT J. When the chips are down. Nature, 2001, 410, 860-861. 9. CHEVAL L, VIRLON B, ELALOUF JM. SADE : a microassay for serial analysis of gene expression, in Hunt S et Livesey JP (eds) : Functional Genomics, Oxford, Oxford University Press, 2000, pp. 139-163. 10. VIRLON B, CHEVAL L, BUHLER JM et al. Serial microanalysis of renal transcriptomes. Proc Natl Acad Sci USA, 1999, 96, 15286-15291. 11. HESSION C, DECKER JM, SHERBLOM AP et al. Uromodulin (Tamm-Horsfall glycoprotein) : a renal ligand for lymphokines. Science, 1987, 237, 1479-1484. 12. FRIEDMAN DL, PERRYMAN MB. Compartmentation of multiple forms of creatinine kinase in the distal nephron of the rat kidney. J Biol Chem, 1991, 266, 22404-22410. 13. MOUNT DB, BAEKGAARD A, HALL AE et al. Isoforms of the Na-K-2Cl cotransporter in murine TAL. I. Molecular characterization and intrarenal localization. Am J Physiol, 1999, 276, F347- F358. 14. VANDEWALLE A, CLUZEAUD F, BENS M et al. Localization and induction by dehydration of ClC-K chloride channels in the rat kidney. Am J Physiol, 1999, 272, F678-F688. 15. PAILLARD M. Na + /H + exchanger subtypes in the renal tubule : function and regulation in physiology and disease. Exp Nephrol, 1997, 5, 277-284. 16. BOIM MA, HO K, SHUCK ME et al. ROMK inwardly rectifying ATP-sensitive K + channel. II. Cloning and distribution of alternative forms. Am J Physiol, 1995, 268, F1131-F1140. 17. YOUNG RM, SHULL GE, LINGREL JB. Multiple mrnas from rat kidney and brain encode a single Na +,K + -ATPase β subunit protein. J Biol Chem, 1987, 262, 4905-4910. 18. FUSHIMI K, UCHIDA S, HARA Y et al. Cloning and expression of apical membrane water channel of rat kidney collecting tubule. Nature, 1993, 361, 549-552. 19. NARAY-FEJES-TOTH A, FEJES-TOTH G. Expression cloning of the aldosterone target cell-specificity 11β-hydroxysteroid dehydrogenase from rabbit collecting duct cells. Endocrinol, 1995, 136, 2579-2586. 20. CHEVAL L, CHABARDÈS D, MÉJEAN A et al. Characterization of the transcriptome of the human nephron. J Am Soc Nephrol, 2001, 12, 47A (Abstract).

206 L. CHEVAL ET COLL. 21. CHEVAL L, BILLON E, ELALOUF JM et al. Expression of organic cation transporter OCTN1 in the mouse outer medullary collecting duct of K-depleted mice. J Am Soc Nephrol, 2001, 12, 47A (Abstract). 22. BENS M, VALLET V, CLUZEAUD F et al. Corticosteroid-dependent sodium transport in a novel immortalized mouse collecting duct principal cell line. J Am Soc Nephrol, 1999, 10, 923-934. 23. ROBERT-NICOUD M, FLAHAUT M, ELALOUF JM et al. Transcriptome of a mouse kidney cortical collecting duct cell line : effects of aldosterone and vasopressin. Proc Natl Acad Sci USA, 2001, 98, 2712-2716. 24. POLYAK K, XIA Y, ZWEIER JL et al. A model for p53-induced apoptosis. Nature, 1997, 389, 300-305.