Module 2 Anatomie moléculaire du génome:les gènes et les chromosomes.

1 Module 2 Anatomie moléculaire du génome:les gènes et les chromosomes. Où trouver l information complémentaire? MCB-9; GVII-2, 3, 4, 19. Définition moléculaire du gène C est la séquence complète d acides nucléiques nécessaires à la synthèse d un polypeptide fonctionnel ou d une molécule d ARN. Celle-ci englobe non seulement la région codante (cadre de lecture), mais aussi les régions en amont (5 ) et en aval (3 ) nécessaires à la transcription du gène et à la maturation du transcrit. Organisation des gènes: notions d intron, d exon et de régions régulatrices Chez les procaryotes La très vaste majorité des gènes chez les procaryotes sont continus, ou non interrompus (sauf quelques exemples chez le bactériophage T4 et les archébactéries). Ils sont souvent organisés sous forme d opérons. L opéron représente un groupe de gènes apparentés, transcrit en une seule unité. Le messager correspondant est dit polycistronique. Cistron = unité génétique codant pour un seul polypeptide. Exemple: les gènes nécessaires à la synthèse de l aa tryptophane ou ceux de l opéron lactose (fig. 9.1a MCB). Le ribosome initiera la traduction au début de chacun des gènes (cistron) de cet ARNm, produisant les différents polypeptides codés par le messager polycistronique. L initiation interne est rendue possible par la liaison des ribosomes aux séquences de Shine-Dalgarno (site de liaison au ribosome) présentes au début de chaque cistron. L une des conséquences de ce type d arrangement est la possibilité qu une mutation ponctuelle dans les régions régulatrices affecte plusieurs gènes. Chez les eucaryotes Les gènes eucaryotes sont souvent interrompus par des régions non codantes mais transcrites. Ces régions, dites intervenantes ou introns seront enlevées dans le noyau, avant le transport du messager dans le cytoplasme et donc, avant la traduction. On dit alors que les exons ont été épissés. Ce terme nous vient de la marine où épisser signifie raccorder des cordages. La structure du gène eucaryote sera donc une suite de régions présentes dans l ARNm mature, les exons, interrompus par des régions intervenantes, les introns, qui devront être enlevés pour qu il y ait traduction du messager (fig. 9.1b MCB).

À l opposé des procaryotes, l organisation des unités transcriptionnelles chez les eucaryotes est monocistronique (à quelques très rares exceptions près, comme chez le nématode C. elegans ou l algue chlorarachniophyte, voir P.N.A.S. 93: 7737-7742, 1996). Ici encore, la façon dont le ribosome aborde le messager est tout à fait cohérente avec cette organisation. Il n y a pas de site de liaison interne. Le ribosome balaye, scan le messager à partir de l extrémité 5 et initiera la traduction au premier AUG rencontré, si ce dernier se trouve dans un contexte favorable (un A en position -3 et un G en position +4 sont les bases les plus fréquemment retrouvée autour de l ATG initiateur de la traduction). L organisation discontinue des gènes eucaryotiques permet un niveau de complexité supérieur par la capacité de joindre différents exons entre eux. C est ce qu on appelle l épissage alternatif (alternative splicing). Conséquemment, l ARNm pourra posséder plusieurs sites possibles de polyadénylation. Fig. 9.2 MCB, 22.18 GVII. Les régions régulatrices Généralement en 5 (en amont), on retrouve les séquences d ADN nécessaires à la régulation des gènes. Ces régions (promoteurs et activateurs à distance ou enhancer) sont le commutateur qui module la quantité et le lieu d expression des gènes. Des séquences d ADN impliquées dans la régulation de l expression peuvent aussi se trouver en aval (3 ), de même qu à l intérieur du transcrit primaire, soient dans les introns et les exons. Nous verrons dans un chapitre ultérieur l organisation fine des régions régulatrices. La taille des génomes et le nombre de gènes La taille des génomes ne correspond pas nécessairement à leur complexité. Ceci est dû au fait qu une forte proportion du génome chez les eucaryotes supérieurs est non codante. On parle, peut-être à tort, de junk DNA, car c est peut être là un degré supérieur d organisation* (fig. 3.1-3.2 GVII). *Voir entre autre l importance de l hétérochromatine dans l appariement des chromosomes homologues lors de la méiose (Science 273:35-36 et 118-121, 1996). Par contre on note tout de même une relation entre la complexité et la taille minimale des génomes lors du passage d un phylum à un autre (fig. 3.2 GVII). 2

Les procaryotes ont des génomes compacts. Ils compétitionnent pour des ressources limitées dans leur environnement. Puisque la synthèse et la réplication de leur génome représentent une dépense énergétique appréciable, peut-être y-a-t il une forte pression de sélection pour éliminer tout ADN non fonctionnel. Ex.: une bactérie comme E. coli se divise à toute les 30 minutes environ. Chez les vertébrés, la sélection naturelle porte principalement sur leur comportement. La dépense d énergie reliée à la synthèse et la réplication de l ADN est minime lorsque comparée avec la quantité d énergie consommée pour actionner leurs muscles par exemple. Ceci explique peut-être partiellement pourquoi la quantité totale d ADN est en très grand excès par rapport au nombre de gènes fonctionnels. Que peut-on conclure chez les plantes? L apport en énergie est-il limitant? La valeur C et son paradoxe La quantité d ADN par génome haploïde est appellé la valeur C (C-value). Cette valeur (exprimée en paires de bases pb ou en picogrammes pg*) va de 10 6 pb (pour certains mycoplasmes) jusqu à 10 11 pb pour certains amphibiens, de même que certaines plantes. La présence d un écart important entre la quantité d ADN et la complexité apparente est appelé paradoxe de la valeur C (C-value paradox). *1 pg = 0.965 x 10 9 pb = 6.1 x 10 11 daltons. Organismes Quantité Nombre estimé d ADN (pb) de gènes Procaryotes Mycoplasma genitalium 5.8 x 10 5 473 Helicobacter pylori 1.7 x 10 6 1590 Haemophilus influenzae 1.8 x 10 6 1743 Methanococcus jannaschii 1.7 x 10 6 1738 (archaebactérie) Escherichia coli 4.5 x 10 6 4000 Bacillus subtilis 4.2 x 10 6 4000 Eucaryotes Saccharomyces cerevisiae 1.35 x 10 7 6000 (levure) Caenorhabditis elegans 1.0 x 10 8 19 000 (nématode) Drosophila melanogaster 1.65 x 10 8 13 000 (mouche à fruit) Arabidopsis thaliana 1.2 x 10 8 25 000 (l arabette des dames!) Zea mays (maïs) 5.4 x 10 9 25 000 Homo sapiens 3.3 x 10 9 38 000 à 100 000 À comparer avec : bactériophage φx 174 5386 pb (1977); bactériophage λ 48 502 pb (1982); cytomégalovirus 229 kb (1991); variole 186 kb (1993); Marchantia polymorpha mitochondrie 187 kb (1992) et chloroplaste 121 kb (1986). 3

Les cinétiques de réassociation: la valeur C 0 t 1/2 La très grande variabilité dans la taille des génomes eucaryotes suscite la question suivante: les plus gros génomes possèdent-ils un nombre supérieur de gènes différents, un plus grand nombre de copies des mêmes gènes ou une plus grande quantité d ADN non codant? Les paramètres affectant le degré de réassociation de l ADN simple brin sont la concentration initiale C 0 et la durée de la réaction (t). Le C 0 t d une réaction sera donc le produit de la concentration initiale d ADN en moles de nucléotides/litre par le temps en seconde. Une valeur pratique est le C 0 t 1/2 c. à d. le C 0 t où la moitié d une fraction d ADN est renaturée. Plus la valeur C 0 t 1/2 est faible, plus le taux de réassociation est élevé. La valeur C 0 t 1/2 est directement proportionnelle à la quantité d ADN du génome, ou d une fraction d ADN pour les génomes complexes. Nous verrons plus loin qu un génome complexe aura plusieurs fractions et que, conséquemment, la taille totale d un génome complexe sera proportionnelle à l ensemble des C 0 t 1/2 de chacune de ses fractions (fig. 3.6 GVII, ci-dessous). Plus le génome devient complexe, moins il y a de copies d une séquence particulière dans une quantité donnée d ADN. Prenons un exemple fictif. Pour un génome bactérien, disons de valeur C à 0.004 pg, si la concentration C 0 est de 12 pg, il y aura 3000 copies de chaque séquence. Pour un génome eucaryotique de C = 3 pg et une C 0 identique de 12 pg, il n y aura plus que 4 copies de chaque séquence représentée. Donc, à partir d un même C 0, donc d une même concentration absolue d ADN au départ, on aura dans le cas présent, 750 fois moins de chacune des séquences eucaryotiques versus procaryotiques. Puisque la vitesse de réassociation dépend de la concentration (moles de nucléotides/litre) des séquences complémentaires, il faudra avoir un échantillon eucaryotique 750 fois plus concentré, ou laisser aller la réaction 750 fois plus longtemps pour obtenir le même C 0 t 1/2. Le C 0 t 1/2 d une réaction peut donc servir comme indicateur de la complexité d un génome, c.- à-d. de la longueur totale des différentes séquences présentes. La renaturation de n importe quel génome devrait donc montrer un C 0 t 1/2 proportionnel à sa complexité. Si l on compare avec un génome de complexité connue, par exemple celui d E. coli, et qu on assume que, puisqu il contient très peu d ADN non fonctionnel, sa complexité est identique à la taille de son génome*, nous pouvons écrire la relation suivante: 4 C 0 t 1/2 (ADN d un génome XYZ) = complexité du génome XYZ C 0 t 1/2 (ADN E. coli) 4.2 x 10 6 pb * ou exprimé différemment, cela implique que l on considère comme approximation que chaque séquence dans le génome de E. coli est unique. Pour ceux que les mathématiques ne rebutent pas trop: La renaturation de l ADN dépend des collisions aléatoires des brins complémentaires et suit une cinétique de second degré.

5 1) dc = -kc 2 où C est la concentration d ADN simple brin au temps t dt et k une constante de réassociation 2) en intégrant cette équation entre les limites C 0 à t=0 (concentration initiale au temps t=0), C et t (la concentration d ADN demeuré simple brin au temps t), on peut décrire le progrès de la réaction comme suit: dc = -k C 2 dt C = C 0 1 1 + k C 0 t 3) pour C 0 t 1/2, on aura donc: C 0 t 1/2 = 1 k C = 1 = 1 C 0 2 1 + k C 0 t 1/2 Lorsqu on soumet un génome eucaryotique à un cycle de dénaturation-renaturation, sa cinétique de réassociation s étend sur 8 log de valeur C 0 t, comparativement à 2 log pour des génomes comme E. coli. Comparer fig. 3.5 et 3.6 GVII. Fig. 3.6 GVII En fait, la réaction s effectue en 3 phases, chacune décrivant une fraction ou classe particulière de l ADN eucaryotique. Fraction 1: vitesse de réassociation rapide C 0 t 1/2 < 0,01. Environ 10-15% de l ADN de mammifère fait partie de cette classe. Ce sont des ADN simples, composés en majorité de courtes séquences d oligonucléotides (5-10 pb) répétées en tandem.. Fraction 2: vitesse de réassociation intermédiaire 0,01 < C 0 t 1/2 <10 comprenant 25-40% de l ADN chez les mammifères. Cette fraction est aussi dite ADN modérément répété (ou moyennement redondant). Elle est composée d une grande quantité de copies représentant des séquences de quelques familles seulement. On retrouve dans cette fraction les petits éléments répétitifs (SINE), composés de 100 à 300 pb; et les longs éléments répétitifs (LINE), atteignant jusqu à 5000 ou 7000 pb.

Fraction 3: vitesse de réassociation lente 100 < C 0 t 1/2 < 10,000 comprenant 50-60% de l ADN chez les mammifères. Comme cette fraction se réassocie 500 fois plus lentement que l ADN d E. coli, et que la cellule de mammifère contient 700 fois plus d ADN, cette fraction est considérée comme étant composée de séquence à copie unique. De ces séquences, seulement 5% chez l humain coderait pour des protéines ou des ARN. Le reste serait de l ADN intercalaire sans fonction connu (spacer DNA). Classification de l ADN eucaryotique Ce diagramme résume les différents types d ADN retrouvé dans le noyau d une cellule eucaryotique. 6 Gènes à copie unique codant pour protéines ADN présent en plusieurs copies ADN espaceur Séquences fonctionnelles Séquences non-fonctionnelles Familles de gènes et pseudogènes Séquences fonctionnelles non-codante ADN centromériques VNTR Familles de gènes en tandem Transposons Éléments transposables Familles de gènes dispersés Rétro- Transposons ADN codant pour des protéines 1) Gènes à copie unique ou solitaires: Chez les organismes multicellulaires, 25 à 50% des gènes codant pour des protéines ne sont représentés qu une seule fois par génome haploïde. Ces gènes font partie de la fraction lente (3) de réassociation. 2) Gènes à copies multiples: (familles divergentes fonctionnelles et pseudogènes non fonctionnels). Ces gènes forment 50% des gènes codant pour les protéines chez les vertébrés. Lorsqu on analyse le voisinage d un gène (5 à 10 kb autour), on en retrouve fréquemment une ou plusieurs copies similaires, mais imparfaites. L origine de ces séquences dites dupliquées est fort probablement la duplication d un gène ancestral à copie unique,

suivie de l accumulation de mutations ponctuelles aléatoires. Le crossing-over inégal est un mécanisme pouvant expliquer l apparition des gènes à copies multiples. Un jeu de gènes dupliqués qui codent pour des protéines similaires, mais ayant des différences en acides aminés est nommé famille de gènes. Certaines des copies dupliquées peuvent avoir perdu, par accumulation de mutations, leur capacité à produire des protéines fonctionnelles. On les nomme pseudogènes. Ce sont des copies inertes. Ces mutations peuvent avoir affecté tant le cadre de lecture de la protéine que l expression même du messager. On retrouve aussi, parmi ces pseudogènes, des fragments de gènes et non seulement des copies entières. Les gènes à copies multiples font partie Copie 1 fonctionnelle promoteur Copie 2 fonctionnelle Copie 3 gène tronqué pseudogène Copie 4 promoteur inactif pseudogène de la fraction lente de réassociation et, dans le cas de grandes familles de gènes dont les membres sont assez similaires, de la fraction intermédiaire. ADN répété en tandem Chez les Invertébrés, de même que chez certains Vertébrés, les gènes codant pour les ARNr, ARN 5S, ARNt et les histones se présentent Unité d ADN ribosomal sous la forme de multiples copies répétées et disposées en tandem, séparées par des régions intercalaires. Ces copies sont généralement dans la même orientation. L ADN répété en tandem diffère de la famille de gènes, car les copies sont Nombre de copie 1 1 100 Nombre de polymérase 1 250 250 Rendement rrna/24h 288 70 000 7 millions presqu à 100% identiques dans leur Dans cet exemple nous voyons régions transcrites. Les séquences intercalaires (spacer) non transcrites peuvent répétée sur la quantité finale l effet de l organisation en unité par contre varier beaucoup. Cet arrangement d ARNr produit sur un cycle de de multiples 24h, considérant qu il faille 5 minutes pour transcrire une unité. copies en tandem permet la production d une grande quantité de ces ARN et de ces histones, de façon à combler les besoins immenses de la cellule pour ces composantes. Ces gènes forment une petite partie de la fraction intermédiaire de réassociation. 7 ARN polymérase ADNr ARNr transcrit

ADN répétitif La découverte de l ADN répétitif provient de l analyse des courbes de dénaturation-renaturation de l ADN et englobe les fractions 1 et 2 décrites précédemment. Aujourd hui, grâce à l analyse des séquences, il est possible de classer ces fractions selon les types d éléments qu elles contiennent. 1) ADN à séquence répétée simple. Ces séquences, généralement de 5-10 pb, se trouvent répétées en tandem sur des distances parfois couvrant jusqu à 10 5 pb. Dû à ses nombreuses unités répétées, ce type d ADN peut être isolé par centrifugation puisque sa composition en base est généralement biaisée. Ces longues séquences sont souvent nommées satellites,car elles se situent autour de la bande majeure après centrifugation. Chez l humain, au moins 10 types différents de ces séquences répétées simples existent. Chaque type peut équivaloir à 0.5-1.0% du génome total, soit 10 7 pb, ou 3 fois le génome entier d E. coli! La plupart de ces séquences répétées simples se retrouvent en des endroits précis sur les chromosomes, par exemple autour des centromères ou des télomères, et peuvent être visualisées par hybridation in situ. L ADN à séquences répétées simples constitue la fraction rapide des courbes de réassociation. 2) ADN de répétition intermédiaire et éléments génétiques mobiles. Dans les expériences de réassociation mentionnées ci-haut, de 25 à 40% de l ADN des Mammifères se renaturent à une vitesse intermédiaire. Les gènes des ARNr, ARNt, ARN 5S et des histones, de même que les familles de gènes (familles nombreuses), font partie de cette fraction, mais comptent pour un faible pourcentage seulement. La majorité des séquences présentes dans cette classe consiste en éléments modérément répétés, disséminés un peu partout dans le génome et capables de transposition à des nouveaux sites. Ces éléments mobiles sont essentiellement des parasites moléculaires qui n apportent aucune fonction spécifique à la biologie de leur hôte (sauf une certaine plasticité génomique: point d ancrage pour duplication et modification de l expression des gènes par insertion près d un promoteur). Ces éléments ont été baptisés ADN égoïste (selfish DNA) car ils n ont d autres buts que de maintenir leur propre existence. Chez l humain, ils comptent pour 30% du génome. Chez les Mammifères, les éléments mobiles les plus abondants peuvent être classés en 2 groupes: a) petits éléments disséminés (rétrotransposons non viraux) - SINE (short interspersed elements), 300 pb, ne possèdent pas de LTR (long terminal repeat), sont présents tous les 5 kb et en 500,000 sites dans le génome et comptent pour 5% du génome total des Mammifères. Ex. séquence alu. b) longs éléments disséminés (rétrotransposons viraux et non viraux) - LINE (long interspersed elements), ne possèdent pas de LTR, 6-7 kb, ex L1, 50,000 copies/génome, et comptent pour 5% du génome total des Mammifères. - Ty ( 5 kb) chez la levure, 50-100 copies/génome. - P élement et copia chez la drosophile. - Ac/Ds chez le maïs. ADN intercalaire non-classé Comme le nom l indique, moi non plus, je ne l ai pas classé! 8

Maintenant que nous avons vu toute cette panoplie d ADN répétitif et d éléments transposables, quelle pourrait être la fonction du junk DNA? Organisation et compactage de l ADN dans les chromosomes La longueur du polymère d ADN dépasse de beaucoup la taille de son hôte, que ce soit un virus, une bactérie ou une cellule eucaryote. Cet ADN n existe pas sous une forme libre. Il est organisé à l aide de protéines basiques dans une forme condensée compacte, occupant un volume cellulaire limité. De plus, cette organisation compacte doit pouvoir accomoder les transitions entre les formes actives et inactives de l ADN. Nous avons vu précédemment les quantités d ADN par génome haploïde de certains organismes (la valeur C). Si nous déroulons entièrement l ADN contenu dans un organisme et que nous faisons un saut entre le nombre de paires de base et la longueur, nous obtiendrions pour l humain les valeurs approximatives ci-dessous. Comme il y a 10 13 cellules dans un organisme humain et qu il y a 1.8 m d ADN par cellule, la longueur totale de l ADN d un humain est d environ 1.8 x 10 13 m. Soit 120 fois la distance terre-soleil qui est de 1.5 x 10 11 m! Compartiment forme dimension type d AN longueur totale TMV filament 0.008 x 0.3 µm ssarn 2 µm = 6.4 kb Adenovirus icosahèdre 0.07 µm dia dsadn 11 µm = 35 kb Phage T4 icosahèdre 0.065 x 0.1 µm ssadn 55 µm = 170 kb E. coli cylindre 1.7 x 0.65 µm dsadn 1.3 mm = 4.2x10 3 kb mitochondrie oblongue 3.0 x 0.5 µm dsadn, 50 µm = 16 kb (humaine) 10 copies identiques noyau (humain) sphère 6 µm dia dsadn 1.8 m = 6 x 10 6 kb 46 chromosomes ss = single stranded, simple brin; ds = double stranded, double brin an = acide nucléique Adapté de la figure 18.1 GVII. Chez les virus et les phages Il y a deux solutions générales. 1) La coque protéique (la capside) est assemblée autour de l acide nucléique, condensant le matériel génétique par des interactions protéines-an durant le processus d assemblage. Ex. TMV ssarn, fig. 18.2 GVII. MCB fig. 6.11. 2) La capside est construite comme une coquille vide, à laquelle s intègre l AN, se condensant au fur et à mesure qu il y pénètre. Ex. phages T4 et lambda (λ). Fig. 18.3 GVII. 9 Atterrissage du module T4 sur une bactérie E. coli: The lambda has landed! Fig. 6.15 MCB

Chez les procaryotes Quoique l ADN bactérien (génome circulaire) ne présente pas une superstructure de type chromosome eucaryotique, il n en demeure pas moins qu il est fortement structuré. Le génome bactérien est visible comme un amas, ou une série d amas, qui occupe 1/3 du volume de la cellule (Fig. 9.28 MCB). C est ce qu on appelle le nucléoïde. Sans l interaction avec des protéines basiques et des polyamines (spermine et spermidine), la répulsion électrostatique de l ADN due à sa charge négative empêcherait toute forme de compactage. Plusieurs petites protéines se lient à l ADN, permettant son compactage. La plus abondante est la protéine H-NS ou H1 (15.6 kda). Elle interagit comme dimère, et l on en retrouve 20,000 par cellule, suffisamment pour avoir 1 dimère/400 pb. À un niveau d organisation supérieur, le génome bactérien est regroupé en boucles, reliées à leur base par un mécanisme inconnu. Chaque boucle (loop) contient 40 kb d ADN (soit 13 µm d ADN). Fig. 18.5-18.6 GVII. Chez les eucaryotes L ADN eucaryotique s associe à des protéines basiques fortement conservées, les histones, pour former la chromatine. La chromatine est composée d une masse égale d ADN et de protéines (chez les bactéries 80% ADN : 20% protéines). La structure de la chromatine est fortement similaire chez tous les eucaryotes. Il y a 5 types majeurs d histones: H1, H2A, H2B, H3 et H4. La séquence en aa des histones est fortement conservée entre divers eucaryotes, même phylogénétiquement éloignés. Ainsi, la séquence de H3 de l oursin, ne diffère que d un 1 aa lorsque comparé avec la séquence de l histone H3 de veau. Cette dernière à son tour ne diffère que de 4 aa de l histone H3 du petit pois! Chez les oiseaux, H5 remplace H1 dans les érythrocytes. Lorqu isolée dans un tampon à faible force ionique, la chromatine ressemble à un chapelet (Fig. 9.29 MCB). Les billes sont les nucléosomes (10 nm) et la chaîne, de l ADN intercalaire. C est la forme étendue de la chromatine. Lorsqu isolée avec un tampon à force ionique physiologique (0.15 M KCl) la chromatine apparaît plutôt comme une fibre condensée de 30 nm de diamètre. Le nucléosome est considéré comme étant la sous-unité de la chromatine. Voir aussi Fig. 9.35 MCB. Fig. 9.31 MCB Structure des nucléosomes Les nucléosomes peuvent être isolés par digestion douce avec des DNases (désoxyribonucléases, enzymes coupant l ADN), car l ADN intercalé entre les billes du chapelet est beaucoup plus susceptible d être clivé, car plus exposé (moins bien protégé). Après digestion de tout l ADN intercalaire, il reste en moyenne 146 pb d ADN par nucléosome. L ADN du nucléosome, plus celui de l ADN intercalaire (ou inter-nucléosome), est 160 à 200 pb. Le nucléosome est formé d un noyau protéique (core) autour duquel est enroulé l ADN. Ce noyau protéique est en fait composé d histones et, par nucléosome, on retrouve un octamère d histones. 10

11 L octamère contient 2 copies des histones H2A, H2B, H3 et H4. Le brin d ADN s enroule 2 fois autour de chaque nucléosome. Assemblage des nucléosomes L ADN nouvellement répliqué s associera rapidement avec les octamères d histones préformés, ainsi qu à des protéines nucléaires non-histones. Les histones H2A et H2B forment un tétramère, auquel s associe une autre protéine, la nucléoplasmine. Les histones H3 et H4 forment l autre tétramère, auquel s associe une protéine appelée N1. Si, à cet octamère purifié, on ajoute l ADN, il y aura formation d un nucléosome et largage de la nucléoplasmine et de la protéine N1 (deux protéines acides). Dans sa structure condensée, la chromatine apparaît comme une fibre de 30 nm. C est une structure spiralée ayant 6 nucléosomes par tour d hélice. Une cinquième histone (H1) vient se joindre à cette structure, se liant à la face interne du solénoïde. L unité composée d un nucléosome et d une histone H1 est appelée chromatosome. ADN nouvellement synthétisé (H3 2 + H4 2 ) (H2A 2 + H2B 2 ) Ν1 nucléoplasmine Nucléosomes Fig. 19.21 GVII. Sur cette vue en surface de l octamère d histone, on ne voit qu un dimère H2A-H2B, le second étant situé en dessous. La chromatine est ensuite organisée en de plus complexes unités, longues de millions de pb, les chormosomes. Morphologie et caractéristiques fonctionnelles des chromosomes eucaryotiques Dans les cellules quiescentes (qui ne sont pas en division), les chromosomes ne sont pas visibles. Durant la mitose et la méiose, l ADN se condense et les chromosomes deviennent visibles (pour ceux qui ont le MCB voir le vidéo dans le CD-ROM sur la mitose). La condensation des chromosomes à la méthaphase résulte probablement de l organisation superhélicoïdale, sur plusieurs degrés de magnitude, de la fibre de chromatine de 30 nm. Les chromosomes à la métaphase sont constitués de deux chromatides sœurs, attachées au niveau de leur centromère. Le nombre, la taille et la forme des chromosomes à la métaphase constituent le caryotype, qui est caractéristique de chaque espèce. Des espèces très rapprochées peuvent avoir des caryotypes très différents, ce qui implique qu un potentiel génétique similaire peut être organisé très différemment sur les chromosomes (fig.

9.33 MCB). Chaque chromosome est constitué d une seule molécule d ADN, d un seul long polymère. Chez les organismes simples, comme la levure, les chromosomes sont suffisamment petits (de 0,2 à 2,2 x 10 6 pb) pour être séparés par électrophorèse en champs pulsés sur gel d agarose. Chez l humain, les chromosomes sont trop longs, le plus long étant d environ 10 cm une fois déroulé (ce qui correspond à 2-3 x 10 8 pb). Charpente (scaffold) de l ADN eucaryotique Quoique les histones soient les protéines majeures des chromosomes, il existe d autres protéines non-histones importantes à la structure des chromosomes. Si l on enlève les histones, on retrouve l ADN sous forme de boucle de 10 kb à 90 kb, lié à une charpente de protéines (chromosome scaffold). Fig. 9.34, 9.35 MCB. Une des protéines de la charpente chromosomique est l ADN topoisomérase II. Cette enzyme, que nous verrons dans le chapitre sur la réplication de l ADN, est capable de: 1) couper l ADN double brin 2) démêler et 3) ressouder (ligaser) les brins coupés. Les sites de liaison de l ADN topo II sont espacés d environ 30 à 90 kb et sont appelés SAR, pour scaffold-associated regions (fig. 16.9 GA). Ces SAR se trouvent généralement entre les unités transcriptionnelles, et non à l intérieur de celles-ci. On retrouve donc les SAR dans des régions non-transcrites et ceux-ci seraient importants pour faciliter la réplication et la transcription. Lorsque l ADN de la chromatine est transcrit par l ARN polymérase, il serait désenroulé entre deux domaines SAR et serait sous sa forme de fibre à 10 nm. D autres protéines se trouvent aussi associées à la charpente, dont les facteurs transcriptionnels et, en plus grande quantité, des protéines dites, à forte mobilité électrophorétique (HMG pour high mobility group). Hétérochromatine et euchromatine Lorsque la cellule sort de la mitose et que les chromosomes condensés se relâchent, certaines régions demeurent foncées lorsque colorées. Ces régions plus sombres forment l hétérochromatine, une région de chromatine condensée. L hétérochromatine apparaît surtout au niveau du centromère et des télomères. Les régions de coloration plus pâle forment l euchromatine. Parce que les régions d étérochromatine demeurent condensées en tout temps, on a longtemps cru qu elles correspondaient à des régions inactives. Ces régions contiennent majoritairement de l ADN hautement répété qui n est jamais (ou presque) transcrit. Généralement, la chromatine de l ADN qui n est pas activement transcrite est sous forme condensée (fibre à 30 nm) et correspond à l hétérochromatine, alors que celle dont l ADN est activement transcrit est sous forme de fibre étendue (fibre à 10 nm), peu condensée, l euchromatine. Fig. 9.38a MCB. 12 Centromère, télomère et origine de réplication De façon à se répliquer et à se ségréger correctement, un chromosome doit posséder 3 éléments: 1) des séquences spéciales impliquées dans l initiation de la réplication 2) un centromère et 3) des extrémités particulières: les télomères. Le Fig. 16.16 GA

13 centromère est la région où les chromatides sœurs sont attachées et d où les fibres du kinétochore s étendent vers les fuseaux mitotiques (fig. 16.16 GA). La comparaison des séquences centromériques chez les chromosomes de levure a permis de déterminer certaines régions conservées et regroupées en trois domaines (fig. 9.41 MCB). Ces régions sont des sites de liaisons pour certaines protéines spécifiques, qui permettent l attachement du chromosome au microtubule du fuseau mitiotique. Les télomères sont des régions spéciales aux extrémités des chromosomes. Ces régions sont constituées de courtes séquences répétées d ADN, pouvant varier d une espèce à l autre. Une enzyme, la télomérase est responsable de l ajout de ces séquences répétées et permet ainsi le maintien de la longueur des chromosomes (fig. 12.13 MCB). Vous rappelez-vous pourquoi, lors de la réplication des chromosomes eucaryotiques, il y a raccourcissement de la longueur des chromosomes? Le problème de la réplication des chromosomes linéaires provient de l'incapacité de répliquer complètement le brin retardé. À chaque cycle de réplication, le brin retardé serait de plus en plus petit, sans l action de la télomérase. Quelles seraient les conséquences possibles de l'absence ou de l'expression perpétuelle de l'activité télomérase pour une cellule? Les génomes extranucléaires: chloroplastes et mitochondries GA-22; GV1-24; BMC-19. Vous avez vu dans votre cours de génétique que tout croisement et son réciproque suivent une ségrégation mendélienne, sauf pour les hétérochromosomes (chromosomes sexuels). Un des premiers exemples convaincants de la présence d hérédité extranucléaire nous vient de l observation de la ségrégation du phénotype de la panachure (variegation) sur les feuilles de Mirabilis jalapa, la belle-de-nuit (four o clock plant). Cette plante présente de nombreuses feuilles tachetées, avec des zones blanches. Certaines branches, par contre, ne portent que des feuilles blanches ou que des feuilles vertes. Toutes deux peuvent porter des fleurs. Carl Correns observa en 1909 que les croisements réciproques ❹ x ➁ et ➁ x ❹ n étaient pas équivalents. Les résultats de ces croisements sont présentés dans le tableau suivant.

14 Phénotype de la branche Phénotype de la branche Phénotype F1 Portant le parent ➁ portant le parent ❹ Blanc Vert Blanc Blanc Blanc Blanc Blanc Panaché Blanc Vert Blanc Vert Vert Vert Vert Vert Panaché Vert Panaché Blanc P, V, ou B Panaché Vert P, V, ou B Panaché Panaché P, V, ou B Peut-on expliquer cette ségrégation par la présence d hétérochromosomes? Sinon, comment expliquer que le phénotype du parent maternel est seul responsable du phénotype de la progéniture? L apport du phénotype paternel à la descendance semble nul! Ce phénomème porte le nom d hérédité maternelle. La coloration de la feuille est due à la présence de chloroplastes verts ou décolorés (fig. 22.3 GA). La ségrégation obtenue peut s expliquer si 1) le chloroplaste est porteur d une certaine information génétique, donc s il a une autonomie génétique 2) si la contribution des chloroplastes dans le zygote est uniquement maternelle. Cette dernière condition est fort raisonnable, puisqu on sait que dans le zygote la majeure partie du cytoplasme provient de l ovule. Des exemples similaires, démontrant la présence d hérédité cytoplasmique, ont aussi été mis en évidence, entre autres chez la levure pour les mitochondries. L endosymbiose Le génome des organites, mitochondries et chloroplastes est circulaire pour la très vaste majorité des organismes, tout comme les génomes bactériens de qui ils proviennent. Tôt dans l évolution des eucaryotes, un protiste anaérobique aurait ingérer une bactérie capable de phosphorylation oxydative. Cet endosymbionte serait devenu, au fil du temps, la mitochondrie actuelle. L organisme symbiotique résultant serait à l origine de la vaste majorité, sinon de tous les eucaryotes actuels. Les chloroplastes proviendraient de l endosymbiose d une cyanobactérie ancestrale, capable de photosynthèse, par une cellule eucaryote possédant déjà des mitochondries. Les évidences actuelles suggèrent que tous les chloroplastes dérivent d un évènement unique d endosymbiose et qu il en serait de même pour les mitochondries. Au cours de l évolution, la majorité des gènes du symbionte d origine (celui qui a donné naissance à la mitochondrie ou au chloroplaste) ont été relocalisés au noyau de l hôte. Le génome de l organite a donc progressivement diminué et ne représente plus qu une fraction du génome du symbionte original. Moins connu est le phénomène des endosymbioses secondaires, où un eucaryote capture entièrement un autre eucaryote (et non une bactérie) et conserve de façon permanente des parties de cette proie sous la forme d un endosymbionte. Plusieurs eucaryotes auraient acquis ainsi leurs chloroplastes via une endosymbiose secondaire (fig. 22.12 ADNR). Le génome des mitochondries et des chloroplastes contient tous les ARNr et ARNt, de même que certaines protéines impliquées dans le fonctionnement de l organite. Les autres protéines

15 nécessaires au fonctionnement de l organite sont codées par le génome nucléaire, synthétisées dans le cytoplasme et importées dans l organite. Certaines protéines multimériques auront des sous-unités codées dans les deux compartiments, noyau et chloroplaste, ou noyau et mitochondrie. La participation des génomes pourra de plus être différente entre espèces, ce qui implique le mouvement de ces gènes d un compartiment vers un autre durant l évolution. L exemple cicontre représente celui de l origine des différentes protéines composant les deux sous-unités de l ATPase mitochondriale ou chloroplastique. L ADN séquestré dans les chloroplastes et les mitochondries est soumis à des formes d expression et de régulation différentes que celles rencontrées dans le noyau. En cela, il réflète son origine indépendante. Les conditions dans l organite étant différentes, l ADN des organites évolue à un rythme différent de l ADN nucléaire. Comme l organite ne possède généralement qu un type de chromosome (un ADN circulaire en plusieurs copies) provenant d un seul parent (hérédité maternelle), il n y a pas de recombinaison possible entre l ADN des deux parents chez les organites. Les enzymes nécessaires à la réplication et à la réparation de l ADN des organites sont différentes de celles présentent dans le noyau. Donc, la fidélité (taux d erreurs) de la réplication et de la réparation pourra être différente. Les génomes de quelques chloroplastes et mitochondries ont été entièrement séquencés. Pour les chloroplastes, la taille du génome varie de 120 kb à 200 kb. Il y a plusieurs copies du génome par organite (20 à 40 chez les plantes supérieures) et il y a plusieurs organites par cellule (20 à 40). Le génome chloroplastique de l hépatique (liverworth) Marchantia polymorpha (121 024 pb) code pour 120 gènes dont 60 sont impliqués dans la transcription et la traduction, incluant 4 gènes d ARNr, 37 ARNt et 19 protéines ribosomales. L ADN chloroplastique code aussi pour les 4 sousunités de l ARN polymérase. Ces sous-unités sont homologues à celles retrouvées chez E. coli. Fig. 22.23 GA.

L organisation du génome chloroplastique est particulière. On y retrouve 2 éléments répétés inversés (IR A et IR B ), codant pour les 4 ARNr du chloroplaste (4.5S, 5S, 16S et 23S) ainsi que quelques ARNt. La présence de ces régions répétées inversées homologues permet la recombinaison et la production de deux sous-génomes de tailles différentes (LSC et SSC sur votre figure) qui coexistent avec le génome chloroplastique complet. Chez les mitochondries, la taille du génome est très variable selon les espèces. Chez la levure (S. cerevisiae), la taille moyenne est 84 kb. Il y a 22 mitochondries/levure (1 à 45), chacune ayant 10 à 30 nucléoïdes par mitochondries et 4 à 5 génomes/nucléoïde. Chez les plantes, la taille minimale est 100 kb et l on retrouve fréquemment des génomes mitochondriaux variant entre 200 et 2500 kb! Chez l humain, la souris, la vache et le poulet, l ADNmt (mitochondrial) est 16.5 kb, donc très compact. Il code entre autres pour 2 ARNr, 22 ARNt et 13 cadres de lecture (ORF en anglais pour open reading frame), Il n y a aucun intron et très peu de séquences intergéniques. En fait, pas plus de 87 des 16 569 pb de l ADNmt humain sont intergéniques ou intercistroniques, une situation très différente de celle retrouvée dans l ADN nucléaire. L ARN polymérase responsable de la transcription de ces gènes doit être importé du noyau. Pour chacune des organelles, les aminoacyl-arnt-synthétases doivent être importées du noyau. Ces dernières sont différentes de celles utilisées par la machinerie de synthèse des protéines cytoplasmiques. Il est aussi à remarquer que seules les protéines sont importées dans les organites. Il n y a pas de transfert d ARN. Les ARN transcrits dans l organite ne sont traduits que dans ce compartiment. Il en va de même pour ceux transcrits dans le noyau, qui sont traduits dans le cytoplasme. Le génome de l organite, quoique unique en soit, peut être considéré au niveau cellulaire comme faisant partie de la fraction répétitive de l ADN. En quantité absolue, il représente, par cellule, plusieurs copies de chacun des gènes pour lesquels il code. On remarquera aussi que les polypeptides codés par les organites remplissent des fonctions axées sur la production d énergie cellulaire. Chez les procaryotes, il existe aussi une information génétique portée ailleurs que sur le chromosome bactérien. Ce sont les plasmides, généralement de petits ADN circulaires que l on retrouve en de multiples copies dans la cellule. Ils contiennent une origine de réplication et se répliquent de façon autonome. Il existe aussi des plasmides chez certains eukaryotes dont la levure. La vaste majorité des plasmides eucaryotiques se trouvent dans les mitochondries et certains sont linéaires. 16 Fig. 7.1 MCB.