Deug SV 2 ème année GENETIQUE

Deug SV 2 ème année GENETIQUE Année 2003-2004 1

SOMMAIRE INTRODUCTION INTRODUCTION A LA GENETIQUE I. La génétique est une discipline scientifique. 9 1. Au niveau moléculaire. 9 2. Les autres niveaux. 9 3. Les méthodologies utilisées. 10 II. Génétique et activité humaine. 10 1. La production. 10 2. La médecine. 11 3. Les modèles animaux. 11 GENOMES ET CHROMOSOMES I. Qu est-ce qu un génome? 12 1. Définition 1. 12 2. Définition 2. 12 II. Les différents génomes. 12 1. Les génomes nucléaires eucaryotes. 12 2. Les génomes procaryotes. 16 3. Les génomes viraux. 16 4. Les génomes des organites ( chez les eucaryotes ). 17 5. Les génomes plasmidiques ( chez les procaryotes ). 17 III. Taille du génome et nombre de gènes. 18 1. La complexité de l organismes. 18 2. Le nombre de gènes : parties codantes et non codantes. 18 2

MECANISMES MOLECULAIRES LA REPLICATION I. La structure de l ADN suggère le mécanisme de la réplication. 21 II. Polymérisation de l ADN. 21 1. Les enzymes de la réplication. 21 2. Mécanisme moléculaire. 22 III. La réplication chez les procaryotes. 24 1. Les ADN polymérases. 24 2. L origine de réplication. 25 3. La progression de la «machinerie de réplication». 27 4. La réplication est bidirectionnelle. 30 IV. La réplication chez les eucaryotes. 31 1. Plus d ADN polymérases. 31 2. Des origines de réplication multiples. 32 3. Des connections au cycle cellulaire. 33 LA TRANSCRIPTION ET LES MODIFICATIONS POST-TRANSCRIPTIONNELLES I. Les caractéristiques générales de la transcription. 36 1. Un mécanisme spécifique et enzymatique. 36 2. La synthèse est orientée. 36 3. Notion de promoteur. 37 3

II. La transcription des gènes codant pour des protéines. 38 1. Chez les procaryotes. 38 2. Chez les eucaryotes. 43 3. L épissage ou «splicing». 50 III. Transcription des ARNr et des ARNt. 55 1. Transcription des ARNr. 55 2. Transcription des ARNt. 57 IV. Conclusion. 57 1. Eucaryotes contre procaryotes. 57 2. Conséquences des mutations. 57 3. L unité de transcription. 58 4. Les différences de fonctionnement du gène eucaryote. 59 LA TRADUCTION I. Le code génétique. 61 1. Un code à 3 lettres. 61 2. Les caractéristiques du code génétique. 63 II. Les acteurs moléculaire de la traduction. 64 1. Les ribosomes. 64 2. Les ARN de transfert, ou ARNt. 66 3. La synthèse des différents partenaires moléculaires. 67 III. Le mécanisme moléculaire de la traduction. 68 1. La reconnaissance ARNt et acide aminé. 68 2. La reconnaissance ARNt-ARNm : codon et anti codon. 69 3. Le déroulement de la traduction au niveau du ribosome. 72 IV. Conclusions. 78 1. Les ARNm eucaryotes. 78 2. Conventions de représentation. 79 3. Programmes de séquençage et recherche des ORFs. 80 4

EXPRESSION DES GENES LE CONTROLE DE L EXPRESSION DES GENES I. Définition. 83 II. Le contrôle transcriptionnel. 84 1. Mise en évidence d un contrôle. 84 2. Régulation chez les procaryotes : l opéron lactose. 87 3. Régulation chez les eucaryotes. 92 4. Autres voies de régulations. 97 5. Un point sur certaines notions. 102 III. Les autres niveaux du contrôle de l expression des gènes. 103 1. L ARN messager. 103 2. Comment reconnaît-on un promoteur? 103 MUTATIONS ET PHENOTYPES I. Les mutations. 104 1. Définition. 104 2. Mécanismes moléculaires. 104 3. Les lésions et les mutations. 105 II. Les mutations ponctuelles. 106 1. Les substitutions. 106 2. Autres mutations. 106 5

III. Conséquences des mutations. 107 1. Au niveau de l expression des gènes. 107 2. Au niveau de la fonction protéique. 108 3. Au niveau de l individu. 109 4. Relation entre mutation et phénotype. 109 IV. Polymorphisme. 109 1. Polymorphisme morphologique. 109 2. Polymorphisme protéique. 110 3. Polymorphisme des acides nucléiques. 110 V. Techniques d analyse. 111 1. Le RFLP. 111 2. Exemple. 111 3. Conclusion. 112 TECHNIQUES CLONAGE ET VECTEUR DE CLONAGE I. Principe. 114 1. L ADN recombinant. 114 2. Exemple avec l utilisation d un vecteur plasmidique. 115 II. La technique du clonage. 115 1. Comment obtenir l ADN de l organisme donneur? 115 2. Les fragments d ADN utilisés. 117 3. Comment l ADN d intérêt et le vecteur sont-ils liés? 120 6

III. Les vecteurs de clonage. 120 1. Insertion d un fragment d ADN dans le vecteur. 120 2. Quels sont les vecteurs de clonage? 122 3. Les cellules hôtes. 124 4. La détection des clones intéressants. 126 IV. Les intérêts du clonage : exemple de l insuline. 127 LES BANQUES D ADN I. Comment sélectionner le fragment d ADN voulu? 128 II. Les différentes banques. 128 1. Les banques d ADN génomiques. 128 2. Les banques d ADN complémentaires. 129 III. Une technique de sélection de clones : la PCR. 131 1. Interêt. 131 2. L amplification de séquences d ADN. 131 IV. La détection des acides nucléiques. 133 1. Interêt. 133 2. La dénaturation et la renaturation. 134 3. L hybridation des acides nucléiques et leur détection. 135 4. Tm de l ADN. 135 7

Introduction 8

INTRODUCTION A LA GENETIQUE La génétique est l étude des gènes, c est la science de l hérédité et de la variation chez les êtres vivants. Le gène est un concept : c est l unité fonctionnelle de l ADN chromosomique. La notion de concept dépend du contexte. I. La génétique est une discipline scientifique. On trouve la génétique à différents niveaux, suivant le degré de complexité. 1. Au niveau moléculaire. On étudie l ADN et ses produits ( l ARN et les protéines ), ainsi que les phénomènes pour les obtenir ( la transcription, la réplication et la traduction ). Cet ensemble est un flux d informations polarisé. On étudie aussi tous les niveaux de contrôle du flux : ce sont les interactions entre les protéines et les acides nucléiques, ou encore entre la machinerie cellulaire et les acides nucléiques. 2. Les autres niveaux. Au niveau cellulaire : on étudie l activité des réseaux de gènes, la localisation de leur produits et les interactions entre les différents produits. Au niveau de l organisme : on étudie le contrôle du développement par les gènes ( la mise en place des feuillets embryonnaires, les différentes morphogenèses ). On voit aussi les conséquences des dysfonctionnements génétiques sur la santé. Au niveau des populations : on étudie les fréquences de distributions des allèles, pour essayer d établir l histoire évolutive des espèces. 9

3. Les méthodologies utilisées. On utilise différentes méthodologies : la biochimie, la biologie moléculaire, la biologie cellulaire, la physiologie, les statistiques, les probabilités, la modélisation, la bioinformatique, la génomiques, II. Génétique et activité humaine. La société moderne est dépendante de la génétique : tant au niveau de la production que de la médecine. 1. La production. a : Génétique classique. L application classique est le croisement et la sélection d organismes sur plusieurs générations. On aboutit à la création de sources animales et végétales présentant certaines particularités, comme la résistance à des bactéries ou des champignons qui produisent de la pénicilline. b : La transgenèse. Actuellement nous entrons dans l ère de la transgenèse : on sait manipuler les gènes pour créer de nouvelles souches. Par exemple pour l insuline et l hormone de croissance : on les produit par des souches bactériennes, qui contiennent des gènes humains. Avant cette technique, l insuline était d origine bovine ou porcine. Pour l hormone de croissance, on utilisait des extraits d hypophyse humaine tirés de cadavres. La transgenèse commence maintenant à s appliquer aux animaux et végétaux. Pour la production, on utilise aussi la génétique moléculaire et les biotechnologies. 10

2. La médecine. La génétique est essentielle en médecine. Des aberrations chromosomiques engendrent des syndromes spécifiques. Des formes, les allèles, anormales de certains gènes sont responsables de prédispositions à certains cancers : l environnement est alors un facteur très influant. Il existe 23 chromosomes humains, ici représentés avec les positions des gènes, dont les formes anormales sont responsables des maladies héréditaires les plus connues. Bien que le gène soit connu, d autres mécanismes sont responsables du déclenchement des maladies. Si on comprend la maladie, on veut maintenant essayer de la traiter, notamment avec les thérapies géniques. 3. Les modèles animaux. On ne fait pas de génétique expérimentale chez l homme, mais par contre on utilise des modèles animaux : la souris, la drosophile ou encore le nématode. La drosophile est utilisée dans la recherche pour des maladies cardiaques, la maladie de Huntington ou encore la maladie de Parkinson. Le nématode est entre autres utilisé pour étudier les mécanismes du vieillisement. 11

GENOMES ET CHROMOSOMES I. Qu est-ce qu un génome? 1. Définition 1. C est l ensemble des gènes présents dans un virus, un organite, un organisme cellulaire mais aussi dans les cellules d un organisme pluricellulaire, qui programment et commandent sa structure, son fonctionnement et son développement. 2. Définition 2. C est l ensemble du matériel génétique contenu dans un jeu de chromosomes. II. Les différents génomes. 1. Les génomes nucléaires eucaryotes. a : Ploïdie. Les organismes diploïdes ( 2n ) possèdent 2 jeux de chromosomes nucléaires. Ce sont les animaux et les plantes en général. Les organismes haploïdes ( n ) possèdent 1 jeu de chromosomes nucléaires. La ploïdie est le nombre de jeux de chromosomes. Certaines plantes utilisées dans notre alimentation possèdent 3-4 jeux de chromosomes, voir plus. La plupart des eucaryotes sont haploïdes ou diploïdes. La plus longue phase de vie autonome est différentes suivant la ploïdie : - pour les diploïdes : c est la partie de l organisme issue du zygote. - pour les haploïdes : c est l organisme issu de la méiose. 12

b : Classement des chromosomes. Les chromosomes sont variables en nombres, en tailles et en formes : ces variations ne sont visibles qu en cours de métaphase. Ils ont alors un degré de compaction particulier. Lorsque le nombre de chromosomes diminue, l analyse génomique est simplifiée. Chez l homme nous avons 7 groupes de tailles : la taille des grands chromosomes est égale à 4 fois celle des petits. 13

Chaque chromosome est ensuite caractérisé, au sein de chaque groupe de taille, par la position de son centromère ( c est la région où les fibres des fuseaux s attachent : il correspond à un étranglement ). Les centrosomes ont une position fixe pour chaque chromosome. Des colorations font apparaître des bandes, dûes aux chromatines différentes. Les chromosomes acrocentriques : le centromère se trouve décentré vers une extrémité du chromosome. Les chromosomes métacentriques : le centromère se trouve au milieu du chromosome. Les chromosomes télocentriques : le centromère est tout à fait à une extrémité du chromosome. L état du chromosome change au cours du cycle cellulaire : on ne peut pas le voir lorsqu il est désorganisé, peu condensé. 14

c : Coloration des chromosomes. Actuellement, on peut colorer les chromosomes avec des couleurs fluorescentes. Lorsque la cellule n est pas en train de se diviser, on trouve le génome sous la forme d un noyau interphasique : tout l espace du noyau semble occupé par des chromosomes diffus. Mais chaque chromosome semble occuper un territoire spécifique, de façon dynamique. Dans une cellule métaphasique, on voit bien les chromosomes condensés. l appariement des chromosomes homologues se fait uniquement pendant la méiose. d : Représentations en métaphase. Il existe différentes représentations des chromosomes nucléaires eucaryotes, qui font apparaître certains caractères : la double hélice de l ADN, la forme en métaphase, le degré de compaction des chromosomes. Mais ce ne sont pas des cellules interphasiques. 15

e : Les allèles. Deux chromosomes homologues portent les mêmes gènes dans des positions relatives identiques : la position est appelée locus. Un même gène peut avoir des variations différentes : les allèles. Il existe différentes écritures pour les allèles d un gène : A α et A β : c est le gène A avec l allèle α ou β. B et b : l allèle b est récessif et l allèle B est dominant. C - et C + : le gène C avec l allèle «-» récessif et l allèle «+» dominant + et - : utilisé lorsqu on ne parle que d un seul gène. Le «+» renvoie à l allèle sauvage et le à l allèle mutant. Une mutation est une version différente du gène, c est un allèle. 2. Les génomes procaryotes. Les procaryotes n ont pas de noyau. Il n y a généralement qu un seul chromosome en boucle fermée. les gènes sont très proches les uns des autres. Il existe alors de opérons. Dans chaque cellule bactérienne, il peut y avoir une, ou plusieurs, copies de l unique chromosome. Il peut y avoir association à des protéines, mais pas à des histones. Le degré de compaction est plus faible. 3. Les génomes viraux. Les virus sont des particules non vivantes, qui ne peuvent se reproduire qu en utilisant la machinerie cellulaire de l hôte. Ils sont constitués d ADN et de protéines. 16

L ADN peut être : simple ou double brin, sous forme d être : simple ou double brin, sous forme d ARN, circulaire ou linéaire. Quelques fois il peut y avoir plusieurs copies du génome. 4. Les génomes des organites ( chez les eucaryotes ). Le génome des mitochondries ou des chloroplastes sont de l ADN double brin, circulaire et en général multicopies. Il y a plusieurs centaines de copies du génome mitochondriale dans chaque cellule. Normalement il n y a pas de redondance entre les génomes des organites et le génome nucléaire : les deux sont différents. Le génome mitochondrial n est pas autonome pour les fonctions de la mitochondrie. Mais en général, les gènes mitochondriaux sont nécessaires à la vie de l organite, sauf chez les levures. 5. Les génomes plasmidiques ( chez les procaryotes ). Les plasmides se trouvent quelques fois dans les bactéries. Ce sont de petits éléments d ADN, strictement nécessaires au fonctionnement de base de la cellule. Ces éléments ne survivent pas au dehors de bactéries. Certains peuvent être complexes et porter de nombreux gènes, d où le nom de génome plasmidique. Ils permettent la sécrétion des toxines et peuvent être responsables de la résistance aux antibiotiques. On trouve ces plasmides chez certaines plantes et champignons, mais leur rôle n est alors pas bien défini. 17

III. Taille du génome et nombre de gènes. 1. La complexité de l organismes. La taille du génome augmente avec la complexité de l organisme. Mais il peut y avoir des variations importantes au sein d un même groupe. La taille du génome est exprimée en kilobases. En dessous de 300 bases, les génomes ne sont plus autonomes. 2. Le nombre de gènes : parties codantes et non codantes. 18

Le nombre de gènes augmente avec la taille, mais il n y a pas de relation fixe de proportionnalité : il y a donc beaucoup d ADN non génique. La partie codante de l ADN est traduite en protéines grâce aux introns. Les introns possèdent des régions régulatrices, qui font partie des gènes. Mais il y a beaucoup de régions non codantes de l ADN, qui possèdent aussi des régions régulatrices. De plus, on trouve plusieurs séquences répétées. 19

Mécanismes moléculaires 20

LA REPLICATION C est le mécanisme moléculaire qui se trouve à la base de la réplication des gènes. On le trouve toujours avant une phase de division. La réplication est un mécanisme polarisé, qui donne deux cellules filles. I. La structure de l ADN suggère le mécanisme de la réplication. «It has not escaped our notice that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material» Watson & Crick, 1953. On ouvre l ADN pour pouvoir reconstituer deux brins. Chaque brin fille est constitué d un brin parental et d un brin reconstitué : la réplication est semi-conservative ( Meselson et Stahl, 1958 ). Mais dans la réalité, le mécanisme est plus compliqué. II. Polymérisation de l ADN. 1. Les enzymes de la réplication. Au moment de la réplication, nous avons des interactions entre les acides nucléiques et les protéines complexes. 21

Par exemple, des protéines sont associées durant la polymérisation : l ADN polymérase ( pour la synthèse d une chaîne ), des primases, des hélicases ( ouverture de la double hélice ), topoisomérases ( contre le surenroulement de l ADN ), des gyrases, des ligases, 2. Mécanisme moléculaire. a : Une croissance orientée. La croissance se fait toujours de l extrémité 5 vers la 3. En effet, ce n est que le groupement OH, qui est capable d attaquer le groupement phosphate : c est un mécanisme orienté. La croissance se fera uniquement à l extrémité 3. 22

b : La fourche de réplication. La fourche de réplication progresse dans un certain sens. Lorsque la croissance du brin répliqué se fait dans le même sens : le brin est appelé «brin précoce». Lorsque la croissance du brin se fait en sens inverse à la progression de la fourche : le brin est dit «brin retardé». c : Synthèse du brin retardé. Le brin retardé est synthétisé par morceaux. L ADN polymérase doit avoir une amorce d ARN pour initier la synthèse d un brin d ADN. L ARN, composé d une dizaine de bases, est synthétisé par la primase. Pour le brin précoce, il suffit d avoir une seul amorce. Par contre, pour le brin retardé, il faut obligatoirement une amorce pour chaque fragment d ADN. Les fragments sont appelés «fragments d Ogasaki». 23

La matrice d ARN est dégradée lorsqu un fragment d Ogasaki en rencontre un autre. Puis il y a intervention d une ligase, pour souder les deux brins d ADN ( c est la ligation ). Certaines polymérases ont une activité exonucléasique 5-3 : elles vont dégrader la matrice d ARN. III. La réplication chez les procaryotes. 1. Les ADN polymérases. a : Généralités. Il existe 3 ADN polymérases : - l ADN polymérase I : elle est codée par le gène PolA. C est la plus abondante. - l ADN polymérase II : elle est codée par le gène PolB. Elle est peu présente. - l ADN polymérase III : elle est constituée d une dizaine de sous-unités, et donc codée par plusieurs gènes. On en trouve entre 10 et 20 par cellule. 24

b : ADN polymérases I et III. L ADN polymérase III est majoritairement impliquée dans la réplication. Elle est très complexe : il y a seulement 3 sous-unités auxquelles on pense pouvoir attribuer une fonction : - α : la polymérisation. - ε : la correction. - τ : l assemblage des sous-unités. L ADN polymérase I est impliquée dans la réplication : c est elle qui intervient pour dégrader l amorce d ARN. Elle est surtout impliquée dans les mécanismes de réparation de l ADN. c : La correction d erreurs. Les ADN polymérases permettent l activité de correction d épreuves, ou «proof-reading». Les ADN polymérases sont capables de vérifier si l appariement des bases est correcte. Les erreurs se font environ tous les 106 nucléotides. La polymérase peut généralement corriger ces erreurs : pour cela, elle dégrade la chaîne en cours de synthèse pour supprimer l erreur. Le taux d erreurs est alors inférieur à 1 sur 109. 2. L origine de réplication. a : Les séquences en tandem. Sur le chromosome circulaire, on a pu définir l origine de réplication : là où le complexe de réplication se forme. Chez E. Coli, c est la séquence OriC : c est une séquence de 245 paires de bases. C est à ce point que la réplication est initiée. La taille des protéines par rapport à celle de l ADN est importante : l origine de réplication est couverte de protéines. Il y a 3 séquences que l on retrouve en tandem : c est le site de liaison de la protéine dnaa, qui démarre le mécanisme. 25

b : Initiation de la réplication. Lorsque la dnaa est liée à l ADN, il y a intervention d une hélicase : la dnaa recrute l activité hélicase. Cette hélicase est capable de rompre les liaisons H : elle utilise l ATP pour ouvrir la fourche de réplication. L ADN simple brin doit obligatoirement être stabilisé, à l aide de protéines affines du simple brin : les Single Stranddel Brinding, qui empêchent la réassociation de la double hélice. 26

Une primase synthétise les premières amorces d ARN pour chaque brin. La protéine dnaa quitte alors l ADN. L ensemble primase-hélicase forme le primosome : c est le complexe protéique initiateur de la réplication. L ADN polymérase III se positionne : l élongation de la molécule d ADN peut avoir lieu. Le réplisome est le complexe qui permet la réplication. Sur le brin retardé, au moment de la jonction, on recrute l ADN polymérase I, pour remplacer l ADN polymérase III. Elle dégrade l amorce d ARN pour continuer l élongation du fragment d Ogasaki en cours de synthèse. 3. La progression de la «machinerie de réplication». L ADN polymérase III doit se déplacer pour remplacer la primase : cette procession se fait par sauts. Mais ce schéma est faux car les ADN polymérases III sont associées à d autres protéines. 27

a : La topoisomérase. La topoisomérase est une enzyme capable de démêler l ADN : elle résout les problèmes de surenroulement de l ADN. Pour cela, l enzyme va couper l ADN, puis organiser une rotation des brins et enfin religuer l ADN. IL existe deux types d enzymes : le type 1 permet de couper 1 brin, le type 2 permet de couper les 2 brins. Les topoisomérases se trouvent en aval de la fourche de réplication. b : La girase. La double hélice passe au travers de la girase : la protéine forme une mâchoire, qui se referme sur l ADN lorsqu il y a trop de torsions. c : Le réplisome. Les molécules d ADN polymérase III forment obligatoirement des dimères : ce gros assemblage forme une «machinerie». Le réplisome, constitué d ADN polymérase III, de girase et d autres protéines, a la taille de la petite sous-unité du ribosome. Par contre, le réplisome ne peut pas être considéré comme une unité, car son association ne se fait que pendant la réplication. 28

Cette association permet d expliquer le fait que la synthèse des deux brins est synchronisée. Pour former le dimère, il faut que l ADN se replie : le brin retardé va former une boucle qui possède deux fonctions. Elle permet de rapprocher les molécules d ADN polymérases III et de présenter la bonne extrémité de l ADN à la protéine. Le mécanisme est probablement discontinu : il y a synthèse de 1 000 paires de bases avant la libération de la boucle, puis formation d une nouvelle boucle. Un fragment d Ogasaki est formé d environ 1 000 bases. Les 2 ADN polymérases se réassemblent en même temps que la boucle se forme. 29

La terminaison se fera toujours à un endroit précis sur le chromosome. 4. La réplication est bidirectionnelle. Le déplacement de la réplication est bidirectionnel. on trouve le processus détaillé auparavant dans deux sens opposés. Le brin retardé d un fourche devient un brin précoce dans l autre fourche. La progression de la réplication se fait dans les deux sens : il y a donc encore plus de problèmes de surenroulement. 30

IV. La réplication chez les eucaryotes. Le mécanisme est le même, mais en plus complexe. 1. Plus d ADN polymérases. a : Fonctions des différentes ADN polymérases. Tout d abord, il y a 5 ADN polymérases ( α pour l activité primase, β pour la séparation,, ε, γ pour l ADN mitochondrial ). Il faut aussi répliquer le génome mitochondrial. Les différents partenaires ne sont pas forcément conservés. L ADN polymérase α synthétise une dizaine de paires de bases d ARN, puis synthétise quelques bases d ADN. Ensuite, elle cède sa place aux ADN polylmérases et ε, qui ont une réelle activité d ADN polymérases : elles continuent l élongation de la chaîne d ADN. La jonction des fragments d Ogasaki est différente : la rencontre de l ADN croissant avec l amorce précédente provoque le recrutement d endo et d exo nucléases, qui dégradent l amorce d ARN. Pendant ce temps, les ADN polymérases continuent leur travail. Les ADN polymérases eucaryotes font aussi de la correction d épreuves, pour les types α, et γ. b : Les télomérases. Les chromosomes sont linéaires, donc il faut des mécanismes particuliers pour permettre la réplication des télomères ( ce sont les télomérases qui interviennent ). 31

2. Des origines de réplication multiples. a : Taille et logique. Le génome est plus grand : normalement on devrait trouver une seule origine par chromosome. Mais un chromosome est constitué d environ 108 paires de bases. Si la vitesse de réplication est de 2 kilobases par minute, il faudrait 830 heures pour répliquer une seul chromosome. Dans ce cas là, le développement d un embryon prendrait des années. Dans la réalité, il y a une division toutes les 24 heures. Chez la drosophile, les premières divisions embryonnaires se font à la vitesse d une division toutes les 3 minutes ( la vitesse est 6 fois plus rapide que chez E. Coli ). Mais il y a 100 fois plus d ADN chez les eucaryotes. b : Les réplicons. On trouvera donc plusieurs origines de réplication : chaque progression est bidirectionnelle. La région couverte par chaque fourche de réplication est appelée «réplicon». Il y a fusion des réplicons, lorsqu ils se rencontrent. En effet, des réplications multiples entraînent des réplicons multiples et donc plusieurs fusions. 32

Les origines de réplication n ont été identifiées que chez la levure : c est l ARS ( Autonomously Replicating Sequence ). Cette séquence n est pas retrouvée chez les eucaryotes supérieurs. On ne sait toujours pas comment sont définies les origines de réplication chez l homme. 3. Des connections au cycle cellulaire. Il existe par contre des connections au cycle cellulaire, retrouvées aussi chez les procaryotes. Il n y a qu un seul évènement de réplication par division cellulaire, il faut donc un contrôle très stricte entre la réplication et le cycle cellulaire. a : Les checkpoint. Les transitions entre G1-S et G2-M sont très importantes et contrôlées : elles sont appelées checkpoint. Il faut que la taille de la cellule soit suffisamment importante pour que la réplication puisse se faire. Il faut que la réplication et la réparation soient terminées pour pouvoir assurer la division. p34 est une protéine de kinase qui permet le contrôle du cycle cellulaire : elle phosphoryle d autre protéines avec lesquelles elle s associent pour former des cyclines. L abondance des cyclines varie avec le cycle cellulaire. 33

Il y a bien des connections entre le cycle et la réplication. On trouve les mêmes types de connections lorsqu il s agit d un cycle de méiose. b : Réplications de l ADN pour former les chromatines. Il y a différents cas de figure pour les chromosomes : - diploïde homozygote, pour un allèle donné. La réplication donne une seconde représentation de la séquence de l allèle. - diploïde hétérozygote. Les séquences obtenues sont différentes. - diploïde homozygote avec d autres allèles. L appariement des chromosomes homologues ne se fait que pendant la méiose. 34

c : Rappel sur les différences entre mitose et méiose. 35

LA TRANSCRIPTION ET LES MODIFICATIONS POST-TRANSCRIPTIONNELLES La transcription est le mécanisme qui permet de produire une séquence de bases d ARN à partir de paires de bases d ADN. C est la première étape du processus d expression d un gène : suivent la transcription et la traduction, pour un gène qui code les protéines. I. Les caractéristiques générales de la transcription. 1. Un mécanisme spécifique et enzymatique. Bien que les mécanismes de transcription soient comparables entre procaryotes et eucaryotes, il existe des différences. Par exemple, chez les eucaryotes, le processus de maturation des ARNm permet l ajout d une queue et la suppression des introns. Ce mécanisme est très contrôlé et participe au contrôle qualité des ARN eucaryotes : c est un étape entre la transcription et la traduction. C est un mécanisme enzymatique qui implique, entre autres, une ARN polymérase. Cette enzyme est constituée de plusieurs sous-unités : mais elle n est pas la seule impliquée : elle a besoin de facteurs additionnels ( ce sont d autres protéines ). On va donc retrouver la notion de machine moléculaire. 2. La synthèse est orientée. L ARN est synthétisé dans le sens 5 vers 3. En effet, seul le groupement OH est capable de former des liaisons phosphodiester, la croissance de l ARN ne peut se faire qu à l extrémité 3. Le brin d ADN qui est transcrit par la polymérase est appelé «brin matrice». L autre brin est appelé «brin complémentaire du brin matrice». 36

3. Notion de promoteur. On doit expliquer au niveau moléculaire : - Comment choisit-on l endroit où commence la transcription d un gène donné, ainsi que le brin d ADN qui doit être transcrit? - Comment se fait l élongation? - Comment se fait la terminaison? Un promoteur définit l initiation de la transcription : il doit y avoir une ouverture de la double hélice, pour que le brin d ARN se construise par complémentarité des bases. Soit, c est le brin du bas qui est le brin matrice : l élongation se fera vers la droite. Soit, c est le brin du haut : l élongation se fera vers la gauche. C est le promoteur qui va définir l ouverture et le choix du brin matrice, car la situation est dissymétrique. 37

II. La transcription des gènes codant pour des protéines. 1. Chez les procaryotes. a : L initiation de la transcription. L ARN polymérase. L ARN polymérase procaryote est composé de 4 sous-unités. Elle est associée à σ, lorsqu il faut faire une initiation : c est une holoenzyme. Le facteur σ est relargué lorsque la chaîne est constituée d une dizaine de bases. Chacune des sous-unités est codée par un gène : une mutation sur un des gènes entraîne une perte de fonction pour l ARN polymérase produite. 38

Le promoteur. Le promoteur est la région de l ADN qui signale et oriente le début de la transcription : c est là que se forme le complexe d initiation de la transcription. On ne sait toujours pas reconnaître un promoteur : il n y a pas de séquence spécifique. Par contre, on cherche à savoir les signaux que la polymérase perçoit pour reconnaître un promoteur. On numérote les bases à partir du point de départ de la transcription. On obtient deux régions qui sont conservées, situées à -35 et -10. Ce sont des séquences consensus : la fréquence la plus fréquemment trouvée à une position donnée. Dans notre cas, la distance entre -35 et -10 est à peu près constante. Alignement des séquence de 13 promoteurs forts d E. Coli : Région consensus des promoteurs. Les promoteurs sont séquences agissant en cis : le site permet le contrôle de l ADN adjacent. Mécanisme. L holoenzyme se lie en deux étapes au promoteur : - une étape lâche : la liaison est de faible intensité. C est la région -35 qui est importante. La double hélice est encore fermée : on parle de «complexe fermé». - une étape forte : la région -10 est impliquée. Il y a ouverture de la double hélice au niveau de cette région. Le complexe est dit «ouvert». 39

La région -35 à -10 est entièrement recouverte par la polymérase ( elle couvre entre 75 et 80 bases ). Quand le complexe est ouvert, le site catalytique de la polymérase se trouve exactement au bon endroit pour le départ de la transcription. Pour un gène donné, la transcription commence toujours au même endroit. b : L élongation. Suite au début de la transcription, l ARN polymérase couvre 50 bases. Puis elle change de nouveau de conformation pour ne couvrir qu une trentaine de bases. La section ouverte de la double hélice est appelée bulle de transcription. 40

C est une vision simplifiée car il faut des protéines pour faire face aux problèmes de surenroulement. L énergie provient du clivage de triphosphates, le substrat de la polymérase. La vitesse moyenne de transcription de la polymérase est de 30 à 50 nucléotides par seconde. L ARN produit est appelé transcrit primaire : il a la même séquence et la même orientation que le brin complémentaire du brin matrice. Plusieurs polymérases fonctionnent à la suite et en même temps sur un même gène. c : La terminaison. Il existe 2 types de terminaisons. Le terminateur. C est l étape de reconnaissance de l endroit à partir duquel aucune base supplémentaire ne doit être ajoutée au brin d ARN. Ce mécanisme donne naissance à l extrémité 3 de la chaîne. L ARN se détache de la matrice, tandis que l ARN polymérase se détache de l ARN et de la matrice. Mais on ne sait pas dans quel ordre cela se fait. Chez les procaryotes, il existe une séquence qui donne la terminaison : c est le «terminateur». La terminaison Rho-indépendante. Le terminateur est constitué d une quarantaine de bases : c est une région riche en GC et elle possède une série de T. Lorsque la polymérase arrive au terminateur, il y a formation d une boucle : cette boucle utilise la complémentarité des bases et marque la fin de l ARN. C est la boucle qui induit l arrêt de la transcription. 41

La terminaison Rho-dépendante. Un facteur protéique ( Rho ) va intervenir. Par contre, il n y a pas de séquence déterminée, ni de structure en boucle. De plus, ce mécanisme consomme de l énergie. Enfin, chez les procaryotes la traduction de l ARN commence avant la fin de la transcription : l interaction entre Rho et l ARN provoque l arrêt de la trancription. 42

d : Les opérons et l ARNm polycistronique. Chez les procaryotes et les archébactéries, les ARNm peuvent être polycistroniques : plusieurs gènes peuvent être transcrits à partir du même promoteur, on retrouve leur séquence sur le même messager. Un promoteur donne plusieurs gènes, que l on retrouve sur le même messager. Par contre à aucun moment la chaîne d ARN n est clivée. Un opéron est un groupe de gènes qui codent pour un ARNm polycistronique. En général, les protéines codées par un même opéron sont impliquées dans les mêmes mécanismes. Ceci permet d exprimer les gènes de la même façon et dans les mêmes quantités. La β-galacosidase permet de former du galactose et du glucose, à partir de lactose. Une perméase est nécessaire pour le transport du lactose de l extérieur vers l intérieur de la bactérie. La transacétylase n est pas indispensable pour le métabolisme du lactose. lac 1 promoteur : ADN Z Y A 1 ARNm : ARNm Z Y A 3 protéines : b-galactosidase Perméase Transacétylase 2. Chez les eucaryotes. a : Les ARN polymérases. Plusieurs ARN polymérases sont spécialisées : - l ARN polymérase I : elle est concentrée dans le noyau, au niveau du nucléole. En effet, elle est impliquée dans la transcription des ARN ribosomiques. 43

- l ARN polymérase II : elle est impliquée dans la transcription des gènes codants pour les protéines. On la trouve aussi dans la production d ARNm et de petits ARN nucléaires ( snrna ), mais de façon minoritaire. - l ARN polymérase III : elle est impliquée pour la production d ARNt. Ce sont les ARN qui chargent les aminoacides et participent à la traduction au niveau du ribosome. Il existe plusieurs ARN polymérases différentes et donc plusieurs promoteurs différents, malgré des éléments communs. L accès à l ADN. L ADN, qui se situe dans le noyau, se trouve très compacté et couplé aux histones. Il y a donc un problème d accès de grosses molécules, au niveau de la chaîne de l ADN. La polymérase est quasiment aussi grande que les nucléosomes. Il y a alors une modification des histones, pour permettre la décompaction de l ADN. 44

Des complexes protéiques greffent des groupements chimiques sur les histones, au niveau de leur extrémité N-terminale : cela permet de relâcher les interactions entre l ADN et les histones. b : Des promoteurs modulaires. Les promoteurs eucaryotes de l ARN polymérase II sont : - modulaires : ils possèdent des régions spécialisées et individualisées, avec des séquences plus ou moins conservées. - complexes et variables. Certains modules peuvent être absents : mais on y retrouve quand même la notion de consensus. On parle alors de «boîtes de conservation». On retrouve une séquence INR, ou initiateur : l enchaînement Pyridine-C-A-Pyridine. On trouve autour de la région -30, une «TATA-box» : cette séquence définit la départ de la transcription. C est la boîte dont la position est la plus constante. Vers -75, on trouve une «CAT-box» : son positionnement est plus variables, mais elle est importante pour l efficacité de la transcription. Elle influe sur la fréquence d initiation de la transcription. On trouve entre -80 et -100, une région riche en GC : sa position est très variable. Aucune de ces boîtes n est réellement indispensable, même la TATA-box peut être absente. 45

c : Les facteurs de transcription. Ce sont des facteurs protéiques, organisés en différentes catégories. Les facteurs généraux de la transcription. On les trouve au niveau de la majorité des promoteurs. Ils sont importants dans l initiation et s associent à l ARN polymérase. Ils s appellent TF II A, TF II B, TF II C, Chacun de ces facteurs est constitué de plusieurs sous-unités. Le facteur TF II D contient une protéine, la TATA Balding Protein. cette protéine permet au facteur d interagir avec la TATA-box. Mais il existe 9 autres protéines qui constituent ce facteur : cela devient très complexe. La fixation du facteur induit une courbure et une déformation de l ADN : ceci permet une fixation des autres facteurs protéiques, notamment de l ARN polymérase II. C est le modèle le plus couramment admis. 46

Durant l initiation, toute la région promotrice est couverte de protéines, qui interagissent avec l ADN. Les facteurs en amont. Ils interagissent avec les autres boîtes, on les trouve dans toutes les cellules et interviennent dans la majorité des cas. Ils interagissent aussi avec les facteurs généraux. Les facteurs spécifiques. Ce sont ceux qui, par exemple, réagissent avec les Nanswer. C est une séquence régulatrice qui se situe beaucoup plus loin, environ 100 kilobases. Il peut y avoir d autres gènes entre les deux. On peut déplacer expérimentalement un Nanswer, sans pour autant modifier son fonctionnement. On peut même le mettre en 3 pour le gène : le positionnement est peu important. Ils sont constitués de modules qui permettent les interactions avec les facteurs spécifiques. Il n y a pas de séquence consensus. Un facteur spécifique n est pas présent dans toutes les cellules. On les trouvera, par exemple, dans certains tissus. Les gènes exprimés par ce facteur ne seront présents que dans les tissus concernés. D autres facteurs ne sont exprimés qu à certains moments précis du développement. Par exemple, lorsqu il faut induire la formation de mésoderme. C est un niveau supplémentaire de complexité. On essaie de déterminer les combinatoires des protéines présentes au niveau d un Nanswer : on appelle cette combinaison un «enhansosome». Les Co-activateurs. Les protéines ne sont pas capables par elles-mêmes de lier l ADN. Elles font un lien entre les activateurs spécifiques, qui eux reconnaissent des séquences spécifiques, dans les enhanceurs, et la machinerie basale de transcription. 47

Le complexe médiateur est l ensemble des co-activateurs, c est un complexe protéique. Il y a une courbure de l ADN pour permettre le lien entre un enhanceur et un complexe médiateurs, qui sont éloignés l un de l autre. d : Les phases de maturation de l ARNm. Dès les premières bases fonctionnelles de l ARNm : on assiste à la première étape de la maturation. Il y a addition d une coiffe de 7-méthyl-guanosine, au niveau de l extrémité 5 du messager, en cours de synthèse. Cet ajout se fait par une liaison 5-5 triphosphate et d autres étapes. Aussitôt la coiffe fixée, elle est reconnue et s associe à des protéines spécifiques. Cette coiffe, une protéine CAP, confère à l ARN une stabilité, le protège de la dégradation et facilite son export. En plus de la coiffe, il y a ajout de groupement méthyl sur les premières bases de l ARN. Au cours de l exportation, les protéines liées à la coiffe sont remplacées par des facteurs d initiation de la traduction. La coiffe est donc importante pour l initiation de la traduction 48

e : La terminaison. L endonucléase. La terminaison est très différente chez les eucaryotes. La courbure, ou le changement de configuration de l ARN, permet l exposition d un site, qui sera coupé par une endonucléase. Il n y a pas de site de terminaison de la transcription. La polymérase continue la transcription. Il n y a pas d ajout de la coiffe, donc l ARN qui est produit après la terminaison de l ARNm est dégradé. Cela finit par déstabiliser la polymérase, qui se détache de la matrice. Par contre, elle a transcrit une centaine de nucléotides. La queue polya. On retrouve des séquences consensus de type AAUAAA, suivies d une région riche en G et en U. Ces séquences sont reconnues par des facteurs protéiques. Ces protéines reconnaissent les signaux. Au niveau de l extrémité 3 de l ARN, il va y avoir ajout d une queue polya par la polyapolymérase, ou PAP. Son substrat est l ATP et elle ajoute entre 50 et 200 A, selon les gènes. Cette queue sert à la stabilité, à l exportation et à l initiation de la traduction de l ARN. 49

f : Bilan des étapes de maturation de l ARN eucaryote. 3. L épissage ou «splicing». Le splicing est l excision des introns et la soudure, ou raboutage, des exons. Les introns sont découverts dans les années 80 : c est une séquence d ADN transcrite, donc présente sur le transcrit primaire, qui est ensuite éliminée, donc absente du transcrit mature. 50

La taille des introns est extrêmement stable : de plusieurs à bases à plusieurs kilobases. Ils possèdent des séquences régulatrices, par exemple les enhancer. a : nhrna et snrna. Il y a production du messager primaire avec une coiffe et des introns. L ARN nucléaire hétérogène, ou hnrna, comporte le transcrit primaire, le prémessager et l ARN non mature. Le nhrna est de taille variable. Il est différent du snrna, ou small ARN nucélaire, qui participe au splicing et à d autres fonctions. L ARN n est jamais nu, il est toujours associé à des protéines, d où snrnp et hnrnp. Les étapes moléculaires conduisent à l élimination des introns. La séquence signale consensus, au niveau de l ARN, est reconnue par des protéines et petits ARN, ou snrna. 51

L intron est encadré par deux séquences très courtes : GU en 5 et AG en 3. De plus, du côté 3, on peut trouver un séquence interne composée d un A qui prend de l importance dans certains contextes. Une coupure en 5 puis une liaison avec la base A permet l obtention d une structure en lasso. En même temps, il y a une coupure en 3, puis le soudage des introns. C est la base A qui induit la coupure de l intron en 5 : il y a une attaque nucléophile du 2 OH de l Adénosine sur la liaison exon-intron, en 5 de l intron. b : L assemblage du spliceosome. Le complexe protéine-arn est appelé spliceosome. C est au sein de ce complexe que se fait la réaction d excision et d épissage. Les petits ARN participent activement à l épissage, il y en a 6 : U1, U2, U3, U4, U5 et U6. Ces ARN sont associés à des protéines snrnp, pour petits ARN nucléaires associés à des protéines. Pour chaque ARN, il y a entre 6 et 10 protéines associées. Les ajouts successifs se font dans différents snrnp. 52

U2 ne peut intervenir que si U1 est déjà en place. 53

c : L épissage peut être alternatif. A partir d un seul organisme, l épissage alternatif permet de produire deux protéines, qui ont des fonctions différentes : - la calcitonine : cette hormone permet la régulation du niveau de calcium. - CGRP : elle est produite au niveau de l hypothalamus et impliquée dans la perception gustative. Dans les cellules qui produisent la calcitonine, la région correspondante se comporte comme un exon et CGRP comme un intron. Dans les cellules qui produisent CGRP, la région correspondante se comporte comme un exon et la calcitonine comme un intron. Le statut d intron est donc variable. A partir d un gène, on peut faire une dizaine de protéines différentes. Il y a plusieurs A, donc plusieurs possibilités de coupure par une endonucléase et l ajout d une queue polya. 54

III. Transcription des ARNr et des ARNt. 1. Transcription des ARNr. Les ARNr sont les constituants majeurs des cellules eucaryotes et procaryotes : ils représentent entre 80 et 90 % de la masse en ARN d une cellule. Ils sont essentiels pour le fonctionnement et la structure des ribosomes : ce sont donc des acteurs de la transcription. Les gènes des ARNr existent en plusieurs copies dans chaque génomes. On trouve 7 copies chez E. Coli et 1 200 chez l homme. Chez les procaryotes, les 3 ARNr sont présents sur le même transcrit primaire, lequel va subir des étapes de maturations, comme chez les procaryotes. Ils peuvent rappeler un opéron, mais ce n est pas le cas, car il est coupé. 55

Chez les eucaryotes, on retrouve la même logique, c'est-à-dire 3 ARNr présents sur le même transcrit primaire, qui est ensuite clivé en plusieurs étapes. Ceci va donner trois ARN différents : 18 S, 28 S et 5,8 S. Il existe un autre ARNr chez les eucaryotes : l ARN 5S, qui est codé ailleurs et présents en plusieurs copies. Ce sont ARN qui doivent être produits en quantités équivalentes, car ils sont assemblés de façon équivalente au niveau des ribosomes. 56

2. Transcription des ARNt. Les ARNt sont fonctionnels sans jamais être traduits, mais on en a besoin. Les gènes sont multicopies, mais ils sont dispersés dans le génome, de telle sorte qu il y a des gènes d ARNt présents dans l unité de transcription, qui code pour les ARNr. Ces ARNt subissent de nombreux évènements de maturation, notamment des modifications chimiques. Certains sont splicés, dans tous les cas il y a ajout sur leur extrémité 3 d une séquence CCA : ceci est important. IV. Conclusion. 1. Eucaryotes contre procaryotes. Il existe des différences entre les procaryotes et les eucaryotes : 2. Conséquences des mutations. Une mutation sur l une des boites entraîne une modification de l efficacité de la transcription. Un défaut pendant l initiation de la transcription peut modifier l efficacité ou l endroit de la transcription. Une mutation au niveau 5 en GT entraîne : soit l absence d épissage, soit une autre séquence GT ailleurs est utilisée pour l épissage. On parle alors de séquences cryptiques, ou cachées. La protéine obtenue sera anormale. Une mutation au niveau de AATAAA entraîne une coupure anormale ou l utilisation de site cryptique. La région 3 UTR du messager sera plus longue, car la coupure sera plus éloignée. 57

3. L unité de transcription. L unité de transcription est la distance, ou séquence, séparant les sites d initiation et de terminaison de la transcription. Chez les eucaryotes, on prend le site de terminaison, pour le lieu où la queue polya est ajoutée. Chez les procaryotes, une unité de transcription peut contenir plusieurs gènes, comme les opérons. De même chez les eucaryotes. Il n y a pas nécessairement d équivalence entre une unité de transcription et le gène. Il existe des moyens expérimentaux pour définir l unité : on compare la séquence du messager avec la séquence de l ADN. La fonction de l ADN complémentaire. L ADN complémentaire a la même séquence que l ARNm mais les T deviennent U chez le messager. Ce n est pas toujours le même brin que la polymérase choisit pour la transcription : le brin matrice est défini pour chaque gène, par son promoteur. 58

La complexité du génome : les introns situés sur le transcrit primaire sont absents sur le transcrit mature. On peut trouver un gène à l intérieur d un intron. 4. Les différences de fonctionnement du gène eucaryote. Il faut décompacter la chromatine, pour laisser la place aux complexes d initiation et de traduction, ainsi qu à l ARN polymérase II. Après la transcription, il y a ajout d un coiffe. Viennent ensuite l excision et l émissage des introns, puis l association aux protéines. Actuellement, on pense que tout se passe en même temps. Tout de suite, il y a ajout de la coiffe et épissage des introns, ainsi que la reconnaissance des protéines. Un modèle peut expliquer la synchronisation des mécanismes. Ce qui est important, c est que l extrémité C-terminale de la polymérase II, ou CTD : elle sert de signal. 59

L initiation se fait lorsque CTD est phosphorylée. Ceci permet l interaction entre CTD et les enzymes qui ajoutent la coiffe. C est grâce à la phosphorylation, que les protéines sont ajoutées. Une nouvelle phosphorylation permet la reconnaissance des protéines du splisosome. Ensuite, les protéines qui participent à la terminaison sont reconnues. C est la polymérase qui porte l information : elle permet d intégrer et de maturer l ARN. 60

LA TRADUCTION Le problème de la traduction a été étudié dès que la structure de l ADN a été élucidée, en 1966. I. Le code génétique. Comment passer d un code à 4 lettres, les bases azotées, à un autre à 20 lettres, les acides aminés? 1. Un code à 3 lettres. a : Hypothèse. Si le code est à 1 lettre : 4 bases correspondent à 4 acides aminés. Si le code est à 2 lettres : 4 bases correspondent à 16 acides aminés. Si le code est à 3 lettre : 4 bases correspondent à 64 acides aminés. Le code à 3 lettres devraient donner, en théorie, plus d acides aminés que l on n en trouve dans la nature. b : Démonstration expérimentale. Il a fallu alors passer par une phase expérimentale très complexe, pour expliquer le code génétique. Le matériel génétique utilisé est le phage T4 : c est un virus capable d infecter les bactéries, notamment E. Coli. La capacité d infection dépend d un gène du phage : le riib. Si ce gène est muté, l infection n est plus possible, car ce gène est impliqué dans la lyse des parois bactériennes. Le mutagène utilisé est la prolamine : elle s intercale entre 2 bases, ce qui provoque l ajout ou la perte d un nucléotide, de façon aléatoire. On calcule les doses pour obtenir une mutation par génome. Les mutations étant aléatoires, il faut faire une étape de sélection des évènements intéressants. 61

Dans notre cas, ces évènements sont les mutations qui ont portées sur une partie spécifique de riib, la partie qui code pour le site actif des phages. AUGACACAUAACGGCUUCGUAUGGUGUGAA Met Thr His Asn Gly Phe Val Trp Cys Glu U 1 ère mutagenèse AUGAUCACAUAACGGCUUCGUAUGGUGUGAA Met Ile Thr Stop.. A C 2 nde mutagenèse AUGAUCACUAACGGCUUCGUAUGGUGUGAA Met Ile Thr Asn Gly Phe Val Trp Cys Glu AUGAUCACAUACACGGCUUCGUAUGGUGUGAA Met Ile Thr Tyr Thr Ala Ser Tyr Gly Val A 3 ème mutagenèse AUGAUCACAUACACGGCAUUCGUAUGGUGUGAA Met Ile Thr Tyr Thr Ala Phe Val Trp Cys Glu Le premier évènement est l insertion d un T sur l ADN : un U est donc inséré sur l ARNm. Ceci provoque l apparition d un codon stop, est donc la disparition du site actif. La seconde mutagenèse peut provoquer deux évènements : - la perte d un nucléotide, dans la même région : le site actif est de nouveau traduit. On retrouve donc sa fonction. - l ajout d un nouveau nucléotide : le site actif n est toujours pas restauré. Il faudra une troisième mutagenèse, pour insérer un nouveau nucléotide et donc retrouver la séquence du site actif. Des mutations «frameshift» successives permettent de restaurer le cadre de lecture : en effet, il a fallu décaler de 3 bases pour retrouver la séquence. Ces ensembles de 3 nucélotides sont appelés codons. Expérimentalement, il y a donc 64 possibilités de codage. Nous n avons que 20 acides aminés, car plusieurs codons correspondent aux mêmes acides aminés. 62

c : La liaison peptidique. Le déchiffrement du code a nécessité des avancées technologiques et expérimentales comme : - la possibilité de synthétiser des molécules d ARN in vitro. - l utilisation d extraits cellulaires permettant la synthèse des protéines in vitro. - l utilisation d homopolymères, d hétéropolymères aléatoires, puis d hétéropolymères ordonnés ( Khorana ) a définitivement permis le déchiffrement du code génétique. On a donc établit qu il faut 3 nucléotides pour 1 acide aminé. On propose donc une reconnaissance entre les codons de l ARN et la chaîne latérale des acides aminés : mais les tailles respectives ne sont pas compatibles. Pour mettre en place une liaison peptidique, les codons sont trop grands pour les acides aminés. A l unique vue de ces données, Crick a dit qu il fallait des adaptateurs, notamment pour l ARNt : Khorana a reçu le prix Nobel pour la démonstration. 2. Les caractéristiques du code génétique. Le code est universel ou presque : il s applique à toutes les espèces. N importe quel messager d une espèce peut être traduit, in vitro, par les extraits cellulaires d une autre espèce. L exception se fait pour les mitochondries : UGA n est pas un codon stop, il code pour le tryptophane. Il existe des codons de terminaison : les codons stop. Ils ne codent pas pour un acide aminé, mais ils sont reconnus par les facteurs de terminaison. Il existe un codon d initiation, Met : il code pour un acide aminé. Le code est sans chevauchement. Il y a colinéarité entre gène et protéine. Un code à triplets ( Crick, Barnett, Brenner, ). Le code est dégénéré : plusieurs codons codent pour un seul acide aminé. 63

1 ère lettre U C A G UU U UUC UU A UUG CUU CUC CUA CUG AU U AUC AU A AUG GUU GUC GUA GUG 2 nde lettre U C A G Phe (F) Leu (L) Leu (L) Ile (I) Met (M) Val (V) UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG Ser (S) Pro (P) Thr (T) Ala (A) UA UAC U UAA UAG CAU CAC CAA CAG AA AAC U AA AAG A GAU GAC GAA GAG Tyr (T) stop stop His (H) Gln (Q) Asn (N) Lys (K) Asp (A) Glu (E) UGU UGC UGA UGG CGU CGC CGA CGG AGU AGC AGA AGG GGU GGC GGA GGG Cys (C) stop Trp (W) Arg (G) Ser (S) Arg (R) Gly (G) U C A G U C A G U C A G U C A G 3 ème lettre II. Les acteurs moléculaire de la traduction. 1. Les ribosomes Le ribosome résulte de l assemblage d une cinquantaine de protéines ainsi que des molécules d ARN. En considérant les tailles, on voit facilement deux ARNt pour un ribosome 64

Un ribosome est constitué de deux sous-unités : une grosse et une petite, chacune constituées de sous-unités de tailles différentes. Il existe des différences entre les procaryotes et les eucaryotes. Procaryotes Eucaryotes Ribosomes complets Coeff. de sédimentation 70 S 80 S Masse moléculaire ( D ) 2 520 000 4 220 000 Nombre de sous-unités 2 2 Grande sous-unité Coeff. de sédimentation 50 S 60 S Masse moléculaire ( D ) 1 590 000 2 820 000 Molécules d ARN Nombre 2 3 Taille 23 S = 2904 nucléotides 5 S = 120 nucléotides 28 S = 4718 nucléotides 5,8 S = 160 nucléotides 5 S = 120 nucléotides Nombre de polypeptides 34 50 Petite sous-unité Coeff. de sédimentation 30 S 40 S Masse moléculaire ( D ) 930 000 1 400 000 Molécules d ARN Nombre 1 1 Taille 16 S = 1541 nucléotides 18 S = 1874 nucléotides Nombre de polypeptides 21 33 Un ARNt possède une structure secondaire complexe, qui repose sur la formation de doubles brins partiels : il s agit d ARN très stables. 65

2. Les ARN de transfert, ou ARNt. L ARN est un adaptateur, qui possède un site de fixation de l acide aminé, au niveau de l extrémité 3. Le site de reconnaissance du codon est appelé anti-codon. La formation des ARNt est plutôt constante. Les structures secondaires et tertiaires sont semblables, car tous les ARN vont réagir avec des ribosomes. Par contre, tous les ARN sont différents pour chaque acide aminé. Les ARN ont, en générale, la forme d un trèfle. 5 A 3 C C Ponts d hydrogène Bras accepteur G G R Bras TC Bras TC Y U C A R Y G C Y T U A Bras optionnel Bras anticodon Y U R Anticodon 66

Les ARNt subissent beaucoup de modifications post-transcriptionnelles : les différences de séquences primaires concernent surtout l anti-codon. Il y a une modification chimique des bases : 7-méthylguanosine ( m 7 G ) Pseudouridine ( ) Inosine ( I ) Queosine ( Q ) Ribothymidine ( T ) Dihydrouridine ( DHU ) 4-thiouridine ( S 4 U ) Il y a ajout en 3 d une séquence CCA, où l acide aminé va se lier. L enzyme qui catalyse la liaison de l acide aminé est l aminoacyl trna synthétase. 3. La synthèse des différents partenaires moléculaires. Gène ARNr Gène ARNt Gène protéine ribosomale Transcription ARNr ARNt ARNm Produits terminaux Traduction Protéine ribosomale Les gènes des ARNt ne sont jamais transcrits et l ARNr n est jamais traduit : ARNt et ARNr sont les produits terminaux de la transcription. 67

Il existe différents partenaires pour la traduction. Tout gène codant pour une protéine est transcrit par une polymérase II, puis il y a maturation et transport dans le cytoplasme. Les protéines ribosomales sont traduites dans le cytoplasme. Elles sont ensuite réimportées dans le noyau, au niveau des nucléoles, là où sont transcrit les ARNr. L ARNr est associée à des protéines et aux petits ARN pour faire la maturation. On assiste à un assemblage progressif et indépendant des deux sous-unités du ribosome, qui sont importées dans le cytoplasme. Elles ne s assemblent que pour la traduction. III. Le mécanisme moléculaire de la traduction. 1. La reconnaissance ARNt et acide aminé. C est l étape de la charge de l ARNt : cette étape est catalysée par l aminoacyl trna synthétase. Il y a formation d une liaison covalente entre l ARNt et les acides aminés : c est la charge. 68

Il y a autant de synthétase que d acides aminés, il y en a donc 2O différentes. Par contre, il y a plus d ARNt, à cause du caractère dégénéré du code. Une synthétase reconnaît un acide aminé et plusieurs ARNt : ces ARNt sont appelés des isoaccepteurs. On peut se demander ce qui permet la reconnaissance de la synthétase, car elle ne reconnaît pas l anti-codon. Ce sont des bases modifiées dans les bras, qui sont reconnues par la synthétase. 2. La reconnaissance ARNt-ARNm : codon et anti codon. a : Interaction codon et anticodon. L étape d interaction est la reconnaissance entre l anti-codon et le codon. Si l ARNt n est pas chargé, il ne peut pas participer à cette étape. Cette reconnaissance obéit presque aux règles d appariement des bases. b : La troisième base du codon. Guanine et Uracil. Il y a une particularité pour la troisième base du codon : la variabilité consécutive de la courbure de l anti-codon. 69

Dans cette position particulière, il peut y avoir une reconnaissance entre G et U. De ce fait, l anti-codon UCG peut reconnaître AGC ou AGU, l anti-codon UCU peut reconnaître AGA ou AGG. Cette variabilité de la troisième base, ou wolable, permet d expliquer une partie de la dégénérescence du code génétique. L inosine. L inosine est une base modifiée, qui provient de la désamination de la guanosine. On la trouve sur certains anticorps. Elle peut s apaprier avec C, U ou A. 70

Le codon UAI peut donc reconnaître AUC, AUU ou AUA. Ces possibilités ne sont valables que lorsque I se trouve en troisième position. Un seul anticodon peut donc reconnaître trois codons différents. La sérine. Ser ARNt ser 1 ARNt ser 2 ARNt ser 3 Une même synthétase peut charger Ser sur 3 ARNt différents, donc 3 isoaccepteurs AGG AGU UCG 3 Anticodons UCC UCA AGC UCU UCG AGU 6 codons différents codent Ser c : Fixation de l ARNt sur l ARNm qui lui correspond. L ARNt va se fixer sur l ARNm correspondant, cela se produit dans un ribosome et pas de façon spontanée dans le cytoplasme. 71

Il y a une reconnaissance codon-anticodon, puis le positionnement d un second ARNt chargé d un autre acide aminé. Vient ensuite la formation de la liaison peptidique, puis le relarguage du premier ARNt. C est donc le second ARNt qui porte le peptide en cours de croissance. La formation de la liaison peptidique est catalysée par une peptidine transférase, portée par le ribosome. 3. Le déroulement de la traduction au niveau du ribosome. a : L initiation chez les procaryotes. L initiation se fait par la reconnaissance entre la petite sous-unité et la région 5 du messager. En plus du ribosome, il intervient des facteurs protéiques spécifiques de cette étape d initiation. C est une séquence consensus qui est reconnue en 5 : la séquence de shine-dalgarno. Séquence Shine-dalgaro Gène 5 3 ARNm N-N-A-G-G-A-G-G-U-N-N-N-N- Séquence Shine-dalgaro -N-N-A-U-G Codon d initiation 72

Au moment de la reconnaissance, il y a un appariement entre la séquence de shine-dalgarno et l ARNr de la petite sous-unité : la reconnaissance repose sur cet appariement. Séquence Shine-dalgaro Gène Petite sous-unité 30S La petite sous-unité migre vers l extrémité 3 : ce mécanisme est orienté. Environ 10 bases en aval de la séquence shine, se trouve le premier AUG ; ou codon d initiation. C est là que le premier ARNt se positionne. Aminoacyl ARNt L ARNt de démarrage porte une méthionine, modifiée chimiquement car elle porte un groupement formyl. Méthionine N-formylmethionine COO - COO - CH 3 S CH 2 CH 2 C H CH 3 S CH 2 CH 2 C H + NH 3 H N + H C O H Cette formylation oriente le processus de formation des liaisons peptidiques, mais ce n est pas obligatoire. Amine bloquée fm Seul le carboxyle peut créer une liaison peptidique Synthèse du polypeptide Initiateur d ARNt 73

Ce n est que maintenant que l assemblage du ribosome se fait : c est le complexe d initiation de la traduction. Grande sous-unité Aminoacyl ARNt 5 3 ARNm AUG Codon d initiation Petite sous-unité b : Phase d élongation. La seconde étape est la fixation de la grosse sous-unité du ribosome. Cette phase consomme de l énergie, fournie par l hydrolyse du GTP. Le site de l AUG est appelé le site-p. La place du second codon est le site-a. fm 5 3 A U G Complexe d initiation fm Unité 50 S 5 3 A U G G G U Unité 50 S GTP GDP + Pi Site-P Site-A L aminoacyle trna se positionne au niveau du site-a. A Il y a association entre le codon et l anti-codon, puis formation de la liaison peptidique, grâce à une activité catalytique : l activité peptidyl-transférase. 74

Cette activité se trouve liée au ribosome, elle est portée au niveau de l ARN 23 S. Cet ARN n est jamais traduit, mais il est important pour la structure du ribosome et pour la formation de la liaison peptidique. Ceci provoque le décalage du ribosome : c est la translocation. L ARNt qui porte le peptide en cours de croissance se trouve positionné au niveau du site-p. De plus, il y a des facteurs protéiques. Le site-p porte l ARNt de démarrage ou un peptidyl-arnt. Le site-a porte l aminoacyl-arnt ou un RF ou un peptidyl-arnt. c : L élongation et la terminaison. L attachement de l unité 50 S au complexe d initiation, est possible grâce aux deux sites distincts de liaison à l ARNt. On trouve le peptidyl-arnt au niveau du site-p et un codon-stop au niveau du site-a. Liaison peptidique GTP GDP + Pi AUGGGU AUGGGU AUGGGU Translocation AUGGGU CAC Par contre, le codon-stop ( UAG ) n est pas reconnu par les ARNt, mais par des facteurs protéiques : les release factor le reconnaissent et viennent se fixer au site-a. Il y a alors relargage du polypeptide, du ribosome, dissociation du peptide et de l ARNm. Il existe plusieurs facteurs de terminaison, en fonction du codon-stop rencontré. UAG UAG 75

d : La traduction chez les eucaryotes. Les différences entre procaryotes et eucaryotes se trouvent surtout au moment de l initiation. Résumé des facteurs protéiques de E. Coli : Facteur Filtration Masse moléculaire ( Da ) Fonction F1 9 000 Dissociation du ribosome en sous-unités F2 97 000 Attachement de l ARNt au complexe d initiation F3 Elongation 23 000 Dissociation du ribosome, ajout d ARNm au complexe d initiation EF-Tu 43 000 Ajout d un aminoacyl-arnt au site-a EF-Ts 74 000 Génération d EF-Tu actif EF-G 77 000 Translocation Terminaison RF1 36 000 Libération de la chaîne UAA, UAG codons RF2 41 000 Libération de la chaîne UGA, UAA codons RF3 46 000 Coopération avec RF1 et RF2 Résumé des facteurs protéiques d eucaryotes : eif : e pour eucaryote et I pour initiation. Facteur Initiation eif3 eif4c eif4a eif4e eif4g eif4b eif2 eif2b eif5 eif6 eif1 Elongation eef1 eef2 Terminaison erf1 erf3 Fonction Attachement à la sous-unité 40 S avant de relier l ARNm Attachement à la structure cap et aide au reliage à la sous-unité 40 S Peut casser la boucle d ARNm pendant la vérification Liaison à l initiateur de l ARNt Régénération d eif2 actif Libération d eif2, 3 et 4C, qui viennent de la partie croissante du complexe d initiation Dissociation des sous-unités du ribosome Incertain Liaison d un aminoacyl-arnt au site-a Translocation Reconnaissance de codons terminaux On trouve beaucoup de facteurs d initiation chez les eucaryotes, car le mécanisme d initiation est différent chez les eucaryotes. 76

L initiation. C est la coiffe qui est reconnue par la petite sous-unité. Cette coiffe n est jamais nue, elle est en complexe avec des protéines. coiffe codon d initiation AUG ARNm La petite sous-unité se fixe à la coiffe. Unité 40 S AUG L unité 40 S «scanne» l ARNm : elle migre vers 3 jusqu au 1 er AUG. AUG L unité 40 S reconnaît le 1 er AUG, comme le codon d initiation. AUG Traduction. La traduction démarre. Par contre, il existe quelques fois plusieurs AUG, qui sont suivis rapidement par un codon stop. Dans ce cas, la traduction est initiée à l AUG suivant. L AUG qui initie la traduction doit être dans un contexte de séquences particulier : la séquence Kozar. La première méthionine n est pas formylée, par contre il s agit toujours d un ARNt particulier : l ARNt de démarrage est le seul qui puisse se positionner au niveau du site-p. La queue polya intervient dans le mécanisme d initiation de la traduction : l ARNm se replie pour former un cercle. Ceci permet des interactions protéine-protéine et protéine-acide nucléique. Cela peut probablement augmenter l efficacité du recyclage des ribosomes. 77

AAAAAAAAAAAAAAAA Pab eif4g eif3 eif4a eif4e 40 S 7 mg AUG UAA Les modifications post-traductionnelles. Il existe plusieurs modifications, après la traduction : - la première Méthionine est enlevée. - si la protéine doit être excrétée, la séquence-signal est clivée. - le clivage des grands précurseurs hormonaux. - l addition de groupements chimiques : la glycosylation, la phosphorylation de certains sites spécifiques. Ces modifications sont réversibles, cela peut servir aux activations et inhibitions. IV. Conclusions. 1. Les ARNm eucaryotes. a : Schéma général. Il existe une séquence entre la coiffe et l AUG, qui est transcrite mais pas traduite : la région 5 UTR. L ORF est une région traduite : elle commence par un AUG et se termine par un codon stop. Le signal AAUAAA se trouve dans une partie traduite : 3 UTR. 78

AUG stop AAUAAA AAAAAA 5 UTR ORF 3 UTR UTR : untranslated region. ORF : open reading frame. Les régions UTR servent à plusieurs choses : la stabilité, la régulation de la traduction, la localisation des ARNm. Ces régions, chez les eucaryotes, peuvent être très grandes ( 1 kilobase, voire plus ). b : Exemple de localisation des ARNm. Un bon exemple de localisation est celle des messagers dans l œuf de drosophile. Les ARN bicoïdes sont des messagers, fournis par la mère pendant l ovogenèse : ils se trouvent au pôle antérieur de l œuf. Le facteur de transcription produit par bicoïd va agir dans la partie antérieure de l embryon : il agit sur l expression d un ensemble de gènes, qui participeront à la différenciation des pôles. Il y a des interactions entre les régions UTR des bicoïdes et les microtubules : d où la migration vers le pôle antérieur. 2. Conventions de représentation. Conventions pour la représentation d une unité de transcription et de la protéine correspondante : exon 1 intron 1 exon 2 intron 2 exon 3 ATG stop ADN AUG stop (AAA AA) ARN 5 UTR 3 UTR N-ter C-ter Protéine Les introns ne sont pas traduits. On peut mettre les séquences consensus sur l ADN, mais pas sur les ARN car elles ne sont pas traduites. 79

La séquence codante est l ORF ou la région transcrite. La séquence polya n est jamais sur l ADN. Exon 1 Intron 1 Exon 2 Intron 2 Exon 3 1 30 104 105 146 Gène ATG GTG AGGT AG G AGG GT AG CCC CAC 5 UTR 1 30 104 105 146 3 UTR ARNm m 7 Gppp AUG GTG AG G AGG CCC CAC AA A n 1 30 104 105 146 Précurseur N Met Val Arg Arg Pro His C du polypeptide 1 30 104 105 146 β-globuline N Met Val Arg Arg Pro His C mature Le gène contient aussi les séquence régulatrices, car si elles sont mutées le gène en fonctionne pas. Un gène est définit par ses dysfonctionnements, consécutifs aux mutations qui touchent les séquences régulatrices, entre autres. On ne peut donc pas définir un gène sans ses séquences régulatrices. 3. Programmes de séquençage et recherche des ORFs. Il existe plusieurs possibilités de cadres de lecture. Les cadres de lectures ouverts n ont pas le dernier codon complet. On peut déterminer le cadre lorsqu il y a une méthionine qui apparaît. Pour choisir le sens de lecture, on peut s aider de la séquence des ADN complémentaires. Ceci peut aider à repérer les régions transcrites. Le brin d ADN qui porte un morceau de polya a la même séquence et la même orientation que l ARNm et le brin complémentaire du brin matrice. On cherche alors le cadre de lecture le plus grand, qui commence par une méthionine. 80

C est avec ces méthodes qu on identifie les séquences des gènes. Attention, les chiffres du tableau sont maintenant revus à la baisse. Mitochondrie ( homme ) circulaire 16,6 kb 37 gènes Virus variable 1 à 250 kb 3 à 240 gènes Bactérie E. Coli 1 circulaire 4,5 kb 4 000 gènes Levure S. Cereuisia 14 chromosomes 14 Mb 6 000 gènes Crucifère A. Thaliana 5 chromosomes 100 Mb 25 000 gènes Nématode C. Elegans 6 chromosomes 100 Mb 13 500 gènes Insecte Mammifère D. Melanogaster 4 chromosomes 165 Mb 120 M. Musculus 20 chromosomes 3 000 Mb H. Sapiens 23 chromosomes 3 000 Mb 12 000 à 16 000 gènes 50 000 à 100 000 gènes 13 600 50 000 à 100 000 gènes 35 000 Chez l homme, 1,1 % du génome est constitué d exons, 24 % d introns et 75 % ne sont pas encore définis. 81

Expression des gènes 82

LE CONTROLE DE L EXPRESSION DES GENES Toutes les cellules de l organisme possèdent le même génome, mais leur compositions protéiques et leurs fonctions sont différentes. Il y a donc une expression contrôlée des gènes. I. Définition. L expression d un gène regroupe tous les mécanismes, de la production d ARN primaire jusqu à la production de la protéine. L essentiel du contrôle se fait au niveau de la transcription, surtout chez les procaryotes. Gène Transcription : rapide ou lente? ARN Dégradation? Processus ( eucaryotes uniquement ) : rapide ou lent? AAAA ARNm Dégradation? Translation : rapide ou lente? Polypeptide La régulation peut se faire en réponse à des variations du milieu externe, chez les procaryotes et les eucaryotes inférieurs surtout. 83

Chez les eucaryotes supérieurs, il y a un milieu interne : la régulation se fait en réponse à des variations de ce milieu, par la production d hormones notamment. ADN Contrôle transcriptionnel Transcrit primaire d ARN ARNm mature Contrôle du processus Noyau Cytoplasme Contrôle du transport ARNm mature Contrôle de la transition par la sélection ribosomal des ARNm Contrôle de la dégradation de l ARNm Protéine ARN inactif Contrôle du processus de dégradation de la protéine Protéine dégradée Un point de contrôle supérieur se fait au niveau du transport noyaucytoplasme. La régulation post-transcriptionnelle est la plus importante. II. Le contrôle transcriptionnel. 1. Mise en évidence d un contrôle. a : Gènes inductifs et constitutifs. 84

Les eucaryotes sont directement soumis aux variations du milieu. Pour chaque molécule de sucre, certains gènes sont produits et d autres non. Si on change de sucre, on change la nature des gènes transcrits. Molécules de sucre Gène 1 Gène 2 Gène 3 Bactéries ARN Protéine Pas de produits du gène Changement d environnement Molécules de sucre Gène 1 Gène 2 Gène 3 Bactéries On dit des gènes 2 et 3 qu ils sont inductibles. Le gène 1, qui est tout le temps exprimé, est un gène constitutif, ou gène de ménage ( house keeping gene ). b : Les gènes inductifs. Organisation générale d un gène inductible Gène Promoteur Site de Terminateur contrôle Séquence codante ADN Induction Transcription et translation après l induction uniquement Gène produit Protéine 85

On trouve une séquence transcrite, un promoteur, un terminateur et un site de contrôle entre le promoteur et la séquence transcrite : ce schéma est adapté aux procaryotes. Le site de contrôle est appelé «site de contrôle en cis», car elle permet le contrôle du gène adjacent. Ce site peut être reconnu par une protéine : qui active, un activateur, ou induit, un inducteur. c : Régulation d un gène de transcription. Si la protéine est présente, alors il y a activation de la transcription. Régulation positive d un gène de transcription Gène Gène activateur ADN Séquence codante Séquence régulatrice Pas de transcription ARNm Transcription Régulation négative d un gène de transcription Gène répresseur Transcription ARNm Pas de transcription Lorsque la protéine est un activateur, elle est codée par un gène activateur. On peut avoir à sa place, une protéine répresseur : il n y a plus de transcription, sinon il faudrait une dissociation de la protéine répresseur. Les régulateurs sont appelés «éléments de contrôle en trans» : ils agissent en dehors de leur lieu de synthèse et sont codés par des gènes régulateurs. Tous les autres gènes sont appelés «gènes de structure». Les produits des gènes régulateurs viennent se lier au site de contrôle en cis des gènes de structure. Tous ces sites sont différents du promoteur : 86

leur position est très variable. Par exemple chez les eucaryotes, les sites des enhancer sont très loin de leur lieu d action. Les activateurs et les répresseurs sont des facteurs de régulation spécifiques. 2. Régulation chez les procaryotes : l opéron lactose. a : Production de glucose par les bactéries. Les enzymes. Lorsqu on met en culture des bactéries E. Coli sur un milieu contenant des sels, un source d azote et une source de carbone, les bactéries produisent des acides nucléiques et des acides aminés. Les enzymes nécessaires à la dégradation du glucose sont codés par des gènes constitutifs. Si on remplace le glucose par du lactose, les bactéries sont capables de produire de la β-galactosidase en quelques minutes. Liaison β-galactoside : CH 2OH CH 2OH OH O O O OH OH OH OH Unité de Galactose Unité de Glucose OH Cette enzyme permet de produire du galactose et du glucose, à partir du lactose. Lactose perméase β-galactosidase + Transacétylase Glucose Galactose Le galactose est dégradé en glucose. Tout le glucose obtenu rentre dans la voie normale d utilisation du glucose. Lactose ( hors cellule ) Lactose ( dans cellule ) Membrane de la cellule 87

La β-galactosidase est produite de façon coordonnée avec la lactose perméase. Cette enzyme permet de catalyser l entrée du lactose dans la cellule. De même une transacétylase est produite. Les gènes LacZ, LacY et LacA. Les gènes qui codent pour ces trois enzymes font partie d un opéron constitué de trois gènes : - LacZ : code pour la β-galactosidase. - LacY : code pour la perméase. - LacA : code pour la transacétylase. Promoteur P Terminateur LacZ LacY LacA T Transcription ARNm Il n y a qu un promoteur et un terminateur pour ces trois gènes. Les trois régions traduites sont donc présentes sur le même messager, qui ne sera jamais coupé. L opéron lactose n est traduit qu en présence de lactose : il est inductif. Le gène LacI. Il existe un quatrième gène : LacI, qui se trouve plus loin sur le génome. Ce gène n appartient pas à l opéron car il a son propre promoteur et son propre terminateur. LacI LacZ LacY LacA P T P T 88

LacI est un gène de régulation de l opéron lactose : la protéine qu il code va participer à la régulation de l opéron lactose. LacI est toujours traduit : la protéine produite est lac-répresseur. b : Régulation de l opéron lactose. En absence de lactose dans le milieu. La protéine de LacI se fixe sur un site en aval du promoteur : le site. Lac-répresseur étant plus grosse que le site O, elle recouvre aussi le promoteur. A cause de l encombrement stérique produit par Lac-répresseur, l ARN polymérase ne peut pas se fixer sur le promoteur : il n y a donc pas de transcription. ARNm En présence de lactose dans le milieu. LacI LacI ARN polymérase ne peut pas se fixer Promoteur P Opérateur Lac répresseur P LacZ LacZ Pas de transcription Opérateur Promoteur Lac répresseur Le lactose du milieu pénètre en faible quantité dans la cellule, où il devient de l allolactose, par isomérisation. L allolactose est capable de se lier très fortement à Lacrépresseur. Promoteur LacI P ARNm Opérateur Lac répresseur Allolactose LacZ Il y a donc un changement de conformation : le complexe ne reconnaît plus l opérateur. La polymérase peut alors se lier au promoteur : il y a transcription de l opéron. LacI ARN polymérase peut se fixer P LacZ Transcription ARNm 89

En absence de lactose, on trouve 5 molécules de β-galactosidase par cellule. En présence de lactose, il y en a 5 000. Lorsqu il y a beaucoup de lactose, tous les produits de LacI sont neutralisés. Si il y a une concentration moyenne de lactose, une partie seulement des répresseurs sont liés. Le système est donc modulable et très fin. c : Régulation par le glucose. Le glucose régule aussi l opéron lactose : en présence simultanée de glucose et lactose, il n y a pas de transcription de l opéron lactose. Sur l ADN de l opéron, on trouve un site CAP situé en avant du promoteur : ce site est reconnu par un complexe formé d une protéine CAP et d AMP cyclique. Si la protéine CAP n est pas associée à l AMP cyclique, elle ne reconnaît pas le site CAP. Fin de Promoteur Début de LacI -35-10 LacZ Site CAP Opérateur L AMP cyclique a donc un lien avec le glucose. Si il y a du glucose, l enzyme importante pour la formation de l AMP cyclique, l adénylate cyclase, est inhibée. Si il n y a pas d AMP cyclique, CAP ne peut pas se fixer au site CAP : il n y a pas de transcription de l opéron. 90

L inactivation de l adénylate cyclase se fait lorsque le glucose traverse la membrane de la cellule : en effet, la déphosphorylation de la protéine entraîne l inactivation de l enzyme. Adénine Adénylate cyclase Inhibition par le glucose ATP Adénine AMP cyclique Lorsque le complexe CAP-AMPc est fixé au site CAP, il y a une courbure de l ADN, qui permet l interaction entre le complexe et l ARN polymérase. Site CAP Vacant LacZ CAP-cAMP LacZ P P Activation de la transcription ARNm lac ARNm lac d : Présence simultanée de glucose et lactose. La présence de lactose et de glucose entraîne différentes réactions : - le glucose : entraîne la libération du site CAP. - le lactose : entraîne la libération de l opérateur. Dans ce cas là, la cellule va d abord utiliser le glucose : il y a donc peu de transcription, car il n y a pas d activation de l opéron. Lorsque le glucose est totalement utilisé, le site CAP est utilisé : la transcription est activée. Glucose Lactose Opérateur Site CAP Transcription de l opéron + - I 0 0 - + 0 CAP-AMPc + + + + + + + + + 0 0 + - - I CAP-AMPc O Le contrôle peut être positif ou négatif : c est en fait une combinaison des deux. 91

3. Régulation chez les eucaryotes. a : Régulation chez les eucaryotes inférieurs. Les gènes Gal1, Gal7 et Gal10. Certains gènes du système galactose, chez la levure, codent pour les premières étapes de la voie de dégradation du lactose : - Gal1 : code pour la galactokinase. - Gal7 : code pour la galactose transférase. - Gal10 : code pour la galactose épimérase. La voie étant inductive, les gènes Gal 1, 7 et 10, sont donc inductifs. La dégradation du galactose va donner du D-Glucose-6-phosphate, qui va entrer dans le cycle de la glycolyse. réaction enzyme gène D-Galactose Galactokinase Gal1 D-Galactose 1-Phosphate Galactose transférase Gal7 UDP-D-Galactose Galactose épimérase Gal10 UDP-D-Glucose UDP-glucose pyrophophorylase D-Glucose 1-Phosphate Phosphoglucomutase D-Glucose 6-Phosphate Glycolyse Les gène sont proches les uns des autres, on parle de cluster. On trouve aussi la séquence UAS, qui est un enhancer chez la levure : Upstream Activator Sequence. Ici c est l UASg, car il entre dans le système galactose. 92

UASg se trouve entre Gal1 et Gal10, mais loin de Gal7. Gal7 Gal1 Gal10 UAS g Les gènes régulateurs Gal4 et Gal80. Le gène Gal4, qui se trouve ailleurs dans le génome, code pour une protéine capable de lier UASg : c est un gène de régulation. Cette protéine est produite dans le cytoplasme. Gal4 agit en dimère, pour se lier à UASg. Encore ailleurs, on trouve le gène Gal80. Il code pour la protéine Gal80, qui va interagir avec la protéine Gal4. Ce complexe est associé à UASg en absence de galactose. Gal80 est un gène de régulation comme Gal4. Lorsqu on ajoute du galactose dans le milieu, il peut se fixer sur Gal80. Ceci provoque un changement de conformation et une activation de la transcription. En absence de glucose : En présence de glucose : Protéine Gal4 Protéine Gal80 Domaine d activation de la transcription Domaine de fixation à l ADN Molécules de Galactose Changement de conformation de Gal4 : forme activée ADN UASg UASg ( Site de fixation de Gal4 ) Le dimère de Gal4 est fixé à UASg Gal80 est fixé aux protéine Gal4 Le dimère de Gal4 est fixé à UASg Gal80 est fixé à Gal4 et permet la fixation du Galactose Cela permet le changement de conformation de Gal4 Sous cette forme, Gal4 ne peut pas initier la transcription des gènes Gal proches Gal4 modifié permet l activation de la transcription des gènes Gal proches 93

Remarque. La séquence UASg se trouve entre Gal1 et Gal10, qui ont des sens de transcription différents. La transcription se fera donc sur des brins différents. La transcription de Gal7 est aussi activée par UASg ( c est un enhancer ). Il faut donc un repliement de l ADN pour mettre en présence Gal4, Gal80, Gal7 et la polymérase. L intérêt évolutif est l élément de contrôle en commun : les gènes sont alors contrôlés de la même façon. Ceci est logique car ces gènes sont utilisés dans la même voie métabolique. Pourquoi tous les gènes sont appelés Gal, malgré le fait qu ils soient de nature différente? Tous ces gènes sont étudiés par mutagenèse : lorsqu il y a une perturbation de la voie de dégradation du galactose, c est du à une perturbation des gènes. Les gènes perturbés entraînent le même phénotype : il n y a plus de pousse des levures sur le galactose. Il y a un même phénotype, donc les gènes codent pour des protéines impliquée dans la même voie métabolique. b : Régulation chez les eucaryotes supérieurs. Les hormones. Chez les eucaryotes supérieurs, les cellules ne sont plus exposées aux variations brutales de l extérieur. Les cellules répondent à des effecteurs : les hormones. Les hormones stéroïdes peuvent diffuser à l intérieur de la cellule et du noyau. Dans ce cas, l hormone peut directement influencer le matériel génétique. Les hormones constituées de polypeptides doivent interagir avec un récepteur membranaire spécifique : il y a alors transduction du signal vers le noyau. Suivent des interactions protéiques en cascade, jusqu à ce qu une protéine activée interagisse avec le noyau. 94

Mécanisme d action des hormones : Stimulus Cellule productrice d hormones Hormone polypeptide Hormone stéroïde Récepteur de l hormone stéroïde camp Cellules cibles L hormone se fixe à la membrane de la cellule cible et active la production d AMP cyclique, ce qui active des évènements cellulaires L hormone diffuse librement à travers la membrane cellulaire, se fixe à son récepteur et l active, le complexe se fixe au génome et modifie l expression des gènes Action Action Le contrôle de la transcription. Le contrôle de la transcription sert au contrôle de l expression des gènes. Le signal est sous contrôle d un hormone stéroïde, qui arrive au niveau du noyau. Les protéines, situées dans le noyau, sont capables d interagir avec cette hormone. Plusieurs copies des récepteurs à cette hormone se trouvent dans le noyau. En absence de récepteurs, l hormone est inactive. Hcp90 est le récepteur associé à la protéine. Certaines protéines ont une fonction de chaperon : elles aident à fixer un type de conformation du récepteur. Quand l hormone pénètre dans la cellule, son affinité pour le récepteur est importante : elle déplace alors l interaction entre le récepteur et la protéine chaperonne. Il y a alors une interaction entre l hormone et le récepteur : ceci entraîne un changement de configuration de cap. 95

L ensemble hormone-récepteur possède alors une configuration qui lui permet de reconnaître les séquences spécifiques dans les régions promotrices des gènes cibles. Modèle d action d une hormone stéroïde glucocorticoïde dans les cellules mammaires : L hormone se fixe au récepteur en déplaçant Hsp90 Le complexe récepteur-glucocorticoïde se fixe à l ADN et active la transcription Hormone glucocorticoïde stéroïde ARN polymérase Hsp90 ADN Transcription Récepteur glucocorticoïde ARN prémessager Complexe récepteurglucocorticoïde ARNm La translation entraîne la production de protéines relatives au fonctionnement de l hormone Re se trouve au niveau des enhancer. Par contre ces éléments de réponse sont situés à quelques kilobases du lieu de l initiation de la transcription. Tous les gènes qui possèdent cet élément de réponse peuvent contrôler tout un ensemble de gènes. Quand l hormone est présente, tous les gènes cibles son transcrits. La molécule signal peut ne pas être capable de passer la barrière membranaire, comme les polypeptides. De ce fait, le récepteur spécifique de cette molécule va se trouver à la surface de la membrane. Il y aura ensuite transduction du signal vers le noyau. 96

4. Autres voies de régulations. a : Régulation par une voie de transduction du signal. Définition. Une voie de signalisation est un ensemble de molécules capables de donner un signal cellulaire. Dans notre cas, on parle de signal de différenciation. Une étape importante se trouve au niveau du développement des organes. La voie est très conservée évolutivement, c'est-à-dire qu on la retrouve chez beaucoup d eucaryotes pluricellulaires : le nématode, la souris, la drosophile, l homme, Cela signifie qu on retrouve des molécules qui sont évolutivement apparentées, c'est-à-dire qu elles se ressemblent du point de vue de leur séquence. Wingless et int-1. Cette voie a été découverte indépendamment chez la drosophile et l homme. Chez la drosophile, la molécule signal est appelée wingless ( wg ). Lorsque le gène codant pour la molécule signal est muté, la drosophile n a pas d ailes. Chez l homme, la molécule signal s appelle int-1. Lorsque le gène codant est muté, les personnes touchées développent certaines formes de cancers. Les molécules int-1 et wingless se ressemblent beaucoup, il y a donc un ancêtre commun. La contraction des deux gènes s appelle wint. On dit des gènes qu ils sont ortholagues. On a appelé ces molécules wint, aussi bien chez la drosophile que chez l homme. Toutes ces molécules ont été identifiées chez la drosophiles, puis on les a cherché chez l homme. 97

Phénotype cuticulaire. Chez la drosophile, il existe un autre phénotype que celui des ailes absentes. Le phénotype étudié sera le second : un phénotype cuticulaire. Lorsque le gène est muté, on perd le cuticule nue. Après de nombreuses mutagenèses, on a isolé tous les gènes, notamment ceux qui induisent une perte de cuticule nue. Avec l hypothèse que le phénotype est le même pour les différentes mutations, on peut probablement dire que les molécules appartiennent à la même voie. Le gène armadillo. Chez la drosophile, c est le gène armadillo, dont la molécule centrale est Armadillo. Chez l homme, c est la β-catetin. En absence de wint, Armadillo est phosphorylée, donc sa durée de vie est raccourcie. La molécule est directement dégradée par la protéasone. En présence de wint, elle interagit avec son récepteur. Le récepteur est modifié, et modifie a son tour d autres protéines. L ARNm n est pas phosphorylé, il est alors stabilisé et sa durée de vie est plus longue. Ceci lui permet de pénétrer dans le noyau, où il deviendra un facteur de transcription. Shaggy. Lorsque le gène codant l ARNm est muté, on a le même phénotype que lorsque le gène codant wint est muté. Il existe un partenaire particulier, Zw3, nommé shaggy chez la drosophile. Shaggy est parti car il a une fonction négative. C'est-à-dire qu en l absence de wint, c est shaggy qui phosphoryle l ARNm et bloque le processus. En présence de wint, la fonction de shaggy est inactivée et c est pour cette raison que l ARNm n est plus phosphorylé. 98

Lorsque shaggy est actif, l ARNm est inactif. Lorsque shaggy est inactif, l ARNm est actif. Si le gène codant shaggy est muté, l ARNm sera tout le temps actif : la cuticule nue recouvra tout. Les acteurs identifiés chez la drosophile ont été retrouvés chez l homme. Ils sont importants dans la cancéragenèse. Il existe des gènes faibles de la voie qui possèdent dans leur régions régulatrices des séquences qui sont reconnues par l ARNm. b : Régulation concertée au cours du développement. Exemple des gènes de l hémoglobine. Les gènes codants pour l hémoglobine sont régulés de façon concertés au cours du développement. L hémoglobine est constituée de 4 chaînes de globines, qui possèdent un hème capable de fixer de l oxygène. C est un tétramère constitué de 2 chaînes de type α et 2 de type β. La composition de l hémoglobine et son lieu de synthèse varient au cours du développement. Le lieu de synthèse. Avant 6 semaines de gestation, le lieu de synthèse est le sac vitellin. La composition de l hémoglobine est de 2 chaînes de type ζ et 2 chaînes de type ε. Puis la synthèse se fait dans le foie. La composition est de 2 chaînes α et de 2 chaînes γ. Enfin, la synthèse se fait dans la moelle osseuse. La composition est de 2 chaînes α et de 2 chaînes β. Il existe aussi une chaîne δ, qui est présente chez l enfant : nous avons alors 2 chaînes α et 2 chaînes δ. 99

sac vitellin foie rate moelle osseuse Sites d érythropoièse α 50 γ β % de la 40 synthèse totale de 30 globine 20 δ 10 ε 6 12 18 24 30 36 6 12 18 24 30 36 42 48 Date de la grossesse ( semaines ) Age post-natal ( semaines ) Naissance En termes de gènes, nous avons autant de gènes que de molécules. Ces gènes sont en fait très bien organisés. Il existe 2 regroupements de gènes, appelés aussi clusters. Les gènes de famille α se trouvent sur le chromosome 16, on parle alors de cluster α- globine. Les gènes de famille β se trouvent sur le chromosome 11, on parle alors de cluster β- globine. Les chaînes ε, ζ et β font partie du cluster β. Les chaînes zéta et α font partie du cluster α. Il existe deux gènes α. Cluster du gène de l α-globine ζ Cluster du gène de la β-globine Expression au stade Embryonnaire ( sac vitellin ) 1 er changement : 5-6 semaines de gestation Expression au stade fœtale ( foie ) Expression au stade α β adulte ( moelle osseuse ) γ ε 2 nd changement : juste avant la naissance Les gènes Ψ sont des pseudogènes : ce sont des reliquats de l évolution, ils ne sont pas fonctionnels. Un pseudogène ressemble un gène en terme de séquence, mais il y a une accumulation de codons stop, qui empêchent la traduction. 100

0 10 20 30 40 50 60 70 kb HS-40 ζ 2 Ψζ 1 Ψα 2 Ψα 1 α 2 α 1 θ LCR Cluster de l α-globine HS4 HS3 HS2 ε G γ A γ Ψ β δ β LCR Cluster de la β-globine LCR : «Locus Control Region». Ce sont des enhancers qui sont capables de contrôler l expression coordonée de ces gènes, au cours du développement. LCR contrôle l expression des gènes d ε, plus tard ceux de γ, ensuite ceux de β et enfin un peu de δ chez l enfant. Il existe aussi une régulation de l état de condensation de la chromatine. ADN Embryonnaire LCR ε G γ A γ Ψ β δ β ADN foetal LCR ε G γ A γ Ψ β δ β Adn adulte LCR ε G γ A γ Ψ β δ β 101

5. Un point sur certaines notions. a : Les contrôles en cis. Le promoteur : c est le lieu d assemblage du complexe d initiation de la transcription. L enhancer : il a un rôle important. Il autorise l assemblage du complexe au niveau du promoteur. C est, par exemple, ce qui se passe dans le cas des LCR. RE : les séquences spécifiques sont reconnues par des facteurs de transcription. L opérateur : cela peut être des éléments de l enhancer, ou à proximité. Le site CAP : il appartient au promoteur, donc aux régions régulatrices. b : Les contrôles en trans. Lac I, CAP, GAL 4, les récepteurs des stéroïdes, les armadillo, c : Autres contrôles. Il existe d autres contrôles : - les contrôles du Réticulum Endoplasmique. - le contrôle des enhancer. - le contrôle des silencer. 102

III. Les autres niveaux du contrôle de l expression des gènes. 1. L ARN messager. La maturation de l ARNm peut être contrôlée qualitativement, par le splicing interactif chez les eucaryotes. Le contrôle peut aussi être quantitatif, par la vitesse de maturation. Une centaine de paires de base d ADN La protéine se fixe sur une site en amont Gène ARN polymérase II et complexe de transcription L exportation des ARNm peut être contrôlée. En effet, seulement la moitié des messagers produits sont exportés. La durée de vie des ARNm est elle aussi contrôlée. De même pour la durée de vie des protéines, par exemple pour les armadillo. 2. Comment reconnaît-on un promoteur? On reconnaît un promoteur en faisant des mutagenèses. Par exemple, pour la TATA box. En abscisse nous avons la position des nucléotides. En ordonnée, nous avons l intensité de la transcription pour chacun des nucléotides si il est muté. Certaines mutations ne changent pas l intensité de transcription. D autres la diminue. Une diminution de l intensité permet d identifier la boîte CAT par exemple. 103

MUTATIONS ET PHENOTYPES I. Les mutations. La variabilité du matériel génétique est le moteur de l évolution. Cette variabilité dépend des mutations. 1. Définition. Une mutation est tout changement qui affecte la séquence des nucléotides. Cela peut être un simple changement de base, ou des remaniements chromosomiques, ou encore une diminution du nombre de chromosomes. Une mutation est une modification du matériel génétique. Ce n est du ni à la ségrégation, ni à la combinaison. La ségrégation est un réassortiment des chromosomes au cours de la division cellulaire. Cette modification brusque et héréditaire est quelque chose qui se produit dans une cellule. Elle se transmet aux cellules filles issues de multiplication et de division cellulaires. 2. Mécanismes moléculaires. Il se crée quelques erreurs au moment de la réplication. L ADN n est pas chimiquement neutre. Il est donc soumis à des lésions spontanées. Les bases de type puriques sont hydrolysées. Pour faire face aux lésions spontanées et celles dues aux mutagènes, il existe des mécanismes de réparation. En dépit de l existence de mécanismes de réparations multiples, sophistiqués et efficaces, des altérations du matériel génétique se produisent. 104

3. Les lésions et les mutations. a : Les lésions. Lorsqu il y a une erreur durant la réplication, c est souvent l incorporation d un G en face d un T. Il y a donc un mauvais appariement. L évènement de réplication est plus loin : en face du G se trouve un C, et en face du T nous avons un A. Nous obtenons alors trois brins d ADN parfaits et 1 qui possède une erreur, il a été changé : c est une mutation. Au départ c est une lésion, car c est un mauvais appariement qui entraîne un défaut dans la structure de l ADN. Après la réplication, l ADN est normal, mais il possède un brin muté. ATGGTC TACCAG ATGXTC TACGAG ATGATC TACTAG ATGGTC TACTAG ATGATC TACTAG ATGATC TACTAG ATGATC TACTAG ATGXTC TACTAG ATGXTC TACGAG ATGATC TACTAG ATGCTC TACGAG ATGATC TACTAG ATGATC TACTAG ATGATC TACTAG Un autre exemple, une base X est transformée chimiquement, donc il y a une lésion de la double hélice, qui entraîne une déformation. Après la réplication, en face du X nous avons une base, par exemple G, et un évènement de réplication. Plus loin, nous avons un changement de séquence. Un brin est alors lésé, un autre muté et les deux derniers sont normaux. 105

b : Différence entre lésion et mutation. Une lésion s accompagne d une déformation de la double hélice. Elle n est pas héréditaire, c'est-à-dire qu elle n est pas nécessairement transmise aux cellules filles. Une mutation n entraîne pas de déformation et elle est normalement transmise aux cellules filles. A chaque mutation est associée un nouvel allèle. II. Les mutations ponctuelles. Les mutations ponctuelles sont les changements d une paire de base. 1. Les substitutions. Pour les substitutions de bases, la transition est différente de la transversion. La transition : GC devient AT. Il y a transfert, appariement, une purine est remplacée par une purine et une pyrimidine est remplacée par une autre pyrimidine. La transversion : GC devient CG ou AT. 2. Autres mutations. Mutation ponctuelle Insertion Délétion Inversion 106

III. Conséquences des mutations. 1. Au niveau de l expression des gènes. Tout dépend de la région dans laquelle se produit la mutation : - dans une région intergénique, la mutation n aura aucun effet. - dans une région génique, il y a plusieurs cas. Si elle se produit dans une région régulatrice : il peut y avoir une surexpression, une sous-expression ou encore une absence d expression du gène concerné. Ectopique veut dire «pas au bon endroit». Par exemple, au lieu d être exprimé dans le foie, le gène est exprimé dans le rein. Ectopique veut aussi dire «pas au bon moment». Par exemple, au cours du développement. Si elle touche une région codante : la mutation est silencieuse ou neutre ( elle n a pas d effet ), une mutation faux-sens, une mutation non-sens ou encore un décalage du cadre de lecture. Les conséquences peuvent être extrêmement différentes. Intergénique Sans effet Sans effet Région Régulatrice Surexpression Sousexpression Expression ectopique Génique Mutation silencieuse Mutation neutre Sans effet Codante Mutation faux-sens Mutation non-sens Décalage du cadre de lecture Produit absent, non fonctionnel, disfonctionnel ou mal localisé 107

2. Au niveau de la fonction protéique. Les mutations silencieuses : un changement de la séquence d ADN, qui ne se traduit pas par un changement d acide aminé. 1 4 7 10 13 16 19 ATG GGA GCT CTA TTA ACC TAA met gly ala leu leu thr stop ATG GGA GCT CTA TTG ACC TAA leu Une mutation non-sens fait apparaître un codon stop. 1 4 7 10 13 16 19 ATG GGA GCT CTA TTA ACC TAA met gly ala leu leu thr stop ATG GGA GCT CTA TGA ACC TAA stop Une mutation neutre entraîne un changement d ADN, mais pas un changement fonctionnel de l acide aminé. 1 4 7 10 13 16 ATG GGA GCT TTA ACC TAA met gly ala leu thr stop ATG AGA GCT TTA ACC TAA arg ATG GGA GCT TTT ACC TAA phe 108

3. Au niveau de l individu. Les conséquences des mutations peuvent être identifiées au niveau des individus. Les mutations dans les cellules somatiques sont transmises aux cellules filles par division cellulaire. Le phénotype peut être de type cancer. Dans l immense majorité des cas, la mutation est sans conséquences, mais il n y a pas de transmission aux générations suivantes. Les mutations dans les cellules germinales sont transmises, ou non, aux générations suivantes. Le phénotype ne change que si la mutation est dominante, ou s il s agit d une mutation portée par le chromosome X et révélé chez les hommes. 4. Relation entre mutation et phénotype. Les relations entre mutation et phénotype n ont aucunes règles générales : tout est possible. Il n y a pas de relations entre l importance d un changement moléculaire et la gravité du phénotype. Quand une mutation modifie tous les caractères visibles, on parle d effet pleïotropique de la mutation. IV. Polymorphisme. 1. Polymorphisme morphologique. Si on applique cette définition du polymorphisme à la génétique : le polymorphisme est la possibilité d existence de plusieurs variants pour un caractère génétique. Il existe plusieurs niveaux d analyse du polymorphisme. Le plus étudié est le polymorphisme de morphologie. Mais ce n est pas le reflet direct de l action de différents allèles : la morphologie dépend de l environnement. 109

Par exemple, une même plante poussera différemment selon les milieux où elle se trouve. C est donc une question de régulation de l expression des gènes. 2. Polymorphisme protéique. Ce niveau est plus direct que le précédent, car les protéines sont les produits de l expression des gènes. Il existe plusieurs techniques d analyse, comme l immunodétection si on possède des anticorps spécifiques des différentes protéines, produites par les différents allèles. C est de cette façon qu on identifie les groupes sanguins. On peut aussi utiliser l électrophorèse, qui permet de distinguer les différents variants, pour l hémoglobine par exemple. Ou encore, on peut tester l activité enzymatique, qui peut être : présente, absente ou variable ( variation de la vitesse de la réaction ). Mais cette méthode n est appliquée que si les protéines étudiées sont des enzymes. 3. Polymorphisme des acides nucléiques. C est le niveau ultime : le niveau des acides nucléiques. Nous sommes alors sûrs de ne pas être trompés par l environnement. l analyse la plus complète se fait en comparant des séquences. On ne systématise pas encore le séquençage du génome des individus. 110

V. Techniques d analyse. 1. Le RFLP. Si on comparait le génome de deux individus, il y a environ une différence tous les 100 nucléotides, quelque soit l origine des individus. Mais ces chiffres n ont pas été vérifiés. On se contente donc d analyser par digestion des enzymes de restriction : c est la technique du RFLP ( Restriction Fragment Length Polymorphism ). On coupe la même région par EcoRI dans toute une famille. Ici, on ne considère pas la présence d un gène : on parle d allèle, car il y a des différences entre les nucléotides. 2. Exemple. Il y a 2 possibilités d allèles : les allèles 2 et 3 sont coupés au niveau de 3 sites, la coupure centrale diffère. Il y a eu deux modifications : une pour enlever un site et l autre pour en replacer un autre. L allèle 4 ne possède que 2 sites de coupure. Allèle 2 Allèle 3 Allèle 4 Sonde La sonde spécifique utilisée est complémentaire : elle peut s hybrider au brin. Après digestion, l allèle 2 est un fragment moyen, l allèle 3 est un fragment court et l allèle 4 est un long fragment. 1 2 13 14 2 2 1 2 2 2 2 3 3 12 1 2 4 5 6 7 8 9 10 11 2 3 2 3 2 2 2 2 2 3 2 2 1 2 2 3 1 2 111

En pratique : - on sépare l ADN des différentes personnes. on procède aux coupures par EcoRI. on fait migrer les fragments sur gel. Plus les bandes obtenues sont petites, plus elles migreront loin. 3. Conclusion. Toute la génétique est basée sur l analyse des séquences. On approche la fonction d un gène par ses dysfonctionnements : c est une logique un peu spéciale. Le gène «white» par exemple, est responsable d une pigmentation rouge. L analyse génétique utilise les mutagenèses, qui provoquent des mutation au hasard. On sélectionne ensuite les mutants par le crible génétique. 112

Techniques 113

CLONAGE ET VECTEUR DE CLONAGE I. Principe. 1. L ADN recombinant. On récupère un fragment d ADN, qui est extrait de l organisme donneur. Il sera coupé en différents fragments, qui contiennent 1 ou 2 fragments d intérêt. Pour pouvoir travailler sur l ADN, il faut amplifier le fragment voulu. Pour cela, on l insère dans un vecteur. Ce vecteur est capable de se répliquer de façon autonome, au sein d une bactérie par exemple. On insère un fragment d ADN dans un vecteur : c est alors de l ADN recombinant, car il possède une partie donneur et une partie vecteur. Cela permet aux fragments d ADN de se répliquer, car seuls ils ne le pourraient pas. 114

2. Exemple avec l utilisation d un vecteur plasmidique. Le plasmide est inséré dans une cellule bactérienne. Les bactéries vont se multiplier. Ainsi que les plasmides dans chacune des bactéries. On obtient alors plusieurs milliers de molécules d ADN : c est une quantité suffisante pour travailler dessus. II. La technique du clonage. 1. Comment obtenir l ADN de l organisme donneur? Taille du génome Nombre de gènes Homme / souris 3 000 Mb 30 000 Nématode 97 Mb 20 000 Drosophile 160 Mb 14 000 S. cerevisiae 12 Mb 6 200 La taille du génome est nettement plus grande que le nombre de gènes. Les informations portées sont différentes entre l ADN génomique et l ADN complémentaire. 115

a : ADN génomique. Une lignée de cellules est maintenue à disposition au laboratoire. On obtient une culture primaire en mettant des cellules de foie en culture, chez qui nous récupérons l ADN génomique. L ADN génomique se retrouve dans toutes les cellules de l organisme. b : ADN complémentaire. L ADN complémentaire est obtenu à partir d ARN : l ARN est différent pour chaque type cellulaire. Il existe différents ARN : les ARN ribosomaux, les ARN de transfert et les ARN messagers. Les ARN messagers possèdent une queue polya après maturation. On utilise alors un primer oligodt, formé de plusieurs T, qui va se fixer sur la queue polya par complémentarité. On fait ensuite agir une enzyme : la reverse transcriptase. Cette enzyme se fixe à l oligodt, puis il retranscrit l ARN. Elle forme au bout de l ARN, une boucle en épingle à cheveux. L ARN est dégradé. Pour que la polymérase puisse agir, il faut qu elle aie une structure double brin. Elle va donc utiliser l épingle à cheveux. On obtient alors de l ADN double brin, avec un brin identique à celui de l ARN. Enfin, on fait agir la nucléase S1 qui détruit l épingle à cheveux. 116

c : Quelles informations portent ces ADN? On retrouve chez l ADN génomique : les régions codantes et les régions non codantes ( promotrices et régulatrices ). Les séquences peuvent être répétées ou non : leur pourcentage varie selon les espèces. L ADN complémentaire possède les régions codantes et les régions 5 et 3 non traduites. 2. Les fragments d ADN utilisés. a : Comment sélectionner le fragment d ADN voulu? Pour choisir le matériel de départ, il faut faire la différence entre eucaryotes et procaryotes. En effet, les procaryotes n ont pas d introns : donc on peut utiliser l ADN génomique ou le complémentaire, c est la même chose. On utilisera l ADN génomique, car c est le plus simple à obtenir. 117

Chez les eucaryotes, il y a les introns. Il n y a plus de choix, l ADN est déterminé par la molécule que l on souhaite étudier. Si on veut étudier la synthèse d une protéine, on va utiliser l ADN complémentaire. Le fragment d ADN doit être orienté de la bonne façon : la queue polya se trouve en 3 de l ARN, c est une indication d orientation. b : Qu est-ce qu une enzyme de restriction? Origine et fonction des enzymes. Nous avons besoin de couper l ADN en fragments : on va utiliser des enzymes de restriction. On trouve ces enzymes chez les bactéries. Les bactéries les utilisent comme moyen de protection contre l ADN étranger. L ADN bactérien est donc insensible à ses propres enzymes : soit au moyen de méthylations, qui empêchent l action enzymatique, soit par l absence de sites de restrictions utilisés par les enzymes. Pour utiliser ces enzymes, nous avons pu cloner les gènes qui les codent. Nous avons donc à disposition dans les laboratoires, de solutions d enzymes pures. 118

Les sites de restriction. Les sites de restriction sont des séquences inversées répétées. Par exemple, pour EcoR1 : l enzyme va couper l ADN au niveau de sa séquence. Il existe différentes façons de découper les sites : - EcoR1 va créer une extrémité 5 qui est sortante : «5 sortant». - Pst1 va créer un «5 rentrant». - Sma1 va couper au milieu de la séquence : ce sont des bouts francs. Il existe donc 3 types de sites de restriction. On a établit des tables où sont indiquées les enzymes de restriction et leurs sites correspondants. 119

3. Comment l ADN d intérêt et le vecteur sont-ils liés? On peut stabiliser la liaison entre le vecteur et le fragment choisit. Pour cela, on utilise la ligase qui permet la formation de liaisons covalentes entre deux molécules, en formant des ponts phosphate. a : Les enzymes à bout francs. Lorsque nous avons deux enzymes à bout franc, on peut cloner les deux fragments ensemble. Après religation, on peut obtenir : Les orientation doivent correspondrent : une extrémité 3 colle à une 5. Les deux enzymes ne peuvent plus couper la séquence obtenue. On a bien religué, mais on a perdu par la même occasion les deux sites enzymatiques. b : Les enzymes à bouts entrant et sortant. On peut aussi utiliser des extrémités cohésives compatibles : deux extrémité cohésives sont compatibles lorsque les brins sont complémentaires. III. Les vecteurs de clonage. 1. Insertion d un fragment d ADN dans le vecteur. Il faut être capable de visualiser les fragments obtenus. Pour cela, on utilise un gel d agarose, où sont déposés les fragments. Durant l électrophorèse, plus les fragments sont grands, moins vite ils migreront. On obtient alors un Smir d ADN : tous les fragments possibles et imaginables sont présents. 120

On peut établir une carte des restrictions. Elle va aider à trouver le fragment voulu. Pour purifier ce fragment, il suffit de découper sur le gel le fragment voulu. A peut recoller les fragments dans le vecteur, avec le même principe des extrémité cohésives. Taille max. approximative d un fragment qui peut être cloné dans un vecteur : Type de vecteur Plasmide Phage lambda Cosmide Phage P1 BAC ( bacterial artificial chromosome ) YAC ( yeast artificial chromosome ) ADN cloné en kb 20 25 45 100 300 1 000 121

2. Quels sont les vecteurs de clonage? a : Les poly linker. Il existe différents types de vecteurs de clonage. Ils ont certaines propriétés qui leur permettent d être des vecteurs. Ils sont capables de réplication autonome, car ils possèdent une origine de réplication. Ils ont un poly linker, un site multiple de clonage : c est une séquence où l on trouve beaucoup de sites de restriction, facilement utilisable par les enzymes. Cela permet aussi d insérer plusieurs fragments dans un même vecteur. Plus il y a de sites pour les enzymes de restriction sur un poly linker, plus on augmente le nombre de fragments insérés. b : Choix du vecteur utilisé. La taille du fragment renseigne sur le vecteur que l on doit utiliser. Pour un vecteur plasmidique, on peut aller jusqu à 20 kilobases : techniquement c est possible, mais c est plutôt compliqué. 122

Les plasmides. On utilise plus souvent les plasmides : c est une molécule d ADN double brin, circulaire et de petite taille. C est une sorte de chromosome miniature capable de réplication autonome, qui possède un site de résistance aux antibiotiques. Le site ORI est son origine de réplication. Les phages. 123

Les Yacs. 3. Les cellules hôtes. Les cellules hôtes sont en général des bactéries ou des procaryotes. mais on peut aussi parfois utiliser des procaryotes, comme les levures. a : Comment l ADN recombinant est introduit dans une cellule hôte? Il faut perméabiliser la paroi bactérienne pour pouvoir faciliter l entrée de l ADN. Pour cela, on traite les bactéries avec un choc de froid : on les lave à l eau froide, ce qui les rend électrocompétantes. On les soumet ensuite à un choc électrique pour faire entrer le vecteur, on peut aussi utiliser un choc thermique. On utilise plus fréquemment le choc électrique pour les eucaryotes. 124

b : Comment l ADN se reproduit dans la cellule hôte? Dans notre exemple, c est le fragment 2 que l on va insérer. Mais il peut y avoir d autres molécules que celle voulue : - plusieurs fragments 2 sont accolés et se liguent dans le vecteur. - le fragment 2 se religue sur lui-même. - le vecteur se referme sans avoir inséré de fragment. - les fragments 1 et 3 se liguent au vecteur et le linéarise. Vecteur digéré par enzyme 1 fragment d intérêt d ADN digéré par enzyme 1 ajout ligase, qui lie de façon covalente les différents fragments d ADN compatibles 125

C est un mélange de toutes ces possibilités qui sera inséré dans la cellule. Les fragments d ADN ne sont pas gênants car ils ne peuvent pas se répliquer. De plus, tout ce qui n a pas de résistance aux antibiotique est éliminé. Il ne reste alors que deux choses : le vecteur seul, ou le vecteur qui a inséré le fragment 2. 4. La détection des clones intéressants. 126

IV. Les intérêts du clonage : exemple de l insuline. L intérêt du clonage est la production de protéines, à partir de vecteur d expression. On clone les ADN complémentaires qui codent pour les chaînes A et B. Puis on sélectionne les clones positifs. Les bactéries sont ensuite mises en culture : elles vont produire les chaînes A et B. Les protéines sont sécrétées dans le milieu de culture, où il sera facile à récupérer. Pour qu il y ait une sécrétion, on va fusionner les ADN complémentaires avec des signaux de sécrétion propres à la bactérie. Suite à la culture, on a produit des protéines de fusion. Par un traitement chimique, on clive le signal de sécrétion de la protéine d intérêt. Après ce clivage, on obtient la chaîne A dans un cas, et la chaîne B dans un autre. A partir de là, il faut maturer la protéine pour obtenir les structures tertiaires et quaternaires. Pour cela, on forme les ponts disulfure entre les chaînes A et B. C est seulement après cela que la protéine sera active. Il faut avoir une idée précise de la configuration tertiaire et quaternaire de la protéine d intérêt pour pouvoir la synthétiser, de l existence ou non de modifications post-traductionnelles, qui vont modifier l activité de la protéine. Le problème des bactéries est que ce sont des organismes procaryotes, qui ne font pas de modifications post-traductionnelles. On va donc utiliser des levures si la protéine a besoin de modifications pour être active. 127

LES BANQUES D ADN I. Comment sélectionner le fragment d ADN voulu? On va s intéresser aux banques d ADN complémentaires. Pour isoler 1 gramme d intérêt, il faut isoler la région codante, pour récupérer l ADN de départ. Il faut identifier le fragment d ADN que l on possède : notamment les exons qui codent pour notre protéine d intérêt. Quand on veut sélectionner un fragment d intérêt et qu au départ nous avons un fragment d ADN : - si celui-ci est une séquence régulatrice : on fait un criblage d ADN génomique, puis un criblage d ADN complémentaire. - si c est une séquence codante : on crible directement une banque d ADN complémentaire. II. Les différentes banques. 1. Les banques d ADN génomiques. a : Principe. Si nous avons besoin des séquences régulatrices, il faut identifier le fragment d ADN qui permet la régulation d un gène. On utilisera ce fragment comme sonde. E1 E2 E3 Vecteur Fragment = ADNc sonde Insert de la banque Puis on fait le criblage de banques d ADN génomique. Le criblage est la sélection des clones de la banque en utilisant une sonde. 128

b : Taille des différentes banques. Calcul afin de définir la probabilité de trouver une séquence donnée dans une banque : P = 1 ( 1 f ) N Où f est fonction de la taille du génome, de sa complexité et de la taille du fragment donné. N est le nombre de colonies. Cette formule n est valable que si la taille du fragment «x» à isoler est petite, en comparaison de la taille du fragment «l», qui est cloné dans le vecteur de clonage. Si ce n est pas le cas, il faut utiliser une valeur corrigée : f = f. ( 1 x/l ) Source d ADN Taille moyenne des fragments d ADN clonés P = 0,90 P = 0,95 P = 0,99 E. Coli 8,5. 10 6 720 940 1 440 Yeast 1. 10 7 2 300 3 000 4 600 Drosophile 1. 10 7 23 000 30 000 46 000 2. Les banques d ADN complémentaires. Le passage par les banques phagiques. Le phage se multiplie en utilisant des bactéries. Les phages sont des virus qui ont besoin d une cellule hôte pour se multiplier. Chaque plage de lyse correspond à un clone d ADN recombinant. Chez E. Coli, il faut qu on ait 1 440 clones, donc nous avons besoin de 1 440 phages de lyse. Un clone d ADN correspond à une plage de lyse avec fixation d ADN, devenu simple brin après traitement. Une sonde est de l ADN double brin qui, traité, devient simple brin. La sonde vient se fixer à certains clones d ADNc. La membrane à la propriété de fixer l ADN. La sonde est en excès, il y a donc une réhybridation de la sonde, qui n est pas gênante. Après hybridation, il y a complémentarité pour les deux brins. 129

Criblage d une banque d ADN complémentaire. Avec les clones obtenus, on va cribler avec une banque d ADN complémentaire. 130

III. Une technique de sélection de clones : la PCR. La PCr, ou Polymérase Chain Reaction. C est une technique de répétition de cycles. 1. Interêt. Chercher à repérer un gène particulier dans un génome entier, qui en contient jusqu à des centaines de milliers, c est un peu comme cherche une aiguille dans une meule de foin La technique du PCR permet de réaliser cet exploit en multipliant spécifiquement le segment d ADN d intérêt, aussi appelé ADN cible. Les utilisations sont très nombreuses. Les utilisations analytiques : - l analyse qualitative de la présence, taille ou séquence de fragment d ARN ou d ADN. - l analyse quantitative est plus difficile. - c est une aide au clonage en s affranchissant des limites imposées par les enzyme de restriction. - c est une alternative à l emploi des banques d ADN. Les utilisations technologiques : par la création de mutants, grâce à l utilisation d oligonucléotides dégénérés. 2. L amplification de séquences d ADN. L objectif est d amplifier in vitro une séquence choisie de l ADN, en tirant parti du mode normal de synthèse de l ADN in vivo. C est une répétition de cycles, qui comprend plusieurs phases : - la dénaturation : tous les brins d ADN sont dissociés par la chaleur. - l hybridation des amorces sur un fragment d ADN. - l extension : synthèse des brins à partir des amorces hybridées. 131

L extension se fait avec une polymérase thermostable, la Taq polymérase. Cette polymérase est purifiée à partir d une bactérie qui vit à des températures très élevées. Elle polymérise donc à très haute température. Toutes ces étapes se font dans un seul tube. La dénaturation se fait à plus de 90 C, généralement à 95 C. La température d hybridation dépend des Tm des amorces. Tm est la température de fusion : elle dépend de la longueur des amorces et de leur composition en A, C, T et G. L extension se fait à 72 C car la polymérase agit à cette température. La Tm ne doit pas être trop élevé, car sinon, on risque d avoir une polymérisation en même temps. Mais il ne faut pas qu il soit trop bas, car sinon nous aurons des hybridation non spécifiques. 132

IV. La détection des acides nucléiques. 1. Interêt. La détection des acides nucléiques permettent entre autres choses : la détermination de l organisation génomique, la recherche de fragments d ADN, la détermination de la taille, l étude de l expression des gènes de façon qualitative et quantitative. La détection se fait par hybridation : c est une reconnaissance moléculaire due à la complémentarité. L hybridation est spécifique entre la sonde et sa cible. Elle a lieu en présence d un large excès de molécules similaires, mais non identiques. 133

Les hybrides obtenus sont des complexes sonde/cible. Ils peuvent être de différentes natures : ADN / ADN, ADN / ARN, ARNsens / ARNanti-sens. 2. La dénaturation et la renaturation. a : L ADN. La double hélice d ADN est associée par des forces non covalentes, qui peuvent être dissociées par une augmentation de la température ou du ph. Pour qu il puisse y avoir une séparation des brins, par rupture des liaisons hydrogènes, la température doit être supérieure au Tm et le ph supérieur à 12. Il y a donc dénaturation de l ADN double brins de séquences différentes, puis réassociation spécifique, dans des conditions favorables de température et de ph. Nous obtenons alors l hybridation des ADN simple brin pour former les homoduplex originels. b : L ARN. Les ARN possèdent, hormis la structure primaire qui rend compte de la séquence nucléotidique, deux autres structures appelées secondaire et tertiaire. La structure secondaire rend compte des motifs créés après appariement de type Watson-Crick des bases. C'est-à-dire la formation de paires G-C et A-U, bien que l appariement faible G-U soit aussi commun. Il y a alors formation des doubles hélices, des «tige-boucles» plus communément appelées «épingles à cheveux», des boucles internes, des coudes, La structure tertiaire est l interaction des motifs secondaires sur des courtes et longues distances. La dénaturation de ses structures permettent l hybridation. 134

3. L hybridation des acides nucléiques et leur détection. Les températures d hybridation et de lavage doivent favoriser et conserver l association de la sonde sur sa cible. Mais elles doivent aussi défavoriser les mésappariements de la sonde avec une séquence homologue. L hybridation dépend donc du Tm ( température de fusion ) de la sonde, de la concentration en sel et de la présence de formamide. 4. Tm de l ADN. a : Définition. Un fragment d ADN de séquence donnée à une Tm qui correspond à la température où 50 % des fragments sont sous forme simple brin. La Tm dépend de la longueur du fragment d ADN, de sa composition en bases et de la présence de certains ions dans le milieu. 135

b : Estimation. Avec une DO. Il existe plusieurs façons d évaluer la Tm ( en C ). On peut faire une mesure DO 260 nm en fonctionde la température. Avec la composition en nucléotides. On peut aussi l estimer à partir de la composition de l oligonucléotide : - pour un oligonucléotide inférieur à 20 nt : 2. ( A + T ) + 4. ( G + C ) - pour un oligonucléotide supérieur à 20 nt : [ 2. ( A + T ) + 4. ( G + C ) ]. [ 1 ( N 20 ) / 20 ] 136