Chapitre 7 Organisation et évolution des génomes Enseignant : Benoit Nabholz benoit.nabholz@univ-montp2.fr Année 2014-15
I. Architecture des génomes I.1 Le génomes des métazoaires I.2 Le génomes des Eubactéries II. Les composants du génome II.1 Séquences codantes et introns II.2 Comment naissent les gènes? II.3 Éléments répétés II.4 Chromosomes sexuels Année 2014-15
I. Architecture des génomes Année 2014-15
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Francis Collins Craig Venter International Human Genome Sequencing Consortium 2001 Nature Venter et al. 2001 Science Séquence du génome humain en Février 2001 +10 ans de travail, plusieurs milliards de dollars
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Figure 1 : Composition du génome humain ADN intergenique 68 % 45 % Transposons Introns ADN noncodant fonct. 31 % 2-5 % 5'UTR 2% 3'UTR 1% CDS Pseudogenes 1% ~1 % Pourcentage Note : les pourcentages ne sommes pas à 1 car les transposons, pseudogène et ADN noncodant fonctionnel peuvent être localisés dans les introns ou les régions intergénique.
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Figure 1 : Composition du génome humain ADN intergenique 68 % 45 % Transposons Introns ADN noncodant fonct. 31 % 2-5 % 5'UTR 2% 3'UTR 1% CDS Pseudogenes 1% ~1 % Pourcentage Le génome humain contient ~22 à 24 000 gènes codants pour des protéines (appelé CDS pour Coding DNA Sequence) Longueur moyenne d'un CDS = 1 300pb (soit un total de ~29*10⁶ pb) = simplement 1 % du génome!
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Figure 1 : Composition du génome humain ADN intergenique 68 % 45 % Transposons Introns ADN noncodant fonct. 31 % 2-5 % 5'UTR 2% 3'UTR 1% CDS Pseudogenes 1% ~1 % Pourcentage La majorité de l'adn du génome humain est constitué de séquences non-codantes apparemment sans fonction (~90%)
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Tableau 1 : Comparaison de la taille des génomes entre espèces d'animaux Kilobase Taille du génome (MB) Nombre de gènes (CDS) Densité en gènes (Kb/gène) CDS ADN non-codant Caenorhabditis elegans 100 21 200 4,73 1,25 3,48 Drosophila melanogaster 137 16 000 8,56 1,66 6,90 Fugu rubripes 365 31 000 9,61 0,93 8,68 Gallus gallus 1 050 21 500 48,84 1,44 47,40 Mus musculus 2 500 24 000 83,33 1,30 82,03 Homo sapiens 2 900 24 000 96,67 1,33 95,36 Loxodonta africana 4 700 > 20 000 159,57?? Ambystoma mexicanum >30 000???? MB = Megabase, 10⁶ pb ; Kb = Kilobase, 1 000 pb ; CDS = Coding DNA Sequence
I. Architecture des génomes I.1 Taille des génomes et complexité des organismes Tableau 1 : Comparaison de la taille des génomes entre espèces d'animaux Kilobase Taille du génome (MB) Nombre de gènes (CDS) Densité en gènes (Kb/gène) CDS ADN non-codant Caenorhabditis elegans 100 21 200 4,73 1,25 3,48 Drosophila melanogaster 137 16 000 8,56 1,66 6,90 Fugu rubripes 365 31 000 9,61 0,93 8,68 Gallus gallus 1 050 21 500 48,84 1,44 47,40 Mus musculus 2 500 24 000 83,33 1,30 82,03 Homo sapiens 2 900 24 000 96,67 1,33 95,36 Loxodonta africana 4 700 > 20 000 159,57?? Ambystoma mexicanum >30 000???? Les génomes sont de tailles extrêmement variables entre espèces Cette variation n'est pas liée aux séquences codantes
I. Architecture des génomes Figure 2 : Taille et composition de quelque génomes de Métazoaire 6% Aedes aegypti Culex quinquefasciatus Anopheles gambiae Zea mays Utricularia gibba 47 % 1 400 5% 29 % 580 150 Ma de divergence 2% 16 % 285 2% 85 % 3 200 45 % 2% 77 Quantité d'adn en Millions de paires de bases (MB) CDS Transposons Total
I. Architecture des génomes Figure 2 : Taille et composition de quelque génomes de Métazoaire 6% Aedes aegypti Culex quinquefasciatus Anopheles gambiae Zea mays Utricularia gibba 47 % 1 400 5% 29 % 580 2% 16 % 285 2% 85 % 3 200 45 % 2% 77 Quantité d'adn en Millions de paires de bases (MB) CDS Transposons Total
100 000 paires de bases Forward Reverse Caenorhabditis 100 000 paires de bases Transcrit alternatif Forward Homo Exons
Chap V : Introduction à l'évolution moléculaire V. Estimer la pression de sélection V.3 Identification de séquence fonctionnelles dans les génomes
I. Architecture des génomes A l'échelle des métazoaires : I. La taille des génomes est très variable, même entre espèces «proches», sans relation avec la biologie des espèces
I. Architecture des génomes A l'échelle des métazoaires : I. La taille des génomes est très variable, même entre espèces «proches», sans relation avec la biologie des espèces II. Il n'y a pas de relation entre la taille du génome et la quantité de séquences codantes (CDS) (= nombre de protéines)
I. Architecture des génomes A l'échelle des métazoaires : I. La taille des génomes est très variable, même entre espèces «proches», sans relation avec la biologie des espèces II. Il n'y a pas de relation entre la taille du génome et la quantité de séquences codantes (CDS) (= nombre de protéines) III. Il y a une relation entre la taille des génomes et quantité de transposons (~45 % chez l'homme, 85 % chez le maïs). Dans les grands génomes, les CDS sont négligeables (~1-2 %).
I. Architecture des génomes Les génomes bactériens sont essentiellement constitué de séquences codantes. Il y a une bonne corrélation entre la taille des génomes et le nombre de gènes. Ils sont dépourvues d'introns (ou uniquement avec des introns de groupe II auto-épissage, pas de splicéosome) et sont beaucoup plus compact (y compris moins de CDS) TRADUCTION Coiffe ARN Procaryotes TRADUCTION Eucaryotes
Quantité d'adn (10⁶ pb) Séquence codante CDS ADN introniques Taille du génome (10⁶ pb) ADN intergéniques Eucaryote unicellulaire Virus Figure 3 : Contribution des CDS, introns et ADN intergéniques dans la taille totale des génomes Taille du génome (10⁶ pb)
II. Composants du génome Année 2014-15
II. Composants du génome II.1 Exons et introns
II. Composants du génome II.1 Exons et introns Bien que tous les eucaryotes produisent des protéines de tailles similaires, la taille des séquences introniques et le nombres d'introns est extrêmement variables. Chez l'homme : 7,7 exons par protéines avec une taille moyennes de 150pb. Chez Caenorhabditis : 5,2 exons de 120pb en moyenne
II. Composants du génome II.1 Exons et introns Bien que tous les eucaryotes produisent des protéines de tailles similaires, la taille des séquences introniques et le nombres d'introns est extrêmement variables. Chez l'homme : 7,7 exons par protéines avec une taille moyennes de 150pb. Chez Caenorhabditis : 5,2 exons de 120pb en moyenne % d'exons Longueurs (pb)
II. Composants du génome II.1 Exons et introns Bien que tous les eucaryotes produisent des protéines de tailles similaires, la taille des séquences introniques et le nombres d'introns est extrêmement variables. Chez l'homme : 7,7 exons par protéines avec une taille moyennes de 150pb. Chez Caenorhabditis : 5,2 exons de 120pb en moyenne En moyenne chez l'homme, >50 % des CDS ont des transcripts alternatifs (2,6 transcripts alternatifs). Contre simplement 20 % chez Drosophila ou Caenorhabditis. Il y a donc beaucoup plus de protéines que de gènes. Isoforme 1 épissage 1 épissage 2 Isoforme 2
II. Composants du génome II.1 Exons et introns Bien que tous les eucaryotes produisent des protéines de tailles similaires, la taille des séquences introniques et le nombres d'introns est extrêmement variables. Chez l'homme : 7,7 exons par protéines avec une taille moyennes de 150pb. Chez Caenorhabditis : 5,2 exons de 120pb en moyenne En moyenne chez l'homme, >50 % des CDS ont des transcripts alternatifs (2,6 transcripts alternatifs). Contre simplement 20 % chez Drosophila ou Caenorhabditis. Il y a donc beaucoup plus de protéines que de gènes. La fonction des transcripts alternatifs n'est pas toujours claire et il est possible qu'une forte proportion soient tous simplement du «bruit transcriptionnel» sans fonction.
II. Composants du génome II.2 Comment naissent les gènes?
II. Composants du génome II.2 Comment naissent les gènes? La plupart des nouveaux gènes apparaissent par duplication Deux processus à l'oeuvre : 1. Duplication complète du génome («Whole génome duplication») 2. Crossing-over inégaux (duplication segmentale)
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Duplication complète du génome chez les Vertébrés 1 dupl. 2 duplications
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Amphioxus Lamproie Copie1 Homme Copie1 Poulet Copie1 Orthologue : Gènes homologues issues d'un ancêtre commun Homme Copie2 Poulet Copie2 Lamproie Copie2 Homme Copie3 Poulet Copie3 Duplication Homme Copie4 Poulet Copie4 Figure 8 : Phylogénie hypothétique d'un gène chez les Vertébrés
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Amphioxus Lamproie Copie1 Homme Copie1 Poulet Copie1 Orthologue : Gènes homologues issues d'un ancêtre commun Homme Copie2 Poulet Copie2 Lamproie Copie2 Homme Copie3 Poulet Copie3 Duplication Paralogue: Gènes homologues issues d'une duplication Homme Copie4 Poulet Copie4 Figure 8 : Phylogénie hypothétique d'un gène chez les Vertébrés
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Figure 4 : Représentation d'un génome hypothétique subissant 2 duplications. A) 20 gènes ancestraux B) Première duplication C) Perte de gènes (Speudogénisation) D) Deuxième duplication E) Perte de gènes (Speudogénisation)
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Figure 4 : Représentation d'un génome hypothétique subissant 2 duplications. A) 20 gènes ancestraux B) Première duplication C) Perte de gènes (Pseudogénisation) D) Deuxième duplication E) Perte de gènes (Pseudogénisation) Le nombre de paralogues est différent selon les familles de gènes Les paralogues sont présent sur des chromosomes différents
II. Composants du génome II.2 Comment naissent les gènes? II.2.1 Duplication complète du génome Figure 5 : Les paralogues du complexe Hox chez l'homme : Une trace de la double duplication du génome au cours de l'histoire des Vertébrés Le nombre de paralogues est différent selon les familles de gènes Les paralogues sont présent sur des chromosomes différents
II. Composants du génome II.2 Comment naissent les gènes? II.2.2 Crossing-over inégal
II. Composants du génome II.2 Comment naissent les gènes? II.2.2 Crossing-over inégal Éléments répétés Crossing-over inégal
II. Composants du génome II.2 Comment naissent les gènes? II.2.2 Crossing-over inégal Éléments répétés Crossing-over inégal Duplication Délétion
Chap7 : Organisation des génomes II. Composants du génome II.2 Comment naissent les gènes? II.2.2 Crossing-over inégal Gène Crossing-over inégal Duplication Délétion
II. Composants du génome II.2 Comment naissent les gènes? II.2.3 Le devenir d'une duplication Le devenir d'une duplication 1. Perte de fonction : Pseudogènisation 2. Neofonctionnalisation : Acquisition d'une nouvelle fonction par une copie alors que la fonction ancestrale est toujours assuré 3. Subfonctionnalisation : La fonction ancestrale est assuré par les 2 copies
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Pseudogénisation Gène simple copie Mutation délétère Eliminée par la sélection naturelle Conservation du gène et de sa fonction
II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Pseudogénisation Gène simple copie Gène double copies Mutation délétère Eliminée par la sélection naturelle Pas d effet = peut se fixer par hasard (dérive) dérive Conservation du gène et de sa fonction Dégénérescence d une copie Eliminée par la sélection naturelle Conservation d une copie intacte
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Pseudogénisation C'est le devenir le plus probable des duplications Dans le génome humain, il y a autant de pseudogène que de gènes fonctionnels (~1 %)
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Néo-fonctionnalisation Gène double copies Mutation avantageuse Nouvelle fonction Ancienne fonction
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Néo-fonctionnalisation C'est le mécanisme le plus fréquent de formation de nouveau gènes Exemple : la Vision tri-chromatique chez les Primates Catarhiniens
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? la Vision tri-chromatique chez les Primates Exemple de néo-fonctionnalisation Strepsirrhini (Lémuriens, Galago) Platyrrhiniens (Singe du nouveau mond) Haplorrhini Catarhiniens (Singe du l'ancien monde) Vision tri-chromatique permisse par la présence de 3 opsines différentes
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? la Vision tri-chromatique chez les Primates Exemple de néo-fonctionnalisation Catarhiniens (Singe du l'ancien monde) Opsine encodée par autosome Opsines encodées par chromosome X
II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? la Vision tri-chromatique chez les Primates Exemple de néo-fonctionnalisation Catarhiniens LW : long wave MW : Medium wave Platyrrhiniens Hunt et al. 1998
II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? la Vision tri-chromatique chez les Primates Exemple de néo-fonctionnalisation Catarhiniens LW : long wave MW : Medium wave Duplication Paralogues Platyrrhiniens Hunt et al. 1998
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? la Vision tri-chromatique chez les Primates Exemple de néo-fonctionnalisation Catarhiniens LW : long wave MW : Medium wave Platyrrhiniens Duplication Singe hurleur (Alouatta) Hunt et al. 1998
Chap5 : II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Sub-fonctionnalisation Duplication Dégénérescence : mutation délétère Complémentation Bilan: conservation des deux copies
II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Danio rerio Tétrapodes Danio rerio Éléments régulateur de l'expression Sub-fonctionnalisation du gène engrailed chez les Téléostéens
II.2.3 Le devenir d'une duplication II.2 Comment naissent les gènes? Danio rerio Tétrapodes Danio rerio Bourgeon des nageoires pectorales Système nerveux Figure 6 : Expression de eng1 et eng1b chez le Danio Éléments régulateur de l'expression Sub-fonctionnalisation du gène engrailed chez les Téléostéens
II. Composantes II.2 Eléments répétés
II. Composantes II.2 Eléments répétés Tableau 2 : Principale classed d'éléments répétés Type Charactéristiques Rétroéléments (éléments ARN) L'élément d'origine est transcript (intermédiaire ARN) puis réverse transcript en ADN, et enfin inséré dans le génome Rétrotransposon LTR Rétroélément avec LTR Rétrotransposon non-ltr Rétroélément sans LTR DNA éléments (Transposons) Eléments qui fonstionnent sans intermédiaire ARN Réplicateur L'élément d'origine est copié au niveau de l'adn est inséré ailleurs dans le génome duplication Non-réplicateur L'élément est coupé par excision est inséré ailleurs pas de duplication *LTR : Long Terminal Repeat
II. Composantes II.2 Éléments répétés Taille # de copies non-ltr ARN LTR LTR Figure 7 : Les éléments répétés dans le génome Humain Ils représentes environs ~45 % du génomes et une forte proportion est constituées de transposons ancestraux inactifs Fraction du génome (%)
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, LINE (Long INterspersed Element) 5' promoteur RT ED AAAAA 3' Transcription Traduction de l'ed ARN RT : Reverse transcriptase ED : Endonucléase AAAAA
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, LINE (Long INterspersed Element) 5' promoteur RT ED AAAAA 3' Transcription Traduction de l'ed ARN AAAAA Digestion du site cible 5' 3' RT : Reverse transcriptase ED : Endonucléase
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, LINE (Long INterspersed Element) 5' promoteur RT ED AAAAA 3' Transcription Traduction de l'ed ARN AAAAA Digestion du site cible 5' 3' RT : Reverse transcriptase ED : Endonucléase
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, LINE (Long INterspersed Element) 5' promoteur RT ED AAAAA 3' Transcription Traduction de l'ed ARN AAAAA TTTTT Reverse transcription 5' 3' RT : Reverse transcriptase ED : Endonucléase
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, LINE (Long INterspersed Element) promoteur RT ED AAAAA Transcription Traduction de l'ed ARN AAAAA Création d'une seconde copie AAAAA RT : Reverse transcriptase ED : Endonucléase
II. Composantes II.2 Eléments répétés Non-LTR rétrotransposons, SINE (Short INterspersed Element) Les SINE ne sont pas autonomes est utilise une parties des protéines des LINE pour se multiplier Chez l'homme, un type de SINE (Alu, 300bp) constitue la séquence répétée la plus abondante dans le génome (+1millions de copies, ~10 % du génome). Promoteur
II. Composantes II.2 Eléments répétés LTR rétrotransposons Ce sont des retrovirus endogènes (transmis horizontalement) de notre génome qui partage plusieurs protéines (reverse transcriptase) avec des retrovirus exogènes. Contrairement au non-ltr, leurs activités est assez réduite dans le génome humain LTR LTR gag RT gag protéine de capside RT : Réverse transcriptase INV : Intégrase INV
II. Composantes II.2 Eléments répétés LTR rétrotransposons Havecker et al. 2004 gag protéine de capside RT : Réverse transcriptase INV : Intégrase
II. Composantes II.2 Eléments répétés Mutation causé par les retrotransposons Insertion Insertion et deletion Cordaux & Batzer 2009 L'insertion d'un rétrotransposon est parfois associé à la délétion concomitante de la région génomique cible.
II. Composantes II.2 Eléments répétés Mutation causé par les retrotransposons Insertion Insertion et deletion Cordaux & Batzer 2009 Crossing-over inégal
II. Composantes II.2 Eléments répétés Mutation causé par les retrotransposons Crossing-over inégal Insertion Insertion et deletion Cordaux & Batzer 2009 Copie de la région flanquante
II. Composantes II.3 Les chromosomes sexuels
Chap4 : Organisation des génomes II. Composantes II.3 Les chromosomes sexuels Caryotype humain Perte de gènes sur le chromosome Y (<150 gènes contre >1000 pour le Chr X)
II. Composantes II.3 Les chromosomes sexuels PAR : Région pseudoautosomale Chr. X Chr. Y Schéma de la structure du chromosome Y Ravel C, Chantot-Bastaraud S, Siffroi J-P. 2004. Endocrinol. Reprod. 6:225 236.
II. Composantes II.3 Les chromosomes sexuels Divergence chr X / chr Y Ordre des gènes sur le chr X Skaletsky et al. 2012
II. Composantes II.3 Les chromosomes sexuels Région pseudo-autosomales Apparition gène déterminant le sexe 1ere inversion 2eme inversion 3eme inversion 4eme inversion Proto X-Y (Autosome) Formation de strates successives par inversion= blocage de la recombinaison entre X et Y Peut permettre l'accumulation d'allèles favorables au mâle (favorables à court terme)
Livres de cours : Lynch M. 2007. The Origins of Genome Architecture. Sinauer Associates. Articles scientifiques : Genome humain : Lander ES, Linton LM, Birren B, et al. 2001. Initial sequencing and analysis of the human genome. Nature 409:860 921. Venter JC, Adams MD, Myers EW, et al. 2001. The Sequence of the Human Genome. Science 291:1304 1351. Taille des génomes : Duret L, Charlat S. 2013. Eloge de l'adn poubelle. Dossier Pour la Science N 81 - Octobre - Décembre 2013 Comment naissent les gènes? Force A, Lynch M, Pickett FB, Amores A, Yan Y, Postlethwait J. 1999. Preservation of Duplicate Genes by Complementary, Degenerative Mutations. Genetics 151:1531 1545. Hunt DM, Dulai KS, Cowing JA, Julliot C, Mollon JD, Bowmaker JK, Li WH, Hewett-Emmett D. 1998. Molecular evolution of trichromacy in primates. Vision Res. 38:3299 3306. Elements répétés Cordaux R, Batzer MA. 2009. The impact of retrotransposons on human genome evolution. Nat. Rev. Genet. 10:691 703. Havecker ER, Gao X, Voytas DF. 2004. The diversity of LTR retrotransposons. Genome Biol. 5:225 225. Chromosome Y Skaletsky H, Kuroda-Kawaguchi T, Minx PJ, et al. 2003. The male-specific region of the human Y chromosome is a mosaic of discrete sequence classes. Nature 423:825 837. Année 2014-15
Chap V : Introduction à l'évolution moléculaire V. Estimer la pression de sélection V.3 Identification de séquence fonctionnelles dans les génomes Séquences fonctionnelles doivent présenter un conservation de séquence entre espèces (signature de la contrainte évolutive) plus forte que des séquences non-fonctionnelle (référentiel neutre)
Chap V : Introduction à l'évolution moléculaire V. Estimer la pression de sélection V.3 Identification de séquence fonctionnelles dans les génomes Séquences fonctionnelles doivent présenter un conservation de séquence entre espèces (signature de la contrainte évolutive) plus forte que des séquences non-fonctionnelle (référentiel neutre) On peut définir la Contrainte évolutive d'une séquence x comme : Cx = 1 divergence x / divergence neutre Séquence à évolution neutre Site synonyme et/ou pseudogène
Chap V : Introduction à l'évolution moléculaire V. Estimer la pression de sélection V.3 Identification de séquence fonctionnelles dans les génomes Identification des séquences fonctionnelles dans le génome humain par comparaison evec 28 autres espèces Référence neutre : sites synonymes 36*10⁶ pb fonctionnelles (4 % du génome) Lindblad-toh et al. 2011 Nature
Chap V : Introduction à l'évolution moléculaire V. Estimer la pression de sélection V.3 Identification de séquence fonctionnelles dans les génomes Exons NSPA4 Contrainte Régions contraintes détectées dans les introns et 5'UTR Sites de liaisons pour une répresseur de l'expression («silencer») Lindblad-toh et al. 2011 Nature