Forces agissant sur le polymorphisme synonyme et la composition en bases dans les génomes d angiospermes Yves Clément, Jacques David & Sylvain Glémin Journées ARCAD 28/10/2014
Outline Sélection sur l usage du code et conversion génique biaisée vers GC Données et méthodes Un exemple détaillé : le cacao Résultats globaux
Sélection sur l usage du code et conversion génique biaisée vers GC
Sélection sur l usage du code (SCU) less efficient translation Histidine (H) CAT CAC translation more efficient translation SCU codon usage Preferred codon Unpreferred codon expression expression UnPref à Pref >> Pref à UnPref
Conversion génique biaisée vers GC (gbgc) Biais de fixation de AT vers GC Nécessite positions hétérozygotes Processus neutre gbgc GC-content AT à GC >> GC à AT
Données et méthodes
Détection de SNPs Individus sauvages uniquement Filtres : Pas de gaps, tous chromosomes génotypés, SNPs bi-alléliques État ancestral par parcimonie population Allèle ancestral, nombre d allèles ancestraux (DAN) G A A G A A Espèces autogames : tirage aléatoire d allèles au préalable Déficit de positions hétérozygotes 15000 à 268000 SNPs par espèce allèle dérivé allèle ancestral A G G G C T
Annotation des SNPs gbgc : GC à AT AT à GC MWU test histidine: Contig CAT CAC RPKM 1 0.3 0.7 10 2 0.2 0.8 12 X 0.6 0.4 5 usage du code expression Unpreferred NS Preferred UnPref à Pref Preferred NS Unpreferred Pref à UnPref
Spectre de fréquence 2 neutre GC à AT / Pref à UnPref AT à AT / UnPref à UnPref GC à GC / Pref à Pref % de SNPs AT à GC / UnPref à Pref 1 # d allèles dérivés
Analyse du spectre de fréquence Spectre: affecté par la sélection/gbgc ET la démographie è Adaptation de la méthode de Eyre-Walker et al. (2006) / ML # de SNP en fréquence i/n: distribution Poisson(µ): ATß à AT et GCß à GC ATà GC GCà AT µ neutral = 4N e vlr i i 1 µ AT GC (i) = 2N e ul(1 p GC )r i C i n x i (1 x) n i H(b, x) dx 0 Intensité de Biais mutationnel la sélection/ 1 µ GC AT (i) = 2N e λulp GC r i C i n x i (1 x) n i H( b,x) dx gbgc 0 Correction démographique è Estimation par ML
Prise en compte des erreurs d orientation Inclure l erreur dans le modèle d estimation Exemple µ neutral = (1 e) 4N e vlr i i + e 4N e vlr n i n i Trois taux d erreur: neutre, ATà GC et GCà AT
Correction démographique et d orientation erreur d orientation % de SNPs 50 40 30 20 10 0 effets démographiques 1 2 3 4 5 6 7 8 9 # d allèles dérivés erreur d orientation : SNP avec DAN incorrect Effets démographiques : affecte # de SNPs dans chaque DAN
Exemple de résultats : le cacao
Spectre de fréquence chez le cacao : SNPs synonymes % de SNPs 30 25 20 15 10 SNPs synonymes (gbgc) neutres AT->GC GC->AT Exces de SNPs avec nombre élevé d allèles dérivés = gbgc? 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés
Estimation de la force de la SCU et de la gbgc gbgc SCU ln(l) modèle 0-212.501-212.312 ln(l) modèle 1-205.919-203.045 p-value 0.0003 < 0.0001 B 0.48 0.607 modèle sans gbgc/scu modèle avec gbgc/scu LRT La gbgc et la SCU sont actifs chez le cacao?
Préférence des codons et GC AA codon AA codon AA codon AA codon AA codon AA codon L A TTA CGT TCT ACT GAT AAT D N TTG CGC TCC ACC GAC AAC T CTT CGA TCA ACA GAA CAA R S E Q CTC CGG TCG ACG GAG CAG CTA AGA AGT GTT TTT TAT F Y CTG AGG AGC GTC TTC TAC V GCT GCT CCT GTA CAT ATT H GCC GGC CCC GTG CAC I ATC G P GCA GGA CCA TGT AAA ATA C K GCG GGG CCG TGC AAG La majorité des codons préférés (27/35) se terminent par G ou C Effets confondants de la gbgc et de la SCU
Modèles imbriqués (1) neutres Pref à UnPref UnPref à Pref neutres 668 655 749 GC à AT 2196 3573 63 AT à GC 2275 46 3749 % de SNPs 50 40 30 20 10 0 50 40 50 30 40 20 10 1 2 3 4 5 6 730 8 9 20 0 # d allèles dérivés 10 0 1 2 3 4 5 6 7 8 9 % de SNPs # d allèles dérivés % de SNPs % de SNPs % de SNPs 50 40 30 20 10 0 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 # d allèles dérivés # d allèles dérivés 1 2 3 4 5 6 7 8 9 # d allèles dérivés
Modèles imbriqués (2) 1 modèle avec gbgc 3 modèle de base gbgc + SCU 2 modèle avec SCU 4 1 2 3 4 p-value 0.0002 0.0168 0.595 0.0035 B 0.481 0.365 0.07 0.441 Signal pour la gbgc, pas pour la SCU
Résultats globaux
Résultats globaux Nom commun Nom d espèce Groupe Reprod GC3 SCU gbgc Café Coffea canephora Eudicot Allogame 0.42 No Yes Olivier Olea europaea Eudicot Allogame 0.42 No No Cacao Theobroma cacao Eudicot Allogame 0.42 No Yes Vigne Vitis vinifera Eudicot Allogame 0.44 No No Tomate Solanum lycopersicum Eudicot Autogame 0.38 No No Riz Oryza glaberrima Monocot Autogame 0.56 No Yes (<0) Engrain Triticum monococcum Monocot Autogame 0.48 No No Igname Dioscorea rotundata Monocot Allogame 0.46 No Yes (?) Palmier Eleais guineensis Monocot Allogame 0.49 No Yes Banane Musa acuminata Monocot Allogame 0.52 Yes (?) Yes (?) Mil Pennisetum glaucum Monocot Allogame 0.53 No Yes
Résultats globaux Quasiment aucun de signal pour de la sélection sur l usage du code chez les plantes Signal pour de la gbgc à la fois chez des monocots GCriches (palmier, banane, mil) et des eudicots GC-pauvres (café, cacao) Pas de signal de gbgc chez les organismes autogames Déficit de positions hétérozygotes Baisse de l intensité récente ou absence prolongée?
1 diploid cell crossover non-crossover gbgc double strand break GC-content gene conversion ATà GC >> GCà AT 4 haploid cells (sperm, egg)
Espèces étudiées Nom commun Nom d espèce Groupe Reprod GC3 Café Coffea canephora Eudicot Allogame 0.42 Olivier Olea europaea Eudicot Allogame 0.42 Cacao Theobroma cacao Eudicot Allogame 0.42 Vigne Vitis vinifera Eudicot Allogame 0.44 Tomate Solanum lycopersicum Eudicot Autogame 0.38 Riz Oryza glaberrima Monocot Autogame 0.56 Engrain Triticum monococcum Monocot Autogame 0.48 Igname Dioscorea rotundata Monocot Allogame 0.46 Palmier Eleais guineensis Monocot Allogame 0.49 Banane Musa acuminata Monocot Allogame 0.52 Mil Pennisetum glaucum Monocot Allogame 0.53 diploïdes et sauvages
Données 10 individus + 2 individus outgroups RNA-seq Assemblage de novo Filtres ORF, paralogues Alignements Contigs alignés, 2 chromosomes par individu 4000 à 16000 par espèce
Problème de l orientation des SNPs Simulation de l erreur d orientation
Problème de l orientation des SNPs Simulation de l erreur d orientation
Essai de résolution du problème Simulation de l erreur d orientation et correction
Contrôler pour les effets de la gbgc ou de la SCU neutres Pref à UnPref UnPref à Pref neutres 3332 524 448 Effets de la SCU uniquement GC à AT 1008 15189 0 AT à GC 806 0 11054 Effets de la gbgc uniquement gene expressio n low high weak strong weak strong gene expressio n low high strong strong weak weak gbgc low high GC-content SCU low high GC-content
Contrôler pour les effets de la gbgc ou de la SCU gbgc SCU ln(l) model 0-166.406-154.588 ln(l) model 1-166.404-154.141 p-value 0.95 0.35 B 0.0214 0.4543 gene expression high 0.3199 0.3414 * low 0.0292 0.7973 * gene expression high 0.1740 0.3912 low -0.1389 0.8718 * gbgc low high GC-content SCU low high GC-content
Exemple de résultats dans d autres espèces
Structure de population chez la banane Banane ESPS8.B ESPS8.A ESPS3.B ESPS7.A ESPS3.A ESPS6.A ESPS6.B ESPS7.B ESPS5.A ESPS2.A ESPS2.B ESPS4.B ESPS4.A ESPS10.B ESPS9.A ESPS9.B ESPS10.A ESPS1.B ESPS5.B ESPS1.A Séquences sauvages
Structure de population chez l igname 35 Igname % de SNPs 30 25 20 15 10 5 ESPS7.B ESPS8.A ESPS8.B ESPS10.A ESPS10.B ESPS7.A ESPS9.A ESPS9.B ESPS6.B ESPS6.A ESPS4.A ESPS5.B ESPS5.A ESPS4.B ESPS2.B ESPS3.B ESPS1.B 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés ESPS1.A ESPS3.A ESPS2.A Séquences sauvages Problème supplémentaire : outgroup trop distant
Structure de population chez l igname cultivé ESPC2.A ESPC5.A ESPC7.B ESPC5.B ESPC7.A ESPC8.A ESPC9.B ESPC8.B ESPC9.A ESPC10.A Igname ESPC10.B ESPC6.B ESPC4.B ESPC3.B ESPC4.A ESPC6.A ESPC3.A ESPC2.B ESPS4.B ESPS3.A ESPS1.A ESPS3.B ESPS1.B G A A G A A SP1 ESPS7.A ESPS7.B ESPS8.A ESPS9.A ESPS9.B ESPS10.A ESPS8.B ESPS10.B ESPS6.B ESPS6.A ESPS2.A ESPS2.B ESPS5.A ESPS4.A ESPS5.B sauvage SP1 sauvage SP2 Toutes séquences
Structure de population chez le palmier 35 Palmier % de SNPs 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés ESPS9.A ESPS9.B ESPS3.B ESPS4.A ESPS3.A ESPS4.B ESPS10.A ESPS2.B ESPS1.B ESPS1.A ESPS10.B ESPS2.A ESPS5.B ESPS6.B ESPS5.A ESPS6.A ESPS8.B ESPS7.B ESPS8.A ESPS7.A Séquences sauvages Problème supplémentaire : outgroup trop distant
Structure de population chez le palmier Palmier ESPS9.A ESPS9.B ESPS10.B ESPS10.A ESPS2.B ESPS1.A ESPS2.A ESPS1.B ESPS3.B ESPS4.A ESPS4.B ESPS3.A ESPC8.B ESPC10.B ESPC9.A ESPC10.A ESPC9.B ESPC7.A ESPC7.B ESPC1.B ESPC2.A ESPC1.A ESPC4.B ESPC3.A ESPC8.A ESPC4.A ESPC2.B ESPC3.B ESPC5.A ESPC5.B ESPC6.B ESPC6.A ESPS6.B ESPS5.A ESPS5.B ESPS6.A ESPS8.B ESPS7.B ESPS8.A ESPS7.A G A A G SP1 A Toutes séquences
Baisse récente de l intensité de la gbgc chez les autogames population G G G G Divergenc e Polymorphism e GC à AT + AT à GC + NI = P AT!GC/P GC!AT D AT!GC /D GC!AT A A Nom commun gbgc log(ni) Olivier No -0.1089 Vigne No -0.3764 Tomate No 0.1418 Riz Yes (<0) -0.2874 Engrain No -0.2561
Discussion
Définition des codons préférés AA L A codo n AA codo n AA codo n AA codo n AA codo n AA codo n TTA CGT TCT ACT GAT AAT D N TTG CGC TCC ACC GAC AAC T CTT CGA TCA ACA GAA CAA R S E Q CTC CGG TCG ACG GAG CAG CTA AGA AGT GTT TTT TAT F Y CTG AGG AGC GTC TTC TAC V GCT GGT CCT GTA CAT ATT H GCC GGC CCC GTG CAC I ATC G P GCA GGA CCA TGT AAA ATA C K GCG GGG CCG TGC AAG
Définition des codons préférés GC3 à problème? expression Autres tables de codons préférés (Laurana Serres-Giardi) à pas de changement freq = 0 + 1 GC 3 + 2 log(expression) + u à pas de changement
Détection d absence ou absence de détection? Absence logique de gbgc chez les autogames : déficit de positions hétérozygotes Absence de détection SCU chez (presque) toutes les espèces étudiées : Absence réelle de SCU Effets confondants de la gbgc et de la SCU (banane) Effets trop faibles pour être détectés (gbgc > SCU, données)
Fréquence moyenne des codons préférés et expression
Conclusions
Conclusion Données de polymorphisme dans des organismes nonmodèles Sélection sur l usage du code beaucoup moins active qu attendue Conversion génique biaisée vers GC beaucoup plus active et répandue qu attendue
Modèles imbriqués chez le cacao neutres Pref à UnPref UnPref à Pref neutres 668 655 749 GC à AT 2196 3573 63 AT à GC 2275 46 3749 gbgc SCU ln(l) model 0-212.501-212.312 ln(l) model 1-205.919-203.045 p-value 0.0003 < 0.0001 B 0.48 0.607 1 2 3 4 p-value 0.0002 0.0168 0.595 0.0035 B 0.481 0.365 0.07 0.441 modèle de base 1 2 modèle avec gbgc modèle avec SCU 3 4 gbgc + SCU