Forces agissant sur le polymorphisme synonyme et la composition en bases dans les génomes d angiospermes



Documents pareils
Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Bases de données des mutations

Génétique et génomique Pierre Martin

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Identification de nouveaux membres dans des familles d'interleukines

PARTIE I Compte pour 75 %

Exercices de génétique classique partie II

Fiche technique Schneider

Fiche technique. 1) Pour faire tourner le moteur en avant ou en arrière (deux straps)... 2

Isolement et Diversité Génétique des Dugongs de Nouvelle Calédonie

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Résistance du virus de l hépatite C aux nouveaux traitements anti-viraux

Contrôle de l'expression génétique :

Au-delà du coalescent : quels modèles pour expliquer la di

UNIVERSITE MONTPELLIER II

Bases moléculaires des mutations Marc Jeanpierre

Les débuts de la génétique

Univers Vivant Révision. Notions STE

Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle

Feuille d exercices 2 : Espaces probabilisés

Gènes Diffusion - EPIC 2010

1 les caractères des êtres humains.

Préleveur d'échantillons d eau automatique ELECTRO-MAGNUM /AQUAMAX 1 & 2 / SERVOTOP

Unité 2 Leçon 2 Les permutations et les combinaisons

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

IGEA Patrimoine FCP agréé par l AMF

08/07/2015

Par Akoété Ega AGBODJI FASEG/Université de Lomé

Variables Aléatoires. Chapitre 2

BACCALAURÉAT GÉNÉRAL

I. La levure Saccharomyces cerevisiae: mode de vie

Traits fonctionnels : concepts et caractérisation exemples des prairies Marie-Laure Navas, Eric Garnier, Cyrille Violle, Equipe ECOPAR

Optimisation des ressources des produits automobile première

CAHIER DES CHARGES GESTION DES STOCKS

Série HarmonicGuard Application Omnibus Filtre Harmonique Actif. Démarrage Rapide Configuration du Logiciel de l unité

FACTEURS INFLUENÇANT LA QUALITÉ DU CAFÉ-BOISSON 1 - CAFÉ 2 - TORRÉFACTION 3 - CONSERVATION 4 - EAU 5 - MOUTURE 6 - DOSAGE 7 - TYPE DE PRÉPARATION

Que faire lorsqu on considère plusieurs variables en même temps?

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Bases de données et outils bioinformatiques utiles en génétique

MABioVis. Bio-informatique et la

Baromètre Union des Maisons Françaises

INF6304 Interfaces Intelligentes

Introduc)on à Ensembl/ Biomart : Par)e pra)que

STI2D : Enseignements Technologiques Transversaux

Génomique Comparative et intégrative

REPERTOIRE DES INTERPRETATIONS DE LA CCT DU SECTEUR SANITAIRE PARAPUBLIC VAUDOIS ETAT au

Polymorphismes génétiques et interactions gènes-environnement 4545

un environnement économique et politique

Master 2 Recherche Biologie Géosciences Agroressources Environnement Parcours Biodiversité Écologie Évolution Dounia SALEH

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

La production de Semences potagères

Compte-rendu Réunion de constitution du collectif retraites de Rennes 6 mai 2010

Rapport S 1.5 «Taux d'intérêt en EUR»

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Introduction à l approche bootstrap

Chapitre 2 - Complexité des relations entre génotype et phénotype

Les bases de données transcriptionnelles en ligne

THESE DOCTEUR EN BIOLOGIE. BASES MOLECULAIRES DE LA VARIATION CLONALE CHEZ LA VIGNE (Vitis vinifera L.)

Une application des algorithmes génétiques à l ordonnancement d atelier

République de Côte d Ivoire NOTE D INFORMATION UN INSTRUMENT PROFESSIONNEL AU CŒUR DU DEVELOPPEMENT AGRICOLE ET DES FILIERES DE PRODUCTION

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Faciliter la transition de la guérison à la palliation en favorisant la communication entourant le choix de soins 16 avril e congrès du Réseau

LE MONITORING DE LA BIODIVERSITE EN SUISSE. Hervé LETHIER, EMC2I

Analyse des données de séquençage massif par des méthodes phylogénétiques

Caractéristiques techniques

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

PRÉSENTATION DU PROGRAMME 2014

CONGRES INTERNATIONAL SUR L ASSURANCE ET LA RÉASSURANCE DES RISQUES AGRICOLES. Partenariat Public Privé dans l Assurance Agricole

SERVICES DE SEQUENÇAGE

LA TRANSMISSION DES CARACTÈRES

Hedge funds: des faiblesses dans la gestion des risques

Standard du Commerce Equitable Fairtrade. les organisations de petits producteurs

4. Verdissement, une PAC plus verte

Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

L Assurance agricole au Sénégal

RECOMMANDATION DU CONSEIL SUR LES BONNES PRATIQUES POUR AMELIORER LA SENSIBILISATION AUX RISQUES ET L'EDUCATION SUR LES QUESTIONS D'ASSURANCE

CBBC Canadian Business & Biodiversity Council

Manuel d utilisation. Système d alarme sans fil avec transmetteur téléphonique. Réf. : AL-800. En cas de problèmes

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Mesure agnostique de la qualité des images.

Hedging delta et gamma neutre d un option digitale

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Institut National de la Statistique - Annuaire Statistique du Cameroun Chapitre 26 : LE CAMEROUN DANS LA ZONE CEMAC

La recherche d'indices par fluorescence

Vecteurs. I Translation. 1. Définition :

Corrigé du baccalauréat S Asie 21 juin 2010

Lignes directrices sur les modalités des interventions en prêt et en capital de la SOGEPA

Épreuve E7 Session Institutionnelle de Lancement de la rénovation du BTSA Aquaculture

COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR

Altivar 11. Guide d exploitation User s manual Bedienungsanleitung Guía de explotación Guida all impiego //////

Transcription:

Forces agissant sur le polymorphisme synonyme et la composition en bases dans les génomes d angiospermes Yves Clément, Jacques David & Sylvain Glémin Journées ARCAD 28/10/2014

Outline Sélection sur l usage du code et conversion génique biaisée vers GC Données et méthodes Un exemple détaillé : le cacao Résultats globaux

Sélection sur l usage du code et conversion génique biaisée vers GC

Sélection sur l usage du code (SCU) less efficient translation Histidine (H) CAT CAC translation more efficient translation SCU codon usage Preferred codon Unpreferred codon expression expression UnPref à Pref >> Pref à UnPref

Conversion génique biaisée vers GC (gbgc) Biais de fixation de AT vers GC Nécessite positions hétérozygotes Processus neutre gbgc GC-content AT à GC >> GC à AT

Données et méthodes

Détection de SNPs Individus sauvages uniquement Filtres : Pas de gaps, tous chromosomes génotypés, SNPs bi-alléliques État ancestral par parcimonie population Allèle ancestral, nombre d allèles ancestraux (DAN) G A A G A A Espèces autogames : tirage aléatoire d allèles au préalable Déficit de positions hétérozygotes 15000 à 268000 SNPs par espèce allèle dérivé allèle ancestral A G G G C T

Annotation des SNPs gbgc : GC à AT AT à GC MWU test histidine: Contig CAT CAC RPKM 1 0.3 0.7 10 2 0.2 0.8 12 X 0.6 0.4 5 usage du code expression Unpreferred NS Preferred UnPref à Pref Preferred NS Unpreferred Pref à UnPref

Spectre de fréquence 2 neutre GC à AT / Pref à UnPref AT à AT / UnPref à UnPref GC à GC / Pref à Pref % de SNPs AT à GC / UnPref à Pref 1 # d allèles dérivés

Analyse du spectre de fréquence Spectre: affecté par la sélection/gbgc ET la démographie è Adaptation de la méthode de Eyre-Walker et al. (2006) / ML # de SNP en fréquence i/n: distribution Poisson(µ): ATß à AT et GCß à GC ATà GC GCà AT µ neutral = 4N e vlr i i 1 µ AT GC (i) = 2N e ul(1 p GC )r i C i n x i (1 x) n i H(b, x) dx 0 Intensité de Biais mutationnel la sélection/ 1 µ GC AT (i) = 2N e λulp GC r i C i n x i (1 x) n i H( b,x) dx gbgc 0 Correction démographique è Estimation par ML

Prise en compte des erreurs d orientation Inclure l erreur dans le modèle d estimation Exemple µ neutral = (1 e) 4N e vlr i i + e 4N e vlr n i n i Trois taux d erreur: neutre, ATà GC et GCà AT

Correction démographique et d orientation erreur d orientation % de SNPs 50 40 30 20 10 0 effets démographiques 1 2 3 4 5 6 7 8 9 # d allèles dérivés erreur d orientation : SNP avec DAN incorrect Effets démographiques : affecte # de SNPs dans chaque DAN

Exemple de résultats : le cacao

Spectre de fréquence chez le cacao : SNPs synonymes % de SNPs 30 25 20 15 10 SNPs synonymes (gbgc) neutres AT->GC GC->AT Exces de SNPs avec nombre élevé d allèles dérivés = gbgc? 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés

Estimation de la force de la SCU et de la gbgc gbgc SCU ln(l) modèle 0-212.501-212.312 ln(l) modèle 1-205.919-203.045 p-value 0.0003 < 0.0001 B 0.48 0.607 modèle sans gbgc/scu modèle avec gbgc/scu LRT La gbgc et la SCU sont actifs chez le cacao?

Préférence des codons et GC AA codon AA codon AA codon AA codon AA codon AA codon L A TTA CGT TCT ACT GAT AAT D N TTG CGC TCC ACC GAC AAC T CTT CGA TCA ACA GAA CAA R S E Q CTC CGG TCG ACG GAG CAG CTA AGA AGT GTT TTT TAT F Y CTG AGG AGC GTC TTC TAC V GCT GCT CCT GTA CAT ATT H GCC GGC CCC GTG CAC I ATC G P GCA GGA CCA TGT AAA ATA C K GCG GGG CCG TGC AAG La majorité des codons préférés (27/35) se terminent par G ou C Effets confondants de la gbgc et de la SCU

Modèles imbriqués (1) neutres Pref à UnPref UnPref à Pref neutres 668 655 749 GC à AT 2196 3573 63 AT à GC 2275 46 3749 % de SNPs 50 40 30 20 10 0 50 40 50 30 40 20 10 1 2 3 4 5 6 730 8 9 20 0 # d allèles dérivés 10 0 1 2 3 4 5 6 7 8 9 % de SNPs # d allèles dérivés % de SNPs % de SNPs % de SNPs 50 40 30 20 10 0 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 # d allèles dérivés # d allèles dérivés 1 2 3 4 5 6 7 8 9 # d allèles dérivés

Modèles imbriqués (2) 1 modèle avec gbgc 3 modèle de base gbgc + SCU 2 modèle avec SCU 4 1 2 3 4 p-value 0.0002 0.0168 0.595 0.0035 B 0.481 0.365 0.07 0.441 Signal pour la gbgc, pas pour la SCU

Résultats globaux

Résultats globaux Nom commun Nom d espèce Groupe Reprod GC3 SCU gbgc Café Coffea canephora Eudicot Allogame 0.42 No Yes Olivier Olea europaea Eudicot Allogame 0.42 No No Cacao Theobroma cacao Eudicot Allogame 0.42 No Yes Vigne Vitis vinifera Eudicot Allogame 0.44 No No Tomate Solanum lycopersicum Eudicot Autogame 0.38 No No Riz Oryza glaberrima Monocot Autogame 0.56 No Yes (<0) Engrain Triticum monococcum Monocot Autogame 0.48 No No Igname Dioscorea rotundata Monocot Allogame 0.46 No Yes (?) Palmier Eleais guineensis Monocot Allogame 0.49 No Yes Banane Musa acuminata Monocot Allogame 0.52 Yes (?) Yes (?) Mil Pennisetum glaucum Monocot Allogame 0.53 No Yes

Résultats globaux Quasiment aucun de signal pour de la sélection sur l usage du code chez les plantes Signal pour de la gbgc à la fois chez des monocots GCriches (palmier, banane, mil) et des eudicots GC-pauvres (café, cacao) Pas de signal de gbgc chez les organismes autogames Déficit de positions hétérozygotes Baisse de l intensité récente ou absence prolongée?

1 diploid cell crossover non-crossover gbgc double strand break GC-content gene conversion ATà GC >> GCà AT 4 haploid cells (sperm, egg)

Espèces étudiées Nom commun Nom d espèce Groupe Reprod GC3 Café Coffea canephora Eudicot Allogame 0.42 Olivier Olea europaea Eudicot Allogame 0.42 Cacao Theobroma cacao Eudicot Allogame 0.42 Vigne Vitis vinifera Eudicot Allogame 0.44 Tomate Solanum lycopersicum Eudicot Autogame 0.38 Riz Oryza glaberrima Monocot Autogame 0.56 Engrain Triticum monococcum Monocot Autogame 0.48 Igname Dioscorea rotundata Monocot Allogame 0.46 Palmier Eleais guineensis Monocot Allogame 0.49 Banane Musa acuminata Monocot Allogame 0.52 Mil Pennisetum glaucum Monocot Allogame 0.53 diploïdes et sauvages

Données 10 individus + 2 individus outgroups RNA-seq Assemblage de novo Filtres ORF, paralogues Alignements Contigs alignés, 2 chromosomes par individu 4000 à 16000 par espèce

Problème de l orientation des SNPs Simulation de l erreur d orientation

Problème de l orientation des SNPs Simulation de l erreur d orientation

Essai de résolution du problème Simulation de l erreur d orientation et correction

Contrôler pour les effets de la gbgc ou de la SCU neutres Pref à UnPref UnPref à Pref neutres 3332 524 448 Effets de la SCU uniquement GC à AT 1008 15189 0 AT à GC 806 0 11054 Effets de la gbgc uniquement gene expressio n low high weak strong weak strong gene expressio n low high strong strong weak weak gbgc low high GC-content SCU low high GC-content

Contrôler pour les effets de la gbgc ou de la SCU gbgc SCU ln(l) model 0-166.406-154.588 ln(l) model 1-166.404-154.141 p-value 0.95 0.35 B 0.0214 0.4543 gene expression high 0.3199 0.3414 * low 0.0292 0.7973 * gene expression high 0.1740 0.3912 low -0.1389 0.8718 * gbgc low high GC-content SCU low high GC-content

Exemple de résultats dans d autres espèces

Structure de population chez la banane Banane ESPS8.B ESPS8.A ESPS3.B ESPS7.A ESPS3.A ESPS6.A ESPS6.B ESPS7.B ESPS5.A ESPS2.A ESPS2.B ESPS4.B ESPS4.A ESPS10.B ESPS9.A ESPS9.B ESPS10.A ESPS1.B ESPS5.B ESPS1.A Séquences sauvages

Structure de population chez l igname 35 Igname % de SNPs 30 25 20 15 10 5 ESPS7.B ESPS8.A ESPS8.B ESPS10.A ESPS10.B ESPS7.A ESPS9.A ESPS9.B ESPS6.B ESPS6.A ESPS4.A ESPS5.B ESPS5.A ESPS4.B ESPS2.B ESPS3.B ESPS1.B 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés ESPS1.A ESPS3.A ESPS2.A Séquences sauvages Problème supplémentaire : outgroup trop distant

Structure de population chez l igname cultivé ESPC2.A ESPC5.A ESPC7.B ESPC5.B ESPC7.A ESPC8.A ESPC9.B ESPC8.B ESPC9.A ESPC10.A Igname ESPC10.B ESPC6.B ESPC4.B ESPC3.B ESPC4.A ESPC6.A ESPC3.A ESPC2.B ESPS4.B ESPS3.A ESPS1.A ESPS3.B ESPS1.B G A A G A A SP1 ESPS7.A ESPS7.B ESPS8.A ESPS9.A ESPS9.B ESPS10.A ESPS8.B ESPS10.B ESPS6.B ESPS6.A ESPS2.A ESPS2.B ESPS5.A ESPS4.A ESPS5.B sauvage SP1 sauvage SP2 Toutes séquences

Structure de population chez le palmier 35 Palmier % de SNPs 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 # d allèles dérivés ESPS9.A ESPS9.B ESPS3.B ESPS4.A ESPS3.A ESPS4.B ESPS10.A ESPS2.B ESPS1.B ESPS1.A ESPS10.B ESPS2.A ESPS5.B ESPS6.B ESPS5.A ESPS6.A ESPS8.B ESPS7.B ESPS8.A ESPS7.A Séquences sauvages Problème supplémentaire : outgroup trop distant

Structure de population chez le palmier Palmier ESPS9.A ESPS9.B ESPS10.B ESPS10.A ESPS2.B ESPS1.A ESPS2.A ESPS1.B ESPS3.B ESPS4.A ESPS4.B ESPS3.A ESPC8.B ESPC10.B ESPC9.A ESPC10.A ESPC9.B ESPC7.A ESPC7.B ESPC1.B ESPC2.A ESPC1.A ESPC4.B ESPC3.A ESPC8.A ESPC4.A ESPC2.B ESPC3.B ESPC5.A ESPC5.B ESPC6.B ESPC6.A ESPS6.B ESPS5.A ESPS5.B ESPS6.A ESPS8.B ESPS7.B ESPS8.A ESPS7.A G A A G SP1 A Toutes séquences

Baisse récente de l intensité de la gbgc chez les autogames population G G G G Divergenc e Polymorphism e GC à AT + AT à GC + NI = P AT!GC/P GC!AT D AT!GC /D GC!AT A A Nom commun gbgc log(ni) Olivier No -0.1089 Vigne No -0.3764 Tomate No 0.1418 Riz Yes (<0) -0.2874 Engrain No -0.2561

Discussion

Définition des codons préférés AA L A codo n AA codo n AA codo n AA codo n AA codo n AA codo n TTA CGT TCT ACT GAT AAT D N TTG CGC TCC ACC GAC AAC T CTT CGA TCA ACA GAA CAA R S E Q CTC CGG TCG ACG GAG CAG CTA AGA AGT GTT TTT TAT F Y CTG AGG AGC GTC TTC TAC V GCT GGT CCT GTA CAT ATT H GCC GGC CCC GTG CAC I ATC G P GCA GGA CCA TGT AAA ATA C K GCG GGG CCG TGC AAG

Définition des codons préférés GC3 à problème? expression Autres tables de codons préférés (Laurana Serres-Giardi) à pas de changement freq = 0 + 1 GC 3 + 2 log(expression) + u à pas de changement

Détection d absence ou absence de détection? Absence logique de gbgc chez les autogames : déficit de positions hétérozygotes Absence de détection SCU chez (presque) toutes les espèces étudiées : Absence réelle de SCU Effets confondants de la gbgc et de la SCU (banane) Effets trop faibles pour être détectés (gbgc > SCU, données)

Fréquence moyenne des codons préférés et expression

Conclusions

Conclusion Données de polymorphisme dans des organismes nonmodèles Sélection sur l usage du code beaucoup moins active qu attendue Conversion génique biaisée vers GC beaucoup plus active et répandue qu attendue

Modèles imbriqués chez le cacao neutres Pref à UnPref UnPref à Pref neutres 668 655 749 GC à AT 2196 3573 63 AT à GC 2275 46 3749 gbgc SCU ln(l) model 0-212.501-212.312 ln(l) model 1-205.919-203.045 p-value 0.0003 < 0.0001 B 0.48 0.607 1 2 3 4 p-value 0.0002 0.0168 0.595 0.0035 B 0.481 0.365 0.07 0.441 modèle de base 1 2 modèle avec gbgc modèle avec SCU 3 4 gbgc + SCU