Quelques définitions Sandrine Lagarrigue et Pascale Le Roy 1 Journée Technique SYSAAF La mise en œuvre des outils de la génomique : enjeux pour le SYSAAF et ses adhérents. 03 juin 2015. Rennes
Le génome m 20 µm 6 µm Génome Identique pour toutes les cellules (ADN composé des 4 éléments A C T G) est très compacté dans le noyau des cellules Taille des Génomes Animaux d élevage de l ordre du milliard 2
Le génome m 20 µm 6 µm 4 nm locus Génome Identique pour toutes les cellules (ADN composé des 4 éléments A C T G) est très compacté dans le noyau des cellules organisé en chromosomes qui sont par paire provenant de chaque parent Un locus = une position dans le génome 2 formes : allèles Si un locus a au moins 2 allèles différents dans une population : Locus polymorphe Un individu est Homozygote si A1 A1 Un individu est Hétérozygote si A1 A2 A1 : ATCGTGTAGTGGT A2 : ATCGTGTGGTGGT 3 Le sélectionneur s intéresse aux variations entre individus et donc entre génomes!!
Génome & variations 4
Le génome et ses variations Nous ne sommes pas tous égaux génétiquement! Génome d environ 1 Milliard de nt ~1 million de variations 99,9% d identité 5
Les types de variations du génome : microsatellite SNP 90-2000s : Microsatellite : séquence répétée très polymorphe Microsatellites: répétition d un motif de 1 à 4 nt ; multiallélique A1 : AGGGCATATATATATATAGCAGCATCT (TA)6 A2 : AGGGCATATATATATATATATATAGCAGCATCT (TA)9 A3 : AGGGCATATATATATATATATATATATAGCAGCATCT (TA)11 A4 : AGGGCATATATATATAGCAGCATCT (TA)5 Locus très polymorphes mais peu fréquents dans les génomes Fin 2000s: INDEL: insertion et déletion A1: ATCGTGCTATGACGGATGACATTAT A2: ATCGTGCTATGATG---GACATTAT SNP : Single Nucleotide Polymorphism A1: ATCGTGCTATGACGGGACATTAT A2: ATCGTGCTATGATGTGACATTAT A ce jour référencés 9,5 M 114M Locus peu polymorphes (2 allèles) mais très fréquents dans les génomes (des milliers)
Avoir une séquence de référence du génome d une espèce facilite l accessibilité aux variations par Re - séquençage Espèce à génome séquencé Possibilité d accéder assez facilement aux variants d une lignée Par re-séquençage d animaux de cette lignée
Impacts des variations Sur les phénotypes d intérêt Variant neutre & non neutre 8
Variants non neutres i.e. ayant un impact sur un caractère Génome Transcrit - ARN Hormone H récepteur R Cascade d événement Facteur de transcription FT Protéines avec des activités variées Gène ARNm Métabolite 1 protéine enzyme Métabolite 2 Protéine de structure Caractère
Variants non neutres Gène Gène myostatine phénotype CULARD G A Transcrit Hormone H R récepteur Cascade d événement Facteur de transcription FT Gène ARNm Caractère Protéines avec des activités variées Métabolite 1 protéine enzyme Métabolite 2 Protéine de structure Variation de la Masse musculaire Variation de la structure De protéine Mc Pherron and Lee, PNAS 1997 10
Variants non neutres Génome Gène Igf2 masse musculaire G A Gène myostatine phénotype CULARD G A Transcrit G A Variation de quantité transcrits Igf2 Hormone H R récepteur Cascade d événement Facteur de transcription FT Gène ARNm Caractère Protéines avec des activités variées Métabolite 1 protéine enzyme Métabolite 2 Protéine de structure G A ++ - - Nezer et al., Genetics 2003 Variation de la Masse musculaire Variation de la structure De protéine Mc Pherron and Lee, PNAS 1997 11
Variations du génome et caractères G A G A Caractère Caractère Les Variants non neutres impliqués dans les variations de caractères sont «noyés» dans les variants neutres Développement d approche de génétique visant à localiser ces variants non neutres = quantitative trait locus (QTL) (voir intervention de P.Le Roy => Utilisation des locus polymorphes neutres (marqueurs) Qui doivent être très nombreux pour en avoir au moins un proche des variants non neutres => notion d haplotype et de déséquilibre de liaison
Haplotypes & Déséquilibre de liaison dans les populations
Haplotype et déséquilibre de liaison A1 / A2 + / - Un haplotype : combinaison des allèles à plusieurs locus ( Combinaison allélique caractérisant un gamète) Combien d haplotypes maximum existe-t-il dans la population??
Haplotype et déséquilibre de liaison A1 / A2 + / - Un haplotype : combinaison des allèles à plusieurs locus ( Combinaison allélique caractérisant un gamète) Combien d haplotypes maximum existe-t-il dans la population? A1 + A1 - A2 + A2 - f(a1+) = f(a1) * f(+) f(a1-) = f(a1) * f(-) f(a2+) = f(a2) * f(+) f(a2-) = f(a2) * f(-) si 2 locus à 2 allèles alors 4 haplotypes possibles équilibre gamétique (équilibre de liaison)
Haplotype et déséquilibre de liaison Cas où seulement 2 des 4 haplotypes sont observés A1 est toujours associé à + et A2 est toujours associé à - Déséquilibre gamétique ou Déséquilibre de liaison (DL) DL total dans la population A1 + A1 + A1 + A2 - A1 + A2 - A2 - A2 - A1 + A2 - le locus SAMA Informe sur le locus +/- A1 + A1 - A2 + A2 - f(a1+) = f(a1) = f(+) f(a1-) = 0 f(a2+) = 0 f(a2-) = f(a2) = f(-)
Haplotype et déséquilibre de liaison Cas où seulement 2 des 4 haplotypes sont observés A1 est toujours associé à + et A2 est toujours associé à - Déséquilibre gamétique ou Déséquilibre de liaison (DL) A1 + A2 - DL total dans la population DL dans la population A1 + A1 + A1 + A2 - A1 + A2 - A2 - A2 - A1 + A2 - le locus SAMA Informe sur le locus +/- DL diminue au cours des générations à cause de la recombinaison A1 + A1 - A1 + A2 - A1? A2? A2 + A2 - A1 - A2 + Les 4 haplotypes sont observés La recombinaison est d autant plus rare que les 2 locus sont proches => Donc Le DL est d autant mieux maintenu dans le temps que le Marqueur est proche du locus d intérêt
Méiose et recombinaison A1 A2 B1 B2 Individu à 2N chromosomes A1 A2 A1 A1 A2 B1 B2 B1 B2 B1 Méiose : -Duplication -Appariement des paires de chr. - recombinaison Gamètes à N chromosomes - 2 haplotypes recombinés - 2 haplotypes parentaux A2 B2 Le nombre (ou taux) de recombinaison (r) entre deux locus dépend de la distance qui sépare ces locus 18
Déséquilibre de liaison: évolution au cours des générations D t / D 0 = (1- r) t avec r = % de recombinaison entre deux locus (en cm) 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 r=0,01 : locus très proches r=0,1 r=0,2 r=0,5 : locus indépendants 0 20 40 60 80 100 t générations 19
Cartographie génétique et Détection de QTL par LA ou/et LD Pascale Le Roy 20
21
Séquençage des génomes et intérêts Poissons volailles AGRO CAMPUS 22 ouest
Génomes «poissons» et arbre de la vie des vertébrés 3R, 4R, 5R, 4R
Génomes «poissons» et «temps d évolution» 3R, 4R, 5R, 4R «Poissons» : Evolution sur un pas de temps très important Exemple: les deux familles auxquelles appartiennent l esturgeon et le bar ont divergées il y a environ 400 millions d années. Conséquences: leurs génomes seront extrêmement différents car souvent le temps (d évolution) crée de la divergence. En comparaison entre la famille de l autruche et une poule il y a autour de 100 millions d années!!!
Génomes «poissons» et arbre de la vie des vertébrés 3R, 4R, 5R, 4R «Poissons» : leurs génomes sont caractérisés par des duplications surnuméraires Exemple: La 3 ième duplication complète (3R) des poissons téléostéens (Ts3R), la 4R des salmonidés, la 4R des Cyprininae, les polyploidisations multiples des esturgeons. Conséquences: leurs génomes sont plus beaucoup plus complexes car suite à ces duplications de nombreux gènes se retrouvent en copies multiples, d autres sont perdus ou acquièrent une autre fonction. En comparaison les génomes des oiseaux sont tous 2R (comme les mammifères)!!!
Génomes «poissons» et diversité des espèces 3R, 4R, 5R, 4R «Poissons» : > 30 000 espèces (la moitié des espèces de vertébrés!) En comparaison 10000 espèces d oiseaux et 5000 espèces de mammifères!!!
Génomes de poissons séquencés D intérêt piscicole direct (mondial): Bar, morue, truite arc-en-ciel, saumon atlantique, anguille européenne, carpe, brochet, tilapia, «tongue sole», «sablefish», «Yellow croaker», «marbled flounder», «Asian Arowana», Thon rouge du Pacifique. «Aquacole + huitres (gigas et huitre perlière)» Toutes espèces poissons : N= 51 (voir détails sur ncbi : http://www.ncbi.nlm.nih.gov/assembly/organism/7898/all/) Augmentation «exponentielle» du nombre des espèces ayant un génome séquencé. Ressource de plus en plus facile a obtenir suite aux progrès récents des techniques de séquençage.
200mb 22mb Séquençage des génomes des volailles Espèces avicoles d intérêt séquencés : Poule, Dinde, Canard Pekin séquençage en cours : Caille, pintade, canard de Barbarie Toutes espèces oiseaux : N= 48 espèces séquencées see Zhang et al, science 2014 Génomes moins complexes que ceux des poissons Mais une spécificité : les microchrom. pas toujours bien décrits Poule 2N=78 chrom (38 x2) 35M 50M poule dinde 80M 100M => Nouvelle version du genome de poule est attendue sous peu
Intérêts du séquençage de génomes (poissons volailles) Répondre à des questions fondamentales sur l évolution des génomes (par exemple duplications ou perte de gènes (leptine) ) Mais aussi comme ressource «accélératrice» d un grand nombre de connaissances fondamentales sur le fonctionnement des génome : préambule à des applications Séquences fonctionnelles (gène, reg régulatrices; ) variation d une espèce Transcriptome
Intérêts du séquençage de génomes (poissons volailles) Répondre à des questions fondamentales sur l évolution des génomes (par exemple duplications ou perte de gènes (leptine) ) Mais aussi comme ressource «accélératrice» d un grand nombre de connaissances fondamentales sur le fonctionnement des génome : préambule à des applications Séquences fonctionnelles (gène, reg régulatrices; ) variation d une espèce Cartographie de locus/ gène impliqués dans des caractères d intéreê : base pour des nouvelles stratégies de sélection («génomiques») Etude des mécanismes d adaptation à des conditions stressantes ou changeantes Etc
ANNEXES AGRO CAMPUS 31 ouest
Méiose et recombinaison A1 A2 B1 B2 Individu à 2N chromosomes A1 A2 A1 A1 A2 B1 B2 B1 B2 B1 Méiose : -Duplication -Appariement des paires de chr. - recombinaison Gamètes à N chromosomes - 2 haplotypes recombinés - 2 haplotypes parentaux A2 B2 Le nombre (ou taux) de recombinaison (r) entre deux locus dépend de la distance qui sépare ces locus 32
Déséquilibre de liaison (déséquilibre gamétique) généralisation D = mesure le DL D max D non nul D = 0 f(b1,c1) = f(c1) = f(b1) f(b1,c2) = 0 f(b4,c1 )= 0 f(b4,c2)= f(c2) = f(b4) DL total f(b1,c1) = f(b1) x f(c1) + D f(b1,c2) = f(b1) x f(c2) - D f(b4,c1) = f(b4) x f(c1) - D f(b4,c2) = f(b4) x f(c2) + D DL Partiel f(b1,c1) = f(b1) x f(c1) f(b1,c2) = f(b1) x f(c2) f(b4,c1) = f(b4) x f(c1) f(b4,c2) = f(b4) x f(c2) population en déséquilibre de liaison (DL) : Association non aléatoire (préférentielle) entre allèles à différents locus Introduction de D pour le Déséquilibre de liaison tel que : Cas d équilibre : Association aléatoire entre allèles à différents locus Va dépendre de la distance entre locus Et de l ancienneté de la mutation (dans le cas d un DL par mutation+sélection) 33
Déséquilibre de liaison: évolution au cours des générations D t / D 0 = (1- r) t avec r = % de recombinaison entre deux locus (en cm) 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 r=0,01 : locus très proches r=0,1 r=0,2 r=0,5 : locus indépendants 0 20 40 60 80 100 t générations 34