LE SEQUENCAGE DU GENOME HUMAIN Historique Séquençage Résultats
Séquençage de Macromolécules Enchaînement d unités répétitives Petite molécule Couper de façon précise en sous-ensemble 50 25 25 reconstruire le puzzle
SANGER et les PROTEINES Petits PM : AA Unique: protéine purifiée Trypsine coupe après un résidu Basique Peptides / 10-30 attaques successives ATTAQUE mod-n N C - Insuline : 2 chaînes - Enchaînement précis AA et non aléatoire - Prix Nobel / 1950
Acides Nucléiques ARN Petites molécules: ARNt 70-80 nucléotides Purification possible Enzymes spécifiques: Rnase T1: après G Rnase U2: bases puriques A/G Rnase pancréatique : C/U Sol alcaline: G, A, U, C 1960
Isole un ARNt particulier digestion totale I: Rnase T1 puis U2 ou P ou Alc. II: Rnase Pancréatique puis Compare les profiles de digestion des oligos Reconstruire la séquence
AUAACGAGUCCAAUGAU T1 => AUAACG AG UCCAAUG AU U2 => AUAACG P => AUAACG Composition en bases
HOLEY : ARNt levure SANGER : 5S E. coli Holey: fractionnement oligo / chromato colonne - détection UV Quantité +++ de matériel Prix Nobel Sanger: ARN marqué au P32 séparation bi-dimensionnelle : 2 électrophorèse; électro + chromato Utilisable en routine Publié 6 mois
1970: ADN Problèmes: Grosse molécule: les plus petites ; SV40 = 5000 nucléotides Absence d enzyme spécifique: DNase non spé. Endo4: préférences => plutôt après un C / simple brin Phage φ X174: mono-caténaire dans les virus / structure II ADN X174 natif + Endo4 = très peu de coupure Gel: quelques bandes / 2D (électro/chromato) : vingtaines de spots ADN X174 dénaturé + Endo4 = nb +++ de coupure 2D : centaines de spots
SANGER et l ADN les prémices du Séquençages 3 Méthodes Ribosubstitution Plus/moins ddx
Ribosubstitution ADN mono-caténaire: phage Protéine enveloppe: Met - Trp Amorce de Polymérase: Met - Trp - Pro 1codon - 1codon - 4codons ADN sb 1/ 3 nucléotides + ribog / Pol. Klenow 2/ coupe Rnase T1 1/ 3 nucléotides + riboc / Pol 2/ Rnase Pancréatique Seq Oligo Overlap 1974
Plus / Moins ADN sb ADN sb Pol + 4 dntp ADN sb ADN sb + Klenow - 5 3 G A T C CCCCC GGGGG G A T C C / 1976
ddx ADN sb Pol + 4 dntp+ datpp32 + ddg ADN sb CCGTACAAGCGC G GG GGCATG GGCATGTTCG ddg dd A dd T ddc dda ADN sb CCGTACAAGCGC GGCA ddc ADN sb CCGTACAAGCGC GGC GGCATGTTC GGCATGTTCGC ddt ADN sb CCGTACAAGCGC GGCAT GGCATGT 1977 GGCATGTT
Interprétation d une Réaction de Séquence G A T C G A T C
Améliorations Qualité du gel + analogues structuraux => éviter les compressions Polymérase Marquage P32 => S35, Fluorescence : 1track Lecture informatique => N/ambiguïté Taille lecture : 500 bases et au delà PCR Améliorations Qualitatives - Quantitatives Programmes de Séquençage
Séquençage Fluorescent
Séquence «Dye Terminator» A G T C N : ambiguïté
Séquençage d un Génome 2 Stratégies de Shotgun
Shotgun Fractionnement aléatoire ADN / ultrasons Clonage / blunt: cosmide - BAC Amorces spé : Séquençage sur les 2 brins
ADN Ultrasons Clonage blunt Séquençage Analyse informatique
Shotgun Fractionnement aléatoire ADN / ultrasons Clonage / blunt: cosmide - BAC Amorces spé : Séquençage sur les 2 brins Comparaison des séquences Assemblage / organisation des molécules du Shotgun 10X : 10000 nucléotides = 1 Millions
Séquençage d un Génome 2 Stratégies de Shotgun Banque de BAC et carte physique => présentant le moins de recouvrement Génome globale => plus rapide / programme informatique plus puissant => pb lors de l assemblages pour les régions de fortes homologies le critère de qualité doit être si 95% identité = seq différente
Shotgun Finitions : lever les ambiguïtés - refaire la séquence + brin compl - calcul forme des pics = critère de qualité => 1 erreur / 10 000 nucléotides % de perfection
Shotgun et Assemblage Critère de taille pour les fragments générés 1500pb 500pb 500pb 500pb 5000pb => séquence chaque extrémité 500pb 4000pb 500pb 15000pb Assemblage et Organisation avec une Contrainte de Positionnement
Séquençage d un Génome Humain Labo Académiques : Seq. Banque de BAC / carte physique => début 1995 / fin 2005 :seq parfaite => 1998: shotgun et assemblage sur BAC: brouillon Craig Venter - Celera : Génome - Shotgun global => début 1998 / fin 2000 2 brouillons - Aucunes séquences finales Stade de Finition, FIN 2003
Projets Génomes > 100 génomes bactériens: niv parfait S. méliloti: Shotgun/BAC 6,5 Millions - parfait C. elegans: Shotgun/BAC 100 Millions - parfait Drosophile: Shotgun/ Massif - BAC ; 120 Millions - Fini A. thaliana: Shotgun/cosmides 100 Millions - parfait Génome Humain: Shotgun/ Massif - BAC 3,2 Milliards - Brouillons, Quelques Chromo terminés, Fin 2003 Souris - Rat- Chien: Shotgun/ Massif - assemblage 2004-2005 Poissons: Zebra Fish et Medaka
Annotations Où sont les gènes? Combien sont-ils? Comparaison: gènes / protéines Prédiction de fonctions
S. méliloti Génome: 6,5 Millions 6000 gènes: 60% : hypothèse de fonction 40%: aucune idée Bactéries - Absence d introns - Gènes de petites tailles - Recherche des gènes: ATG --- Stop / Phase de lecture ouverte
Eucaryotes Recherche des gènes est beaucoup plus complexe Exons petites tailles / Introns => Méthodes prédictives / usage des codons => fréquence des codons est diff. entre phase codante ou non => Algorithme de Calcul / 3 phases Eduque l algorithme => Fréquences des codons des gènes déjà connus Nb de gènes identifiés est tombés à 27 Milles Au lieu des 50-100 Milles prédits
Génome Humain Nb de séquences répétitives et non codantes : Enigme 27 Milles Gènes / 3,2 Milliards Nb de protéines: Epissages Modifications post-traductionnelle Densité de gènes: variable Chrom 21/ 22 même taille: 200-400
Intérêts du Séquençage Identification des genes Clonage Facilité étude des gènes - régulation Prédiction de Fonction Elaboration Oligo Longs: puces expression CGH Identification des SNP : 1 pour 1000 => Partie codante ou régulatrice => Expliquer la variabilité espèce susceptibilité vis à vis des maladies réponse aux traitements Médecine Prédictive / Thérapie Ciblée