Organisation du Génome humain Notions essentielles Biologie Moléculaire et Médecine; Kaplan et Delpech; Flammarion «How to sequence a genome» (film): www.genome.gov/25019885 Human Genome Project: http://www.genome.gov/hgp/ Analyses génomiques en pathologie humaine Problématiques des études moléculaires en génétique humaine Biologie Moléculaire et Médecine; Kaplan et Delpech; Flammarion Human Genome Variation Society: www.hgvs.org Nomenclature mutationnelle: www.hgvs.org/mutnomen Analyse de variants faux-sens: http://genetics.bwh.harvard.edu/pph/ Analyse de l effet de variants de séquence sur l épissage: www.umd.be/hsf/ Bases de données: Bases de données «locus-spécifiques» Listing disponible site HGVS www.hgvs.org/dblist/glsdb.html Bases de données «centrales/globales» Human Gene Mutation Database www.hgmd.org SNP database www.ncbi.nlm.nih.gov/snp/ UCSC Genome Browser genome.ucsc.edu Ensembl www.ensembl.org Dr. Martin Krahn martin.krahn@ap-hm.fr Département de Génétique Médicale Hôpital Timone Enfants INSERM UMR 910 - Faculté de Médecine Université de la Méditerranée Marseille
Organisation du Génome humain Notions essentielles Martin Krahn martin.krahn@ap-hm.fr Département de Génétique Médicale Hôpital Timone Enfants INSERM UMR 910 - Faculté de Médecine Université de la Méditerranée Marseille
Organisation du Génome humain Notions essentielles Quelques rappels historiques Séquençage du Génome humain Organisation du Génome humain
Génome = ensemble du matériel génétique d'une espèce (ADN)! ensemble des gènes!!!
Pourquoi cartographier le génome? Clonage positionnel : identification de gènes par exploration du génome suivant un balisage de marqueurs Médecine: pour localiser les loci morbides, associés à des maladies héréditaires, voire pour appréhender les maladies multifactorielles Depuis les premières cartes, plus de 2500 gènes impliqués dans des syndromes héréditaires ont été identifiés (OMIM, sept.2009) Cette phase est suivie d exploration thérapeutique (voir site essais cliniques AFM) Agronomie: pour localiser et cloner les gènes d intérêt ou les zones du génome impliquées dans des traits intéressants et les transférer entre espèces Bond des biotechnologies végétales, clonage, OGM
Histoire De l Antiquité au 19e siècle : transmission de caractères parents-enfants selon diverses théories: préformisme, animalculisme, patroclinisme, ovisme, épigénisme 1865: G. Mendel jette les bases de la génétique moderne, allèles, dominance, hétérozygotie 1910: T. Morgan découvre la recombinaison méiotique et publie ses résultats qui sont les bases de la théorie chromosomique de l hérédité 1913: première carte génétique
Histoire 1953: J. Watson, F. Crick et R. Franklin décryptent des clichés de diffraction et publient la structure en double hélice de l ADN 1965: J. Monod, F. Jacob et A. Lwoff «découvrent» les ARN et la régulation de l expression génique 1973: moratoire sur le clonage et le génie génétique
Histoire Années 1980: découverte des marqueurs polymorphiques, des techniques de RFLP, des microsatellites, grands progrès du génie génétique. Cartographie intensive 1983: découverte de la PCR. Les cartes s enrichissent de toutes ces techniques 1989: un programme mondial de séquençage du génome humain se met en place : HUGO 1992-1996: publication des premières cartes du génome humain par le Généthon
Histoire 2000: premiers résultats de thérapie génique sur l homme (Fischer) 2001: premier assemblage de la séquence du génome humain (Science 291, Nature 409) 2003: finition de l assemblage de notre séquence génomique CELERA HUGO-HGP
HUGO Human Genome Project Plus grand projet scientifique mondial lancé en 1988/1989 HGP démarre en 1990 Ampleur de la tâche 1 page = 3000 bases 1 tome: 500 pages = 1 500 000 bases 1 génome = 1 000 tomes!!! Capacité de séquençage En 1975, 1 000 nucléotides/semaine 500 ans pour 100 personnes! En 1986, 10 000 nucléotides/jour 8 ans pour 100 machines En 1998, 200 000 nucléotides/jour 5 mois pour 100 machines Stratégie du Human Genome Project vs Stratégie de CELERA Genomics
HUGO - HGP CELERA HGP / Celera
Séquence finale CELERA: Seuls 2 ADN ont servi de matrice (dont celui de C. Venter). Celera a intégré les données publiques dans sa base au fur et à mesure de leur publication HGP: profondeur de séquence: 10X (10 équivalents génomiques séquençés) à partir de près d'une vingtaine d'individus différents Travail de "finition" poursuivi jusqu'en avril 2003 Précision finale: 99.99 % = 1 erreur toutes les 10 000 bases environ Coût global: environ 2.7 milliards $ Parties manquantes: hétérochromatine, télomères et M. KRAHN M2 centromères 2009
Coûts de séquençage
Organisation du génome humain 1/3 2/3 <3% code des protéines >50% séquences répétées
Le génome humain Le génome humain est composé de 3 272 millions de nucléotides Les régions riches en gènes sont également les régions riches en nucléotides G/C Les régions pauvres en gènes sont riches en A/T Ces différentes régions peuvent généralement être visualisées comme des bandes claires ou sombres sur les chromosomes métaphasiques ("banding") Bandes G: riches en AT, pauvres en gènes Bandes R: riches en GC, riches en gènes Le chromosome 1 contient le plus grand nombre de gènes estimés (environ 3000) tandis que le chromosome Y en a le moins (231) Moins de 3% de l ADN code pour des protéines Les séquences répétées composent environ 50% de la totalité du génome
Le génome humain Le nombre total de gènes se situe entre 25 000 et 30 000 La taille moyenne d un gène est de 3000 bases, 9 exons, mais la taille varie beaucoup (ex : le gène de la dystrophine a une taille de 2,4 millions bp) 99.9% des nucléotides sont identiques entre deux personnes. Il existe donc 0,1% de différences (soit environ 3,5 millions de différences par génome) Plus de 50% des gènes ont une fonction inconnue
Organisation du Génome Vitesse de réassociation du génome On dénature l'adn par chauffage On mesure la vitesse de réhybridation L'ADN d'e. coli se réhybride suivant une courbe sigmoïde simple quand un fragment d'adn trouve son fragment complémentaire, les séquences adjacentes se réhybrident rapidement de façon coopérative, comme une fermeture éclair
Vitesse de réassociation du génome % de réhybridation E. Coli H. Sapiens 100 75 50 1 2 25 0 10-2 Rapide 3 10-1 1 10 1 10 2 Lente Vitesse de réassociation
Le génome est hétérogène Zones fortement répétitives 10 à 15% du génome, non codées en protéines Centromères, Télomères, Mégasatellites, Minisatéllites, Microsatellites Zones moyennement répétitives 20 à 40 % du génome, non codées en protéines Transposons, séquences SINE (Alu) et LINE, Rétrovirus endogènes Quelques gènes codant des rrna, trna, RNA5S et 7SL Séquences uniques ~50% du génome, contiennent la plupart des gènes codant pour des protéines (ARNm)
Les zones répétitives Les minisatellites ou VNTR (Variable Numbers of Tandem Repeats): - séquences de 11 à 16 pb - répétées parfois jusqu'à 1000 fois - Localisations surtout télomériques (ou centromériques) - peu utilisés en pratique Les microsatellites - séquences de 1 à 4 pb - souvent (CA) n, n variant de 12 à 40. - répartition homogène sur tout le génome, tous les 25 à 100 kb - très variables donc informatifs - facilement amplifiés par PCR - utilisation pour les analyses de liaison - utilisation en diagnostic moléculaire («indirect») et pour les empreintes génétiques
Marqueurs génétiques Les MARQUEURS génétiques: Variations polymorphes de la séquence d ADN - répartis uniformément sur le génome - localisation connue - PAS d effet direct sur le phénotype Marqueur Gène ADN Microsatellites (utilisés ++) : Polymorphismes de répétition Exple: répétitions de motif «CA» - séquences répétées NON codantes - réparties uniformément dans le génome - polymorphes = à un même endroit du génome, des individus pris au hasard (pop.gén.) présentent un nombre différent de répétitions sur chaque chromosome Exemple: chromosome 4 8 répétitions CA 12 répétitions CA ATCGTCTCACACACACACACACATGTCGTAT ATCGTCTCACACACACACACACACACACACATGTCGTAT
Et maintenant?
Et maintenant?
Et maintenant?
Et maintenant? Clonage positionnel révolu gènes localisés Agronomie dopée OGM par analyse QTL Catalogue des gènes: GenAtlas, OMIM, Genome Browser, bases de données de SNP, de miarn Séquençage en masse d'autres organismes Cartes de synténie inter-espèces, évolution Séquençage personnalisé possible Nouvelles technologies mêlant bioinformatique, robotique et nanobiologie Thérapie génique, pharmacologique ou cellulaire utilisant les données acquises
Analyses génomiques en pathologie humaine
Anomalies du Génome et Pathologie humaine MACROLESIONS Echelle du Chromosome MICROLESIONS Echelle du Gène?
Anomalies du Génome et Pathologie humaine MACROLESIONS Echelle du Chromosome Délétions Duplications Amplifications Translocations Inversions Insertions (...) MICROLESIONS Echelle du Gène Mutations ponctuelles Insertions/délétions de qques nucléotides Insertions/délétions de qques 10aines ou 100aines de nt Mutations dynamiques/amplifications (...) Maladies génétiques: anomalies génétiques causales Maladies polyfactorielles: prédisposition génétique
Anomalies du Génome et Pathologie humaine MACROLESIONS MICROLESIONS Echelle du Chromosome METHODES D ANALYSE Echelle du Gène?
Anomalies du Génome et Pathologie humaine MACROLESIONS MICROLESIONS CARYOTYPE Echelle du Chromosome Echelle du Gène METHODES D ANALYSE CGH CRIBLAGE MUTATIONNEL FISH SEQUENCAGE
Rappel: Mutations «classiques» Exon Intron 5 GT AG 3 CAAT TATA ATG Site donneur Site accepteur TAA TAG TGA AATAAA Région 5 UTR Région 3 UTR Mutations en séquence non codante: perturbations d éléments régulateurs mutations perturbant l épissage Mutations en séquence codante: faux sens non sens insertions/délétions décalage du cadre de lecture mutations perturbant l épissage => perte/gain de fonction
Problématiques des études moléculaires en génétique humaine Stratégies de Diagnostic génétique Problèmes d interprétation de données mutationnelles Perspectives de criblage mutationnel à haut débit
Les avancées méthodologiques qui ont révolutionné la génétique moléculaire 1970: Endonucléases de restriction 1972-1973: Ligases 1975: Séquençage (Sanger&Coulon, Maxam&Gilbert, Hood) 1985: PCR (Karry Mullis) 1998: Puces à ADN ( microarrays ) Années 1990 à aujourd hui: Développement +++ de nouvelles techniques Les applications/progrès réalisées grâce aux techniques de Biologie moléculaire: Meilleure connaissance des mécanismes physiopathologiques des maladies: - Identification et études fonctionnelles de gènes impliqués dans des maladies humaines, création et analyse de modèles animaux, séquençage du génome humain,, Généralisation des applications diagnostiques en routine hospitalière
Principes des Études Moléculaires en Génétique Humaine Transcription Traduction Réplication ADN Génome ARN Transcriptome Protéines Protéome Reverse Transcription Analyses génétiques/ Biologie moléculaire Biochimie
Principes des Études Moléculaires en Génétique Humaine En principe identique pour toutes les cellules d un individu Spécifiques d un tissu d un type cellulaire d un état ADN Génome ARN Transcriptome Protéines Protéome Analyses génétiques/ Biologie moléculaire Biochimie
Principes des Études Moléculaires en Génétique Humaine En principe identique pour toutes les cellules d un individu Spécifiques d un tissu d un type cellulaire d un état ADN Génome ARN Transcriptome Protéines Protéome Prélèvement de «base» en Génétique = prélèvement sanguin Extraction d ADN périphérique génomique à partir de LYMPHOCYTES du sang ATTENTION: Toujours avec CONSENTEMENT de l individu Analyses en Génétique moléculaire: Directes ou Indirectes Autres prélèvements: Tissus embryonnaires/fœtaux (villosités choriales, liquide amniotique, ) pour DPN Autres tissus: analyses complémentaires dans certaines pathologies (surtout analyses d expression du ARNm)
Notions essentielles Stratégies de Diagnostic génétique - Diagnostic direct vs indirect - Précriblage mutationnel Problèmes d interprétation de données mutationnelles - Bases de données mutationnelles - Variants «nouveaux» => recueil d arguments de pathogénicité - Outils bioinformatiques ++ Perspectives de criblage mutationnel à haut débit
Stratégie diagnostique dans les maladies génétiques CONSULTATION DIAGNOSTIQUE: Interrogatoire et examen clinique Histoire de la maladie Arbre généalogique/mode de transmission Examen clinique ciblé Examen clinique général EXAMENS COMPLEMENTAIRES: Analyses biologiques selon le contexte Imagerie Examens ciblés selon orientation DIAGNOSTIC CLINIQUE
Stratégie diagnostique dans les maladies génétiques CONSULTATION DIAGNOSTIQUE: Interrogatoire et examen clinique Histoire de la maladie Arbre généalogique/mode de transmission Examen clinique ciblé Examen clinique général EXAMENS COMPLEMENTAIRES: Analyses biologiques selon le contexte Imagerie Examens ciblés selon orientation DIAGNOSTIC CLINIQUE DIAGNOSTIC GENETIQUE ANALYSES GENETIQUES: Cytogénétique: Caryotype constitutionnel standard FISH, (Cf cours) Génétique moléculaire: Diagnostic direct: Recherche de l anomalie génétique primaire Diagnostic indirect: Analyses de liaison
Diagnostic moléculaire des maladies génétiques Objectif: établir un diagnostic précis par l identification de l anomalie génétique Intérêt: certitude diagnostique prise en charge adaptée conseil génétique 2 approches: DIAGNOSTIC DIRECT: Recherche de l anomalie génétique primaire identification de Mutations constitutionnelles délétères DIAGNOSTIC INDIRECT: Analyses de liaison Utilisation de marqueurs pour analyser la coségrégation d un phénotype avec un allèle particulier dans une famille
Rappel: le rôle central de la PCR ADN du patient en faible quantité Région d intérêt PCR Exon 1 Région d intérêt AMPLIFIEE en grande quantité ANALYSE de la région d intérêt Analyse de la SEQUENCE Recherche de MUTATIONS dans la région d intérêt Gène de 3 exons Exon 2 Exon 3 Analyse de la TAILLE Applications diverses Analyse de Microsatellites
Séquençage complet Exon 1 Exon 2 Mutation ponctuelle Gène de 3 exons Exon 3 PRECRIBLAGE puis Séquençage ciblé - Différentes technologies: SSCP, DHPLC, HRM, - Intérêt: détecter les exons porteurs d une variation de séquence => réduction du temps d analyse et des coûts Exon 1 Profil NORMAL Exon 2 Exon 3 Profil ANORMAL Profil NORMAL Mutation ponctuelle
Diagnostic direct et Diagnostic indirect Analyses en Génétique moléculaire DIAGNOSTIC DIRECT CAACANNNNNNNNNNNNN Patient atteint Phénotype: diagnostic clinique Ou suspicion diagnostique Forw. Identification de mutation(s) dans le gène impliqué 105 113 Analyses en Génétique moléculaire DIAGNOSTIC INDIRECT 105 115 Patient atteint Phénotype: diagnostic clinique (certitude diagnostique nécessaire) 113 115 105 115 Coségrégation familiale phénotype/marqueur
Diagnostic indirect Utilisation de marqueurs pour analyser la coségrégation marqueur/maladie Marqueur Gène morbide on connaît la localisation du gène morbide on connaît des marqueurs localisés à proximité étude de la Coségrégation familiale phénotype/marqueur Permet de suivre INDIRECTEMENT la transmission d une mutation 105 113 Analyses en Génétique moléculaire DIAGNOSTIC INDIRECT 105 115 Patient atteint Avec Diagnostic clinique CERTAIN 113 115 105 115 Coségrégation familiale phénotype/marqueur
Diagnostic indirect Utilisation de marqueurs pour analyser la coségrégation marqueur/maladie Marqueur Gène morbide on connaît la localisation du gène morbide on connaît des marqueurs localisés à proximité étude de la Coségrégation familiale phénotype/marqueur Permet de suivre INDIRECTEMENT la transmission d une mutation Approche utilisée quand diagnostic direct non faisable, trop difficile Principaux problèmes posés: - nécessite de connaître le gène impliqué (ou le locus) pour choisir les marqueurs à utiliser (problème posé si hétérogénéité génétique) - nécessite une certitude du diagnostic clinique - nécessite une étude FAMILIALE - nécessite une famille «informative»: parfois non concluant - risque d erreur par recombinaison
Diagnostic moléculaire indirect Principes Étude de microsatellites. Exemple: étude familiale, maladie autosomique dominante 105 113 Marqueur Gène morbide 105 115 105 115 113 115
Diagnostic moléculaire indirect Principes Étude de microsatellites. Exemple: étude familiale, maladie autosomique dominante Étude de la Coségrégation familiale phénotype/marqueur 105 113 Marqueur Phénotype atteint Allèles 105 et 113 105 115 Gène morbide Phénotype sain Allèles 105 et 115 NB: Diagnostic indirect nécessite - Certitude du diagnostic clinique - Étude familiale Phénotype atteint Allèles 113 et 115 105 115 Phénotype sain Allèles 105 et 115 113 115 L enfant atteint a reçu l allèle 113 de son père: Il y a COSEGREGATION entre le PHENOTYPE «atteint» et l allèle 113 paternel L allèle 113, d origine paternelle est lié à l allèle muté du gène en cause
Diagnostic moléculaire indirect Principes Étude de microsatellites. Exemple: étude familiale, maladie autosomique dominante Allèle 105 Allèle 115 Étude de la Coségrégation familiale phénotype/marqueur 105 113 Marqueur Phénotype atteint Allèles 105 et 113 105 115 Gène morbide Chez le père, l allèle 113 du marqueur est sur le même chromosome que la mutation impliquée dans la maladie Lorsque le père transmet le chromosome avec la mutation, il transmet AUSSI l allèle 113 Permet de suivre indirectement la transmission de la mutation Allèle 105 Allèle 113 * * Mutation dans le gène impliqué Allèle 105 Allèle 113 Phénotype atteint Allèles 113 et 115 113 115 L enfant atteint a reçu l allèle 113 de son père: Il y a COSEGREGATION entre le PHENOTYPE «atteint» et l allèle 113 paternel L allèle 113, d origine paternelle est lié à l allèle muté du gène en cause Phénotype sain Allèles 105 et 115 Allèle 105 105 115 Phénotype sain Allèles 105 et 115 Allèle 115
Diagnostic direct DIAGNOSTIC DIRECT: Recherche de l anomalie génétique primaire identification de mutations constitutionnelles délétères approche utilisée de préférence, permet un diagnostic de certitude principaux problèmes posés: - parfois lourd sur le plan technique - parfois non concluant - polymorphismes ou mutations constitutionnelles délétères? Analyses en Génétique moléculaire DIAGNOSTIC DIRECT CAACANNNNNNNNNNNNN Patient atteint Phénotype: diagnostic clinique Ou suspicion diagnostique Forw. Identification de mutation dans le gène impliqué
Diagnostic moléculaire direct Stratégie Patient atteint Phénotype: diagnostic clinique Ou suspicion diagnostique Gène impliqué de PETITE TAILLE et/ou mutations récurrentes Gène impliqué de GRANDE TAILLE +/- Spectre mutationnel large Précriblage mutationnel Séquençage complet trop lourd et trop coûteux techniques permettant d identifier les exons présentant des variations de séquence mais SANS préciser quelle est la variation de séquence Profil ANORMAL ORIENTATION Séquençage complet de la totalité de la séquence codante d intérêt (tous les exons codants) Séquençage ciblé des exons présentant des profils anormaux Identification de variations de séquence Mutation ponctuelle
Diagnostic moléculaire direct Exemple: gène de petite taille Gène de la cavéoline-3 (CAV3) : localisé en 3p25 séquence codante de 456 paires de bases (2 exons) ARNm d expression musculaire Protéine impliquée dans la réparation de la membrane musculaire (?) Mutations CAV3 : dystrophie musculaire des ceintures autosomique dominante
Diagnostic moléculaire direct Exemple: gène de petite taille Gène de la cavéoline-3 (CAV3) : localisé en 3p25 séquence codante de 456 paires de bases (2 exons) ARNm d expression musculaire Protéine impliquée dans la réparation de la membrane musculaire (?) Mutations CAV3 : dystrophie musculaire des ceintures autosomique dominante Gène de petite taille: analyse «facile» par séquençage direct Contrôle Patient Confirmation du diagnostic par IDENTIFICATION directe de la mutation For. For. c.298a>t hétérozygote p.ile100phe
Diagnostic moléculaire direct Exemple: gène de grande taille Gène de la dysferline (DYSF) : localisé en 2p13.3-13.1 séquence codante de 6243 paires de bases (55 exons) ARNm d expression musculaire (et autres tissus) Protéine impliquée dans la réparation de la membrane musculaire (?) Mutations DYSF : dystrophie musculaire des ceintures autosomique récessive > 400 mutations différentes rapportées réparties sur toute la longueur du gène = «Spectre mutationnel large» Gène de grande taille +/- spectre mutationnel large: Analyse par séquençage complet techniquement trop lourd et trop coûteux: NON faisable Utilisation de techniques de PREcriblage mutationnel
Diagnostic moléculaire direct Exemple: gène de grande taille Patient IVS 6 c.946-1g>a dhplc Séquençage Profil hétéroduplex évident Patient Exon 17 c.1979a>g dhplc Séquençage Profil hétéroduplex difficilement mis en évidence
Diagnostic moléculaire direct Identification de variations de séquence Comparaison à séquence de référence - UCSC Genome Browser genome.ucsc.edu - Ensembl www.ensembl.org Description précise du variant : NOMENCLATURE HGVS www.hgvs.org/mutnomen Nomenclature officielle Human Genome Variation Society Mutations délétères ou Variations de séquence non pathogènes?
Problématiques des études moléculaires en génétique humaine Stratégies de Diagnostic génétique Problèmes d interprétation de données mutationnelles Perspectives de criblage mutationnel à haut débit
Diagnostic moléculaire direct Identification de variations de séquence Description précise du variant : NOMENCLATURE HGVS Comparaison à séquence de référence: Mutation délétère ou simple variation de la normale/polymorphisme? 2 situations: la variation de séquence est connue (consultation de bases de données) la variation de séquence N EST PAS connue
Diagnostic moléculaire direct Identification de variations de séquence Description précise du variant : NOMENCLATURE HGVS Comparaison à séquence de référence: Mutation délétère ou simple variation de la normale/polymorphisme? 2 situations: la variation de séquence est connue (consultation de bases de données) - Caractère délétère confirmé au préalable chez d autres patients Mutation constitutionnelle délétère - Présence sans effets pathologiques dans la population générale Polymorphisme la variation de séquence N EST PAS connue
Diagnostic moléculaire direct Identification de variations de séquence Description précise du variant : NOMENCLATURE HGVS Comparaison à séquence de référence: Mutation délétère ou simple variation de la normale/polymorphisme? 2 situations: Séance ED Analyses mutationnelles la variation de séquence est connue (consultation de bases de données) - Caractère délétère confirmé au préalable chez d autres patients Mutation en Génétique constitutionnelle Humaine délétère - Présence sans effets pathologiques dans la population générale Polymorphisme la variation de séquence N EST PAS connue
Consultation de bases de données Mutation rapportée au préalable? Human Genome Variation Society www.hgvs.org Porte d entrée pour les Bases de données mutationnelles Bases de données «locus-spécifiques» Listing disponible site HGVS www.hgvs.org/dblist/glsdb.html Bases de données «centrales/globales» Human Gene Mutation Database www.hgmd.org SNP database www.ncbi.nlm.nih.gov/snp/ UCSC Genome Browser genome.ucsc.edu Ensembl www.ensembl.org
Diagnostic moléculaire direct Identification de variations de séquence Description précise du variant : NOMENCLATURE HGVS Comparaison à séquence de référence: Mutation délétère ou simple variation de la normale/polymorphisme? 2 situations: la variation de séquence est connue (consultation de bases de données) la variation de séquence N EST PAS connue - Évaluation de différentes données pour conclure sur le caractère pathogène ou non de la variation de séquence - Saisie des résultats dans les bases de données
Diagnostic moléculaire direct Variation de séquence non connue au préalable Mutation délétère ou Polymorphisme??
Diagnostic moléculaire direct Variation de séquence non connue au préalable Mutation délétère ou Polymorphisme? (Consultation de bases de données) Nature de la mutation (non-sens, décalage cadre de lecture, épissage, faux-sens, isosémantique, ) Étude de la ségrégation de la variation de séquence à l intérieur de la famille Recherche de la variation dans une population de témoins sains - absence = en faveur du caractère délétère - présence = polymorphisme probable Études fonctionnelles: transcriptionnelles, protéiques, Plus difficile, parfois plutôt domaine de la recherche Modélisation bio-informatique: - de l effet sur l épissage/l ARNm - de la conservation du nucléotide impliqué (et AA correspondant) au cours de l évolution - de l effet au niveau de la protéine
Modélisation bio-informatique Analyse de l effet sur l épissage/l ARNm Epissage anormal, dégradation,.. Analyse de la conservation du nucléotide impliqué (et AA correspondant) au cours de l évolution => Surtout pour variants faux-sens, isosémantiques et introniques) - Conservé = important, donc une variation est susceptible d être délétère - Non conservé = moins important, une variation est possible sans effet majeur Analyse de l effet au niveau de la protéine Domaines fonctionnels, protéine tronquée,
Problématiques des études moléculaires en génétique humaine Stratégies de Diagnostic génétique Problèmes d interprétation de données mutationnelles Perspectives de criblage mutationnel à haut débit
Rappel: Mutations «classiques» Exon Intron 5 GT AG 3 CAAT TATA ATG Site donneur Site accepteur TAA TAG TGA AATAAA Région 5 UTR Région 3 UTR Mutations en séquence non codante: perturbations d éléments régulateurs mutations perturbant l épissage Mutations en séquence codante: faux sens non sens insertions/délétions décalage du cadre de lecture mutations perturbant l épissage => perte/gain de fonction
Séquençage complet Exon 1 Exon 2 Mutation ponctuelle Gène de 3 exons Exon 3 PRECRIBLAGE puis Séquençage ciblé - Différentes technologies: SSCP, DHPLC, HRM, - Intérêt: détecter les exons porteurs d une variation de séquence => réduction du temps d analyse et des coûts Exon 1 Profil NORMAL Exon 2 Exon 3 Profil ANORMAL Profil NORMAL Mutation ponctuelle
Suspicion d une pathologie particulière sans identification de mutations Exemple: Maladies autosomiques récessives Sensibilité insuffisante des techniques utilisées en routine Quelles mutations ne sont pas détectées par les stratégies «classiques»? Mutations introniques? Mutations de régions régulatrices? Mutations dans exons alternatifs? Réarrangements intragéniques de grande taille? ( ) Hétérozygotes symptomatiques, digénisme Mutations dans d autres gènes Même voie physiopathologique ++
Réarrangements intragéniques de grande taille Délétions/Amplifications exoniques Parfois détectées de manière fortuite (détection en PCR; variants de séquence pseudo-homozygotes; ) Non détectables de manière systématique avec les techniques «classiques» de criblage mutationnel de la séquence codante génique Exemple: délétion exonique Développement récent de techniques adaptées: - Quantitative multiplex PCR of short fluorescent fragments (QMPSF; Casilli et al., 2002) - Multiplex Ligand-dependant Probe Amplification (MLPA; Shouten et al., 2002) Analyse mono-allélique
Diagnostic moléculaire de routine Moyens actuels et Perspectives Techniques de criblage mutationnel «efficaces» Outils bio-informatiques : - Bases de données mutationnelles - Algorithmes d analyse de variants de séquence mais sensibilité insuffisante des techniques d analyse Mutations non détectées par les techniques actuelles de routine Développement de techniques complémentaires Mutations dans d autres gènes / gènes candidats ( ) Nouvelles technologies d analyse mutationnelle génomique à haut débit Exemples: CGH Microarrays Sequence Capture Arrays et Séquençage à haut débit
Nouvelles technologies d analyse mutationnelle génomique à haut débit CGH Arrays ADN patient ADN contrôle ADN génomique non amplifié Patient et contrôle Fragmentation aléatoire et Marquage avec «random 9mers» - 5 -Cy3 (ADN patient) - 5 -Cy5 (ADN contrôle) Hybridation sur lame (array) Analyse Capture des signaux fluorescents (Scanner) Analyse des données (Ratio Cy3/Cy5)
Nouvelles technologies d analyse mutationnelle génomique à haut débit CGH Arrays 385K 2.1M 4-plex 12-plex 4 x 70 K 12 x 135 K
DYSF CGH arrays Délétion homozygote exons 2 à 40 71562000-71720000 Duplication hétérozygote exons 37+38 (+39) 71684074-71693259 Nimblegen-Roche
DYS et SGC CGH arrays γsarcoglycan LGMD2C Dystrophin DMD Saillour et al, 2008
Séquençage à haut débit ADN génomique Fragmentation Ligation d adaptateur Création de microréacteurs par émulsion (billes et fragments ADN) PCR en émulsion Séquençage et analyse 400000 lectures Fragments de 250-300bp 500Mb de séquence/run Couverture 15x/région 5Mb de séquence propre/run Nimblegen-Roche
Sequence Capture arrays et Séquençage à haut débit Régions cible Fragmentation et ligation d un «linker» Sélection/Enrichissement en séquence cible (alternative à PCR) Hybridation Élution de la Région d intérêt Amplification Lavages Séquençage à haut débit 5Mb de séquence interprétable / run Nimblegen-Roche
Sequence Capture arrays 385K 2.1M 1-plex 1 x 385 K 4-plex 1-plex 12-plex 4 x 70 K 1 x 2.1 M 12 x 135 K Nimblegen-Roche
Nouvelles technologies d analyse mutationnelle génomique à haut débit PERSPECTIVES Criblage mutationnel à haut débit en routine Analyses de séquence - «Mutations classiques» Substitutions et ins/del de petite taille - Extension de l analyse aux régions introniques et/ou régions régulatrices (Epissage, 5 UTR, 3 UTR, CNGS, microrna, ) Anomalies génomiques quantitatives - Réarrangements intragéniques de grande taille Délétions/Amplifications exoniques - Copy Number Variations ( ) Analyse de gènes candidats et gènes modificateurs Étapes de validation par techniques complémentaires (Séq. direct, Q-PCR; RT-PCR et Q-RT-PCR, MLPA, Microarrays d expression, )
Diagnostic moléculaire PERSPECTIVES Procédure actuelle Orientation clinique anatomopathologique biochimique ( ) Approche «gène par gène» Un ou quelques gènes Long; 1 semaine à 1 an Coûteux Procédure future Orientation clinique anatomopathologique biochimique ( ) Approche «haut débit» Plusieurs dizaines de gènes Rapide; 72 heures à 1 semaine Réduction des coûts
Conclusion Notions essentielles Stratégies de Diagnostic génétique - Diagnostic direct vs indirect - Précriblage mutationnel Problèmes d interprétation de données mutationnelles - Bases de données mutationnelles - Variants «nouveaux» => recueil d arguments de pathogénicité - Outils bioinformatiques ++ Perspectives de criblage mutationnel à haut débit