MSBM de Génétique Recherche des facteurs génétiques impliqués dans les maladies fréquentes 17 avril 2014 Dr Gaëtan Lesca / Pr Pascal Roy PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS 1
DEFINITIONS Maladie monogénique : Défaut d un gène Obéi aux lois de Mendel (+/- pénétrance incomplète ou liée à l âge) Maladie «rare» Maladie multifactorielle : Interaction de multiples gène + environnement +/- effet stochastique Maladies courantes MALADIE FAMILIALE / MALADIE GENETIQUE Une maladie familiale n est pas forcément génétique Ex : Alcoolisme, Kuru 2
MALADIE FAMILIALE / MALADIE MONOGENIQUE Cancer du sein BRCA1 négatif, BRCA2 négatif ETUDE DE JUMEAUX Comparaison taux de concordance MZ et DZ Composante génétique si concordance MZ >> DZ MZ Fente labiale 30 DID 40 SEP 18 Schizophrénie 50 DZ 5 5 2 15 D après J. Feingold 3
POIDS RELATIF DES FACTEURS GENETIQUES DANS DIFFERENTES MALADIES Maladie de Huntington Epilepsie Diabète Tuberculose Lèpre Dystrophie myotonique de Steinert Maladie d Alzheimer Sclérose en plaques Rougeole SIDA MODELES D HEREDITE VARIABLE EN FONCTION DES MALADIES SEP Epilepsie Alzheimer Autisme Plusieurs facteurs génétiques exerçant chacun un effet faible + facteurs non génétiques (viraux, immunitaires ) Prédominance des facteurs génétiques mais grande complexité Quelques gènes exercent un effet majeur Nombreux gènes exerçant un effet variable 4
MALADIES FREQUENTES ET FACTEURS GENETIQUES Observation pour de récurrences familiales pour de nombreuses maladies (ex : DNID) Risque plus élevé pour les apparentés du premier degré STRATEGIES D ETUDES DES MALADIES MONOGENIQUES Clonage fonctionnel : Maladie > fonction > gène > localisation Ex: enzymopathies, drépanocytose Clonage positionnel : Utilisation de marqueurs génétiques Pas de nécessité de connaitre préalablement la fonction 5
CLONAGE POSITIONNEL On connaît le phénotype et un certain nombre de marqueurs génétiques On ne connaît pas le gène responsable de la maladie Recherche d une coségrégation entre un marqueur génétique et le phénotype dans une famille Plus la ségrégation est bonne et plus le marqueur est proche du locus du gène PROJET GENOME HUMAIN 1983: liaison RFLP sur chr 4 et maladie de Huntington 1987: clonage gène de la mucoviscidose 1990: début HGP: établissement de cartes génétiques avec de nombreux marqueurs identification de centaines de gènes de maladies monogéniques 2003: Séquençage du génome humain (~ 30 000 gènes) 6
ETUDES DE LIAISON Marqueurs polymorphes (microsatellites >> RFLP) répartis sur le génome (~300) Grandes familles avec patients et sujets sains Le statut clinique des patients doit être défini De préférence : affection dominante avec pénétrance complète TAUX DE RECOMBINAISON A 1 B 1 A 2 B 2 = Gamètes recombinés Gamètes parentaux Recombinaison (CO) A 1 B 1 A 2 A 1 B 2 A 2 B 2 B 1 Gamètes parentaux Gamètes recombinés 7
METHODE DES LOD-SCORES M a M b m a M c c m d M a m c M Pénétrances des génotypes mm = 1 mm = 1 MM : 0 Z( ) = Log L( ) L(1/2) Vraisemblance de 0 < < 1/2 Vraisemblance de = 1/2 (ségrégation indépendante) CI METHODE DES LOD-SCORES = TEST PARAMETRIQUE Il faut connaître : Le mode de transmission La pénétrance des génotypes Le taux de phénocopie Le taux d hétérozygotie au locus marqueur 8
PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS Méthode des Lod Scores appliquée aux maladies multifactorielles Exemple 1 : Schizophrénie Exclusion de tout le génome!! Exemple 2 : Tuberculose (Greenwood et al., 2000) Liaison en 2q35 dans une famille amérindienne LOD score de 3.81 NRAMP1 9
ANALYSE DE LIAISON PARAMÉTRIQUES ET MALADIES MULTIFACTORIELLES Faible probabilité de détecter une liaison Forte probabilité d exclure une liaison à tord Ex : Kc du sein Faux positifs Ex : Alzheimer et chr 21 Peut-on augmenter l efficacité des études de liaison? Augmentation du nombre de marqueurs? 500 000 SNP? Augmentation du nombre de patients? Plusieurs centaines voir milliers? Amélioration du phénotypage des patients? Erreur de classification (dilution du risque) 10
Contourner le problème par l étude des sous-entités mendéliennes Ex : maladie d Alzheimer Dans certaines familles la maladie est précoce (<60 ans) et transmise selon un mode AD Au moins 3 formes mendéliennes à début précoce + 2 formes mendéliennes à début tardif Formes monogéniques de maladie d Alzheimer APP (chr 21) : précurseur béta-amyloïde Préséniline 1 (chr 14) : gène majeur Préséniline 2 (chr 1) : Allemands de la Volga 11
Contourner le problème par l étude des endophénotypes? Endophénotype = phénotype intermédiaire discret obéissant aux lois de Mendel Trait neurophysiologique élémentaire également présents chez des apparentés sains 2 endophénotypes décrits pour la schizophrénie troubles des mouvements de poursuite oculaire lents troubles du filtrage sensoriel Endophénotype : schizophrénie et trouble du filtrage sensoriel Faible diminution de l onde P50 lors de la répétition du stimulus auditif Présente chez 90% des patients et 50% des apparentés au 1er degré transmission AD Endophénotype utilisé pour études de liaison 12
Evolution parallèle des concepts et des technologies Hypothèse Stratégie Technologie Variant fréquent / maladie fréquente Variant rare / maladie fréquente Sib-pairs Association Association Gènes candidat GWAS Variant rare / maladie rare Variants de novo Association CGH-array NGS PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS 13
NOTION DE FACTEUR DE RISQUE Maladie monogénique : Mutations rares, pathogènes Maladie multifactorielle : Combinaison d allèles fréquents Exerçant chacun un effet modeste Ni indispensables ni suffisants POIDS DES FACTEURS GENETIQUES DANS LES MALADIES MENDELIENNES ET COMPLEXES 100 % de variance expliquée par chaque gène Maladies mendéliennes Petits échantillons Maladies complexes Grands échantillons 0 0 1 3 nombre de gènes impliqués x? 14
Non concordance génotype / phénotype Phenocopies Phénotype = ce que nous étudions Maladies du spectre Génotype = ce que nous voulons étudier METHODES NON PARAMETRIQUES Pas de nécessité de connaître le modèle sous-jacent Plusieurs approches possibles : - Eudes de liaison : méthode des paires de germains - Eudes d association 15
PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS METHODE DES PAIRES DE GERMAINS (SIB-PAIRS) Méthode d analyse de liaison indépendante du modèle But = montrer que deux sujets d une fratrie hérité d un segment chromosomique plus fréquemment que ne le voudrait le hasard Moyen = estimation de la proportion d allèles identiques par descendance (IBD) CII 16
ESTIMATION DE L IBD Situations où les parents sont hétérozygotes pour des allèles différents a c a b b c b d a c 2 1 1 0 a d 1 2 0 1 b c 1 0 2 1 b d 0 1 1 2 IBD = 2 4/16 (25%) IBD = 0 4/16 (25%) IBD = 1 8/16 (50%) METHODE DES SIB-PAIRES APPLIQUEE A LA SEP HLA et Sclérose en plaques Genotype Distribution théorique Distribution observée 2 1 0 1/4 1/2 1/4 60 30 10 17
INTERET ET LIMITES DE LA METHODE DES SIB-PAIRS Pas de problème de pénétrance Problème des phénocopies Faible aptitude à démontrer une liaison : requiert l étude de plusieurs centaines de patients Ne permet pas de localiser le gène en cause avec précision Peu de «succes stories» PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS 18
UN PRINCIPE SIMPLE Comparaison de la fréquence d un allèle ou d un génotype entre un groupe de patients et un groupe de témoins Un allèle est associé à la maladie s il est statistiquement plus fréquent chez les malades (non apparentés) que chez les témoins CIII LES SNPs (Single Nucleotide Polymorphism) Substitution d une base Fréquence > 1% Toutes les 1200 paires de bases en moyenne Intra ou extra génique, codante ou non codante, synonyme ou non Le plus souvent bi-allélique Génotypage à haut débit possible 19
NOTION DE DESEQUILIBRE DE LIAISON Association détéctée = 2 possibilités l allèle associé A est un facteur causal direct = rarement et il faut le démontrer l allèle associé A est en déséquilibre de liaison avec un allèle causal B, c est à dire : AB A x B = cas le plus fréquent DESEQUILIBRE DE LIAISON Association directe Association indirecte 20
APPROCHE GENE CANDIDAT Base fonctionnelle: familles de gènes, voies métaboliques Choix des candidats? Indication de liaison (Sibairs) Signature de sélection (positive ou négative) Régions conservées (SNP codants, régions régulatrices) EXEMPLES D ETUDE GENES CANDIDAT Exemple 1 : Association d un polymorphisme du gène ICAM1 avec la SEP dans la population polonaise Non retrouvée dans la population finlandaise Exemple 2 : Polymorphisme du gène SDF1 et résistance à l infection par HIV 21
SYSTÈME HLA ET MALADIES FREQUENTES Allèle Patients Contrôles Spondylarthrite ankylosante B27 90% 9% Sclérose en plaques DR2 86% 33% Polyarthrite rhumatoïde DR4 81% 24% Diabète type 1 DR3 ou DR4 93% 43% Narcolepsie DR2 >95% 33% Rôle direct HLA? Déséquilibre de liaison? LIMITE DES ETUDES D ASSOCIATION Association ne signifie pas un lien de causalité Ex : RAA en Angleterre Absence d association avec un SNP n exclu pas un variant important dans le même gène Stratification de la population (admixture) f maladie et allèles chez patients et témoins Problème des tests multiples Risque de détecter une association liée au hasard en pratiquant divers tests successifs 22
STRATIFICATION DE LA POPULATION ET FAUX POSITIFS (Cardon and Palmer, 2003) Full heritage American indian Fréquence haplotype A : 1% Prévalence DNID : 40% Caucasian Fréquence haplotype A : 66% Prévalence DNID : 15% OR=0.27 [0.18-0.40] Situation rare en pratique Ajustement cas/témoins, contrôle internes, test d un groupe de marqueurs (ex: panels régionaux français) PROBLEME DES TESTS MULTIPLES Augmentation du risque de faux positifs lorsque on effectue de multiples tests indépendants sur le même échantillon Nécessite de corriger le seuil de significativité (par exemple: correction de Bonferoni) : p=0.05 pour un test p=5x10-8 pour un million de tests Mais les tests ne sont pas toujours indépendants (DL, marqueurs redondants) CIV 23
CAUSE DE NON REPLICATION D UNE ASOCIATION Faux positifs dans la première étude : Détection de l association par hasard (erreur de type I) p=0,05 ou p=0,01 non adaptés nécessité de critères plus stringents Faux négatifs dans la deuxième étude : Absence de puissance statistique (erreur de type II) nombre insuffisant de patients Hétérogénéité des populations à risque (différences de fréquences allèliques, facteurs environnement ) COMMENT AMELIORER LES ETUDES GENE CANDIDAT Candidats issus modeles animaux (lignées consanguines, cartes synthéniques) Phénotypes intermédiaires (ex : densité tissu mammaire) Enrichir le groupe de patients en formes familiales : intérêt surtout pour allèles rares Augmenter la normalité des témoins : hypernormal controls 24
Etudes d association sur le génome entier GWAS (Genome-wide associations studies) Nécessite une connaissance précise de l ensemble des SNP et du DL Puces à ADN Sélectionner un nombre raisonnable de SNP? 200,000 à 500,000 SNP pour une fréquence allélique minimale de 5% (x 2 pour les Africains) Réduction du seuil Projet HapMap : phase I (2005) 10 6 SNP Génotype de 270 individus 4 populations: 30 Yoruba 45 japonais 45 Chinois 30 Américains (USA) d origine européene 25
Les haplotypes des populations non africaines dérivent de sous-groupes d haplotypes d origine africaine et sont en général plus longs Les populations africaines sont longtemps restées numériquement plus importantes (recombinaisons plus nombreuses sur la durée) Phase III (2009), 11 populations: ASW (African ancestry in Southwest USA) CEU (Utah residents with Northern and Western European ancestry from the CEPH collection) CHD (Chinese in Metropolitan Denver, Colorado) CHB (Han Chinese in Beijing, China) JPT (Japaese in Tokyo, Japan) GIH (Gujarati Indians in Houston, Texas) LWK (Luhya in Webuye, Kenya) MEX (Mexican ancestry in Los Angeles, California) MKK (Maasai in Kinyawa, Kenya) TSI (Tuscans in Italy) YRI (Yoruba in Ibadan, Nigeria). [1] 26
Effectif requis en fonction du risque relatif estimé Pour mettre en évidence une association, pour une puissance de 90% Pour des allèles dominants Pharoah et al., 2004 «The missing Heritability» Diabète (Zeggini et al., 2008): 10128 patients et 53975 contrôles 18 SNPs expliquent 6% de l augmentation de risque Schizophrénie (Shi et al., 2009): Méta-analyse 8008 patients et 19077 contrôles 7 SNPs avec OR <1.3 27
PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS HYPOTHESE VARIANT RARE / MALADIE FREQUENTE Certains allèles de susceptibilité pourraient être des variants rares (>1%) Leur rareté serait due à leur origine récente Seront faiblement corrélé à des SNP fréquents Variant 1100delC du gène CHEK2 (Meijers-Heijboer et al., 2002) : f = 1% dans population et 5% dans 718 familles Kc sein (p=0,00000003) 28
PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS HYPOTHESE VARIANT RARE / MALADIE RARE Variants rares et exerçant un effet fonctionnel pourraient expliquer une part importante de la prédisposition (CNVs, indels, SNPs ) Variants fréquents : effet modulateur (rôle des mêmes variants dans des maladies différentes?) 29
HYPOTHESE VARIANT RARE / MALADIE RARE Situation plus proche des maladies mendéliennes (pénétrance incomplète) Grande hétérogénéité génétique pourrait expliquer une partie de l incohérence des études de liaison dans les maladies courantes (ex: schizophrénie, autisme) Problème des populations contrôles Hybridation génomique comparative (CGH array) Extraction Digestion Marquage PERTE Hybridation Révélation GAIN Analyse des rapports de fluorescence Mise en évidence d anomalies chromosomiques déséquilibrées (résolution 50 kb) 30
CNV ET AUTISME / SCHIZOPHRENIE Référence Maladie locus Type Taille F patients F population OR Weiss, 2008 Autisme 16p11.2 Del de novo 593 1% 1 x 10-4 100 Weiss, 2008 Autisme 16p11.2 Dup de novo 593 0.5% 3 x 10-4 16 Stefansson, 2008 Stone, 2008 Stefansson, 2008 Stone, 2008 Schizophrénie 1q21.1 Del de novo 1350 0.3% 2 x 10-4 15 Schizophrénie 15q13.3 Del de novo 1580 0.2% 2 x 10-4 12 Stefansson, 2008 Schizophrénie 15q11.1 Del de novo 470 0.5% 0.2% 2.7 McCarroll et al., 2008 Stefanson, 2008: 2160 patients, Stone, 2008: 3391 patients, Weiss, 751 familles Mutation de novo : faible transmission à la descendance démontrer la causalité du CNV et sa contribution à l incidence de la maladie? CNV et autisme (Bucan et al., 2010) 912 familles multiplex et 1488 témoins 150 loci dont 27 seulement chez patients Replication: 859 cas et 1051 témoins 31
CNVs et prédisposition à différents troubles neurodeveloppementaux CNV Haplo-insuffisance Mutation récessive pour la schizophrénie CNV CNV Mutation récessive pour l épilepsie PLAN DU COURS 1. Définitions, rappel sur les maladies monogéniques 2. Stratégies d étude des maladies fréquentes 1. Etudes de liaison paramétriques 2. Hypothèse variant fréquent / maladie fréquente 1. Bases génétiques 2. Paires de germains 3. Etudes d association 3. Hypothèse variant fréquent maladie rare 4. Hypothèse variant rares / maladie fréquente 1. Etude de CNV par CGH-array 2. Recherche de variants par NGS 32
STRATEGIES D IDENTIFICATION DES GENES IMPLIQUES EN PATHOLOGIE PAR NGS Gilissen et al. 2012 Etude de gène candidats STRATEGIES D IDENTIFICATION DES GENES IMPLIQUES EN PATHOLOGIE PAR NGS Recherche de double hits (CNV, mutations) Gilissen et al. 2012 33
Projet «1000 genomes» Séquençage >1000 individus appartenant à 7 populations différentes 15 x 10 6 SNPs (fréquence allèle mineur entre 1 et 5%) 1 million indel, 20.000 CNV But : nouvelle vague de GWAS, études familiales, corrélations génotype phénotype http://www.1000genomes.org/ NHLBI Exome Sequencing Project (ESP) To discover novel genes and mechanisms contributing to heart, lung and blood disorders by pioneering the application of next-generation sequencing of the protein coding regions. 7 universités USA http://evs.gs.washington.edu/evs/ 34
01/05/2014 SHANK2 et autisme (Leblond et al. 2012) Identification de 2 CNVs de novo incluant SHANK2 Criblage 827 patients et 1090 contrôles 40 variants identifiés Acides aminés plus conservés chez les patients SHANK2 et autisme (Leblond et al. 2012) 35
01/05/2014 SHANK2 et autisme «Genetic buffering» STRATEGIES D IDENTIFICATION DES GENES IMPLIQUES EN PATHOLOGIE PAR NGS Gilissen et al. 2012 Recherche de mutation de novo par trios ou quads 36
01/05/2014 Mutations de novo et autisme (O Roak et al., 2012) Exome chez 200 trios 248 mutation de novo dont 120 «sévères» et 33 tronquantes (hors CNVs) Quelques événements récurrents ou impliqués dans maladies mendéliennes Excès allèle paternel Grande hétérogénéité des bases génétiques de l autisme? Interaction potentielles entre certains gènes (networks) Mutations de novo et autisme (Krumm et al., 2014) 6 études Exome trios et quads, autisme et déficience intellectuelle SNV tronquants de novo pourraient contribuer à 10-15% des patients Fréquence mutations de novo par génération: CNV 0.02 SNV 1 37
01/05/2014 Mutation disruptives récurrentes dans l autisme et la déficience intellectuelle Krumm et al., 2014 Grande nombre de gènes Quelques récurrents dans plusieurs études Pas de variants tronquants dans ESP pour CHD8, GRIN2B et DYRK1A Estimations de la proportion de mutations de novo dans ASD/ID Krumm et al., 2014 38
01/05/2014 Estimations de la proportion de mutations de novo dans ASD/ID Krumm et al., 2014 Réseaux d interaction entre gènes CHD8: Chromodomain helicase DNA binding protein 8 CTNNB1 : betacatenin Surexpression CTNNB1 chez souris : macrocephaly 39
01/05/2014 Mutations de novo et pathologie (de Ligt et al., 2013) Relation entre taille des gènes impliqués (mutational target) et fréquence de la maladie Gilissen et al., 2011 Dans le cas des maladies causées par des mutations de novo 40
01/05/2014 Conclusion : évolution des stratégies d étude des maladies fréquentes Singleton et al., 2010 Gène mendélien et facteur de risque Ex : gène de la protéine prion 129 200 3 5 Met/Val Glu/Lys Glu200Lys : formes autosomiques dominantes Allèles codon 129 associés au risque de maladie de Creutzfeld-Jacob sporadique 41
01/05/2014 Gènes mendéliens et facteurs de risque GBA (glucocerebrosidase): Maladie de Gaucher : mutations homozygotes ou hétérozygotes composites Susceptibilité maladie de Parkinson : mutations hétérozygotes ATM: Ataxie-télangiectasie : mutation homozygotes ou hétérozygotes composites Susceptibilité Kc du sein chez les porteuses hétérozygotes 42