Activités de recherche

Transcription

1 Activités de recherche Préambule 1 - Travaux réalisés dans le cadre de mon doctorat 2 - Travaux réalisés dans le cadre de mon post-doctorat Travaux réalisés dans le cadre de mon post-doctorat Travaux réalisés dans le cadre de mon post-doctorat 3 1

2 Activités de recherche Préambule Après avoir travaillé un an chez Sano en tant que biostatisticienne, je me suis orientée vers un doctorat de biostatistique. Depuis le début de ma thèse, mes travaux de recherche visent au développement de méthodes d'analyse de données génétiques pour étudier les relations génotype-phénotype et mettre en évidence de nouveaux variants impliqués dans les maladies humaines. Les maladies complexes telles que l'ostéoporose ou la mucoviscidose, sont des problèmes de santé publique en raison de la gravité des symptômes et du grand nombre de personnes touchées dans la population générale. De nombreuses recherches portent donc sur le développement de méthodes statistiques pour l'identication de variants génétiques impliqués dans la variabilité de traits complexes. La plupart du temps, plusieurs traits reliés au phénotype d'intérêt sont collectés pour un même individu. Ces traits sont souvent corrélés entre eux et une part de cette corrélation pourrait être expliquée par des facteurs génétiques communs. Analyser conjointement ces traits peut s'avérer plus puissant que l'analyse séparée de chacun des traits pour la recherche de loci de susceptibilité. Lors de mon Doctorat nous avons cherché à évaluer l'intérêt que peut présenter l'analyse génétique jointe de traits quantitatifs corrélés en mesurant le gain apporté par l'analyse jointe relativement aux analyses univariées de chacun des traits. Il existe deux approches méthodologiques, basées fondamentalement sur le même principe, permettant de détecter des facteurs génétiques de maladies : les études de liaison et les études d'association. Ces approches sont des outils puissants et complémentaires pour caractériser la composante génétique des maladies. S'il existe une relation entre le trait et le marqueur, dans le cas d'un trait quantitatif, on parlera d'un locus de trait quantitatif (QTL pour Quantitative Trait Locus). Généralement, on utilise dans un premier temps les études de liaison pour localiser des régions chromosomiques pouvant contenir un gène expliquant une part de la variabilité du trait. Puis, dans un deuxième temps, les études d'association pour préciser plus nement l'emplacement du gène. Le principe général est d'évaluer la corrélation entre le(s) marqueur(s) génétique(s) et le phénotype étudié (maladie ou trait quantitatif). L'unité d'échantillonnage des études génétiques peut donc être de deux types : des sujets apparentés (paires de frères/soeurs, familles nucléaires, familles étendues/généalogies) ; sujets non apparentés (étude de type cas-témoins). Ces unités d'échantillonnage peuvent être aléatoirement sélectionnées ou non, par exemple au travers d'individus présentant le phénotype extrême (malades). L'objectif des analyses de liaison génétique est de localiser les régions contenant les gènes responsables du trait ou de la maladie sur le génome dans des échantillons de familles. Il existe deux principales approches pour la recherche de liaison de phénotypes quantitatifs ou qualitatifs, qui sont les analyses de liaison dites paramétriques et les analyses de liaison dites non-paramétriques. L'analyse de liaison paramétrique modélise exactement la cotransmission du phénotype et des marqueurs dans les familles. Pour cela, les paramètres du modèle génétique sont supposés connus. Des erreurs sur la valeur des paramètres génétiques augmentent les biais sur l'estimation des paramètres et diminuent la puissance de détecter une liaison. De plus, nous ne savons pas spécier a priori un tel modèle dans le cas des maladies multifactorielles. C'est pour cela que des méthodes non-paramétriques ne faisant aucune hypothèse sur le modèle génétique ont été développées. Comme évoqué plus haut, l'idée consiste à comparer la ressemblance au trait et la ressemblance au marqueur entre apparentés. La similarité des allèles au marqueur est représentée par la proportion du nombre d'allèles partagés par descendance. On représente ce nombre par le statut IBD (Identity By Descent). C'est ce dernier type de méthodes que nous avons utilisé dans le cadre de mes recherches de Doctorat et Post-doctorat 1. Lorsque les données au marqueur sont incomplètes, par manque d'informativité du marqueur et/ou parce que les individus ne sont pas tous génotypés, l'estimation du nombre d'allèles IBD au marqueur est ambiguë. Utiliser l'information apportée par plusieurs marqueurs simultanément permet de mieux spécier les coecients IBD mais ceci requiert beaucoup de temps de calcul. Les algorithmes sont souvent limités pour des familles de grande taille et/ou lorsqu'on augmente le nombre de marqueurs conjointement analysés. Ils sont même parfois impossibles à calculer dans de très grandes familles réparties sur plusieurs générations comme par exemple, dans le cadre de familles issus d'isolat. C'est sur cette problématique que j'ai travaillé lors de mon Post-doctorat 1. 2

3 Malgré un certain succès des études de liaison, la plupart des résultats dans la recherche de gènes impliqués dans la variabilité de phénotypes complexes sont peu consistants. La puissance de détection d'une liaison dépend du modèle génétique sous-tendant la maladie. Ainsi, les analyses de liaison ont peu de puissance pour détecter des variants fréquents. En eet, dans ce cas, les apparentés atteints peuvent être porteurs du variant fonctionnel sans l'avoir reçu du même ancêtre (sans être IBD). Pour des phénotypes complexes, il est plus réaliste de penser que les eets génétiques sont faibles et que les variants causaux sont relativement fréquents (hypothèse common disease-common variant ). La puissance d'une analyse de liaison est également réduite en présence d'hétérogénéité génétique, c'est-à-dire si plusieurs plusieurs gènes sont impliqués dans la variation du trait. Pour l'ensemble des familles de l'échantillon, ce ne sont alors pas forcément les mêmes variants causaux qui se transmettent à travers les générations entre les diérentes familles. L'analyse de liaison n'est donc pas adaptée pour l'étude de maladies multifactorielles où l'hétérogénéité génétique est très vraisemblable et où les eets des facteurs génétiques impliqués sont faibles (faible corrélation trait-marqueur). Par ailleurs, la prévalence relativement élevée de ces pathologies suggère que les allèles à risque sont fréquents dans la population générale. L'analyse d'association est une alternative pertinente à l'analyse de liaison pour l'étude des maladies multifactorielles. Elle utilise l'information apportée par les marqueurs génétiques qui sont des polymorphismes d'un seul nucléotide (SNP). Elle est fondée sur l'existence de dépendances statistiques, appelées déséquilibre de liaison (DL), généralement observées entre les marqueurs proches (inférieures à kilobases) sur l'adn. Dans une étude de liaison, on cherche à voir si les allèles de loci adjacents se transmettent de façon non indépendante au cours des générations à l'intérieur des familles. Plus deux loci sont génétiquement liés, plus ils sont situés proches l'un de l'autre. La distance physique entre des loci proches est de l'ordre de quelques mégabases (Mb). Les études d'association reposent sur l'hypothèse que la mutation a eu lieu depuis déjà plusieurs générations. Au cours des générations successives, le phénomène de recombinaison génétique qui survient au cours de la méiose va atténuer le DL entre le variant causal et les loci adjacents. Seulement des petites régions du génome, de l'ordre de quelque kilobases (Kb), seront transmises ensemble de génération en génération autour de cette mutation. Cette caractéristique biologique assure une localisation ne des mutations causales non observées à l'aide des marqueurs génétiques. Les études d'association peuvent être réalisées dans des échantillons de sujets non apparentés ou apparentés. L'utilisation de chacun de ces échantillons a ses avantages et ses inconvénients. Les études de sujets non apparentés sont plus sensibles à la stratication de population. L'association observée entre les allèles ne résulte alors pas forcément du déséquilibre de liaison mais de la stratication de population, c'est à dire des mélanges de populations ayant des fréquences diérentes des allèles. Si les groupes constitués ne sont pas homogènes, une stratication de l'échantillon pourra générer une fausse association signicative entre la variabilité du trait et le marqueur. Les études génétiques sur des données de SNPs montrent que le problème de la stratication de population est un facteur de confusion particulièrement important dans les étude d'association à grande échelle et peut se produire même en considérant des individus relativement proches géographiquement. C'est sur cette problématique que j'ai travaillé lors de mon Post-doctorat 2. Les approches utilisant des données familiales peuvent se libérer du problème de stratication de population. Pour des traits quantitatifs, les méthodes de type TDT (Transmission Disequilibrium Test) sont des approches intéressantes permettant de tester l'association dans la méthode d'analyse de liaison basée sur la décomposition de la variance. Ce test est robuste à la stratication de la population car le test est conditionné par le génotype des parents. Le principe consiste à décomposer le score génotypique au marqueur en deux composantes orthogonales, une composante entre-famille et une composante intra-famille. La composante entre-famille prend en compte le phénomène de stratication tandis que la composante intra-famille n'est signicative qu'en présence d'association. Ce test peut être appliqué à des familles comportant plusieurs enfants atteints en le répétant pour chaque enfant atteint, mais il faut alors corriger la signication des tests en raison de la non-indépendance des paires au sein d'une même fratrie. Nous avons comparé diérentes méthodes d'association dans des données familiales lors de mon Doctorat. Les avancées récentes des technologies génomiques à haut-débit ont permis d'accéder à une grande part de la variabilité du génome entier à l'aide de centaines de milliers de marqueurs. Ces avancées technologiques et la mise en place des projets internationaux comme HapMap ou 1000G ont ouvert la voie aux études d'association pan-génomiques, c'est-à-dire, la recherche d'association sur le génome entier ( Genome Wide Association Study, GWAS). Dans ce contexte, un certain nombre de grands projets de recherche ont vu le jour pour la caractérisation de la composante génétique de pathologies complexes. La première GWAS a été publiée en 2005 pour la dégénérescence maculaire liée à l'âge. Par la suite, d'autres succès ont été rapportés avec notamment l'identication de variants impliqués dans diérentes maladies complexes, comme le cancer du sein. 3

4 Contrairement à l'analyse de liaison, l'approche GWAS est une stratégie d'étude optimale pour détecter les variants fréquents, à condition de bien contrôler les niveaux des erreurs de type I et de type II. En eet, un grand nombre de tests statistiques sont réalisés (problème des tests multiples) ; des problèmes de stratication de population sont possibles et leurs eets doivent être contrôlés. Pour augmenter la puissance, plusieurs méthodes existent comme l'imputation et la méta-analyse. Les études pangénomiques n'ont cependant pas eu tout le succès attendu. Les variations génétiques qu'elles ont mis en évidence ne contribuent que de manière très marginale au déterminisme génétique de ces pathologies et sont généralement diciles à relier à la maladie. C'est alors posé la question de l'héritabilité manquante. Étant donné les faibles niveaux de puissance des études GWAS pour détecter des variants rares ou peu fréquents, il a été suggéré qu'une part de cette héritabilité manquante pouvaient provenir des variants peu fréquents, voir rares. Les variants rares sont supposés avoir une origine plus récente que les variants communs et certains suggèrent qu'ils pourraient collectivement expliquer une part importante du risque de la maladie. Cette hypothèse, à eets importants sur le risque des maladies multifactorielles soulève un certain engouement parmi la communauté scientique. Nous avons comparé diérentes méthodes d'association pour l'analyse de variants rares lors de mon Doctorat. Nous allons appliquer ce type de méthodes au cours de mon Post-doctorat 3. Le développement des techniques de séquençage de nouvelle génération (NGS pour Next Generation Sequencing) permet d'aller encore plus loin dans notre connaissance du génome humain en caractérisant non plus seulement les variations fréquentes mais toutes les variations présentes dans la séquence d'adn d'un individu même celles qui sont très rares dans les populations humaines. Le NGS ore donc la possibilité d'explorer la contribution de variants génétiques rares. Nous avons fait une revue sur le rôle des variants génétiques rares dans les maladies complexes dans le cadre de mon Post-doctorat 2. En résumé, les développements technologiques récents ont permis de générer un grand nombre de données, que ce soit au niveau des informations phénotypiques qu'au niveau du nombre de marqueur étudié pour chaque individu. La dimension et la complexité des données issues de ce nouveau type d'étude posent de nombreux dés statistiques et informatiques. Lors de mes travaux de recherche, j'ai développé des études théoriques pour étudier les propriétés statistiques des tests de liaison, j'ai comparé diérentes approches pour l'analyse multivariée de traits corrélés. J'ai appliqué des approches statistiques innovantes. Mes multiples expériences en génétique m'ont permis de traiter diverses problématiques liées à l'analyse de grandes bases de données comme les données issues de l'imputation, du séquençage ou encore des bases de données publiques (ex : 1000G ). La génétique est une discipline qui évolue en parallèle avec les progrès techniques de la biologie. Si on veut progresser dans la connaissance des origines génétiques des maladies multifactorielles, il est important d'utiliser des méthodes optimales. Au carrefour entre médecine et statistique, l'évaluation des diverses méthodes utilisées en génétique statistique reste un chantier grand ouvert. 1 - Travaux réalisés dans le cadre de mon doctorat J'ai eectué mon doctorat de génétique statistique sous la direction de Maria Martinez (INSERM U563). Ma thématique de recherche portait sur la comparaison des performances de diérentes méthodes pour l'analyse génétique de traits quantitatifs corrélés. Les causes de covariance des caractères peuvent être génétiques et/ou environnementales. La principale source de co-variation génétique est la pléiotropie, c'est à dire, lorsqu'un locus exerce une action simultanément sur les deux caractères. La force de la corrélation génétique reète l'inuence du (des) gène(s) commun(s) sur la variabilité des caractères. Certains gènes peuvent contribuer de façon similaire sur chacun des caractères. Au contraire, d'autres gènes peuvent contribuer de façon opposée. Dans la première situation, la corrélation génétique est positive alors qu'elle est négative dans la seconde situation. La pléiotropie ne génère donc pas nécessairement des corrélations génétiques détectables. Il existe d'autres situations, hors la simple pléiotropie, où des corrélations génétiques non nulles peuvent être générées. Par exemple lorsque deux QTLs inuençent l'un le premier caractère, l'autre le second, et qui ne sont pas indépendants à cause de la liaison. Cette situation correspond à la co-incidence. Les deux QTLs sont génétiquement liés, situés dans la même région chromosomique, et très proches l'un de l'autre. Les génotypes à ces deux QTLs ne sont donc pas indépendants au sein des familles. Une autre situation est celle où le QTL n'explique directement qu'un seul des 2 phénotypes, mais ceux-ci ont des relations de causalité entre-eux. Plusieurs méthodes d'analyse génétique ont été développées pour l'étude de traits corrélés. Ces méthodes ont l'avantage de tenir compte des corrélations phénotypiques entre les traits. Certaines études ont montré que l'analyse jointe de traits corrélés pouvait augmenter la puissance de détecter des QTLs. C'est ce type de méthodes que nous avons appliqué dans ce travail de thèse pour l'étude génétique de traits quantitatifs. Les méthodes bivariées sont souvent utilisées dans le cadre de la recherche de QTL par la liaison génétique, mais elles sont moins répandues dans le cadre de la recherche par l'association. 4

5 Ce travail de recherche a été appliqué à la variation de la densité minérale osseuse (DMO) dans la cohorte NEMO (NEtwork on Male Osteoporosis). Le projet NEMO est un projet collaboratif qui a débuté en 1995 impliquant les équipes du Dr. Marie Christine de Vernejoul (INSERM U606, Paris), du Dr. Jean Marc Kaufman (Université Gent, Belgique) ainsi que du Dr. Maria Martinez (INSERM U563, Toulouse) et dont l'objectif était de caractériser la composante génétique de l'ostéoporose et de ses traits associés. L'ostéoporose se dénit comme une fragilisation de la matrice osseuse. Elle ne s'accompagne habituellement d'aucun signe, mais sa présence augmente le risque de fracture. Pour chaque participant de cette étude, l'état de l'os (DMO) a été évalué à deux sites diérents du squelette : au rachis lombaire (LS, pour Lumbar Spine) et au col du fémur (FN, pour Femoral Neck). L'ostéoporose est une maladie qui touche plus fréquemment les femmes que les hommes. La plupart des cohortes existantes pour la DMO et/ou l'ostéoporose sont construites à partir de la population de femmes et le plus souvent post-ménopausées. Dans cette population, les phénotypes de la DMO sont probablement assez hétérogènes, résultant d'interactions complexes de nombreux facteurs, génétiques ou non (hormones, alimentation, activité physique,..). En revanche, les données collectées dans le cadre du projet collaboratif NEMO orent la possibilité d'étudier la génétique de la DMO dans une population originale pour laquelle les phénotypes peuvent être potentiellement plus homogènes : hommes relativement jeunes (âge compris entre 19 et 67 ans) et sélectionnés pour des valeurs extrêmes de densité osseuse. Au cours de cette thèse nous avons cherché à identier les QTLs impliqués dans la variabilité de la DMO en utilisant l'information apportée par les marqueurs génétiques pour la liaison et l'association. Le premier axe de recherche est un criblage du génome pour la liaison dans l'échantillon de familles NEMO sélectionnées à travers des hommes ayants ayant une faible densité osseuse au site LS ou FN. Nous avons d'abord recherché des QTLs à eets site-spéciques puis des QTLs à eets pléiotropiques. Ces travaux ont été présentés oralement au congrès européen de mathématique génétique (EMGM, 2009) et ont donné lieu à une publication (Kaufman, Ostertag, Saint-Pierre et al., 2008). L'objectif du deuxième travail de recherche est l'identication du (ou des) variants causaux impliqués dans la variation de la DMO par criblage du génome pour l'association. L'étude a été conduite dans l'échantillon NEMO d'hommes non apparentés et sélectionnés pour des valeurs extrêmes (basses ou élevées) de la DMO. De plus, la recherche d'association a été conduite par analyse jointe de LS et FN. A notre connaissance, aucune autre étude d'association à grande échelle n'a utilisé un tel design : analyse d'association bivariée dans des échantillons de sujets recensés aux extrêmes de la distribution des traits. Ces travaux ont donné lieu à une publication ( Saint- Pierre, Kaufman et al., 2011). Par ailleurs, dans le cadre de ma thèse, j'ai eu l'occasion de participer à deux reprises au groupe de travail sur l'analyse de données génétiques (Genetic Analysis Workshop, 16 et 17). Ce groupe de travail ore la possibilité aux scientiques d'analyser le même jeu de données avec diérentes méthodes. Les techniques sont ensuite présentées et discutées. Dans le cadre du projet NEMO, lors de l'atelier GAW16 nous avons comparé les performances statistiques de plusieurs méthodes d'analyse d'association génétique dans des données de sujets apparentés. Ces travaux ont donné lieu à une publication (Saint-Pierre et al., 2009). Lors du groupe de travail GAW17, nous avons comparé diérentes méthodes d'association pour l'analyse de variants génétiques rares issus de données de séquençage à haut débit. Ces travaux ont donné lieu à une publication (Saad, Saint-Pierre et al., 2011). En parallèle, j'ai également participé au groupe de travail Français sur la génétique de la maladie de Parkinson. Notre étude a permis d'identier plusieurs variants génétiques localisés dans des gènes potentiellement candidats pour la maladie de Parkinson (Saad, Lesage, Saint-Pierre et al., 2011). Recherche de QTL par la liaison Dans le cas d'échantillons de grandes familles (généalogies), l'analyse de liaison non paramétrique peut se faire par la méthode des composantes de la variance (VC pour Variance Components). Ces modèles VC orent l'avantage de pouvoir analyser les généalogies sans les casser en paires d'apparentés. Elle permet aussi de modéliser l'eet des covariables. Notre criblage du génome pour la liaison de la DMO a été conduit sous le modèle VC. Le modèle VC univarié modélise la structure de covariance des données de la famille conditionnellement au statut IBD observé au marqueur entre les individus et à leur degré d'apparentement. La covariance est décomposée en trois composantes : le QTL, qui est génétiquement lié au marqueur, une composante polygénique et une composante résiduelle. La composante polygénique modélise l'eet de nombreux facteurs qui peuvent être par exemple des gènes. Le test de liaison entre le marqueur et le trait repose sur le paramètre de variance des eets du QTL sur le trait. Ce paramètre de variance est contraint pour des valeurs positives et le test suit sous l'hypothèse nulle de non liaison un mélange de χ 2 à 0 et 1 degré de liberté. 5

6 Comme nous l'avons souligné dans le préambule, les algorithmes sont souvent limités pour des familles de grande taille et/ou lorsqu'on augmente le nombre de marqueurs conjointement analysés. Pour réduire les temps de calcul tout en considérant des familles de tailles complexes, certains algorithmes utilisent alors plutôt des approximations des IBD au QTL. Pour calculer la matrice des IBD dans les familles NEMO, nous avons opté pour des algorithmes de calcul exact. La taille des familles étant relativement grande, nous avons utilisé le logiciel LOKI (Heath 1997) pour calculer la matrice des IBD. Notre criblage du génome pour la liaison par analyse univariée de chacun des traits a permis d'identier plusieurs régions de liaison pouvant contenir des gènes potentiellement candidats pour la variation de la DMO (Kaufman, Ostertag, Saint-Pierre et al., 2008). La méthode VC a été généralisée à l'analyse multivariée de traits corrélés. Le modèle bivarié est une extension du modèle VC à un trait dans le cas de données répétées. Les paramètres du test de liaison bivarié sont les variances sur chacun des traits et la covariance génétique entre les traits. La non-indépendance des paramètres de liaison induit une réduction de l'espace des paramètres sous l'hypothèse nulle. Ce phénomène fait que la distribution asymptotique du test de liaison bivarié est complexe. Plusieurs distributions théoriques ont été proposées dans la littérature, mais pour la plupart, la validité n'a pas été prouvée. Une solution est d'estimer les niveaux de signications empiriquement, mais les temps de calculs sont prohibitifs : l'estimation empirique requiert de générer et d'analyser un très grand nombre de réplicas et les temps de calculs augmentent exponentiellement avec la taille des familles et/ou le nombre de marqueurs simultanément étudiés. Une approche courante est de contraindre le paramètre de corrélation génétique aux bornes de l'espace des valeurs possibles (±1). Deux distributions asymptotiques ont été proposées (Amos et al., 2001 ; Wang, 2003). D'autres approches sont plutôt basées sur des combinaisons linéairement indépendantes des traits d'intérêts, obtenus par des méthodes de réduction de la dimension, telles que l'analyse en composantes principales (Mangin et al., 1998). Nous avons appliqué ces diérentes approches de liaison bivariées au criblage du génome pour la liaison de la DMO dans notre échantillon de données familiales. L'objectif était d'évaluer le gain apporté par ces deux approches de liaison bivariées relativement aux analyses de liaison univariées, qui ignorent les corrélations entre les traits. En raison des divergences observées dans la littérature sur la loi asymptotique du test de liaison bivarié basé sur la méthode VC, nous avons estimé par simulations, la distribution empirique des tests bivariés dans nos données, puis évalué et comparé l'adéquation des diérentes distributions asymptotiques proposées. Nos résultats ont montré que quel que soit l'approche utilisée, les régions de liaison localisées sont relativement similaires. Étant donné qu'il n'y a pas d'ambiguïté sur la distribution asymptotique du test de liaison utilisant des techniques de réduction des données, cela favorise l'application de ce test. Si en théorie les analyses de liaison bivariées peuvent améliorer la puissance de détecter des loci de traits quantitatifs (QTLs), en pratique, le plus grand gain du bivarié est obtenu lorsque la corrélation induite par les eets génétiques et environnementaux est négative ce qui n'était pas le cas dans notre étude. D'autre part, notre étude de simulation pose le problème de l'interprétation des niveaux de signication statistique des tests joints basés sur la méthode des composantes de la variance et calculés à partir de valeurs nominales. Certaines des distributions ne rejettent pas assez l'hypothèse nulle de non liaison et sont donc conservatives alors que d'autres semblent trop libérales. Recherche de QTL par l'association Ce travail a été étendu à l'identication de QTL par la recherche de l'association génétique pour la variation de la DMO. Le projet initial devait porter sur un échantillon de sujets apparentés. Cependant, pour des questions de coût et malgré le gain aporté par cette approche relativement à l'analyse d'individus non apparentés (Pattaro et Saint-Pierre, 2013), ce projet n'a pas pu être réalisé et nous avons à la place, sélectionné un échantillon d'individus non apparentés. Les criblages du génome pour l'association utilisant des traits multivariés sont relativement rares, particulièrement dans des échantillons dindividus sélectionnés aux extrêmes de la distribution phénotypique. Nous avons donc appliqué une analyse d'association jointe basée sur le modèle SUR pour la variation de la DMO aux deux sites squelettiques LS et FN. Diverses méthodes d'analyses d'association ont été proposées qui sont le plus souvent basées sur des approches d'équations d'estimation généralisées (GEE) dans le cadre de données d'échantillons d'individus non apparentés ou dans le cadre de données familiales. La structure de corrélation entre les observations, c'est-à-dire les traits, est prise en compte dans la matrice de corrélation. Seulement deux papiers ont étudié les performances des tests d'association dans des données de population (Liu et al., 2009 ; Yang et al., 2009). L'un d'eux a utilisé des approches GEE en supposant que les valeurs observées des traits sont des données à mesures répétées. Dans ce contexte, la valeur et le signe du coecient de régression, c'est-à-dire les eets du QTL sur les traits, sont identiques. Une telle contrainte sur les eets peut surestimer la puissance relative vis-à-vis des analyses univariées. La deuxième étude utilise également des approches GEE pour l'analyse de chacun des traits 6

7 mais les deux équations sont ensuite combinées par le modèle SUR (Seemingly Unrelated Regression). Ce modèle à l'avantage de pouvoir supposer des eets génétiques diérents sur chacun des traits. Nous avons appliqué le modèle bivarié SUR dans le cadre de l'analyse d'association pour la variation de la DMO aux deux sites squelettiques. Notre application dans les données NEMO a montré que certains signaux d'association détectés par l'approche jointe n'étaient pas identiés par les analyses univariées. Ils suggèrent donc que les analyses bivariées peuvent avoir un intérêt pour l'étude d'association de traits corrélés. Ce gain apporté par l'analyse jointe vis-à-vis des analyses univariées nous a amené à évaluer par simulations les propriétés statistiques des tests d'association joints. Nous avons évalué les résultats en termes de puissance et d'erreur de type 1. Dans cette étude de simulation, nous considérons des modèles génétiques de traits complexes selon des données générées mimant au mieux nos données réelles concernant l'étude de la DMO. An d'évaluer les performances des tests dans des scénarios ou la direction des eets induits par les eets génétiques et environnementaux est négative, nous faisons varier le signe de la corrélation induite par le QTL à travers les eets du génotype sur les traits. Les scénarios varient en fonction du signe induit par la corrélation due au QTL et selon la force de la corrélation résiduelle. Les analyses statistiques ont été conduites à l'aide du logiciel R. Dans des échantillons sélectionnés aléatoirement, nous retrouvons des tendances de puissance bien connues. L'analyse bivariée est plus puissante que l'analyse univariée lorsque le QTL exerce des eets simultanés sur les traits avec un plus grand gain lorsque les eets sur chacun des traits sont en sens opposés. Nos résultats conrment que la puissance des analyses d'association est meilleure dans des échantillons d'individus sélectionnés pour des valeurs extrêmes de la distribution que sélectionnés aléatoirement dans la population. En revanche, en raison de la sélection, l'estimation des eets génétiques sur les traits est biaisée. Ceci peut s'avérer problématique dans le cadre de la réplication des résultats d'association entre diérentes études ( Saint-Pierre et al., 2011). Conclusions sur la recherche de QTL par analyses bivariées Ces travaux ont permis de montrer l'intérêt d'utiliser des approches bivariées en particulier pour l'analyse d'association. Dans les scénarios étudiés pour la recherche de loci par la liaison, l'ensemble des méthodes évaluées ont donné des résultats à peu près équivalents. Dans le cadre de la recherche par l'association, nos résultats ont montré que la méthode d'association bivariée, basée sur le modèle SUR, étaient au moins aussi puissante et souvent meilleure mais qu'en revanche, l'estimation des eets sur les traits est biaisée. Travaux réalisés dans le cadre du groupe de travail GAW Dans le cadre de l'atelier international Genetic Analysis Workshop 16 (GAW16) dont l'objectif est de comparer des méthodes d'analyse à partir de jeux de données réelles issues de la population de Framingham, nous avons utilisé des échantillons de familles dont les valeurs quantitatives simulées mimaient au mieux des phénotypes de maladies cardiaques. Grâce à ce large échantillon de données familiales, nous avons évalué trois méthodes d'association. La population de Framingham est une grande population originaire des États-Unis suivie depuis Le test d'association du TDT sur des trios présenté dans le Préambule supposent que les deux parents sont génotypés, dans le cas contraire il est préférable d'exclure ces familles pour éviter des biais. Dans le cas de maladie à début d'âge tardif, ce design d'échantillonnage est alors dicile à réaliser car les parents ne peuvent être génotypés. Cette méthode a été généralisée par la suite pour des généalogies de taille plus complexe avec le test du QTDT (Quantitative Trait Disequilibrium Test). Ce test ne nécessite pas d'avoir les génotypes des individus fondateurs mais même si cette information est connue, elle n'est pas utilisée dans l'estimation du paramètre d'association. Pour augmenter la taille eective des individus pris en compte dans l'estimation du paramètre d'association, Havill et al. (2005) proposent d'utiliser également l'information apportée par les fondateurs. Cette variante est le test QTLD (Quantitative Trait Linkage Disequilibrium). Contrairement au test QTDT, le test QTLD est sensible à la stratication de population. Une autre approche est de supposer que les composantes inter et intra-familles sont identiques comme le modèle du Measured Genotype (MG, Hopper and Mathews, 1982). Ce modèle exploite à la fois les variations entre les familles et intra-familles. Il a été proposé comme une alternative puissante pour la détection de QTL. Le modèle d'association MG est basé sur un modèle linéaire mixte. L'association est modélisée comme un eet xe tandis que la covariance entre apparenté est modélisé comme un eet aléatoire. Comme pour le test QTLD, le test MG est sensible à la stratication de population. Ces trois tests d'association QTDT, QTLD et MG sont applicables dans des données familiales, mais dièrent dans la quantité d'information utilisée pour tester l'association. MG tient compte de tous les individus génotypés et phénotypés alors que les méthodes de décomposition orthogonale (QTLD et QTDT) n'utilisent qu'un sous 7

8 eectif de cet échantillon. Pour QTDT, l'échantillon est encore plus réduit, car ce test n'utilise pas l'information apportée par les fondateurs. En conséquence, QTDT pourrait manquer de puissance relativement à QTLD ou MG. Cependant, à la fois QTLD et MG peuvent être aectés par une association allélique due à une stratication de population. La puissance relative des ces trois méthodes n'a été que peu étudiée (Havill et al., 2005 ; Aulchenko et al., 2007). L'objectif de l'étude GAW16 été d'explorer l'erreur de type 1 et de comparer la puissance relative de ces trois méthodes (QTDT, QTLD et MG) pour l'analyse d'association de traits quantitatifs dans des données familiales de grande taille. Nos résultats ont montré que le modèle utilisant le plus d'information (MG) est plus performant que les modèles d'association utilisant une décomposition orthogonale des scores génotypiques ( Saint-Pierre et al., 2009). Lors du groupe de travail GAW17, nous avons comparé diérentes méthodes d'association pour l'analyse de variants génétiques rares issus de données de séquençage à haut débit. Comme nous l'avons mentionné dans le préambule, de récentes études suggèrent l'importance des variants rares relativement aux variants communs dans la susceptibilité à la maladie (Saint-Pierre et Génin, 2014). En raison du faible niveau de puissance des analyses d'association dans le cadre de la recherche de variants rares, plusieurs approches ont été développées pour détecter collectivement un ensemble de variants. Ces diérentes approches ont été comparées dans des échantillons de sujets non apparentés et pour des échantillons de données familiales. Nos résultats ont montré que malgré la diculté de bien contrôler l'erreur de type 1 associée aux tests d'association dans certaines situations, ces approches peuvent être un outil puissant pour détecter des variants rares dans le cadre de traits complexes (Saad, Saint-Pierre et al., 2011). 2 - Travaux réalisés dans le cadre de mon post-doctorat 1 J'ai ensuite intégré l'équipe de biostatistique dirigée par Cosetta Minelli à l'institut de médecine génétique de l'eurac (European Academy of Bolzano, Italie). L'EURAC est particulièrement réputé pour son institut sur les momies et l'homme des glaces ( iceman ). L'institut de médecine génétique quant à lui, possède une grande collection de données issues de familles étendues provenant de populations semi-isolées de la région du Sud-Tyrol. Les données sur lesquelles j'ai travaillé ont été collectées dans le cadre du projet de recherche MICROS (Microisolates population in South-Tyrol) impliquant des collaborations entre l'eurac et le système de santé local. L'objectif était de caractériser la composante génétique de la variabilité de traits complexes. Pour des raisons politique et historique, le Sud-Tyrol comporte plusieurs villages alpins dont les populations sont restées relativement isolées au cours des générations. Les données MICROS incluaient 1247 individus génotypés appartenant tous à la même généalogie comprenant 16 générations et incluant un total de individus. Les familles de grandes tailles sont les plus informatives pour l'analyse de liaison mais sont dicilement exploitables en l'état initial. D'autre part, les marqueurs utilisés pour détecter la liaison sont en général des marqueurs très polymorphes et donc plus informatifs que des marqueurs SNPs. Nous avons donc cherché à déterminer les stratégies optimales pour l'analyse de liaison dans des grandes généalogies en utilisant des marqueurs SNPs. Ce travail de recherche s'est fait au regard du compromis existant entre temps de calculs et puissance de détection de liaison. Notre étude a permit de mettre en place, en collaboration avec l'équipe de bioinformatique de l'eurac, un pipeline informatique pour l'analyse de liaison utilisant des marqueurs SNPs. Comme nous l'avons déjà souligné, les familles de grandes tailles sont dicilement exploitables en l'état initial. Une alternative largement utilisée est de découper ces familles en plusieurs sous-familles. Cependant il n'existe pas de méthode universelle permettant de découper une famille de manière optimale. Pour surmonter la diculté relative aux choix des paramètres de découpage, Bellenguez et al. (2009) ont proposé une approche de découpages multiples (MS). Le principe consiste à générer un ensemble de congurations de petites familles obtenues pour diérentes valeurs de paramètres et de réaliser l'analyse sur l'ensemble des congurations obtenues plutôt que sur une seule conguration. En dépit des résultats prometteurs obtenus par ces auteurs, une évaluation exhaustive de la méthode MS relativement à l'analyse de la généalogie complète et non découpée n'a jamais été réalisée. Connaître cette information peut s'avérer importante car l'approche MS nécessite un contrôle plus stricte des niveaux d'erreurs de type 1 en raison du problème des tests multiples. En outre, les temps de calculs dièrent entre ces deux approches. Pour l'approche MS, l'estimation de la matrice IBD est relativement rapide en raison de la taille limitée des généalogies générées mais la procédure complète requiert de nombreuses étapes de gestion et de manipulation des chiers. D'un autre côté, l'analyse de la généalogie complète requiert beaucoup moins de manipulation mais les temps de calcul peuvent atteindre des niveaux inacceptables lorsque le nombre de marqueur est trop grand. Cet aspect est particulièrement important lorsque des données de SNPs sont considérées. Ces résultats nous ont amené à comparer par simulations les performances statistiques de l'approche MS relativement à l'analyse de la généalogie non découpée. Les deux approches ont été appliquées aux données MICROS. 8

9 Nos résultats de simulation ont montré que lorsque c'est possible, l'analyse des généalogies complètes sans aucun découpage, devrait toujours être préférée relativement à l'approche MS. Mais quand le découpage des familles est inévitable pour des raisons de temps de calcul, l'approche MS est dénitivement plus puissante que considérer un seul découpage. D'une manière générale, il existe un compromis entre augmenter la complexité de la généalogie et le temps de calcul nécessaire à l'estimation de la matrice IBD. Par exemple, notre application dans les données réelles a montré que l'approche MS était plus de 4 fois plus rapide que l'approche basée sur les généalogies complètes. Les temps de calculs était de l'ordre de 120 h pour estimer la matrice des IBD dans un échantillon de 37 familles non découpées comprenant 2219 individus répartis entre 2 et 6 générations. Lorsque la famille est trop complexe ou lorsque le nombre de marqueurs est trop important, il peut s'avérer infaisable de réaliser une analyse de liaison sur génome entier sans découper les familles. Une approche en deux étapes peut être réalisée. La première étape consiste à appliquer l'approche MS sur le génome entier puis à redénir dans un deuxième temps la région de liaison en utilisant l'information apportée par la généalogie non découpée. C'est cette dernière stratégie qui est actuellement utilisée en tant que pipeline au sein du groupe de Biostatistique. Ces travaux ont été présentés oralement au congrès Statistical Method for Post Genomic Data (SMPGD, 2012) et publié dans Human Heredity (Saint-Pierre et al., 2014). En parallèle, j'ai eu l'occasion de participer à diérents projets dans lesquels j'étais responsable des analyses statistiques (Van Der Harst et al., 2012 ; Kwan et al., 2014). 3 - Travaux réalisés dans le cadre de mon post-doctorat 2 Par la suite, je me suis orientée vers la recherche en génétique des populations. J'ai intégré l'équipe de génétique épidémiologie au sein de l'unité INSERM U1078 à Brest. Mes travaux de recherche portaient sur le développement de nouvelles méthodes d'analyse de données de séquence pour étudier les relations génotype-phénotype et mettre en évidence de nouveaux variants génétiques impliqués dans les maladies humaines. Ces travaux ont été réalisés sous la direction d'emmanuelle Génin. Nous nous sommes dans un premier temps intéressé au rôle des variants génétiques rares dans les maladies complexes. Nous avons réalisé une synthèse de ces résultats et un article de revue sur le sujet a été publié dans Briengs in Functional Genomics (Saint-Pierre et Génin, 2014). Dans cet article, nous avons tenté de répondre à la question de la contribution des variants rares dans les maladies communes en prenant les exemples de diérentes maladies pour lesquelles des études de séquençage avaient été réalisées et en résumant les résultats d'études de simulation réalisées pour étudier l'architecture des maladies complexes. Nous avons montré que les données empiriques collectées jusqu'à présent ne permettaient pas d'exclure beaucoup de modèles à l'exception des modèles les plus extrêmes qui impliqueraient seulement un petit nombre de variants rares avec des eets très forts. Une seconde partie du travail a visé à mieux comprendre la structure génétique de la population Française en utilisant les données génétiques disponibles dans la cohorte des 3 Cités (en collaboration avec J.-C. Lambert et P. Amouyel, Lille). La cohorte des 3 Cités (3C) est une très grande étude longitudinale réalisée entre 1999 et 2012 basée sur des sujets non apparentés âgés de plus de 65 ans et recrutés dans trois centres : Bordeaux, Dijon et Montpellier. L'objectif de cette cohorte était de caractériser la composante génétique de la maladie d'alzheimer. Au total, 6401 individus ont été génotypés dont la plupart ont servi de témoins dans plusieurs GWAS pour la maladie d'alzheimer ou de Parkinson. Plusieurs études ont démontré que, même en Europe, il existe une stratication génétique des populations, certains allèles étant très fréquents dans certains pays et quasiment absents dans d'autres. Cette stratication peut être mise en évidence en réalisant une analyse en composantes principales (ACP) sur les génotypes observés aux marqueurs présents sur les puces pangénomiques. Il est alors intéressant de constater que les deux premiers axes de variation (dénis par les deux premières composantes principales) semblent suivre la géographie de l'europe. A partir des données génétiques, on peut donc déterminer avec plus ou moins de précision la région géographique d'origine des individus. Cette détermination est d'autant plus facile que les individus proviennent de régions géographiques distantes. Elle est indispensable au préalable des études d'association pour éviter les faux positifs qui pourraient être dus au fait qu'on compare des malades et des témoins provenant de régions diérentes. Nous nous sommes intéressées plus particulièrement aux méthodes de classication qui permettent le mieux de déterminer l'origine géographique des individus à partir de leurs données génétiques et en regardant cette stratication à des échelles de plus en plus nes : échelle de la France à partir des données de puces de SNPs sur l'étude des 3 Cités. Nous avons pu montrer que des diérences étaient visibles même à ces échelles géographiques et que cela soulevait de réels dés pour les études des variants génétiques rares à partir de données de séquence qui commencent à être réalisées pour un certain nombre de maladies complexes. 9

10 Un article décrivant la structuration génétique dans la cohorte des 3 Cités a été soumis pour publication à l'european Journal of Human Genetics (Saint-Pierre, Bellenguez et al.) et un second article comparant les méthodes permettant de détecter des stratications génétiques nes est en cours de nalisation (Saint-Pierre, Leutenegger et Génin). Ces travaux ont également été sélectionnés pour une présentation orale au congrès annuel de génétique mathématique (EMGM) en avril 2014 à Cologne. 4 - Travaux réalisés dans le cadre de mon post-doctorat 3 Je réalise actuellement un post-doctorat en génétique des populations sous la direction d'evelyne Heyer à Paris. Mon travail de recherche s'inscrit dans la continuité du projet NUTGENEVOL (http :// cnrs.fr/article590.html) dont l'un des objectifs était d'étudier la distribution de la diversité génétique dans des populations d'asie Centrale. Certaines régions du monde comme l'asie centrale ont servi de couloirs naturels entre continents et sont d'une importance particulière dans l'histoire des migrations humaines. Située au coeur de l'eurasie, l'asie centrale englobe un vaste territoire limité par un certain nombre de barrières naturelles tel que les montagnes, la mer, la taïga russe et des déserts. Plusieurs études ont montré que la diversité génétique en Asie centrale est parmi les plus élevés d'eurasie. Cependant, certaines études suggèrent par exemple une vague d'expansion d'est en ouest à travers l'eurasie, alors que d'autres études indiquent une origine mélangée entre des populations, génétiquement diérenciées, de l'est et les populations d'eurasie occidentale. An d'étudier la diversité de la variation génétique de ces populations, des échantillons d'individus issus de deux ethnies diérentes ont été collectées au Kyrgyzstan, à l'est et en Ouzbékistan, pays frontalier de l'ouest. Bien que géographiquement proches, il existe une stratication de population entre ces deux régions. Les populations échantillonnées au Kyrgyzstan forment un cluster plus proche des populations d'asie de l'est tandis que les populations échantillonnées en Ouzbékistan forment un groupe plus proche de l'eurasie occidentale (Martinez-Cruz et al., 2011). Ces deux groupes de populations diérent aussi dans leur mode de vie et particulièrement dans leur régime alimentaire : traditionnellement les Kyrgyzes étaient éleveurs-nomades avec une alimentation riche en produits laitiers et viande, alors que les populations Tajiks de l'ouzbekistan étaient des agriculteurs avec une alimentation riche en carbohydrates provenant des céréales. Nous souhaitons regarder si des adaptations génétiques passées à ces régimes alimentaires variés entraînent des diérences dans le cadre de traits complexes en utilisant un panel de variants génétiques sélectionnés comme variants d'intérêts pour l'analyse des maladies métaboliques. En parallèle, dans le cadre du projet ANR GrowinAP (http :// 11-BSV7-0011) portant sur l'analyse de la diversité de la croissance humaine, nous allons recevoir des échantillons de données de génotypage d'exomes sur des populations pygmées d'afrique centrale. La croissance est souvent considérée comme étant la même pour toutes les populations mais une certaine hétérogénéité a cependant été observée quand à la croissance chez l'homme moderne. Les pygmées africains se situent à l'extrémité de la variation de la taille chez l'homme et représentent une population parmi les plus intéressantes pour l'étude des caractères liés à l'évolution de la taille chez l'homme. Ce projet multidisciplinaire intègre les données anthropologiques à celles de la génétique et de l'endocrinologie dans le but de mieux comprendre la dynamique de croissance sur le plan biologique des populations pygmées. 10

11 Bibliographie : Kaufman J.M., Ostertag A., Saint-Pierre A. et al. (2008) Genome-wide linkage screen of bone mineral density (BMD) in European pedigrees ascertained through a male relative with low BMD values : evidence for quantitative trait loci on 17q21-23, 11q12-13, 13q12-14, and 22q11. J. Clin. Endocrinol. Metab., 93(10) : Saint-Pierre A., Kaufman JM., Ostertag A. et al. (2011) Bivariate association analysis in selected samples : application to a GWAS of two bone mineral density phenotypes in males with high or low BMD. EJHG 19(6) : Saint-Pierre A., Zulma Vitezica, Maria Martinez (2009) A comparative study of three methods for detecting association of quantitative traits in samples of related subjects. BMC Proc. 15 ;3 Suppl 7 :S122. Saad M., Saint-Pierre A., Bohossian N., Macé M., Martinez M. (2011) Comparative study of statistical methods for detecting association with rare variants in exome-resequencing data. BMC Proc. 29 ;5 Suppl 9 :S33. Saad M., Lesage S., Saint-Pierre A. et al. (2011) Genome-wide association study conrms BST1 and suggests a locus on 12q24 as the risk loci for Parkinson's disease in the European population. Hum. Mol. Genet. 20(3) : Heath S.C. (1997) Markov chain Monte Carlo segregation and linkage analysis for oligogenic models. Am. J. Hum. Genet. 61(3) : Amos C., de Andrade M., Zhu D. (2001) Comparison of multivariate tests for genetic linkage. Hum. Hered. 51(3) : Wang K. (2003) Mapping Quantitative Trait Loci Using Multiple Phenotypes in General Pedigrees. Hum. Hered. 55(1) :1-15. Mangin B., Thoquet P., Grimsley N. (1998) Pleiotropic QTL analysis. Biometrics 54 : Pattaro C., Saint-Pierre A. (2013) Family-based studies to the rescue of genome-wide association studies in renal function. Kidney Int. 83(2) :196-8 Liu, J., Y. Pei, et al. (2009). Bivariate association analyses for the mixture of continuous and binary traits with the use of extended generalized estimating equations. Genet. Epidemiol. 33(3) : Yang, F., Z. Tang, et al. (2009). Bivariate association analysis for quantitative traits using generalized estimation equation. J. Genet. Genomics 36(12) : Havill, L. M., T. D. Dyer, et al. (2005). The quantitative trait linkage disequilibrium test : a more powerful alternative to the quantitative transmission disequilibrium test for use in the absence of population stratication. BMC Genet. 6 Suppl 1 : S91. Aulchenko, Y. S., D. J. de Koning, et al. (2007). Genomewide rapid association using mixed model and regression : a fast and simple method for genomewide pedigreebased quantitative trait loci association analysis. Genetics 177(1) : Saint-Pierre A., Génin E. (2014). How important are rare variants in common disease? Brief. Funct. Genomics 13(5) : Bellenguez C., Ober C., Bourgain C. (2009). A multiple splitting approach to linkage analysis in large pedigrees identies a linkage to asthma on chromosome 12. Genet. Epidemiol., 33 : Saint-Pierre A., D'Elia Y., Ciullo M., Pramstaller P., Pattaro C. (2014) SNP-based linkage analysis in extended pedigrees : comparison between two alternative approaches. Hum. Hered. DOI : / Van Der Harst P.,..., Saint-Pierre A. et al. (2012). Seventy-ve genetic loci inuencing the human red blood cell. Nature 492(7429) : Kwan J.,..., Saint-Pierre A. et al. (2014). Meta-analysis of genome-wide association studies identies two loci associated with circulating osteoprotegerin level. Hum. Mol. Genet. Pii : ddu386. Saint-Pierre A., Bellenguez C., Letort S., Letenneur L., Berr C., Dufouil C., soumis Férec C., Amouyel P., Génin E. (2015). Correlation between genes and geography in France : a genome-wide analysis on the Three-City study. Soumis à EJHG. Saint Pierre A., Leutenegger A.L., Genin E. Comparison of similarity measures for ne-scale population structure inference. Martínez-Cruz B., Vitalis R., Ségurel L., Austerlitz F., Georges M., Théry S., Quintana-Murci L., Hegay T., Aldashev A., Nasyrova F., Heyer E. (2011). In the heartland of Eurasia : the multilocus genetic landscape of Central Asian populations. EJHG 19(2) :