Estimation de l apparentement entre plusieurs individus à l aide d un algorithme EM

Documents pareils
Photoactivatable Probes for Protein Labeling

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exemple PLS avec SAS

Improving the breakdown of the Central Credit Register data by category of enterprises

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Première partie. Introduction Générale

Once the installation is complete, you can delete the temporary Zip files..

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Exercices sur SQL server 2000

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Instructions Mozilla Thunderbird Page 1

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

BIG Data et R: opportunités et perspectives

RAPID Prenez le contrôle sur vos données

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Application Form/ Formulaire de demande

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Contents Windows

Le No.1 de l économie d énergie pour patinoires.

INSERTION TECHNIQUES FOR JOB SHOP SCHEDULING

Archived Content. Contenu archivé

France SMS+ MT Premium Description

: Machines Production a créé dès 1995, le site internet

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Bourses d excellence pour les masters orientés vers la recherche

Modélisation géostatistique des débits le long des cours d eau.

Introduction aux bases de données: application en biologie

DOCUMENTATION - FRANCAIS... 2

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Feuille d exercices 2 : Espaces probabilisés

L industrie pharmaceutique et la grippe aviaire

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Practice Direction. Class Proceedings

FaceBook aime les Maths!

Démonstration de la conjecture de Dumont

Forthcoming Database

Elégance et raffinement Elegance & sophistication

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Stage Ingénieur en développement logiciel/modélisation 3D

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Bill 69 Projet de loi 69

APPENDIX 6 BONUS RING FORMAT

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Principe de symétrisation pour la construction d un test adaptatif

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Stakeholder Feedback Form January 2013 Recirculation

Insérer des images dans Base

Technologies quantiques & information quantique

Cette Leçon va remplir ces attentes spécifiques du curriculum :

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Gestion des prestations Volontaire

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

PARIS ROISSY CHARLES DE GAULLE

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

VTP. LAN Switching and Wireless Chapitre 4

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Informatique / Computer Science

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

GAME CONTENTS CONTENU DU JEU OBJECT OF THE GAME BUT DU JEU

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Prototype de canal caché dans le DNS

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Les Portfolios et Moodle Petit inventaire

TRAVAUX DE RECHERCHE DANS LE

Les marchés Security La méthode The markets The approach

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

PHOTO ROYAUME DE BELGIQUE /KINDOM OF BELGIUM /KONINKRIJK BELGIE. Données personnelles / personal data

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Utiliser un proxy sous linux

Cedric Dumoulin (C) The Java EE 7 Tutorial

Compte-rendu technique complet et détaillé des cookies

WEB page builder and server for SCADA applications usable from a WEB navigator

Apprentissage Automatique

Exercices de génétique classique partie II

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

Transcription:

Estimation de l apparentement entre plusieurs individus à l aide d un algorithme EM Fabien Laporte 1 & Alain Charcosset 2 & Tristan Mary-Huard 3 1 UMR de Génétique Végétale INRA/Univ. Paris Sud/CNRS, Ferme du Moulon 91190 Gif-sur-Yvette, France, fabien.laporte@moulon.inra.fr 2 UMR de Génétique Végétale INRA/Univ. Paris Sud/CNRS, Ferme du Moulon 91190 Gif-sur-Yvette, France, alain.charcosset@moulon.inra.fr 3 INRA/AgroParisTech, UMR 518, 75231, Paris, France, tristan.mary-huard@agroparistech.fr Résumé. L apparentement entre deux individus se définit comme le nombre d allèles hérités d un ou plusieurs ancêtres communs sur l ensemble du génome. Cet apparentement peut être modélisé à l aide d un modèle de mélange, où les variables observées sont les allèles observés à chaque marqueur qui définissent un mode IBS (Identity by State), et les variables cachées sont les origines ancestrales de ces allèles, qui définissent un mode IBD (Identity by Descent) du marqueur. L objectif est d estimer les proportions des modes IBD sur l ensemble des marqueurs. Une approche usuelle consiste alors à estimer ces proportions par maximum de vraisemblance. Toutefois, l identifiabilité du modèle n est actuellement garantie que lorsque les marqueurs sont multi-alléliques (plus de 3 allèles observés). Par ailleurs les individus étudiés sont supposés tous appartenir à une seule population. Le présent article considère la question de l identifiabilité pour des marqueurs bialléliques, et généralise les résultats classiques au cas où les individus sont issus de croisements entre parents issus de différentes populations. Mots-clés. Apparentement, Modèle de Mélange, Identifiabilité, Marqueurs SNP Abstract. The relatedness between two individuals is defined as the number of alleles inherited from one or several common ancestors along all the genome. The relatedness can be modeled with a mixture model, where observed variables are the alleles which define the Identity by State (IBS) mode of the marker and, hidden variables are the ancestral origins of these alleles which define Identity by Descent (IBD) modes of the marker. The objective is then to estimate the proportions of the different IBD modes over all available markers. The usual approach is the estimation of relatedness parameters with Maximum-Likelihood method. Some extensions of previous work have to be done. First, the identifiability of the model has been proofed only with multi-allelic markers (more than 3 alleles). Secondly, studied individuals are supposed to belong to one unique population. First, we study the identifiability of the model with biallelic markers. Then, we generalize results to multi-population data. Keywords. Relatedness, Mixture Model, Identifiability, SNP Markers 1

1 Introduction En génétique, l apparentement est une notion qui vise à résumer l information sur la proportion de génome que deux individus ont héritée des mêmes ancêtres. On suppose que les individus considérés font partie d un pedigree, c est-à-dire possèdent un arbre généalogique commun d une profondeur donnée, dont les individus les plus anciens sont appelés fondateurs. Tout individu du pedigree est par définition le descendant d un ou plusieurs fondateurs. Le génome d un tel individu sera donc entièrement composé de portions de génomes issues des différents fondateurs et héritées au gré des appariements (mariages chez les humains, croisements chez les plantes ou les animaux) entre individus des générations antérieures. L identité par descendance (IBD) se définit comme le fait que deux allèles homologues (c est-à-dire correspondant à une même position du génome) soient la copie exacte d un allèle ancestral apporté par un fondateur. Dans sa définition la plus simple, l apparentement entre deux individus est la probabilité que deux allèles homologues issus de chacun de ces individus soient IBD pour une position du génome tirée au hasard. D autres définitions plus générales sont toutefois nécessaires en génétique quantitative. Si l on suppose que les individus sont diploïdes, c est-à-dire possèdant chacun deux copies de chaque chromosome, un couple d individu présente un total de quatre allèles. Il existe 15 statuts possibles pour l IBD entre ces 4 allèles, décrits par Gillois (1964). On définit alors l apparentement entre deux individus comme les proportions de locus associées à chacun des 15 statuts IBD. Le statut IBD des locus n étant en pratique pas observés, les proportions d IBD constituant l apparentement doivent être inférées. En pratique, le statut IBD à un marqueur n est pas observable, la seul information disponible est la lecture des allèles aux marqueurs, qui définissent des statuts IBS (Identical by State). On utilise ici l approche proposée par Milligan (2002) qui explique les statuts IBS en fonction des statuts IBD. Ce dernier utilise un modèle de mélange, et l inférence se fait donc généralement à l aide de l estimateur du maximum de vraisemblance. 2 Méthode 2.1 Notations L observation d un marqueur pour deux individus comporte 4 allèles qui définissent un mode IBS (Identity by State). Ces mêmes 4 alleles peuvent descendre d ancêtres communs de 15 manières différentes, qui définissent un mode IBD (Identity by Descent). Ainsi, à un marqueur fixé, deux individus H 1 = (A, B) et H 2 = (C, D) peuvent prendre 16 modes IBS différents et 15 modes IBD différents, résumés dans les tableaux ci-dessous. 2

Table 1: Table IBD C 1 (A, B, C, D) C 9 (A, B, C, D) C 2 (A, B, C, D) C 10 (A, B, C, D) C 3 (A, B, C, D) C 11 (A, B, C, D) C 4 (A, B, C, D) C 12 (A, B, C, D) C 5 (A, B, C, D) C 13 (A, B, C, D) C 6 (A, B, C, D) C 14 (A, B, C, D) C 7 (A, B, C, D) C 15 (A, B, C, D) C 8 (A, B, C, D) Deux gamètes sont de la même couleur s ils partagent un allèle provenant d un ancêtre commun Table 2: Table IBS O 1 (A, B, C, D) O 9 (A, B, C, D) O 2 (A, B, C, D) O 10 (A, B, C, D) O 3 (A, B, C, D) O 11 (A, B, C, D) O 4 (A, B, C, D) O 12 (A, B, C, D) O 5 (A, B, C, D) O 13 (A, B, C, D) O 6 (A, B, C, D) O 14 (A, B, C, D) O 7 (A, B, C, D) O 15 (A, B, C, D) O 8 (A, B, C, D) O 16 (A, B, C, D) Une gamète est noire si son allèle est 0 et rouge s il est 1 Par ailleurs, chacun des allèles A, B, C et D ont été hérités d individus potentiellement issus de populations différentes, et les fréquences alléliques peuvent elle-même être différentes dans chacune de ces populations. La fréquence de l allèle 1 dans chacune des 4 populations concernées est notée respectivement p 1, p 2, p 3 ou p 4. On note par ailleurs q i = 1 p i pour tout i dans {1,..., 4}. Le nombre de marqueurs disponible est noté L. À un marqueur l, l observation du mode IBS est notée IBS l et le mode IBD est noté IBD l. La probabilité a priori d être dans le mode IBD C j est notée j = P (IBD l = C j ) et ne dépend pas du marqueur observé. 2.2 Modèle Le but est d estimer les paramètres ( j ) 1 j 15 à partir des modes IBS. Pour cela, Milligan (2002) propose un modèle de mélange dont les variables observées sont les statuts IBS aux marqueurs et les variables cachées sont les statuts IBD à ces même marqueurs. Pour ce modèle la vraisemblance associée au marqueur l est : 15 P (IBS l = O i ) = P (IBS l = O i IBD l = C j ) j. j=1 La log-vraisemblance complète est de la forme : L 15 log( P (IBS l = O i IBD l = C j ) j ) l=1 j=1 et les estimateurs du maximum de vraisemblance des paramètres j sont définis par: ( ˆ 1,... ˆ 15 ) = arg max 1,..., 15 L 15 log( P (IBS l = O i IBD l = C j ) j ) l=1 j=1 3

Ce modèle peut se reécrire de façon matricielle. Si : P (IBS l ) = (P (IBS l = O 1 ),..., P (IBS l = O 16 )) t M l = (m ij ) 1 i 16,1 j 15 avec m ij = P (IBS l = O i IBD l = C j ) = ( 1,..., 15 ) t alors le modèle peut s écrire : P (IBS l ) = M l La matrice M l est entièrement déterminée par les fréquences alléliques, supposées connues. 2.3 Identifiabilité On rappelle ici que les coefficients d apparentement sont soumis à certaines contraintes génétiques : Propriété 1 Tout vecteur d apparentement doit respecter les trois contraintes génétiques suivantes : 8 1 = 2 3 9 1 = 4 7 10 1 = 5 6 La propriété suivante découle naturellement : Propriété 2 Si les contraintes génétiques sont prises en compte alors le modèle est identifiable. 2.4 Estimation Il n y a pas de forme close pour les estimateurs du maximum de vraisemblance. La vraisemblance est donc maximisée algorithmiquement via un algorithme EM. A cause des possibles maximum locaux, l algorithme EM est lancé sur plusieurs initialisations vérifiant les contraintes génétiques. 4

3 Résultats 3.1 Une Population Les performances de la méthode sont étudiées sur des données simulées. Les individus appartiennent à une même population. Cette dernière est issue d un fondateur commun et chaque lignée parentale (individu homozygote) a la même probabilité d avoir hérité d un allèle issu du fondateur. Ainsi l apparentement théorique entre les individus hybrides (croisement de deux lignées) est connu. Boxplot with 10000 Markers and 50 couples Quadratic Difference on 1 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.05 0.10 0.15 0.20 0.25 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 100 500 1000 2000 10000 50000 Delta Number of Markers Sur la figure de gauche est réprésenté le boxplot des estimations de chaque coefficient de l apparentement. Les points rouges représentent l apparentement théorique entre les deux hybrides. La figure de droite représente l évolution de la précision de l algorithme en fonction du nombre de marqueurs utilisés. Le coût algorithmique dépend de façon quadratique du nombre d hybrides étudiés (en effet pour N hybrides il y a N(N 1) jeux de paramètres d apparentement à estimer), 2 et linéairement du nombre de marqueurs. Par exemple si le panel étudié possède 500 hybrides génotypés à l aide de 50000 marqueurs, l algorithme calcule durant une journée. En fonction de la précision requise pour l estimation des paramètres, on peut donc réduire le nombre de marqueurs utilisés afin de diminuer le temps d estimation. 5

3.2 Multi-Populations Dans cette partie, les parents sont simulés venant de populations différentes. Ce qui induit la nullité de certains coefficients de l apparentement. Boxplot with 10000 Markers and 50 couples Quadratic Difference on 1 0.15 0.20 0.25 0.30 0.35 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 1 2 5 7 12 Delta 100 500 1000 2000 10000 50000 Number of Markers Les graphiques sont les même représentations que précédemment. Dans celui de gauche, il n apparaît que 5 coefficients, les autres étant fixés à 0 par l algorithme. Sur la figure de droite, on remarque que le gain de précision est faible entre 10000 et 50000 marqueurs. On peut s intéresser à réduire le nombre de marqueurs utilisés (on gagne un facteur 5 dans le temps de calcul en passant de 50000 à 10000 marqueurs). 4 Conclusion En conclusion, l identifiabilité du modèle est montrée tant pour le cas classique que le cas multi-population. De plus un outil est développé pour inférrer les coefficients de l apparentement dans tous les cas de figure. Bibliographie [1] Milligan, B.G. (2002), Maximum-Likelihood Estimation of Relatedness, Genetics 163: 1153-1167. 6