Chapitre 3 - Structure génétique d'une population théorique idéale

Documents pareils
INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

Exercices de génétique classique partie II

Feuille d exercices 2 : Espaces probabilisés

Variables Aléatoires. Chapitre 2

Seconde et première Exercices de révision sur les probabilités Corrigé

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Probabilités sur un univers fini

Première partie. Introduction Générale

TESTS D'HYPOTHESES Etude d'un exemple

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

L'équilibre général des échanges

LA TRANSMISSION DES CARACTÈRES

IV. La ressemblance entre apparentés

Coefficients binomiaux

CHAPITRE VIII : Les circuits avec résistances ohmiques

Les débuts de la génétique

Introduction à la Statistique Inférentielle

La correction des erreurs d'enregistrement et de traitement comptables

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Que faire lorsqu on considère plusieurs variables en même temps?

Evaluation de la variabilité d'un système de mesure

Raisonnement par récurrence Suites numériques

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Continuité et dérivabilité d une fonction

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Affectation standard Affectation modifiée (exemple)

Couples de variables aléatoires discrètes

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

CODE CIVIL FRANÇAIS (ANTERIEUR A 1960)

REMARQUES SUR LE PETIT FRAGMENT DE TABLETTE CHYPRO MINOENNE TROUVÉ A ENKOMI EN par EMILIA MAS SON

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

LE PROBLEME DU PLUS COURT CHEMIN

NOTIONS DE PROBABILITÉS

Exercices supplémentaires sur l introduction générale à la notion de probabilité

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Chapitre 4 : les stocks

Chapitre 2/ La fonction de consommation et la fonction d épargne

Cours 02 : Problème général de la programmation linéaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Orientations sur la solvabilité du groupe

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Copropriété: 31, rue des Abondances Boulogne-Billancourt

TPE/PME : comment me situer et justifier de mon statut?

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Les probabilités. Chapitre 18. Tester ses connaissances

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Dépistage drépanocytose. Édition 2009

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Les mesures à l'inclinomètre

Chapitre 2 - Complexité des relations entre génotype et phénotype

La GEIDE. Dans une solution GEIDE, il est possible d'associer au sein même d'un dossier:

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Valeur cible et solveur. Les calculs effectués habituellement avec Excel utilisent des valeurs numériques qui constituent les données d'un problème.

COURS GESTION FINANCIERE A COURT TERME SEANCE 2 COUVERTURE DU BESOIN DE FINANCEMENT CHOIX DU NIVEAU DU FONDS DE ROULEMENT

UNIVERSITE MONTPELLIER II

CALCUL DES PROBABILITES

Espaces probabilisés

Document adopté à la 351e séance de la Commission, tenue le, 30 novembre 1990, par sa résolution COM

Carl-Louis-Ferdinand von Lindemann ( )

Conseils pour réaliser un tableau de sortie

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

FONDATION QUÉBÉCOISE POUR LE PROGRÈS DE LA MÉDECINE INTERNE

Stéphanie Dupays. du fait de stratégies individuelles ou familiales ou bien de contraintes liées aux changements

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Les pôles commerciaux et leurs magasins

TITRE III PRÉVENTION DES RISQUES D'EXPOSITION AU BRUIT. CHAPITRE Ier Dispositions générales

Exercice 6 Associer chaque expression de gauche à sa forme réduite (à droite) :

Le taux d'actualisation en assurance

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

PRIME D UNE OPTION D ACHAT OU DE VENTE

chapitre 4 Nombres de Catalan

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

Recommandation n 22 relative à l ouverture d un compte bancaire ou postal séparé (06 novembre 2001).

Pour l épreuve d algèbre, les calculatrices sont interdites.

CHAPITRE VI ALEAS. 6.1.Généralités.

Structures algébriques

Développement décimal d un réel

I- Définitions des signaux.

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

1.6- Génération de nombres aléatoires

Application 1- VBA : Test de comportements d'investissements

Contrôle parental NetAddictFree 8 NetAddictFree 8 - Guide d utilisation

Chapitre 2 Le problème de l unicité des solutions

1. Vocabulaire : Introduction au tableau élémentaire

Bases de données des mutations

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

TITRE III SANTÉ DES SPORTIFS ET LUTTE CONTRE LE DOPAGE. Chapitre II. Lutte contre le dopage. Section 3. Agissements interdits et contrôles

1 EVALUATION DES OFFRES ET NEGOCIATIONS

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

T de Student Khi-deux Corrélation

D'UN THÉORÈME NOUVEAU

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

LES GENERATEURS DE NOMBRES ALEATOIRES

ÉPARGNE RETRAITE : QUELLES SOLUTIONS PRIVILEGIER AUJOURD HUI?

SOMMAIRE. Travailler avec les requêtes... 3

Les tests génétiques à des fins médicales

"! "#$ $ $ ""! %#& """! '& ( ")! )*+

I. Introduction aux fonctions : les fonctions standards

Logiciels concernés. Situation. Ciel et le pont comptable. Note conçue et rédigée par Jalons sprl tous droits réservés - 27/06/2007.

Chapitre 1 : Introduction aux bases de données

Transcription:

Chapitre 3 - Structure génétique d'une population théorique idéale 1- Population théorique idéale : définition Le devenir de la variabilité génétique d'une population au cours des générations (la transmission des différents allèles et leurs fréquences) est au premier abord très difficile à prévoir. Outre la difficulté à identifier une population, c'est-à-dire les limites du groupe d'individus sur lequel calculer les fréquences alléliques, de très nombreux facteurs peuvent modifier la fréquence de ces allèles (mutations, migrations, différence de survie ou fécondité entre individus). De plus, il faut considérer la transmission simultanée de très nombreux gènes polymorphes qui peuvent interagir entre eux et ne sont donc pas indépendants. Une première étape pour contourner ces difficultés est d'aborder la transmission des caractères dans un cas simple, appelé population théorique idéale, qui se définit par les caractéristiques suivantes : - population d'organismes diploïdes à reproduction sexuée et à générations non chevauchantes (aucun croisement entre individus de générations différentes). - population d'effectif infini où les croisements sont entièrement aléatoires - population close génétiquement (absence de flux migratoires) - tous les individus, quel que soit leur génotype, ont la même capacité à se reproduire et à engendrer une descendance viable (absence de sélection) - Absence de mutation et de distorsion de ségrégation meïotique (un individu Aa produira toujours 50% de gamètes A et 50% de gamètes a). Parmi toutes ces caractéristiques, le croisement au hasard des individus, appelé système de reproduction panmictique, est l'hypothèse la plus importante. Cette hypothèse suppose que les individus ne choisissent pas leur partenaire sexuel ni en fonction de leur génotype, ni en fonction de leur phénotype = panmixie et que la rencontre des gamètes se fait au hasard = pangamie. - L'équilibre de Hardy-Weinberg Dans une population théorique idéale, les fréquences des allèles et des génotypes au cours des générations suivent une loi simple appelée loi de Hardy-Weinberg qui constitue le modèle de référence en génétique des populations. Cette loi doit son nom à Hardy, mathématicien anglais et Weinberg, médecin allemand, qui l'ont établie indépendamment en 1908. La loi de Hardy-Weinberg stipule que les fréquences alléliques et les fréquences génotypiques (c'est-à-dire la structure génétique de la population) reste stable de génération en génération. On dit alors que la population est à l'équilibre et il existe une relation simple entre les fréquences alléliques et les fréquences génotypiques. Transmission d'un gène à allèles Supposons qu'une population soit polymorphe pour un caractère gouverné par un locus à deux allèles A et a et que les fréquences des génotypes AA, Aa et aa soient les mêmes dans les deux sexes, respectivement D, H et R (avec D+H+R = 1). Les fréquences alléliques à la génération G o seront : pour l'allèle A p o = D o +H o / pour l'allèle a q o = R o +H o / avec p o +q o =1

Dans une population théorique idéale, ces fréquences seront également les fréquences des différentes catégories de gamètes (identiques dans les deux sexes) soit p o pour les gamètes qui portent l'allèle A et q o pour les gamètes qui portent l'allèle a (absence de mutation, de sélection et de distorsion meïotique). La formation d'un nouvel individu de la génération suivante G 1 est alors le résultat de deux tirages au sort indépendants, l'un parmi les gamètes mâles, l'autre parmi les gamètes femelles (croisement au hasard=panmixie). Les fréquences des différents génotypes de la génération suivante G 1 résultent alors de la répétition de ce simple tirage au sort qui donnera les fréquences génotypiques suivantes : AA = p 0 Aa = p o q o aa = q 0 Explication (clic) Dans une population théorique idéale, ces fréquences seront également celles des adultes reproducteurs de la génération G 1 (absence de sélection), pour lesquels les fréquences alléliques seront : pour A p 1 = p 0 + p o q o = p o (p o +q o ) = p o = p pour a q 1 = q 0 + p o q o = q o (p o +q o ) = q o = q Les fréquences alléliques n'ont donc pas changé, ce qui donnera à la génération suivante G les mêmes fréquences génotypiques qu'à la génération précédente soit p AA, pq Aa, et q aa. Le système est donc stable aussi bien en ce qui concerne les fréquences alléliques que les fréquences génotypiques. On dit qu'on est à l'équilibre de Hardy-Weinberg dont la loi peut s'énoncer de la façon suivante : Dans une population théorique idéale, les fréquences alléliques et les fréquences génotypiques restent stables de génération en génération. Les fréquences génotypiques sont déterminées à partir des fréquences alléliques par une relation simple qui correspond au développement du binôme (p+q) dans le cas d'un locus à deux allèles A de fréquence p et a de fréquence q, soit p pour le génotype AA, p q pour Aa et q pour aa. Cette relation entre fréquences alléliques et fréquences génotypiques est visualisée par la figure suivante:

1 aa AA Fréquences génotypiques 0,5 Aa 0 0 0,5 Fréquence de l'allèle A (p) 1 On peut remarquer que les proportions mendéliennes 1/4, 1/, 1/4 que l'on trouve lorsque l'on croise deux hétérozygotes est un cas particulier de la loi de Hardy-Weinberg où p=q= 0,5. Chaque hétérozygote Aa possède comme fréquence allélique f(a)=1/ et f(a)=1/. Systèmes multialléliques La loi de Hardy-Weinberg s'applique également à des gènes qui existent sous plus de états alléliques. L'équilibre correspond alors à l'association aléatoire des différents allèles pour former les génotypes dont la fréquence reste stable de génération en génération. Pour un locus à k allèles A1, A, A3,...Ak, il y aura en théorie (k(k+1))/ génotypes différents dans la population Si les fréquences de ces différents allèles sont respectivement p1, p, p3,...pk, les fréquences des différents génotypes seront données par le développement de (p 1+ p + p 3,+...+ p k ) soit p 1 A1A1 p AA p 3 A3A3 p k AkAk p 1 p A1A p 1 p 3 A1A3 p 1 p k A1Ak p p 3 AA3 p p k AAk etc Exemple: Les groupes sanguins du système ABO chez l'homme sont dus à l'existence de 3 allèles A, B et O dont les fréquences peuvent être appelées respectivement p, q, r. Une population à l'équilibre de Hardy-Weinberg aura alors les fréquences génotypiques suivantes : p AA q BB r OO pq AB pr AO qr BO Lorsqu'un gène présente plus de états alléliques, la fréquence des hétérozygotes H peut dépasser 50%, et elle est d'autant plus élevée que le nombre d'allèles est important. L'hétérozygotie maximale est atteinte lorsque tous les allèles ont même fréquence et sa valeur est H max = 1-1/k où k est le nombre d'allèles Explication 3

Par exemple, une population à l'équilibre peut comporter de plus de 90% d'hétérozygotes à un locus donné lorsqu'il existe plus de 10 allèles ayant les mêmes fréquences. 3- Application et utilisation du modèle de Hardy-Weinberg Test de l'équilibre Une question centrale est de savoir si la loi de Hardy-Weinberg établie pour une population théorique idéale s'applique également aux populations naturelles. Cette loi s'appuie en effet sur un raisonnement probabiliste, ne s'applique en théorie qu'à des populations d'effectif infini, et suppose remplies toute une série de conditions qui ne sont rarement respectées dans la nature (absence de mutation, migration, sélection). L'application de la loi de Hardy-Weinberg dans les populations naturelles peut être vérifiée pour des caractères codominants pour lesquels le calcul des fréquences alléliques est possible. C'est le test de l'équilibre. Le principe du test est simple et peut être résumé en 3 étapes: 1- échantillonnage d'une population, dénombrement des effectifs génotypiques réels (possible grâce à la codominance) et calcul des fréquences alléliques réelle parmi les N individus échantillonnés soit p= f(a) et q = f(a) - calcul des effectifs génotypiques attendus dans une population théorique idéale qui aurait le même effectif et les mêmes fréquences alléliques que la population étudiée soit AA = p x N Aa = pq xn aa = q xn 3- comparaison des effectifs observés et des effectifs attendus (comparaison des deux distributions) par un test statistique du Chi Deux (ou d'autres tests). Le test du Chi Deux nécessite le calcul de la distance X permettant de tester l'hypothèse d'égalité entre la distribution observée et la distribution théorique (hypothèse H 0 ). X = (effectifs observés effectifs théoriques) effectifs théoriques La somme est effectuée sur tous les génotypes et la valeur X est comparée à une valeur seuil, lue dans une table χ, en fonction de paramètres : un risque α choisi par l'utilisateur qui est en général 5%, et un nombre de degrés de liberté (ddl) égal à la différence entre le nombre de génotypes et le nombre d'allèles du système génétique étudié. - si X calculé est inférieur à X seuil, H 0 est acceptée et on conclut que la population suit la loi de Hardy-Weinberg donc est à l'équilibre - si X calculé est supérieur à X seuil, H 0 est rejetée et on conclue que la population ne suit pas la loi de Hardy-Weinberg avec un risque α = 5% de se tromper. Exemple Chez l'homme, le groupe sanguin MN est déterminé par un gène à deux allèles codominants M et N, ce qui permet d'attribuer un génotype à chaque individu échantillonné, puis d'estimer les

fréquences alléliques dans la population. Une étude portant sur 730 aborigènes australiens a donné les résultats suivants : MM 16 MN 49 NN 1- Calcul des fréquences p et q des allèles M et N: p = ( + 1/ x 16) / 730 = 0,178 pour l'allèle M q = 49 + 1/ x 16) / 730 = 0,8 pour l'allèle N. - Calcul des effectifs théoriques attendus des différentes catégories génotypiques: MM = p x 730 = (0,178) x 730 = 3,1 MN = p q x 730 = ( x 0,178 x 0,8) x 730 = 13,6 NN = q x 730 = (0,8) x 730 = 493, 3- Test du Chi deux X = (-3,1) /3,1 + (16-13,6) /13,6 + (49-493,) /493 = 0,083 La valeur seuil pour 3-=1 degré de liberté et un risque de 5% est 3,84. La valeur de la statistique X étant très inférieure à la valeur seuil, on conclut qu'il n'y a pas de différence significative entre la distribution observée et la distribution théorique. On admet donc que la population d'aborigènes australiens est à l'équilibre de Hardy-Weinberg. Le fait qu'une population soit considérée à l'équilibre de Hardy-Weinberg après un test statistique n'implique pas que toutes les conditions d'application de cette loi soient respectées (effectif infini, absence de mutation, absence de sélection, etc...). L'hypothèse la plus importante qui doit être respectée est la panmixie. Un équilibre génétique instantané apparent peut donc être observé même si la population est soumise à une forte sélection. On en conclut que le fonctionnement génétique global est "proche" du fonctionnement théorique et ce n'est qu'en prenant en compte la dimension temporelle que l'on peut apprécier l'état génétique d'une population et prévoir son évolution. En revanche, le fait qu'un échantillon soit trouvé non conforme à la loi implique que le fonctionnement génétique réel de la population est très éloigné du fonctionnement théorique, en particulier au niveau du système de croisement (homogamie, consanguinité) ou de la structure démographique de la population (fractionnement en sous-populations) qui modifient considérablement les fréquences relatives des homozygotes et des hétérozygotes. Cette situation conduit à rechercher les particularités démographiques, génétiques ou structurelles de cette population. En conclusion, dans la plupart des cas, le modèle de Hardy-Weinberg constitue un bon descripteur de la structure génétique des populations naturelles car l'hypothèse de panmixie est souvent respectée alors que les effets des mutations, migration, sélection ne sont pas assez forts pour faire diverger les fréquences génotypiques des proportions du modèle de Hardy-Weinberg. Cette loi peut alors être utilisée pour faire des prévisions notamment dans le domaine médical. Cet équilibre de Hardy-Weinberg ne s'applique pas obligatoirement à tous les gènes d'une même population et peut ou non être rejeté en fonction du système génétique considéré.

Estimation des fréquences allèliques Lorsque la variabilité d'un caractère est due à un gène à allèles avec une forme allélique totalement dominante sur l'autre (A dominant sur a), seuls phénotypes peuvent être distingués dans la population : - le phénotype [A] correspondant à la somme des génotypes AA et Aa - le phénotype [a] correspondant aux génotypes aa C'est le cas par exemple de nombreuses maladies génétiques chez l'homme qui sont dues à un allèle récessif (mucoviscidose, phénylcétonurie). Contrairement à un système codominant, il n'est pas possible de calculer les fréquences alléliques dans la population car les proportions respectives des génotypes AA et Aa ne sont pas connues. Le modèle de Hardy-Weinberg va permettre de donner une estimation de ces fréquences à partir de la fréquence du phénotype homozygote récessif qui est égale à q si la population est conforme au modèle. La résolution de cette équation à une inconnue permet d'estimer la fréquence q de l'allèle récessif dans la population en calculant la racine carrée de la fréquence des homozygotes récessifs. La fréquence p de l'allèle dominant est obtenue par différence à 1. A partir de cette estimation des fréquences alléliques, et toujours sous l'hypothèse de conformité au modèle de Hardy-Weinberg, on obtient une estimation de la fréquence des homozygotes AA et des hétérozygotes Aa parmi les individus de phénotype [A] c'est-à-dire la probabilité qu'un individu de phénotype [A] soit homo- ou hétérozygote: -fréquence des homozygotes parmi les individus [A] = p /(p +pq) ou p /(1-q ) -fréquence des hétérozygotes parmi les individus [A] = pq/(1-q ). Exemple Chez l'homme, une étude portant sur le système Rhésus a recensé 14% d'individus rhésus négatif. Sachant que l'allèle Rh+ est dominant sur l'allèle Rh-, l'estimation de la fréquence de l'allèle Rhest q = 0,37 (racine carrée de 0,14) sous l'hypothèse que la population suit la loi de Hardy- Weinberg. On peut en déduire la fréquence des individus Rh+Rh+ et Rh+Rh- parmi les individus Rhésus positif, respectivement p /(p +pq) = 0,45 et pq/( p +pq) = 0,55. Diagnostic et conseil génétique La loi de Hardy-Weinberg permet de faire des prévisions sur le génotype d'un individu lorque l'on connaît la population dont il est issu. Ce calcul est utilisé en génétique humaine pour calculer la probabilité qu'un individu soit atteint d'une anomalie génétique. C'est le conseil génétique. Le calcul du risque d'apparition d'une anomalie génétique chez un individu donné dépend de plusieurs paramètres : - du déterminisme du caractère et des relations de dominance entre les allèles - de la fréquence du gène responsable de la maladie dans la population - de la généalogie de l'individu notamment des phénotypes des ascendants, descendants et collatéraux

Pour une maladie autosomique recessive déterminée par un allèle a de fréquence q, la probabilité qu'un individu dont on ne connaît ni la généalogie ni le phénotype soit atteint par cette maladie correspond à la fréquence de ce phénotype dans la population soit q. Le diagnostic s'affine considérablement lorsque l'on dispose de plus d'informations par exemple dans la généalogie suivante où il s'agit de calculer la probabilité que le couple formé des individus sains II et II3 donne naissance à un enfant atteint de l'anomalie ce qui nécessite que les deux parents, tous les deux sains, soient hétérozygotes. I 1 II 1 3? Pour l'individu II3, aucune information n'est disponible, excepté son propre phénotype. La probabilité que cet individu soit porteur de l'allèle a est pq/(p +pq) c'est à dire la fréquence des individus hétérozygotes parmi les sains dans la population. L'individu II ayant une soeur atteinte, leurs parents sont obligatoirement tous les deux hétérozygotes et la probabilité est alors de /3 pour que II soit hétérozygote sachant qu'il est lui même non atteint. (/3 et non 1/ car le phénotype de l'individu II est connu). La probabilité pour que le couple II x II3 donne naissance à un enfant atteint de l'anomalie est alors la suivante: pq/(p +pq) x /3 x 1/4 soit proba (père Aa) x proba (mère Aa) x proba (enfant aa sachant les parents Aa) 4- Transmission des gènes liés au sexe L'étude des gènes liés au sexe n'est pas anecdotique car chez certains organismes, ils constituent une grande partie de l'adn codant. C'est par exemple le cas chez la Drosophile dont plus d'un tiers des gènes sont porté par le chromosome X. Pour les caractères portés par les chromosomes sexuels, les deux sexes ont des constitutions génétiques différentes et il faut distinguer : - le sexe homogamétique qui porte les deux mêmes chromosomes sexuels (femme XX chez les mammifères, certains insectes dont la drosophile ; mâle ZZ chez certains crustacés et papillons). Ce sexe est donc diploïde pour ce chromosome. - le sexe hétérogamétique, qui porte deux chromosomes sexuels différents (ou un seul) donc haploïde ou hémizygote (mâles XY chez les mammifères, femelles WZ chez les crustacés et papillons). Ce sexe est haploïde (hémizygoye) pour ce chromosome.

Les deux sexes ont donc des contributions génétiques différentes et s'ils sont en fréquence égale (sex-ratio équilibrée), le sexe homogamétique détient pour les gènes concernés les /3 du pool génétique de la population, et le sexe hétérogamétique 1/3 seulement. Lorsque les fréquences alléliques sont les mêmes chez les mâles et les femelles, p m = p f = p et q m = q f = q, la loi de Hardy-Weinberg s'applique au sexe homogamétique et les fréquences génotypiques dans le sexe hétérogamétique sont directement déduites des fréquences alléliques. Chez l'homme, pour un gène porté par X et présentant allèles A et a de fréquences p et q, les fréquences génotypiques dans chacun des deux sexes pour une population à l'équilibre seront: Femme (XX) X A X A = p X A X a = pq X a X a = q Homme (XY) X A Y = p X a Y = q Cette différence de structure génétique des sous-populations mâle et femelle a un effet spectaculaire dans le cas où un allèle est récessif. Le phénotype récessif est beaucoup plus fréquent dans le sexe hétérogamétique que dans le sexe homogamétique, où il peut être exceptionnel si la fréquence de l'allèle est faible. C'est l'exemple classique du daltonisme chez l'homme qui est dû à une mutation récessive sur un gène porté par X. En Europe, la fréquence de l'allèle récessif est de l'ordre de 0,04. Par conséquent l'anomalie est fréquente chez les hommes (4%) mais très rare chez les femmes (0,16%). En revanche, la fréquence des hétérozyotes est élevée chez les femmes (de l'ordre de 8%). Rappelons que ces femmes ont une chance sur deux de transmettre l'anomalie à chacun de leurs descendants mâles! Lorsque les fréquences alléliques sont différentes chez les mâles et les femelles, p m p f et q m q f, la contribution différentielle des deux sexes à la descendance maintient cette différence pendant plusieurs générations et l'égalité des fréquences alléliques n'est obtenue que progressivement (contrairement aux caractères autosomaux): - chaque mâle XY reçoit un chromosome X de sa mère, donc les fréquences alléliques chez les mâles à la génération t correspondent aux fréquences alléliques chez les femelles de la génération précédente t-1: f(a) : p mt = p ft-1 f(a) : q mt = q ft-1 - chaque femelle XX reçoit un chromosome X de sa mère et un chromosome X de son père donc les fréquences allèliques chez les femelles à la génération t correspondent à la moyenne des fréquences alléliques des deux sexes de la génération précédente t-1 : f(a): p ft = (p mt-1 +p ft-1 )/ f(a): q ft = (q mt-1 +q ft-1 )/ Dans l'ensemble de la population, les fréquences alléliques globales des allèles A et a sont les moyennes de la fréquence de ces allèles dans les deux sexes pondérées par leurs contributions relatives soit les coefficients 1/3 et /3 lorsqu'il y a autant de mâles que de femelles : population : f(a): p = /3 p f + 1/3 p m. f(a): q = /3 q f + 1/3 q m.

Si la proportion des sexes est inégale, la pondération tient compte des effectifs Nm des mâles et Nf des femelles : population : f(a): p = (p m.n m +.p f.n f )/ (N m + N f ) Au cours des générations, l'évolution des fréquences alléliques dans chacun des deux sexes fluctue autour de cette valeur d'équilibre avec une différence qui s'inverse et diminue de moitié à chaque génération. Cette fluctuation conduit à l'égalité des fréquences alléliques dans les deux sexes après plusieurs générations de croisements panmictiques. Si à la génération Go tous les mâles sont X a Y (p m0 = 0) et toutes les femelles sont homozygotes X A X A (p fo = 1), la fréquence de l'allèle A dans la population est p o = /3. A la première génération, la fréquence allélique chez les mâles est p m1 = p fo = 1 et chez les femelles : p f1 = (p mo +p fo )/ = 0,5. A la génération suivante, on a p m = 0,5 et p f = 0,75, etc. Il se produit donc des oscillations des fréquences alléliques dans les deux sexes, en opposition de phase, qui s'amortissent progressivement comme le montre la figure ci-dessous. Les fréquences alléliques dans l'ensemble de la population restent invariables (ici /3 pour A) et c'est vers cette valeur d'équilibre que convergent les fréquences alléliques des deux sexes. A l'équilibre, qm = qf = /3. La structure génétique est alors la suivante : chez les mâles : p individus X A Y (/3) et q individus X a Y (ici 1/3); chez les femelles, p individus X A X A (4/9), q individus X a X a (1/9), pq individus X A X a (4/9). 1,0 Fréquence de l'allèle A (p) /3 0,5 Femelles Mâles 0,0 0 4 6 8 Générations

5- Transmission de plusieurs gènes et déséquilibre gamétique Dans les populations naturelles, un très grand nombre de caractères sont génétiquement variables. Il est donc nécessaire d'étudier la transmission simultanée de plusieurs gènes polymorphes. C'est en effet l'ensemble du pool génétique qui se transmet d'une génération à l'autre, c'est à dire pour une population de N individus diploïdes l'ensemble des N exemplaires de chacun des gènes dont certains sont présents sous plusieurs formes alléliques. L'étude de la transmission simultanée des caractères polymorphes se complique rapidement car elle concerne un grand nombre de gènes pouvant ou non être portés par les mêmes chromosomes (gènes physiquement liés) ou interagissant entre eux par des relations d'épistasie. Seule l'étude du cas de deux loci dialléliques peut être abordé de façon simple. L'analyse de la composition génétique d'une population à plusieurs loci permet de mieux comprendre son fonctionnement à la fois au niveau des effectifs, des flux migratoires et des pressions de sélections qui s'exercent sur les caractères concernés. D'un point de vu appliqué, l'étude des l'associations alléliques à des loci étroitement liés permet de cartographier les gènes et de diagnostiquer des maladies génétiques à partir de marqueurs moléculaires non impliqués dans la maladie. Equilibre gamétique à loci Dans une population théorique idéale, les allèles des différents loci sont associés au hasard donc sont statistiquement indépendants. Cette indépendance statistique résulte du processus de recombinaison qui est maximum pour des gènes indépendants et d'autant plus faible que les gènes sont proches les uns des autres sur le même chromosome. La notion d'équilibre intègre donc non seulement l'association au hasard des allèles d'un même gène pour former les génotypes (loi de Hardy-Weinberg) mais également l'association au hasard des allèles de différents gènes. Cet équilibre à plusieurs loci peut être facilement formalisé dans le cas de gènes à allèles avec: - au locus A les allèles A et a de fréquences p et q - au locus B les allèles B et b de fréquences r et s L'équilibre gamétique correspond à l'association au hasard de tous les allèles au niveau des gamètes, c'est-à-dire des haplotypes. Les fréquences des 4 catégories de gamètes correspondent alors au produit des fréquences des allèles qui forment ces gamètes soit : fréquence des gamètes AB = pr fréquence des gamètes Ab = ps fréquence des gamètes ab = qr fréquence des gamètes ab = qs On distingue souvent les associations de type couplage (ou cis), correspondant aux associations AB et ab, des associations de type répulsion (ou trans) Ab et ab. Cette distinction n'est cependant possible que lorsque des relations de dominance existent entre les allèles d'un même locus. A l'équilibre, le produit des associations de type couplage est égal au produit des associations de type répulsion : f(ab) x f(ab) = f(ab) x f(ab)

pr x qs = ps x qr pqrs = pqrs Au niveau des génotypes, cet équilibre se traduit à la fois par une association au hasard des allèles à un même locus et une association au hasard des génotypes des différents loci. Les fréquences génotypiques sont alors : au locus A p AA pq Aa q aa au locus B r BB rs Bb s bb Les fréquences des 9 génotypes possibles correspondent alors aux produits des fréquences génotypiques à chaque locus (indépendance statistique entre génotypes des deux loci): AABB = p r AaBB = pq r aabb = q r AABb = p rs AaBb = 4pqrs aabb = q rs AAbb = p s Aabb = pq s aabb = q s Ces fréquences correspondent également à la fusion au hasard des gamètes qui forment ces génotypes soit par exemple la fusion au hasard de gamètes AB chacun de fréquence pr pour le génotype donc (pr) = p r. Déséquilibre gamétique Dans les populations naturelles, cette association au hasard entre allèles de différents gènes n'est pas toujours réalisée. Les fréquences gamétiques sont alors différentes du produit des fréquences alléliques. On dit qu'il y a déséquilibre gamétique ou déséquilibre de liaison (en anglais linkage disequilibrium) noté D. Le terme déséquilibre gamétique est à préférer car les gènes indépendants tout comme les gènes physiquement liés peuvent êtres concernés par ce phénomène. La valeur du déséquilibre gamétique D se déduit directement de l'écart entre les fréquences gamétiques observées dans la population et les fréquences gamétiques à l'équilibre correspondant au produit des fréquences allèliques. Cet écart peut être calculé pour chacune des catégories de gamètes : D = fréquence gamétique observée - fréquence gamétique théorique soit pour les gamètes AB : D = f(ab)- f(a) x f(b) = f(ab) - pr soit pour les gamètes Ab : D = f(ab)- f(a) x f(b) = f(ab) - ps soit pour les gamètes ab : D = f(ab)- f(a) x f(b) = f(ab) - qr soit pour les gamètes ab : D = f(ab)- f(a) x f(b) = f(ab) - qs En fonction des catégories de gamètes en excès ou en déficit, D est soit négatif soit positif mais sera dans tous les cas le même en valeur absolue car les fréquences des 4 catégories de gamètes sont interdépendantes. Par exemple, si il y a un excès de gamètes AB, il y aura forcément excédent de gamètes ab et déficit de gamètes Ab et ab. Les fréquences gamétiques seront alors les suivantes :

f(ab) = pr + D f(ab) = ps - D f(ab) = qr - D f(ab) = qs + D Les fréquences alléliques restent bien évidemment les mêmes dans la population car seule l'association des allèles est modifiée, ce qui peut être vérifié pour l'allèle A par exemple : fréquence A = pr + D + ps - D = p (r + s) = p. Le déséquilibre gamétique D correspond également à l'écart entre le produit des associations de type couplage et le produit des associations de type répulsion observés dans la population: D = f(ab) x f(ab) - f(ab) x f(ab) Pour gènes à plus de allèles, les allèles A1, A, Ai au locus A et les allèles B1, B, Bj au locus B. Le déséquilibre gamétique D sera estimé par : D = f(aibj) - f(ai) x f(bj) Applications : Calculer le déséquilibre gamétique dans une population ayant les fréquences gamétiques suivantes : AB = 0,54 Ab=0,06 ab=0,6 ab=0,14 Résultats : première méthode : fréquence allèle A = p = 0,54 + 0,06 = 0,6 fréquence allèle B = r = 0,54 + 0,6 = 0,8 D = f(ab)- f(a) x f(b) = f(ab) - pr D = 0,54-0,6 x 0,8 = 0,06 on vérifie que D=0,06 pour les gamètes ab et D=-0,06 pour les gamètes Ab et ab. Deuxième méthode : D = f(ab) x f(ab) - f(ab) x f(ab) D = 0,54 x 0,14-0,06 x 0,6 D = 0,06 Déséquilibre gamétique et fréquences génotypiques Si on considère simultanément les loci, la présence d'un déséquilibre gamétique va modifier la fréquence des génotypes. Par exemple, si le déséquilibre gamétique D correspond à un excédent de gamètes AB et ab, les fréquences génotypiques seront les suivantes sous un régime de reproduction panmictique : AABB = (pr+d) = p r + prd + D donc l'équilibre plus un excédent AABb = (pr+d) (ps-d) = p rs +psd - prd - D donc l'équilibre avec un déficit (le facteur traduit le fait que les gamètes AB et Ab peuvent être soit mâles soit femelles) aabb = (qs+d) = q s + qsd + D donc l'équilibre plus un excédent

Si l'on considère les loci A et B séparément, le régime de reproduction panmictique fait que les loci sont à l'équilibre de Hardy-Weinberg malgré la présence d'un déséquilibre gamétique dans la population soit: au locus A p AA pq Aa q aa au locus B r BB rs Bb s bb Explication Pour loci A et B à allèles A et a de fréquence p et q, B et b de fréquence r et s avec un déséquilibre gamétique D correspondant à un excédent de gamètes de type couplage, les fréquences gamétiques sont les suivantes : f(ab) = pr + D f(ab) = ps - D f(ab) = qr - D f(ab) = qs + D Si les individus de la population se reproduisent au hasard (régime de reproduction panmictique), les fréquences des différents génotypes résultent de la fusion au hasard des différents gamètes. Par exemple, le génotype AABB résulte de la fusion au hasard de gamètes AB chacun de fréquence pr+d soit (pr+d) Le même raisonnement s'applique à chaque génotype ce qui peut être représenté par le tableau suivant où le facteur traduit le fait qu'un génotype issu de la fusion de gamètes différents peut être réalisé de façons en fonction de la nature des gamètes mâle et femelle: AA Aa aa BB (pr+d) x(pr+d) x (qr-d) (qr-d) Bb x(pr+d) x (ps-d) x (pr+d)(qs+d) x(qr-d) x (qs+d) + x (ps-d)(qr-d) bb (ps-d) x(ps-d) x (qs+d) (qs+d) Si on considère chaque locus pris isolément, la fréquence des différents génotypes se calcule par la somme des lignes ou des colonnes. Par exemple en faisant la somme de la première colonne pour le génotype AA soit : AA = (pr+d) + x(pr+d) x (ps-d) + (ps-d) = p r + prd + D + p rs - prd + psd - D + p s - psd + D soit après simplification : ` AA = p (r + rs + s ) = p donc l'équilibre de Hardy-Weinberg pour le génotype BB, la somme de la première ligne sera égale à r soit l'équilibre. Le produit de la somme d'une colonne et de la somme d'une ligne soit p pour la colonne 1 et r pour la ligne 1 correspond à ce qui est attendu à l'équilibre en absence de déséquilibre gamétique soit p r ce qui est différent de ce qui est observé. La comparaison de ces effectifs attendus et observés permet donc de tester statistiquement l'existence d'un déséquilibre gamétique dans la population ce qui correspond à réaliser une table de contingence.

Evolution du déséquilibre gamétique Lorsqu'il existe un déséquilibre gamétique dans une population, le mode de reproduction panmictique associé aux recombinaisons intergéniques qui se produisent au moment de la méiose vont tendre à le faire diminuer. Ce phénomène de recombinaison résulte de la segrégation indépendante des loci portés par des chromosomes différents ou des crossing over qui se produisent entre loci d'un même chromosome. Ce brassage des gènes est quantifié par le taux de recombinaison c qui prend la valeur maximale de 0,5 pour des gènes indépendants et dépend de la position des gènes sur le chromosome pour des gènes liés. c s'exprime en centimorgan (cm) et on considère qu'en moyenne 1% de recombinaison soit c=0,01 (1cm) correspond à une distance de l'ordre de 1000 kb. Ainsi, des gènes portés par le même chromosome mais assez éloignés auront un taux de recombinaison c de 0,5. La vitesse à laquelle le déséquilibre gamétique diminue au cours de génération sera donc fonction du taux de recombinaison c entre les gènes impliqués ce qui est donné par la formule de récurrence suivante : D t = D 0 (1-c) t où c est le taux de recombinaison entre les deux loci, t le nombre de génération et D 0 le déséquilibre gamétique initial. Pour loci A et B à allèles A et a de fréquence p et q, B et b de fréquence r et s avec un déséquilibre gamétique initial D 0 correspondant à un excédent de gamètes de type couplage, les fréquences gamétiques à la génération G 0 sont les suivantes : f 0 (AB) = pr + D 0 f 0 (Ab) = ps - D 0 f 0 (ab) = qr - D 0 f 0 (ab) = qs + D 0 A la génération suivante G1, la fréquence des gamètes AB sera : f 1 (AB) = pr + D 1 Ces gamètes AB de la génération G1 auront deux origines différentes : - des haplotypes AB de la génération G0 (fréquence pr + D 0 ) qui n'ont pas subit de recombinaison (probabilité 1-c) - des haplotypes AB produit par recombinaison (probabilité c) après fusion entre des gamètes porteurs d'un allèles A (fréquence p) et des gamètes porteurs d'un allèle B (fréquence r) La fréquence des gamètes AB à la génération G1 sera donc : f 1 (AB) = pr + D 1 = (pr + D 0 ) (1-c) + pr c D 1 = pr + D 0 - cpr - cd 0 + cpr -pr = D0 (1-c) A la génération t : Dt = D0 (1-c) t Pour des gènes indépendants ou très éloignés, la recombinaison est maximale et le déséquilibre gamétique disparaît très rapidement de la population sauf si d'autres phénomènes s'opposent à cette diminution (sélection par exemple). Par contre, pour des gènes liés et très proches, ce déséquilibre peut se maintenir pendant de très nombreuses générations comme le montre la figure ci-dessous.

0,5 r = 0,01 Déséquilibre gamétique (D) 0,0 0,15 0,10 0,05 0,00 0 4 6 r = 0,05 r = 0,1 r = 0, r = 0,5 8 10 Générations Evolution du déséquilibre gamétique pour différents taux de recombinaison après mélange de deux populations de même effectif, l'une AAbb l'autre aabb (D0 = 0,5) Exemple d'un mélange de populations monomorphes L'un des principaux facteurs responsables de l'apparition d'un déséquilibre gamétique est le mélange de deux populations génétiquement distinctes. Considérons, par exemple, deux loci dialléliques A et B, et deux populations monomorphes, l'une pour les allèles A et B (100% d'homozygotes AABB), l'autre pour les allèles a et b (100% d'homozygotes aabb). Si une nouvelle population est fondée avec un nombre égal de mâles et de femelles de chacune des deux populations d'origine, la nouvelle population sera polymorphe et aura la composition génotypique suivante : 50% AABB 50% aabb les fréquences alléliques seront alors : f(a) = p = 0,5 f(a) = q = 0,5 f(b) = r = 0,5 f(b) = s = 0,5 A l'équilibre, une telle population aura la structure génétique suivante : fréquences gamétiques: f(ab) = pr = 0,5 f(ab) = ps = 0,5 f(ab) = qr = 0,5 f(ab) = qs = 0,5 fréquences génotypiques: AABB = 0,065 AaBB = 0,15 aabb = 0,065 AABb = 0,15 AaBb = 0,5 aabb = 0,15 AAbb = 0,065 Aabb = 0,15 aabb = 0,065 soit p AA = 0,5 pq Aa = 0,5 q aa = 0,5 et r BB = 0,5 rs Bb = 0,5 s bb = 0,5 A la génération G0, la structure génétique de la population est très différente de celle de l'équilibre puisqu'il n'y a que catégories génotypiques de même fréquence : 50% de AABB qui produisent que des gamètes AB 50% de aabb qui produisent que des gamètes ab Si la population est idéale, les fréquences des gamètes seront :

f 0 (AB) = 0,5 f 0 (Ab) = 0 f 0 (ab) = 0 f 0 (ab) = 0,5 Le déséquilibre gamétique Do à la génération Go est donc égal à D 0 = f 0 (AB) - pr = 0,5-0,5 x 0,5 = 0,5 On peut noter que cette valeur est la valeur maximum du déséquilibre lorsque les fréquences alléliques sont toutes égales à 0,5 La génération suivante G1 sera issue de l'union au hasard des gamètes mâles et femelles produits par la génération G0. La génération G1 sera donc composée de 3 catégories génotypiques ayant les fréquences suivantes: AABB= 0,5 x0,5=0,5 AaBb = x 0,5 X0,5= 0,5 aabb= 0,5 x0,5 = 0,5 Si l'on considère les loci séparément, l'équilibre est atteint dès la première génération à chaque locus (équilibre de Hardy-Weinberg). On a en effet: au locus A AA = 0,5 Aa = 0,50 aa = 0,5 au locus B BB = 0,5 Bb = 0,50 bb = 0,5 Si l'on considère les deux loci simultanément, la population n'est pas à l'équilibre puisque seuls 3 des 9 génotypes possibles sont présents. Cet écart est la conséquence du déséquilibre gamétique qui subsiste après une génération de croisements panmictiques. Ce déséquilibre D 1 se calcule à partir de la fréquence des gamètes produits par l'ensemble de la population à la génération G 1. Ces fréquences gamétiques dépendent de la fréquence des différents génotypes dans la population et de la proportion des différents types de gamètes produits par chaque individu qui est simplement la conséquence de la ségrégation mendélienne des caractères : -les individus AABB produisent 100% de gamètes AB - les individus aabb produisent 100% de gamètes ab - les individus AaBb (issus de la fusion des gamètes AB et ab) produisent 4 types de gamètes, des gamètes parentaux à une fréquence 1-c (AB et ab en proportion égale) et des gamètes de type non parentaux ou recombinés à une fréquence c (Ab et ab en proportion égale). Le tableau ci-dessous donne les fréquences des différents types de gamètes produits par chaque catégorie d'individus dans le cas de deux gènes indépendants (c = 0,5) et dans le cas de deux gènes liés distants de 0 centimorgans (c = 0,). Parents Fréquences Gamètes fréquences c= 0,5 c = 0, AABB 0,5 AB 1 1 AB/ab 0,5 AB 0,5 0,40 ab 0,5 0,40 Ab 0,5 0,1 ab 0,5 0,1 ab/ab 0,5 ab 1 1 - Pour le cas de gènes indépendants (c=0,5), les fréquences des gamètes seront:

AB = 0,5+ 0,5 x 0,5 = 0,375 ab = 0,5+ 0,5 x 0,5 = 0,375 Ab = 0,5 x 0,5 = 0,15 ab = 0,5 x 0,5 = 0,15 Les quatre catégories de gamètes sont donc produites, mais leurs fréquences ne sont pas à l'équilibre. Le déséquilibre qui reste à la G1 est : D 1 = 0,375-0,5 x 0,5 = 0,15 Il a donc diminué de moitié. - Pour le cas de gènes liés (c=0,), les fréquences des gamètes seront : AB = 0,45 ; ab = 0,45 ; Ab = 0,05 ; ab = 0,05 Le déséquilibre à la G1 est alors: D 1 = 0,45-0,5 x 0,5 = 0, La proportion de gamètes recombinés est plus faible donc le déséquilibre diminue moins rapidement. A la génération suivante G, la recombinaison produira les mêmes effets ce qui va encore faire diminuer le déséquilibre gamétique. Cette diminution sera rapide pour des gènes indépendants et directement fonction du taux de recombinaison pour des gènes liés. L'équilibre sera atteint après plusieurs générations de croisements panmictiques si d'autres mécanismes n'agissent pas pour maintenir ce déséquilibre gamétique dans la population.