DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Transcription

1 DIOGENE Un logiciel de Génétique & Amélioration des Plantes Utilisateurs Etudiants (DEA, thèse) Chercheurs confirmés (INRA, CIRAD, Universités Laval et Lyon 1) Gestionnaires de programmes d Amélioration, techniciens & ingénieurs (INRA, CIRAD, CEMAGREF ) Etat actuel Intégration de Biométrie générale, Génétique Quantitative & Génétique des Populations. Structure modulaire. Modèles originaux (Interaction Génotype x Environnement, méthodes de sélection, statistiques spatiales : Papadakis++ ) Utilisable en mode «interactif» ou pour «chaînes de traitement» complexes (scripts de pilotage) Multivariable et non-orthogonal (Analyses de Variance, Index de sélection, Analyse des Données ) Traitement d observations quantitatives et qualitatives simultanément Rééchantillonnage par Jackknife et Bootstrap très rapide et standardisé Améliorations récentes (Ph. Baradat et Th. Perrier ) Portage sous Fortran 95 et Linux Sorties graphiques à haute définition (directement utilisables pour des publications) Paramétrage contextuel

2 Cahier des charges Logiciel intégré (plusieurs modules chaînés) Grand nombre de paramètres Doit traiter des expérimentations mal structurées Nécessité de rapidité optimale (rééchantillonnage) Solutions adoptées Menu déroulant Sélection des modules selon le traitement désiré Superviseur «intelligent» Création d un script de pilotage & génération automatique de paramètres Fichier de données binaire + fichier paramètre qui décrit son contenu Mise en place dans programmes & scripts de tests pour détecter des problèmes de calcul (par exemple, matrices non inversibles) messages explicites

3 Fichiers de données de DIOGENE (norme ANTAR étendue) Fichier binaire à accès direct: [Nomfich] + fichier paramètre [Nomfich].p ( ASCII) Le Fichier binaire comporte les données (cf. diapo 4) Le fichier paramètre donne les infos sur ces données : o Nombre d indicatifs o Nombre d individus/enregistement o Nombre d observations/individu o Libellés des indicatifs o Libellés des observations o Min-max des indicatifs o Libellés des modalités de facteurs (facultatif) L utilisateur et les programmes accèdent aux données par le fichier paramètre Avantages : Souplesse dans l accès aux données (si rééchantillonnage notamment) Très grande rapidité de traitement (important pour le rééchantillonnage) Importation/exportation des données : Utilitaires de transcodage inclus dans DIOGENE

4 Système de fichiers de données du logiciel original adapté au rééchantillonnage. Il est binaire et chaque donnée (indicatif ou observation) est représentée en simple précision sur 4 octets. Un fichier paramètre, suffixé par.p lui est associé. Il comporte toutes les informations utiles au traitement biométrique. Vecteur X Indicatif 1 Indic. k x(1,1).x (1,q) x(p,1) x(p,q) x(z,q) Vecteur Y Indicatif 1 Indic. k y(1,1) y(1,q ) y(p,1).y(p,q ) y(z,q ) Enregistrement (vecteur X), stocké en mémoire au moment de son traitement, est défini par trois paramètres : nombre d indicatifs (k), nombre maximum d individus (z) et nombre de variables observées par individu (q). Observations (x) repérées par leur position intra-individu. L analyseur syntaxique génère un enregistrement virtuel de même structure (vecteur Y) où les q observations sont remplacées par q fonctions d un nombre quelconque de variables x et/ou de y déjà définies (récursivité). Les y sont définis sous la forme : y(j)= F[x(1), x(2)...y(i), ctes]. Ainsi, le log de l accroissement en volume d un cône : r 2 2 = 2 h1 r1 h log( V ) log 2 π 3 s écrira, si r, 1 h 1 (rayon et hauteur initiaux) et r 2, h 2 (rayon et hauteur finaux) sont, dans l ordre, les quatre premiers variables : log((x3**2*x4-x1**2*x2)*pi/3). Données manquantes codées par -9 ou -5 selon que l individu est mort ou simplement non observable. Tout individu dont l une des variables x définissant au moins un y prend une de ces valeurs est exclu du traitement. Enfin, n étant le nombre d individus de l enregistrement, si n < z, un signal de fin logique est codé par Structure des enregistrements du fichier de données.

5 Tétrade 1 Tétrade 2 opérat. adresse stock. résultat opérande 1 opérande 2 ou «0» opérat. ou code fin pile adresse stock. résultat opérande 1 opérande 2 ou «0» numéro de colonne adressée = valeur de y caractère étudié Numéro de ligne y adressée = y numéro d ordre y du caractère y étudié y y Pile FIFO : séquence ordonnée d opérations ; les premiers éléments seront les premiers exécutés. Opérations élémentaires codées par quadruplet d entiers. Ordre des opérations donné par analyse des formules algébriques, au moment du lancement du script (parenthèses, priorités des opérateurs). Le code d opérateur renvoie directement à un sous-programme selon qu il y a un opérande (opérateurs de transformation) ou deux opérandes (opérateur de combinaison) puis à une adresse intra-sous-programme. Résultat stocké à l adresse indiquée par le deuxième élément. Le troisième élément donne la valeur (constante) ou l adresse (variable x ou y ) de l opérande 1). Cet opérande est le seul pour un opérateur de transformation. Pour un opérateur de combinaison, le quatrième élément de la tétrade définit le deuxième opérande. Un code de fin de pile (position 1) termine la séquence d opérations. On passe ensuite à la définition 2, etc. Ceci permet un traitement très rapide : les tétrades réalisent un adressage direct et l analyse syntaxique n est pas refaite au moment de la lecture des données. L analyseur syntaxique fonctionne comme un compilateur. Les variables binaires (présence-absence) sont générées en sélectionnant la valeur d une cellule d une matrice d incidence constituée de 0 et de 1. Le numéro de ligne est donné par le numéro d ordre de définition de la variable y. Le numéro de colonne est la valeur de cette variable. Le système permet de coder la présence ou l absence de plusieurs valeurs d un caractère discret. La génération de la matrice se fait par le langage de définition des variables y. Principe de l analyseur syntaxique & génération de binaires (caractères qualitatifs)

6 LENA1 LENA2 LENOR non non Contrôle oui parenté? 2 ancêtres? oui ORION A 1 A 2 A '1 A'2 Etat dispos. Plan dispos. Fichier dispositif D1 Σ D2 TIMBAL POLY REPLAN DEBLOC Etiquettes Plan mis à jour Plan compacté Fichier restructuré Assemblage des programmes de création/gestion de dispositifs Génération et gestion de dispositifs en blocs incomplets à composition aléatoire ou complets, tenant compte des contraintes de terrain, avec repérage des individus par coordonnées cartésiennes. Géométrie des blocs et des parcelles unitaires paramétrable. Contrôle de parenté entre individus du même bloc pour une création de vergers à graines. Dans ce cas, le programme vérifie pour tout individu (D1), après qu il a été tiré, qu aucun des individus qui sont déjà présents dans le bloc ( D2) ne présente avec lui un ou deux ancêtres en commun. Dans second cas, contrainte : ( A1 A' 1) ( A1 A' 2) ( A2 A' 1) ( A2 A' 2). L algorithme de tirage séquentiel des individus de chaque unité génétique pour constitution des blocs est tel que : Pr( Dij) = ni / N où D ij est un individu ou une parcelle unitaire de l unité génétique, D i, d effectif n i. au moment de la réalisation du tirage, si N individus ou parcelles unitaires y participent. Ceci permet de générer des dispositifs optimisés pour des unités génétiques avec des effectifs très inégaux.

7 . S uperviseur (OPE P ) D IS T R IB F IC H IE R données ME N U S Options (A N T A R ) A nalys. syntaxique (D E F C AR ) IN T E R G- G IN T E R G- E Edistrib. tude AN V A R M A JU S T effets fixés A F C Génétique des populations R E GM C OV A R M sur indiv. AC P sur indiv. C OR A N C om par.effets C orrél.de rang A F D IN D E X A C P sur c orrél. de rang A C P sur effets R E GM sur effets C L A S S (dendrogr.) Organigramme global des programmes de biométriegénétique Le superviseur constitue le script et appelle des sous-programmes, qui créent les fichiers de paramètres. Les différents modèles d Analyse de Variance Multivariable (ANVARM) peuvent être suivis par différents programmes qui concernent, par exemple, l Analyse des Données et les comparaisons d effets, avec une représentation en dendrogramme (classification automatique : CLASS). La filière d Analyse Factorielle des Correspondances (AFC) constitue comme les Index de sélection (INDEX) une catégorie à part. Il existe de nombreuses «passerelles» entre les groupes de programmes : par exemple, on peut générer des fichiers de coordonnées issues d Analyse en Composantes Principales (ACP), d analyse factorielle discriminante (AFD) ou d AFC et les rediriger en entrée de programmes d Analyse de Variance. Les ajustements à des effets fixés peuvent utiliser la régression multiple (REGM), sur des voisins éventuellement, l Analyse de Covariance Multiple (COVARM) et l analyse de variance (AJUST). Le module de comparaison d effets et corrélations de rangs (CORAN) génère des fichiers d effets de ce type.

8 Quelques caractéristiques qui font l originalité de DIOGENE Structure modulaire (modèles «à la carte») Ajustement au milieu complexe (Papadakis++) Analyses de variance étude Interaction G x E Analyses de variance + AFD correspondant au modèle Index de sélection avec choix des prédicteurs et pondération raisonnée des caractères-cibles etc Choix d un type de fichier de données permettant : Une lecture sélective de lignes sélectionnées (enregistrements) Une grande rapidité d exécution (capital pour le rééchantillonnage) = Norme «ANTAR» qui intègre : - les données sur un fichier binaire à accès direct - Les informations sur ces données (fichier-paramètre associé)

9 Suite Un pilotage des chaînes des traitement par «scripts» Faciles à corriger et à modifier Permettant la mise en place d un mécanisme de réitération pour des traitements complexes Un rééchantillonnage sur «chaînes entières» Jackknife Bootstrap en se fixant : Le premier et le dernier programme de la chaîne Où se fait le rééchantillonnage (paramètre «AMONT») Le niveau : individuel ou des unités génétiques (familles ) D autres types de traitements réitérés (Papadakis++ )

10 - La méthode du jackknife On élimine tour à tour les individusde rangs 1 à u, u+1 à 2u, (k-1)u+1 à ku. On peut éliminer un seul individu par sous-échantillon : k=n, u=1. Si u>1, les sous-échantillons doivent être représentatifs de l ensemble de la population (c est-à-dire de tous les niveaux de facteurs). Ceci peut être réalisé par permutation aléatoire de l ordre de succession initial des individus. Chaque individu est caractérisé par n variables : y 1, y 2...y n et l on calcule sur la population un paramètre quelconque, F(y 1,y 2,...y n ). Cette fonction des observations est recalculée sur chaque sous-échantillon. L autocorrélation positive entre les sous-échantillons, qui possèdent (k-2)u individus en commun, fait que la variance des valeurs du paramètre sousestimerait la variance d erreur. L estimateur non biaisé de cette variance d erreur (estimateur de Quenouille- Tukey) est donné par : où : Fi = k F ( k ) F* i k = k = i F = S 1 i i F k k i ˆ 2 2 ( 1) k 1 (pseudo-valeur de Tukey) ; F * i est la valeur du paramètre calculée sur le sous-échantillon de rang i amputé des individus de rangs u(i-1)+1 à ui ; F est la valeur calculée sur l échantillon total (ku individus). Ces pseudo-valeurs sont des variables indépendantes et la statistique : Fˆ E( F) Sˆ suit la distribution du t de Student à k-1 degrés de liberté.

11 - La méthode du bootstrap Il s agit d un rééchantillonnage avec remise, qui génère des échantillons de taille N et inclut donc la possibilité d avoir les mêmes données dans des échantillons différents ou dans le même échantillon. Cette méthode s applique lorsque l autocorrélation entre les échantilllons aléatoires générés est réduite et donc la proportion de données communes faible. Ces échantillons peuvent être considérés comme indépendants. La variance entre estimations du paramètre est alors une estimation de sa variance d échantillonnage. Cette méthode est très utilisée en génétique des populations car celle-ci met en œuvre une structuration simple et robuste (en général, il s agit d une population unique ou de hiérarchies à un ou deux niveaux). Elle est plus délicate à utiliser dans le cas de plans expérimentaux en classification croisée ou mixte (croisée et hiérarchique) pour lesquels certaines séquences de tirages avec remise peuvent générer des niveaux de facteurs déconnectés. Mais la méthode présente un avantage important : Le nombre E d échantillons aléatoires différents possibles à partir de N individus est pratiquement infini dès que N est de quelques dizaines : E = N N. Les estimations des paramètres étant indépendantes, l étude de leur distribution sur plusieurs milliers de séquences permet de déterminer leurs intervalles de confiance sans faire l hypothèse d une distribution normale.

12 Organigramme simplifié schématisant l implémentation du rééchantillonnage dans le logiciel DIOGENE.

13 DIOGENE donne bien sûr les seuils de signification associés aux tests statistiques Carres moyens & tests F sous l'hypothese d'effets fixes Carres moyens de l'agc du genotype Genotype_parent ( 11 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht E E E E E+04 Tests F ( 11 et 2551 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht % 0.000% 0.000% 0.000% 0.000% Carres moyens de l'aptitude specifique, ASC ( 51 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht E E E E E+03 Tests F ( 51 et 2551 d.l.) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht % 0.000% 0.000% 0.001% 0.000%

14 Valeurs génétiques estimées par régression du génotype sur le phénotype [ ] [ ] G GP PP p = 1 Combinaison linéaire des estimations des valeurs génotypiques pour chaque caractère I = b ' G [ ] [ ] G : val.gén. caract. 1 G1 : caractère 1 r(g,i)>0 0 α α ' I : index G2 : caractère 2 r(g,i)<0 S(I) : différentielle de sélection sur l'index La valeur génétique du caractère 1 (gain génétique G1) est positivement corrélée à l index ; celle du caractère 2 (gain génétique G2) est corrélée négativement. Les deux gains génétiques, G1 et G2, sont déterminés par la différentielle de sélection sur l index : S(I) = iσ I où i est l intensité de sélection et par le coefficient de régression de chaque valeur génétique sur l index : b = cov(g, I) / σ 2 I. On a : b1= tg( α ) et b2= tg( α '). Réalisation de gains génétiques partiels sur deux caractères par troncature de la population pour un index corrélé à leurs valeurs génétiques

15 Le coefficient du volume, b1, est constant (b1=1) et le coefficient du pilodyn, b2, varie de -0.3 à Noter la très forte variation induite sur le gain génétique relatif pour le volume par une faible variation du coefficient du pilodyn autour de la valeur b2 = 0. Par ailleurs, la courbe des gains génétiques sur le pilodyn donne une valeur légèrement négative pour b2 = 0. Ceci traduit la légère corrélation génétique négative entre volume et pilodyn à 48 mois (-0,08). Courbes de paramétrage des coefficients des caractères cibles dans un index

16 G ( x j) / σ P ( x j) + 1CPG ( x i, x j) = tg ( α 1) > CPG ( x i, x j) = tg ( α 2) < 0 α 1 α 2 P ( x i ) / σ P ( x i) + 1 σ P ( x i ) Notion de coefficient de prédiction génétique Cette figure représente la réponse corrélée du caractère x j (axe des ordonnées) sélectionné par l intermédiaire du caractère x i (axe des abscisses). Si l on déplace la moyenne phénotypique de la population de +1, pour x j, en unité d écart-type phénotypique, il s ensuit une réponse (sélection indirecte) de 1 CPG(x i, x j ) pour le caractère x j. La réponse peut être positive ou négative suivant le signe du coefficient de prédiction génétique. L héritabilité d un caractère n est autre que le coefficient de prédiction génétique de ce caractère avec lui-même. Dans ce cas, la réponse est, par définition, positive ou nulle.

17 Analyse de l interaction GxE et GxG Ecovalence généralisée (ou interactivité relative) 1 B wi = j = 1 nijγˆ2 ij ni. w = wi i 100 A i = 1wi Régression factorielle (multivariable) γ ij = mα iβ j+ uiβ j+ v jα i+ γ ij.

18 Statistiques spatiales Autocorrélogrammes (Moran ) Papadakis++

19 Les valeurs sur diagonale ne sont autres que les héritabilités DIOGENE calcule et édite les matrices triangulaires-basses de CPG L utilisateur dispose ainsi d infos synthétiques sur l efficacité comparée de la sélection directe & indirecte. Matrices des Coefficients de prediction genetique (heritabilites sur la diagonale) Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1: ht y 2: pp y 3: ht y 4: pp y 5: ht Coefficients de prediction genetique au sens large y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1: ht y 2: pp y 3: ht y 4: pp y 5: ht

20 DIOGENE calcule et édite également après rééchantillonnage : Les tests de signification des paramètres estimés Parametres et tests de la matrice numero 9 Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1 : ht E. standard : Test t : Signif. (%) : y 2 : pp E. standard : Test t : Signif. (%) : y 3 : ht E. standard : Test t : Signif. (%) : y 4 : pp E. standard : Test t : Signif. (%) : y 5 : ht E. standard : Test t : Signif. (%) :

21 et les intervalles de confiance au seuil choisi par l utilisateur Intervalles de confiance de la matrice 9 Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1 : ht y 2 : pp y 3 : ht y 4 : pp y 5 : ht

22 DIOGENE met ainsi à la disposition de l utilisateur Des méthodes puissantes de restructuration des dispositifs et d ajustement à l environnement. La possibilité d évaluer l interaction génotype x environnement pour chaque unité génétique. La prise en compte de tous les plans de croisements L aptitude à traiter des essais très «troués». Des modèles très généraux d index de sélection. Un système très flexible pour calculer les intervalles de confiance par rééchantillonnage.

23 Exemple de traitement modulaire (chaîne de traitement) Séquence des programmes ENVIR - DIAL Modèle mixte d analyse de variance en demi-diallèle avec effets génétiques aléatoires et dispositif en blocs incomplets (effet bloc fixé). Carré moyen et variance de l effet Deg.de lib. Espérance du carré moyen : E(CM) Test F bloc, CM b B-1 B σ [ ( ) ] β 2 CM 2 b /CM e non biaisé e + 1/ B 1... k k 1 n k = aptitude générale, AGC CM a, σ a 2 P-1 σ 2 σ 2 σ 2 e + k1 a + k2 s CMa/CM s biaisé aptitude spécifique, ASC CM s, σ 2 s C-P σ 2 σ 2 e + k3 s CM s /CM r biaisé intra-famille CM e, e 2 σ N-D-B+1 σ 2 e B : nombre de blocs, P : nombre de parents, C : nombre de croisements, réciproques confondus, N : nombre total de plants. Les tests F de non nullité de la variance d AGC est réalisé par rapport au carré moyen d'asc. Il est biaisé si le demi-diallèle est non-orthogonal et déséquilibré. Celui de non nullité de la variance d'asc est fait par rapport au CM intra-famille. Il est non biaisé dans tous les cas. Pour estimer les composantes de la variance, le système à résoudre est : 1 σˆ e 2 = σˆ CM e et a 2 k1 k2 CM = a CM e σˆ 2 s k3 0 CM s CM e Pour les composantes de la covariance, il suffit de remplacer les carrés moyens par les coproduits moyens pour tout couple de caractères.

24 CONCLUSION DIOGENE = plate-forme de développement Architecture unifiée Outils génériques Modules inter-compatibles Structure de fichiers normalisée Nécessité d une cellule de développement Maintien d une compétence informatique permanente Collège d utilisateurs (de préférence international) Partage des tâches de conception/développement Mise à jour régulière des notices