DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Documents pareils

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Introduction à l approche bootstrap

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

FORMULAIRE DE STATISTIQUES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

La classification automatique de données quantitatives

Logiciel XLSTAT version rue Damrémont PARIS

Relation entre deux variables : estimation de la corrélation linéaire

TABLE DES MATIERES. C Exercices complémentaires 42

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Introduction à MATLAB R

Fonctions de plusieurs variables

1 Complément sur la projection du nuage des individus

Statistiques Descriptives à une dimension

INF6304 Interfaces Intelligentes

PROBABILITES ET STATISTIQUE I&II

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Rappels sur les suites - Algorithme

Table des matières. I Mise à niveau 11. Préface

Chapitre 3. Les distributions à deux variables

Aide-mémoire de statistique appliquée à la biologie

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

STATISTIQUES. UE Modélisation pour la biologie

Equations cartésiennes d une droite

3 Approximation de solutions d équations

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Quantification Scalaire et Prédictive

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Analyse de la variance Comparaison de plusieurs moyennes

Le risque Idiosyncrasique

données en connaissance et en actions?

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Que faire lorsqu on considère plusieurs variables en même temps?

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Résolution de systèmes linéaires par des méthodes directes

Validation probabiliste d un Système de Prévision d Ensemble

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Optimisation, traitement d image et éclipse de Soleil

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

CHAPITRE 5. Stratégies Mixtes

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Évaluation de la régression bornée

SPHINX Logiciel de dépouillement d enquêtes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

L apprentissage automatique

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Complément d information concernant la fiche de concordance

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Exercice : la frontière des portefeuilles optimaux sans actif certain

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 0 Introduction à la cinématique

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Simulation centrée individus

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

23. Interprétation clinique des mesures de l effet traitement

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Correction de l examen de la première session

Le modèle de régression linéaire

Projet de Traitement du Signal Segmentation d images SAR

Régression linéaire. Nicolas Turenne INRA

Cours 02 : Problème général de la programmation linéaire

Introduction au Data-Mining

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Package TestsFaciles

Item 169 : Évaluation thérapeutique et niveau de preuve

Chapitre 2 Le problème de l unicité des solutions

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

4. Résultats et discussion

Localisation des fonctions

Classe de première L

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

1 Définition de la non stationnarité

Gestion obligataire passive

Arbres binaires de décision

LES TYPES DE DONNÉES DU LANGAGE PASCAL

CAPTEURS - CHAINES DE MESURES

Précision d un résultat et calculs d incertitudes

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Qu est-ce qu une probabilité?

Température corporelle d un castor (une petite introduction aux séries temporelles)

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Principe d un test statistique

Introduction aux Statistiques et à l utilisation du logiciel R

Transcription:

DIOGENE Un logiciel de Génétique & Amélioration des Plantes Utilisateurs Etudiants (DEA, thèse) Chercheurs confirmés (INRA, CIRAD, Universités Laval et Lyon 1) Gestionnaires de programmes d Amélioration, techniciens & ingénieurs (INRA, CIRAD, CEMAGREF ) Etat actuel Intégration de Biométrie générale, Génétique Quantitative & Génétique des Populations. Structure modulaire. Modèles originaux (Interaction Génotype x Environnement, méthodes de sélection, statistiques spatiales : Papadakis++ ) Utilisable en mode «interactif» ou pour «chaînes de traitement» complexes (scripts de pilotage) Multivariable et non-orthogonal (Analyses de Variance, Index de sélection, Analyse des Données ) Traitement d observations quantitatives et qualitatives simultanément Rééchantillonnage par Jackknife et Bootstrap très rapide et standardisé Améliorations récentes (Ph. Baradat et Th. Perrier 2003-2006) Portage sous Fortran 95 et Linux Sorties graphiques à haute définition (directement utilisables pour des publications) Paramétrage contextuel

Cahier des charges Logiciel intégré (plusieurs modules chaînés) Grand nombre de paramètres Doit traiter des expérimentations mal structurées Nécessité de rapidité optimale (rééchantillonnage) Solutions adoptées Menu déroulant Sélection des modules selon le traitement désiré Superviseur «intelligent» Création d un script de pilotage & génération automatique de paramètres Fichier de données binaire + fichier paramètre qui décrit son contenu Mise en place dans programmes & scripts de tests pour détecter des problèmes de calcul (par exemple, matrices non inversibles) messages explicites

Fichiers de données de DIOGENE (norme ANTAR étendue) Fichier binaire à accès direct: [Nomfich] + fichier paramètre [Nomfich].p ( ASCII) Le Fichier binaire comporte les données (cf. diapo 4) Le fichier paramètre donne les infos sur ces données : o Nombre d indicatifs o Nombre d individus/enregistement o Nombre d observations/individu o Libellés des indicatifs o Libellés des observations o Min-max des indicatifs o Libellés des modalités de facteurs (facultatif) L utilisateur et les programmes accèdent aux données par le fichier paramètre Avantages : Souplesse dans l accès aux données (si rééchantillonnage notamment) Très grande rapidité de traitement (important pour le rééchantillonnage) Importation/exportation des données : Utilitaires de transcodage inclus dans DIOGENE

Système de fichiers de données du logiciel original adapté au rééchantillonnage. Il est binaire et chaque donnée (indicatif ou observation) est représentée en simple précision sur 4 octets. Un fichier paramètre, suffixé par.p lui est associé. Il comporte toutes les informations utiles au traitement biométrique. Vecteur X Indicatif 1 Indic. k x(1,1).x (1,q) x(p,1) x(p,q) x(z,q) Vecteur Y Indicatif 1 Indic. k y(1,1) y(1,q ) y(p,1).y(p,q ) y(z,q ) Enregistrement (vecteur X), stocké en mémoire au moment de son traitement, est défini par trois paramètres : nombre d indicatifs (k), nombre maximum d individus (z) et nombre de variables observées par individu (q). Observations (x) repérées par leur position intra-individu. L analyseur syntaxique génère un enregistrement virtuel de même structure (vecteur Y) où les q observations sont remplacées par q fonctions d un nombre quelconque de variables x et/ou de y déjà définies (récursivité). Les y sont définis sous la forme : y(j)= F[x(1), x(2)...y(i), ctes]. Ainsi, le log de l accroissement en volume d un cône : r 2 2 = 2 h1 r1 h log( V ) log 2 π 3 s écrira, si r, 1 h 1 (rayon et hauteur initiaux) et r 2, h 2 (rayon et hauteur finaux) sont, dans l ordre, les quatre premiers variables : log((x3**2*x4-x1**2*x2)*pi/3). Données manquantes codées par -9 ou -5 selon que l individu est mort ou simplement non observable. Tout individu dont l une des variables x définissant au moins un y prend une de ces valeurs est exclu du traitement. Enfin, n étant le nombre d individus de l enregistrement, si n < z, un signal de fin logique est codé par 9999. Structure des enregistrements du fichier de données.

Tétrade 1 Tétrade 2 opérat. adresse stock. résultat opérande 1 opérande 2 ou «0» opérat. ou code fin pile adresse stock. résultat opérande 1 opérande 2 ou «0» numéro de colonne adressée = valeur de y caractère étudié 1 2 3 4 5 6 7 Numéro de ligne y1 1 0 1 0 0 1 0 adressée = y2 0 0 1 1 0 0 1 numéro d ordre y3 1 0 0 0 0 0 0 du caractère y4 0 0 0 1 1 0 0 étudié y5 1 1 1 0 0 0 0 y6 0 0 0 0 0 1 1 Pile FIFO : séquence ordonnée d opérations ; les premiers éléments seront les premiers exécutés. Opérations élémentaires codées par quadruplet d entiers. Ordre des opérations donné par analyse des formules algébriques, au moment du lancement du script (parenthèses, priorités des opérateurs). Le code d opérateur renvoie directement à un sous-programme selon qu il y a un opérande (opérateurs de transformation) ou deux opérandes (opérateur de combinaison) puis à une adresse intra-sous-programme. Résultat stocké à l adresse indiquée par le deuxième élément. Le troisième élément donne la valeur (constante) ou l adresse (variable x ou y ) de l opérande 1). Cet opérande est le seul pour un opérateur de transformation. Pour un opérateur de combinaison, le quatrième élément de la tétrade définit le deuxième opérande. Un code de fin de pile (position 1) termine la séquence d opérations. On passe ensuite à la définition 2, etc. Ceci permet un traitement très rapide : les tétrades réalisent un adressage direct et l analyse syntaxique n est pas refaite au moment de la lecture des données. L analyseur syntaxique fonctionne comme un compilateur. Les variables binaires (présence-absence) sont générées en sélectionnant la valeur d une cellule d une matrice d incidence constituée de 0 et de 1. Le numéro de ligne est donné par le numéro d ordre de définition de la variable y. Le numéro de colonne est la valeur de cette variable. Le système permet de coder la présence ou l absence de plusieurs valeurs d un caractère discret. La génération de la matrice se fait par le langage de définition des variables y. Principe de l analyseur syntaxique & génération de binaires (caractères qualitatifs)

LENA1 LENA2 LENOR non non Contrôle oui parenté? 2 ancêtres? oui ORION A 1 A 2 A '1 A'2 Etat dispos. Plan dispos. Fichier dispositif D1 Σ D2 TIMBAL POLY REPLAN DEBLOC Etiquettes Plan mis à jour Plan compacté Fichier restructuré Assemblage des programmes de création/gestion de dispositifs Génération et gestion de dispositifs en blocs incomplets à composition aléatoire ou complets, tenant compte des contraintes de terrain, avec repérage des individus par coordonnées cartésiennes. Géométrie des blocs et des parcelles unitaires paramétrable. Contrôle de parenté entre individus du même bloc pour une création de vergers à graines. Dans ce cas, le programme vérifie pour tout individu (D1), après qu il a été tiré, qu aucun des individus qui sont déjà présents dans le bloc ( D2) ne présente avec lui un ou deux ancêtres en commun. Dans second cas, contrainte : ( A1 A' 1) ( A1 A' 2) ( A2 A' 1) ( A2 A' 2). L algorithme de tirage séquentiel des individus de chaque unité génétique pour constitution des blocs est tel que : Pr( Dij) = ni / N où D ij est un individu ou une parcelle unitaire de l unité génétique, D i, d effectif n i. au moment de la réalisation du tirage, si N individus ou parcelles unitaires y participent. Ceci permet de générer des dispositifs optimisés pour des unités génétiques avec des effectifs très inégaux.

. S uperviseur (OPE P ) D IS T R IB F IC H IE R données ME N U S Options (A N T A R ) A nalys. syntaxique (D E F C AR ) IN T E R G- G IN T E R G- E Edistrib. tude AN V A R M A JU S T effets fixés A F C Génétique des populations R E GM C OV A R M sur indiv. AC P sur indiv. C OR A N C om par.effets C orrél.de rang A F D IN D E X A C P sur c orrél. de rang A C P sur effets R E GM sur effets C L A S S (dendrogr.) Organigramme global des programmes de biométriegénétique Le superviseur constitue le script et appelle des sous-programmes, qui créent les fichiers de paramètres. Les différents modèles d Analyse de Variance Multivariable (ANVARM) peuvent être suivis par différents programmes qui concernent, par exemple, l Analyse des Données et les comparaisons d effets, avec une représentation en dendrogramme (classification automatique : CLASS). La filière d Analyse Factorielle des Correspondances (AFC) constitue comme les Index de sélection (INDEX) une catégorie à part. Il existe de nombreuses «passerelles» entre les groupes de programmes : par exemple, on peut générer des fichiers de coordonnées issues d Analyse en Composantes Principales (ACP), d analyse factorielle discriminante (AFD) ou d AFC et les rediriger en entrée de programmes d Analyse de Variance. Les ajustements à des effets fixés peuvent utiliser la régression multiple (REGM), sur des voisins éventuellement, l Analyse de Covariance Multiple (COVARM) et l analyse de variance (AJUST). Le module de comparaison d effets et corrélations de rangs (CORAN) génère des fichiers d effets de ce type.

Quelques caractéristiques qui font l originalité de DIOGENE Structure modulaire (modèles «à la carte») Ajustement au milieu complexe (Papadakis++) Analyses de variance étude Interaction G x E Analyses de variance + AFD correspondant au modèle Index de sélection avec choix des prédicteurs et pondération raisonnée des caractères-cibles etc Choix d un type de fichier de données permettant : Une lecture sélective de lignes sélectionnées (enregistrements) Une grande rapidité d exécution (capital pour le rééchantillonnage) = Norme «ANTAR» qui intègre : - les données sur un fichier binaire à accès direct - Les informations sur ces données (fichier-paramètre associé)

Suite Un pilotage des chaînes des traitement par «scripts» Faciles à corriger et à modifier Permettant la mise en place d un mécanisme de réitération pour des traitements complexes Un rééchantillonnage sur «chaînes entières» Jackknife Bootstrap en se fixant : Le premier et le dernier programme de la chaîne Où se fait le rééchantillonnage (paramètre «AMONT») Le niveau : individuel ou des unités génétiques (familles ) D autres types de traitements réitérés (Papadakis++ )

- La méthode du jackknife On élimine tour à tour les individusde rangs 1 à u, u+1 à 2u, (k-1)u+1 à ku. On peut éliminer un seul individu par sous-échantillon : k=n, u=1. Si u>1, les sous-échantillons doivent être représentatifs de l ensemble de la population (c est-à-dire de tous les niveaux de facteurs). Ceci peut être réalisé par permutation aléatoire de l ordre de succession initial des individus. Chaque individu est caractérisé par n variables : y 1, y 2...y n et l on calcule sur la population un paramètre quelconque, F(y 1,y 2,...y n ). Cette fonction des observations est recalculée sur chaque sous-échantillon. L autocorrélation positive entre les sous-échantillons, qui possèdent (k-2)u individus en commun, fait que la variance des valeurs du paramètre sousestimerait la variance d erreur. L estimateur non biaisé de cette variance d erreur (estimateur de Quenouille- Tukey) est donné par : où : Fi = k F ( k ) F* i k = k = i F = S 1 i i F k k i 1 1 2 ˆ 2 2 ( 1) k 1 (pseudo-valeur de Tukey) ; F * i est la valeur du paramètre calculée sur le sous-échantillon de rang i amputé des individus de rangs u(i-1)+1 à ui ; F est la valeur calculée sur l échantillon total (ku individus). Ces pseudo-valeurs sont des variables indépendantes et la statistique : Fˆ E( F) Sˆ suit la distribution du t de Student à k-1 degrés de liberté.

- La méthode du bootstrap Il s agit d un rééchantillonnage avec remise, qui génère des échantillons de taille N et inclut donc la possibilité d avoir les mêmes données dans des échantillons différents ou dans le même échantillon. Cette méthode s applique lorsque l autocorrélation entre les échantilllons aléatoires générés est réduite et donc la proportion de données communes faible. Ces échantillons peuvent être considérés comme indépendants. La variance entre estimations du paramètre est alors une estimation de sa variance d échantillonnage. Cette méthode est très utilisée en génétique des populations car celle-ci met en œuvre une structuration simple et robuste (en général, il s agit d une population unique ou de hiérarchies à un ou deux niveaux). Elle est plus délicate à utiliser dans le cas de plans expérimentaux en classification croisée ou mixte (croisée et hiérarchique) pour lesquels certaines séquences de tirages avec remise peuvent générer des niveaux de facteurs déconnectés. Mais la méthode présente un avantage important : Le nombre E d échantillons aléatoires différents possibles à partir de N individus est pratiquement infini dès que N est de quelques dizaines : E = N N. Les estimations des paramètres étant indépendantes, l étude de leur distribution sur plusieurs milliers de séquences permet de déterminer leurs intervalles de confiance sans faire l hypothèse d une distribution normale.

Organigramme simplifié schématisant l implémentation du rééchantillonnage dans le logiciel DIOGENE.

DIOGENE donne bien sûr les seuils de signification associés aux tests statistiques Carres moyens & tests F sous l'hypothese d'effets fixes Carres moyens de l'agc du genotype Genotype_parent ( 11 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 5.6699E+03 7.6234E+03 9.2083E+03 1.7853E+04 2.1153E+04 Tests F ( 11 et 2551 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 13.164 13.431 12.893 15.791 13.941 0.000% 0.000% 0.000% 0.000% 0.000% Carres moyens de l'aptitude specifique, ASC ( 51 degres de liberte) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 9.3257E+02 1.3669E+03 1.5766E+03 2.4063E+03 3.5983E+03 Tests F ( 51 et 2551 d.l.) y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 2.165 2.408 2.207 2.128 2.371 0.000% 0.000% 0.000% 0.001% 0.000%

Valeurs génétiques estimées par régression du génotype sur le phénotype [ ] [ ] G GP PP p = 1 Combinaison linéaire des estimations des valeurs génotypiques pour chaque caractère I = b ' G [ ] [ ] G : val.gén. caract. 1 G1 : caractère 1 r(g,i)>0 0 α α ' I : index G2 : caractère 2 r(g,i)<0 S(I) : différentielle de sélection sur l'index La valeur génétique du caractère 1 (gain génétique G1) est positivement corrélée à l index ; celle du caractère 2 (gain génétique G2) est corrélée négativement. Les deux gains génétiques, G1 et G2, sont déterminés par la différentielle de sélection sur l index : S(I) = iσ I où i est l intensité de sélection et par le coefficient de régression de chaque valeur génétique sur l index : b = cov(g, I) / σ 2 I. On a : b1= tg( α ) et b2= tg( α '). Réalisation de gains génétiques partiels sur deux caractères par troncature de la population pour un index corrélé à leurs valeurs génétiques

Le coefficient du volume, b1, est constant (b1=1) et le coefficient du pilodyn, b2, varie de -0.3 à + -0.3. Noter la très forte variation induite sur le gain génétique relatif pour le volume par une faible variation du coefficient du pilodyn autour de la valeur b2 = 0. Par ailleurs, la courbe des gains génétiques sur le pilodyn donne une valeur légèrement négative pour b2 = 0. Ceci traduit la légère corrélation génétique négative entre volume et pilodyn à 48 mois (-0,08). Courbes de paramétrage des coefficients des caractères cibles dans un index

G ( x j) / σ P ( x j) + 1CPG ( x i, x j) = tg ( α 1) > 0 0 + 1CPG ( x i, x j) = tg ( α 2) < 0 α 1 α 2 P ( x i ) / σ P ( x i) + 1 σ P ( x i ) Notion de coefficient de prédiction génétique Cette figure représente la réponse corrélée du caractère x j (axe des ordonnées) sélectionné par l intermédiaire du caractère x i (axe des abscisses). Si l on déplace la moyenne phénotypique de la population de +1, pour x j, en unité d écart-type phénotypique, il s ensuit une réponse (sélection indirecte) de 1 CPG(x i, x j ) pour le caractère x j. La réponse peut être positive ou négative suivant le signe du coefficient de prédiction génétique. L héritabilité d un caractère n est autre que le coefficient de prédiction génétique de ce caractère avec lui-même. Dans ce cas, la réponse est, par définition, positive ou nulle.

Analyse de l interaction GxE et GxG Ecovalence généralisée (ou interactivité relative) 1 B wi = j = 1 nijγˆ2 ij ni. w = wi i 100 A i = 1wi Régression factorielle (multivariable) γ ij = mα iβ j+ uiβ j+ v jα i+ γ ij.

Statistiques spatiales Autocorrélogrammes (Moran ) Papadakis++

Les valeurs sur diagonale ne sont autres que les héritabilités DIOGENE calcule et édite les matrices triangulaires-basses de CPG L utilisateur dispose ainsi d infos synthétiques sur l efficacité comparée de la sélection directe & indirecte. Matrices des Coefficients de prediction genetique (heritabilites sur la diagonale) Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1: ht84 0.102 y 2: pp85 0.098 0.101 y 3: ht85 0.097 0.100 0.099 y 4: pp86 0.100 0.110 0.108 0.125 y 5: ht86 0.096 0.102 0.100 0.112 0.106 Coefficients de prediction genetique au sens large y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1: ht84 0.208 y 2: pp85 0.215 0.229 y 3: ht85 0.205 0.218 0.209 y 4: pp86 0.192 0.215 0.206 0.227 y 5: ht86 0.192 0.211 0.203 0.223 0.231

DIOGENE calcule et édite également après rééchantillonnage : Les tests de signification des paramètres estimés Parametres et tests de la matrice numero 9 Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1 : ht84 0.102 E. standard : 0.021 Test t : 4.878 Signif. (%) : 0.000 y 2 : pp85 0.098 0.101 E. standard : 0.021 0.021 Test t : 4.722 4.770 Signif. (%) : 0.001 0.001 y 3 : ht85 0.097 0.100 0.099 E. standard : 0.020 0.021 0.021 Test t : 4.718 4.747 4.711 Signif. (%) : 0.001 0.001 0.001 y 4 : pp86 0.100 0.110 0.108 0.125 E. standard : 0.020 0.021 0.021 0.022 Test t : 4.945 5.230 5.113 5.615 Signif. (%) : 0.000 0.000 0.000 0.000 y 5 : ht86 0.096 0.102 0.100 0.112 0.106 E. standard : 0.019 0.020 0.020 0.021 0.021 Test t : 5.032 5.179 5.028 5.283 5.148 Signif. (%) : 0.000 0.000 0.000 0.000 0.000

et les intervalles de confiance au seuil choisi par l utilisateur Intervalles de confiance de la matrice 9 Coefficients de prediction genetique au sens strict y 1 y 2 y 3 y 4 y 5 ht84 pp85 ht85 pp86 ht86 y 1 : ht84 0.143 0.061 y 2 : pp85 0.139 0.143 0.057 0.060 y 3 : ht85 0.137 0.141 0.140 0.056 0.058 0.058 y 4 : pp86 0.140 0.151 0.149 0.169 0.060 0.069 0.066 0.082 y 5 : ht86 0.133 0.141 0.138 0.153 0.146 0.059 0.064 0.061 0.070 0.066

DIOGENE met ainsi à la disposition de l utilisateur Des méthodes puissantes de restructuration des dispositifs et d ajustement à l environnement. La possibilité d évaluer l interaction génotype x environnement pour chaque unité génétique. La prise en compte de tous les plans de croisements L aptitude à traiter des essais très «troués». Des modèles très généraux d index de sélection. Un système très flexible pour calculer les intervalles de confiance par rééchantillonnage.

Exemple de traitement modulaire (chaîne de traitement) Séquence des programmes ENVIR - DIAL Modèle mixte d analyse de variance en demi-diallèle avec effets génétiques aléatoires et dispositif en blocs incomplets (effet bloc fixé). Carré moyen et variance de l effet Deg.de lib. Espérance du carré moyen : E(CM) Test F bloc, CM b B-1 B σ [ ( ) ] β 2 CM 2 b /CM e non biaisé e + 1/ B 1... k k 1 n k = aptitude générale, AGC CM a, σ a 2 P-1 σ 2 σ 2 σ 2 e + k1 a + k2 s CMa/CM s biaisé aptitude spécifique, ASC CM s, σ 2 s C-P σ 2 σ 2 e + k3 s CM s /CM r biaisé intra-famille CM e, e 2 σ N-D-B+1 σ 2 e B : nombre de blocs, P : nombre de parents, C : nombre de croisements, réciproques confondus, N : nombre total de plants. Les tests F de non nullité de la variance d AGC est réalisé par rapport au carré moyen d'asc. Il est biaisé si le demi-diallèle est non-orthogonal et déséquilibré. Celui de non nullité de la variance d'asc est fait par rapport au CM intra-famille. Il est non biaisé dans tous les cas. Pour estimer les composantes de la variance, le système à résoudre est : 1 σˆ e 2 = σˆ CM e et a 2 k1 k2 CM = a CM e σˆ 2 s k3 0 CM s CM e Pour les composantes de la covariance, il suffit de remplacer les carrés moyens par les coproduits moyens pour tout couple de caractères.

CONCLUSION DIOGENE = plate-forme de développement Architecture unifiée Outils génériques Modules inter-compatibles Structure de fichiers normalisée Nécessité d une cellule de développement Maintien d une compétence informatique permanente Collège d utilisateurs (de préférence international) Partage des tâches de conception/développement Mise à jour régulière des notices