Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes



Documents pareils
DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Introduction à l approche bootstrap

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Item 169 : Évaluation thérapeutique et niveau de preuve

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

3 Approximation de solutions d équations

INF6304 Interfaces Intelligentes

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Simulation centrée individus

Résolution de systèmes linéaires par des méthodes directes

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 2 Le problème de l unicité des solutions

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Principe de symétrisation pour la construction d un test adaptatif

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Les équations différentielles

Expérience 3 Formats de signalisation binaire

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Théorème du point fixe - Théorème de l inversion locale

NON-LINEARITE ET RESEAUX NEURONAUX

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Manuel de System Monitor

Chapitre 2 : Abstraction et Virtualisation

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Arbres binaires de décision

Simulation du transport de matière par diffusion surfacique à l aide d une approche Level-Set

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Prototype de canal caché dans le DNS

Licence Sciences et Technologies Examen janvier 2010

Introduction au Data-Mining

1 Complément sur la projection du nuage des individus

La classification automatique de données quantitatives

ISO/CEI Technologies de l information Gestion des actifs logiciels. Partie 1: Procédés et évaluation progressive de la conformité

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Mesure agnostique de la qualité des images.

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Limitations of the Playstation 3 for High Performance Cluster Computing


Régression linéaire. Nicolas Turenne INRA

Validation probabiliste d un Système de Prévision d Ensemble

Forthcoming Database

Génération de code binaire pour application multimedia : une approche au vol

Modèles et simulations informatiques des problèmes de coopération entre agents

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Projet audio. Analyse des Signaux ELE2700

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Debian en milieu professionnel. This document is under the GNU Free Documentation License.

L exploitation des rapports de vérifications réglementaires : quels enjeux, quelle solution?

AGROBASE : un système de gestion de données expérimentales

Optimisez les coûts de possession de votre information et redonnez de la capacité d investissement au DSI

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Table des matières. I Mise à niveau 11. Préface

23. Interprétation clinique des mesures de l effet traitement

Agrégation de liens xdsl sur un réseau radio

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction aux Statistiques et à l utilisation du logiciel R

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Modèles pour données répétées

Collaborations avec la Thaïlande Enseignement, Recherche

2. MAQUETTAGE DES SOLUTIONS CONSTRUCTIVES. 2.2 Architecture fonctionnelle d un système communicant.

Architecture des Ordinateurs. Partie II:

4. Résultats et discussion

Exemple PLS avec SAS

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

1 Définition de la non stationnarité

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Introduction à la statistique non paramétrique

SysFera. Benjamin Depardon

Évaluation et implémentation des langages

Equations cartésiennes d une droite

Laboratoire 4 Développement d un système intelligent

Gènes Diffusion - EPIC 2010

Analyses. qlikview.com. facile à utiliser. Les utilisateurs aiment QlikView pour : la recherche associative ;

Fiche d utilisation du logiciel. 1 - Installation. J. Thioulouse & D. Chessel

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Calcul élémentaire des probabilités

Christophe SANNIER

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Big Data et Graphes : Quelques pistes de recherche

FORMULAIRE DE STATISTIQUES

STATISTIQUES. UE Modélisation pour la biologie

Le risque Idiosyncrasique

Coefficients binomiaux

Transcription:

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes Baradat P. INRA-Département EFPA UMR AMAP 34398 Montpellier Cedex 5 FRANCE baradat@ensam.inra.fr Labbé T. INRA-Département EFPA Service Forêt-Bois, Unité EPHYSE 3361 Cestas Cedex FRANCE labbe@pierroton.inra.fr RÉSUMÉ. DIOGENE, un logiciel d Amélioration des Plantes conçu et développé au sein du Département EFPA de l INRA, fonctionne sous Solaris et Linux. C est un logiciel libre (licence GPL), en évolution constante, qui traite de modèles de Biométrie générale, de Génétique Quantitative et de Génétique des Populations. Il fait largement appel aux techniques de rééchantillonnage (jackknife et bootstrap) pour tester des hypothèses nulles et déterminer les intervalles de confiance de paramètres estimés (héritabilités, coefficients de corrélation génétique, gains génétiques prédits ). Pour des raisons de simplicité d utilisation et de rapidité d exécution, l architecture du logiciel (incluant le fichier de données) et les algorithmes de rééchantillonnage ont été optimisés. Cet article décrit brièvement les points originaux. ABSTRACT. DIOGENE, a Plant Breeding software conceived and developed in the EFPA Department of INRA, runs under Solaris and Linux OS. It is a free software (GPL licence) which deals with models of General Biometry as well as Quantitative and Population Genetics. It intensively makes use of resampling techniques (jackknife and bootstrap) to test null hypotheses and to compute confidence intervals of estimated parameters (heritabilities, genetic correlations, predicted genetic gains ). For sake of simplicity of use and of processing speed, software architecture (including data file) and resampling algorithms were optimized. Our paper shortly describes the involved original features. MOTS-CLÉS : rééchantillonnage, jackknife, bootstrap, accès direct, fichier binaire, fichier paramètre. KEYWORDS: resampling, jackknife, bootstrap, direct access, binary file, parameter file. CARI 006 - COTONOU

1. Introduction Depuis leurs premières applications, au début des années 80, à l étude des marges de tolérance dans des processus industriels [8], les techniques de rééchantillonnage se sont rapidement imposées dans le domaine des sciences biologiques pour réaliser des tests d hypothèses et calculer des intervalles de confiance de paramètres estimés : Les essais en conditions contrôlées de terrain et de laboratoire [1], l Ecologie Quantitative [10], la Génétique Quantitative [1], [] dont la réponse à la sélection [4], les statistiques spatiales [5] et la Génétique des Populations [6], [7], [13]. Cette méthodologie, étudiée en détail dans [8] et [11], offre en effet le grand intérêt de proposer des algorithmes généraux et robustes pour le calcul des variances d échantillonnage, indépendantes des formules d estimation des paramètres. Revers de la médaille, la nécessité de réitérer les estimations conduit souvent à des temps de traitement importants se chiffrant en heures voire en jours, même avec des serveurs ou micro-ordinateurs puissants. C est pourquoi, destinant en particulier le logiciel d Amélioration des Plantes DIOGENE à des pays du Sud, nous avons cherché à rendre cette technique accessible à partir de micro-ordinateurs bas de gamme. A cet effet, nous avons réduit autant que possible la génération et la lecture de fichiers pour faire appel essentiellement au calcul en mémoire vive à partir d un fichier de données unique. Une ancienne version du logiciel est décrite dans [3]. Une notice complète concernant la version actuelle qui suit la norme GLM (ce qui permet de traiter simultanément des variables quantitatives et qualitatives) sera disponible fin 006.. Rééchantillonnage : le jackknife et le bootstrap Nous ne donnons pas une justification détaillée des deux méthodes qui sont maintenant classiques et que l on trouvera dans [11]. Nous indiquons simplement les principes utiles pour la compréhension des aspects informatiques développés plus loin. - La méthode du jackknife Cette méthode procède par sous-échantillonnage exhaustif. Sur une expérimentation concernant N individus, on définit k sous-groupes de taille (k- 1)u, où u=int(n/k) : ce sont des échantillons tronqués de la kième partie de l échantillon total d effectif ku (c est-à-dire de u individus). Ce sous- échantillonnage est réalisé en éliminant tour à tour les individus

de rangs 1 à u, u+1 à u, (k-1)u+1 à ku. On peut éliminer un seul individu par sous-échantillon : k=n, u=1. Si u>1, les sous-échantillons doivent être représentatifs de l ensemble de la population (c est-à-dire de tous les niveaux de facteurs). Ceci peut être réalisé par permutation aléatoire de l ordre de succession initial des individus. Chaque individu est caractérisé par n variables : y 1, y...y n et l on calcule sur la population un paramètre quelconque, F(y 1,y,...y n ). Cette fonction des observations est recalculée sur chaque sous-échantillon. L autocorrélation positive entre les sous-échantillons, qui possèdent (k-)u individus en commun, fait que la variance des valeurs du paramètre sousestimerait la variance d erreur. L estimateur non biaisé de cette variance d erreur (estimateur de Quenouille-Tukey) est donné par : k = k i F = S 1 i ˆ i = F k k i 1 1 ( 1) k où : Fi = k F ( k 1 ) F* i (pseudo-valeur de Tukey) ; F * i est la valeur du paramètre calculée sur le sous-échantillon de rang i amputé des individus de rangs u(i-1)+1 à ui ; F est la valeur calculée sur l échantillon total (ku individus). Ces pseudovaleurs sont des variables indépendantes et la statistique : suit la Fˆ E( F) Sˆ distribution du t de Student à k-1 degrés de liberté. - La méthode du bootstrap Il s agit d un rééchantillonnage avec remise, qui génére des échantillons de taille N et inclut donc la possibilité d avoir les mêmes données dans des échantillons différents ou dans le même échantillon. Cette méthode s applique lorsque l autocorrélation entre les échantilllons aléatoires générés est réduite et donc la proportion de données communes faible. Ces échantillons peuvent être considérés comme indépendants. La variance entre estimations du paramètre est alors une estimation de sa variance d échantillonnage. Cette méthode est très utilisée en 3

génétique des populations car celle-ci met en œuvre une structuration simple et robuste (en général, il s agit d une population unique ou de hiérarchies à un ou deux niveaux). Elle est plus délicate à utiliser dans le cas de plans expérimentaux en classification croisée ou mixte (croisée et hiérarchique) pour lesquels certaines séquences de tirages avec remise peuvent générer des niveaux de facteurs déconnectés. Mais la méthode présente un avantage important : Le nombre E d échantillons aléatoires différents possibles à partir de N individus est N pratiquement infini dès que N est de quelques dizaines : E = N. Les estimations des paramètres étant indépendantes, l étude de leur distribution sur plusieurs milliers de séquences permet de déterminer leurs intervalles de confiance sans faire l hypothèse d une distribution normale. Variantes des deux méthodes appliquées à la génétique. Nous avons exposé le principe des deux méthodes utilisées au niveau individuel. Cette modalité suppose que l échantillon expérimental soit représentatif de la population étudiée (ou, ce qui revient au même, que les valeurs des paramètres ne concernent que cet échantillon). Or, surtout en Génétique des Populations, il se peut que l échantillon ne puisse être considéré comme représentatif. Le rééchantillonnage se fait alors au niveau des unités génétiques (UG) : clones, familles, populations. Voir [13] pour une discussion.tous les individus de la même UG sont éliminés à chaque réitération. Les aspects algorithmiques sont exposés ci-dessous. 4

3. Le fichier de données, génération de variables dérivées Le système de fichiers de données du logiciel est original et c est lui qui autorise le mécanisme du rééchantillonnage mis en œuvre. Il est binaire et chaque donnée (indicatif ou observation) est représentée en simple précision sur 4 octets. Un fichier paramètre, suffixé par.p lui est associé. Il comporte toutes les informations utiles au traitement biométrique. La figure 1 explicite la structure de l enregistrement et la génération de nouvelles variables. Vecteur X Indicatif 1...Indic. k x(1,1)...x (1,q) x(p,1)...x(p,q)..x(z,q) Vecteur Y Indicatif 1...Indic. k y(1,1)...y(1,q ) y(p,1)...y(p,q )..y(z,q ) Chaque enregistrement (vecteur X), stocké en mémoire au moment de son traitement, est défini par trois paramètres : nombre d indicatifs (k), nombre maximum d individus (z) et nombre de variables observées par individu (q). Les observations (x) sont repérées par leur position intra-individu. L analyseur syntaxique génère un enregistrement virtuel de même structure (vecteur Y) où les q observations sont remplacées par q fonctions y d un nombre quelconque de variables x et/ou de valeurs de y déjà définies (récursivité). Les y sont définis sous la forme : y(j)= F[x(1), x()...y(i), ctes]. Ainsi, le log de l accroissement en volume d un cône : r = h1 r1 h log( V ) log π 3 s écrira, si r, 1 h 1 (rayon et hauteur initiaux) et r, h (rayon et hauteur finaux) sont, dans l ordre, les quatre premiers variables : log((x3***x4-x1***x)*pi/3). Les données manquantes sont codées par -9 ou -5 selon que l individu est mort ou simplement non observable. Tout individu dont l une des variables x définissant au moins un y prend une de ces valeurs est exclu du traitement. Enfin, n étant le nombre d individus de l enregistrement, si n < z, un signal de fin logique est codé par 9999. Figure 1. Structure des enregistrements du fichier de données. 5

Figure. Organigramme simplifié schématisant l implémentation du rééchantillonnage dans le logiciel DIOGENE. 6

4. Aspects algorithmiques Le système de fichier de données à accès direct permet d éviter toute création de fichiers intermédiaires (sous-fichiers tronqués dans le cas du jackknife, fichiers d individus tirés au sort avec remise dans le cas du bootstrap). La figure donne la partie de l organigramme correspondant au rééchantillonnage (lecture et traitement des données). En cas de rééchantillonnage, le fichier de données est compressé avant traitement, pour que toutes les variables utiles soient présentes dans chaque enregistrement : tout enregistrement incomplet est éliminé. Dans le cas du jackknife au niveau individuel, un cache logique masque les enregistrements retirés de l échantillon total pour constituer chaque souséchantillon tronqué. Pour le traitement de l échantillon total, ce cache est rétracté et ne filtre aucun enregistrement. Sa position est actualisée à chaque réitération. Si sa valeur est supérieure à 1, un fichier permuté est substitué au fichier d origine. Dans le cas du bootstrap, le tirage au sort des individus adresse directement les enregistrements correspondants. Le rééchantillonnage au niveau des unités génétiques (UG) peut être réalisé dans le cadre du bootstrap comme dans celui du jackknife. Deux utilitaires créent alors un fichier à effectif/ug constant classé par code d UG croissant. Le nombre d individus/ug, n, permet de calculer le rang du premier individu de la série d enregistrements correspondant à une UG. Tout tirage pointe sur cet individu. Les enregistrements des n-1 individus suivants sont lus en séquence. La fin du traitement dépend du type de structure considéré (matrices triangulairesbasses ou vecteurs). 5. Conclusion L implémentation du rééchantillonnage qui vient d être esquissée conduit à une accélération spectaculaire de la vitesse de traitement par rapport aux méthodes traditionnelles qui font appel à une génération de fichiers. Un PC de bureau HP pavilion w5157.fr avec processeur Intel Dual Core à,8 GHZ peut réaliser 79 réitérations en 1 30 sur une analyse diallèle multivariable non orthogonale avec 1 parents et 6 variables (jackknife au niveau individuel avec cache de 1). Le même traitement utilisant une génération de fichiers dure plusieurs heures avec le même matériel. 7

Références 1] Agwanda C. O., Baradat P., Eskes A. B., Cilas C. and Charrier A.. Selection for bean and liquor qualities within related hybrids of Arabica coffee in multilocal field trials, Euphytica, 131: 1-14, 003. [] Baradat P. et Desprez-Loustau M. L.. Analyse diallèle et intégration dans le programme d amélioration du pin maritime de la sensibilité à la rouille courbeuse, Ann Forest Sci, 54: 83-106., 1997. [3] Baradat P. et Labbé T., OPEP. Un logiciel intégré pour l amélioration des plantes. Traitement statistique des essais de sélection : 303-330, CIRAD Ed., Montpellier, 1995. [4] Baradat P., Labbé T. et Bouvet J. M., Conception d index pour la sélection réciproque récurrente. Aspects génétiques, statistiques et informatiques. Traitement statistique des essais de sélection.: 101-150, CIRAD Ed., Montpellier, 1995. [5] Baradat P., Perrier T. et Raffin A., Papadakis++. Un ajustement multi-dimensionnel du Phénotype à l Environnement. Document UMR AMAP, Montpellier, 004. [6] Besnard G., Baradat P. and Bervillé A.. Genetic relationships in the olive (Oleuropaea L.) reflect multilocal selection of cultivars, Theor Appl Genet, 51: 58. 83-106, 001. [7] Besnard G., Baradat P., Breton C., Khadari B., Bervillé A., Olive domestication from structure of oleasters and cultivars using nuclear RAPDs and mitochondrial RFLPs, Genet. Select. Evol., 33 : 51-68, 001. [8] Efron B., The Jackknife, the bootstrap and other resampling plans. Society for industrial and applied. mathematics, Philadelphie, 198. [9] Efron B., and Gong G.. A leisurely look at the bootstrap, the jackknife and crossvalidation, Amer. Stat., 37: 36-48, 1983. [10] Legendre P. and Legendre L.., Numerical Ecology, rd Edition, Elsevier, Amsterdam, 1998. [11] Shao J. and Tu D., The Jackknife and Bootstrap, Springer, 1995. [1] Sokal R. R. and Rohlf F. J., Biometry, 3 rd Edition, Freeman, New York, 1995. [13] Weir B. S., Genetic Data Analysis, Sinauer, Sunderland, 1990. 8