Comment saisir une phylogénie au format Newick?



Documents pareils
Vecteur Trop Vecteur Trop Vecteur Trop

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Activité 4. Tour de cartes Détection et correction des erreurs. Résumé. Liens pédagogiques. Compétences. Âge. Matériels

Le cas «BOURSE» annexe

Le cas «BOURSE» annexe

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Les structures de données. Rajae El Ouazzani

Ladibug TM 2.0 Logiciel de présentation visuel d'image Manuel de l utilisateur - Français

Gestion de références bibliographiques

BIRT (Business Intelligence and Reporting Tools)

Table des matières 1. Installation de BOB BOB ou un programme annexe ne démarre pas ou ne fonctionne pas correctement...10

Travaux pratiques avec RapidMiner

Les Différents types de Requêtes dans Access

Consigne : je remplis le tableau en tenant compte des informations de la ligne supérieure et de la colonne de gauche (droite pour les gauchers)

Druais Cédric École Polytechnique de Montréal. Résumé

Initiation à l algorithmique

ZEROSHELL NET BALANCING. Julien Dabin Page 1

L INVESTIGATION ENTOMOLOGIQUE

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Ordonnance sur les formulaires et registres à employer en matière de poursuite pour dettes et de faillite et sur la comptabilité

Initiation à l analyse en composantes principales

Pour les futurs développeurs Sommaire

CS 01 D/B2I/ CONSULTATION ET TRANSMISSION DE L INFORMA-

Utilisation du logiciel Epson Easy Interactive Tools

STAGE IREM 0- Premiers pas en Python

Cahier n o 6. Mon ordinateur. Fichiers et dossiers Sauvegarde et classement

VAMT 2.0. Activation de Windows 7 en collège

Etendue de l assujettissement aux droits. de lois ou par des ordonnances du Conseil fédéral édictées en vertu de la présente loi.

Réf. : Normes : ST.10/C page : NORME ST.10/C PRÉSENTATION DES ÉLÉMENTS DE DONNÉES BIBLIOGRAPHIQUES. Note du Bureau international

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

La Clé informatique. Formation Excel XP Aide-mémoire

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?

Comment suivre l évolution d une transformation chimique? + S 2 O 8 = I SO 4

Emporter Windows XP sur une clé USB

R01 Import de données

Les arbres binaires de recherche

PRESENTATION DU LOGICIEL

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

La Gestion de fichiers Supports réalisés avec OpenOffice.org 2.3 Writer. La Gestion de fichiers. Niveau : Débutant Auteur : Antonio da Silva

GUIDE D UTILISATION CRÉER SON SITE WEB - PROJET RESCOL

I DIFACT. COGESTIB SA I DIFACT (Facturation Diverse) Page 1 / 22

1 Modélisation d être mauvais payeur

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Gestion des fichiers sur micro-ordinateur

Formats d images. 1 Introduction

SOMMAIRE. Comment se connecter?

DU BINAIRE AU MICROPROCESSEUR - D ANGELIS CIRCUITS CONFIGURABLES NOTION DE PROGRAMMATION

Prise en main d une Cyberclasse

PRISE MAIN DE GOOGLE MAP ET GOOGLE EARTH DANS LE CADRE DE LA PREPARATION ET L EXPLOITATION D UNE JOURNEE DE TERRAIN

Comment faire avancer un engin roulant le plus loin possible sans le toucher?

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

MANUEL D UTILISATION TERMINAL PHL 2700

MANUEL TBI - INTERWRITE

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Les devoirs en Première STMG

RACCOURCIS CLAVIERS. DEFINITION : Une «combinaison de touches» est un appui simultané sur plusieurs touches.

Module 5 : Lier des classeurs

Guide de correction et d optimisation des images en vue de leur publication sous Marcomedia Contribute. Logiciel utilisé : Adobe PhotoShop 7

Le langage C. Séance n 4

Ce document décrit la démarche à suivre pour installer les outils de développement et compiler le projet TANAGRA.

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

EXERCICES DE REVISIONS MATHEMATIQUES CM2

Aide - mémoire gnuplot 4.0

LiveUSB clefisn. Meilland jean claude et Kbida Abdellatif. 16 septembre 2012

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Sauvegarde des données du scribe sur disque USB

Indications pour une progression au CM1 et au CM2

Mon aide mémoire traitement de texte (Microsoft Word)

Module 4 Tablettes et lieux de culture, musées, bibliothèques, universités

Développement mobile MIDP 2.0 Mobile 3D Graphics API (M3G) JSR 184. Frédéric BERTIN

Arbres binaires de recherche

Traitement de texte : Quelques rappels de quelques notions de base

Introduction à l informatique en BCPST

Première étape : créer le fichier de données - extraire les données de PMB et les transférer dans Excel

Licence Sciences et Technologies Examen janvier 2010

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Janvier Entretien de l ordinateur

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Chap III : Les tableaux

ECE/TRANS/WP.15/AC.1/2015/21. Conseil économique et social. Nations Unies. Commission économique pour l Europe Comité des transports intérieurs

DEMOGENVISU VERSION MODE D EMPLOI

Le Dessin Technique.

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

ENCASTREZ UN EVIER ET POSEZ UN MITIGEUR A DOUCHETTE

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

1 Installer des packages

La gestion des dossiers sous Windows Vista, W7, W8.

Module d introduction Comment réaliser vos propres cartes avec ArcGIS Online

Déclarer un serveur MySQL dans l annuaire LDAP. Associer un utilisateur DiaClientSQL à son compte Windows (SSO)

S organiser autrement

Importer une bibliographie au format «texte» dans Zotero

Introduction à Eclipse

Mémo d utilisation de ADE-4

GUIDE D UTILISATION DU TABLEAU NUMERIQUE INTERACTIF

Sauvegarde d'une base de données SQL Server Express 2005

Ordonnance sur la formation menant au bachelor et au master de l Ecole polytechnique fédérale de Lausanne

Transcription:

Consultation statistique avec le logiciel Comment saisir une phylogénie au format Newick? D. Chessel 11 juillet 2006 Les phylogénies, compromis de connaissances sur les relations de parentés entre espèces d un groupe donné, font maintenant partie des corpus de données écologiques. On fournit ici quelques indications pour saisir ce type d information. Table des matières 1 Introduction 2 2 Etablir un code espèce 3 3 Préciser l arbre à enregistrer 3 4 Utiliser un éditeur de phylogénies 4 5 Ecriture du format Newick 6 6 Longueurs de branches 8 Références 11 1

1 Introduction La fiche a été écrite à l intention des membres d un groupe de travail animé par Jorge Rabinovitch (Centro de Estudios Parasitológicos y de Vectores, Universidad Nacional de La Plata, Argentina). Elle peut servir à d autres. Parmi les données analysées en écologie, on trouve maintenant des phylogénies, modèles plus ou moins précis des relations de parenté dans l arbre de l évolution. On se propose ici de montrer comment on saisit une phylogénie au format Newick. C est un travail assez long et, comme il faut souvent s y remettre plusieurs fois, il est utile d en indiquer la méthode. Supposons que la phylogénie à implanter soit disponible dans un article comme celui de V. Hypsa et al. (2002) [2, p. 453]. On part donc de la figure 1. Fig. 1 Source bibliographique initiale de la phylogénie à implanter. Logiciel Version 2.3.0 (2006-04-24) qri Page 2/11 Compilé le 2006-07-11

2 Etablir un code espèce Avant tout autre opération, il convient d établir un code simple pour l ensemble des espèces dont on voudra parler. Il vaut mieux ne pas négliger ce point de départ tant la manipulation des noms d espèce est source de fautes de frappe et de difficultés de toutes sortes. Il vaut mieux faire ces codes dans. Supposons par exemple que le travail en cours utilise la liste des espèces suivante : binoms <- scan("http://pbil.univ-lyon1.fr/r/donnees/qri.txt", character(), sep = "\n") length(binoms) [1] 123 head(binoms) [1] "Alberprosenia goyovargasi" "Alberprosenia malheiroi" [3] "Belminus costaricensis" "Belminus herreri" [5] "Belminus laportei" "Belminus peruvianus" Pour coder cette liste, dans le but de saisir la phylogénie, on peut faire simplement un code à 4 caractères : cod4 <- paste("e", gsub(" ", "0", formatc(1:123, wi = 3)), sep = "") head(cod4) [1] "e001" "e002" "e003" "e004" "e005" "e006" Pour faire un code plus habituel en écologie, dans le but d illustrer une carte factorielle, on utilisera une abréviation du nom de genre avec une abréviation du noms d espèce : genre <- unlist(lapply(binoms, function(x) strsplit(x, " ")[[1]][1])) espece <- unlist(lapply(binoms, function(x) strsplit(x, " ")[[1]][2])) codlit <- paste(abbreviate(genre, 3), abbreviate(espece, 3), sep = "") cbind.data.frame(binoms, cod4, codlit)[c(1:4, 120:123), ] binoms cod4 codlit 1 Alberprosenia goyovargasi e001 Albgyv 2 Alberprosenia malheiroi e002 Albmlh 3 Belminus costaricensis e003 Blmcstr 4 Belminus herreri e004 Blmhrr 120 Triatoma venosa e120 Trtvns 121 Triatoma vitticeps e121 Trtvtt 122 Triatoma williami e122 Trtwll 123 Triatoma wygodzinskyi e123 Trtwyg On pourra toujours faire des échanges de codes à la demande. 3 Préciser l arbre à enregistrer Reporter ensuite sur la figure de départ les numéros des espèces retenues. On notera sur la figure 2 quelques-uns des problèmes rencontrés. 1. Les cinq espèces du haut ne figurent pas dans la liste de référence : la racine est déplacée. 2. Il y a des espèces qui sont dans la zone de saisie mais qui ne figurent pas dans le code ; elles sont éliminées. Logiciel Version 2.3.0 (2006-04-24) qri Page 3/11 Compilé le 2006-07-11

3. Un doute pour Rhodnius tertius. Dans le code, il y a Psammolestes tertius. Problème de synonymes ou rien à voir? Elle est éliminée. 4. Un doute pour Triatoma circummaculata sur la figure. On a Triatoma circunmaculata dans le code de référence. On penche pour la faute de frappe et on remplace. 5. Un doute pour Linshcosteus sp.. On a 4 espèces dans la liste. On mettra un râteau avec les 4 espèces Linshcosteus carnifex, Linshcosteus chota, Linshcosteus confumus et Linshcosteus costalis. Fig. 2 Phylogénie à saisir. On doit donc enregistrer une phylogénie à 47 espèces. 4 Utiliser un éditeur de phylogénies Télécharger ensuite un programme qui trace des phylogénies comme Tree- View [3]. Toute information à : Logiciel Version 2.3.0 (2006-04-24) qri Page 4/11 Compilé le 2006-07-11

http: //taxonomy.zoology.gla.ac.uk/rod/treeview/treeview_manual.html Dézipper treev32.zip et exécuter le setup. Pour les débutants, faire ce petit exercice. Copier le texte ci-dessous entre la première parenthèse et le point-virgule de la fin, le mettre dans un fichier texte et sauvegarder en example.tre. Ouvrir ce fichier avec Treeview.exe. (((((((Prorocentrum:0.0536, Tetrahymena:0.0721)45:0.0038,((Oryza:0.0135, (Lycopersicon:0.0046,Citrus:0.0060)84:0.0025)100:0.0414,Saccharomyces: 0.0494)55:0.0051)87:0.0102,(((Homo:0.0009,Mus:0.0019)100:0.0065, Xenopus:0.0093)100:0.0448, (Drosophila:0.0863,Caenorhabditis:0.0843) 51:0.0029)66:0.0070)73:0.0062,Dictyostelium:0.1226)92:0.0132, Crithidia:0.1403)65:0.0095,Physarum:0.1347):0.1191, ((((Rhodobacter:0.1032, (Pseudomonas:0.0468, (Escherichia:0.0399,Ruminobacter:0.0553)81:0.0103)100:0.0325) 100:0.0301,(Leptospira:0.0932, (((Micrococcus:0.0380,Streptomyces:0.0478) 100:0.0654,Pirellula:0.1269)27:0.0014, ((Anacystis:0.0490,EuglenaCP:0.1184) 100:0.0341,(BacillusSubt:0.0262, BacillusStea:0.0184)100:0.0504)86:0.0148) 33:0.0013)70:0.0073)93:0.0161,Thermus:0.1043)100:0.1052, (((Desulfurococcus :0.0412,Sulfolobus:0.0710)97:0.0145,Thermoproteus:0.0880)100:0.0521, ((Methanococcus:0.0927,Methanobacterium:0.1006)99:0.0282,(Thermoplasma:0.1526, (HalobacteriumH:0.0515,(Halococcus:0.0543,HalobacteriumM:0.0532)50:0.0030) 100:0.1324)39:0.0027)72:0.0118)96:0.0130)100:0.0634); Fig. 3 Treeview.exe dessine des phylogénies au format Newick. Logiciel Version 2.3.0 (2006-04-24) qri Page 5/11 Compilé le 2006-07-11

5 Ecriture du format Newick Ce format est une convention d écriture des arbres avec des virgules et des parenthèses. Toute information à : http://evolution.genetics.washington.edu/phylip/newicktree.html Ouvrir simultanément le programme graphique et un éditeur de texte (fichier a.tre) pour tracer l arbre au fur et à mesure de sa construction : Introduire des lettres pour désigner provisoirement des branches qui seront remplacées par des sous-arbres :... On peut introduire des retours à la ligne comme on veut. Compléter le code. Logiciel Version 2.3.0 (2006-04-24) qri Page 6/11 Compilé le 2006-07-11

e046 e050 e043 e055 e052 e049 e045 e041 e047 e048 e054 e053 e016 e017 e018 e019 e112 e115 e014 e083 e012 e107 e097 e111 e119 e028 e034 e026 e033 e021 e121 e062 e088 e106 e070 e092 e082 e101 e067 e113 e068 e078 e122 e057 e108 e089 e118 Fig. 4 Représentation graphique de la phylogénie. A droite dans treeview.exe, à gauche dans ade4. Noter la différence d interprétation en cas d absence de longueurs de branches. On arrive à la figure 4 à gauche. Le fichier texte contient : (((e046,e050),((e043,(e055,e052)),(e049,(e045,e041,(e047,(e048,e054,e053)))))), (((e016,e017,e018,e019),e112),((e115,e014,(e083,e012),(e107,(e097,e111))), ((e119,(e028,e034,(e026,e033))),(e021,(e121,(e062,e088,(e106,e070,e092,e082), ((e101,(e067,e113)),(e068,((e078,e122),(e057,e108),(e089,e118))))))))))); Lire alors ce fichier texte dans. a.tre <- readlines("a.tre") Vérifier et éditer (figure 5 à droite) : a.tre [1] "(((e046,e050),((e043,(e055,e052)),(e049,(e045,e041,(e047,(e048,e054,e053))))))," [2] "(((e016,e017,e018,e019),e112),((e115,e014,(e083,e012),(e107,(e097,e111)))," [3] "((e119,(e028,e034,(e026,e033))),(e021,(e121,(e062,e088,(e106,e070,e092,e082)," [4] "((e101,(e067,e113)),(e068,((e078,e122),(e057,e108),(e089,e118)))))))))));" library(ade4) phy1 <- newick2phylog(a.tre, add = F) plot(phy1, f = 0.75) Changer les étiquettes des feuilles : Logiciel Version 2.3.0 (2006-04-24) qri Page 7/11 Compilé le 2006-07-11

w <- a.tre for (k in 1:123) w <- gsub(cod4[k], codlit[k], w) phy2 <- newick2phylog(w, add = F) plot(phy2, f = 0.75) w <- a.tre provi <- gsub(" ", ".", binoms) for (k in 1:123) w <- gsub(cod4[k], provi[k], w) phy3 <- newick2phylog(w, add = F) plot(phy3, f = 0.5) Rhdecd Rhdplls Rhdbrt Rhdstl Rhdpctp Rhdnev Rhddms Psmcrd Rhdnst Rhdngl Rhdrbs Rhdprl Lnscrn Lnscht Lnscnf Lnscstls Trtrbrf Trtsng Ertmcr Trtlct Dptmxm Trtprt Trtntd Trtrbd Trttbm Pnshrr Pnsmgs Pnsgnc Pnsltz Mprspn Trtvtt Trtbrs Trtmcl Trtplt Trtdlp Trtmlns Trtinf Trtptg Trtcrcn Trtrbrv Trtcstlm Trtguz Trtwll Trtarthrn Trtpsd Trtmtg Trtsrd Rhodnius ecuadoriensis Rhodnius pallescens Rhodnius brethesi Rhodnius stali Rhodnius pictipes Rhodnius neivai Rhodnius domesticus Psammolestes coreodes Rhodnius nasutus Rhodnius neglectus Rhodnius robustus Rhodnius prolixus Linshcosteus carnifex Linshcosteus chota Linshcosteus confumus Linshcosteus costalis Triatoma rubrofasciata Triatoma sanguisuga Eratyrus mucronatus Triatoma lecticularia Dipetalogaster maximus Triatoma protracta Triatoma nitida Triatoma rubida Triatoma tibiamaculata Panstrongylus herreri Panstrongylus megistus Panstrongylus geniculatus Panstrongylus lutzi Mepraia spinolai Triatoma vitticeps Triatoma brasiliensis Triatoma maculata Triatoma platensis Triatoma delpontei Triatoma melanosoma Triatoma infestans Triatoma patagonica Triatoma circunmaculata Triatoma rubrovaria Triatoma costalimai Triatoma guazu Triatoma williami Triatoma arthurneivai Triatoma pseudomaculata Triatoma matogrossensis Triatoma sordida Fig. 5 Représentation graphique de la phylogénie : changements d étiquettes 6 Longueurs de branches Quand elles sont disponibles, il est aisé de les reproduire. Par exemple, l article de Bried et al. [1] contient un arbre valué sur 36 millions d années. Compter et étiqueter avec soin les nœuds, indiquer les longueurs de branches en vérifiant la cohérence (figure 6). Logiciel Version 2.3.0 (2006-04-24) qri Page 8/11 Compilé le 2006-07-11

Fig. 6 Préparation de la saisie d une phylogénie avec longueur de branches. Logiciel Version 2.3.0 (2006-04-24) qri Page 9/11 Compilé le 2006-07-11

Utiliser ensuite la chaîne de caractères XXX suivie par :xxx pour associer la longueur xxx à la branche qui mène à l objet (feuille ou nœud intérieur) XXX. Ainsi, le nœud n9 est relié au nœud n8 par une distance de 4.88 millions d années ; le nœud n8 est relié au nœud n7 par une distance de 0.32 millions d années... Le résultat est consigné dans procella$tre : data(procella) procella$tre[5] [1] "n9:4.88)n8:0.32)n7:1.5)n6:3.6)n5:3.5)n4:18.5)n1:0;" procphy <- newick2phylog(procella$tre, add = F) plot(procphy, clabel.n = 1) Le format Newick permettra les échanges entre logiciels utilisant ce format. Remarquer que la convention qui remplace le blanc du binom latin par un underscore mais qui édite correctement les noms d espèces est utilisé dans ade4, TreeView et ape [4]. write(procella$tre, file = "proc.tre") Logiciel Version 2.3.0 (2006-04-24) qri Page 10/11 Compilé le 2006-07-11

library(ape) Le chargement a nécessité le package : gee Le chargement a nécessité le package : nlme Le chargement a nécessité le package : lattice plot(read.tree("proc.tre")) Références [1] J. Bried, D. Pontier, and P. Jouventin. Mate fidelity in monogamous birds : a re-examination of the procellariiformes. Animal Behaviour, 65 :235 246, 2002. [2] V. Hypsa, D.F. Tietz, J. Zrzavy, R.O. Rego, C. Galvao, and J. Jurberg. Phylogeny and biogeography of triatominae (hemiptera : Reduviidae) : molecular evidence of a new world origin of the asiatic clade. Molecular Phylogenetics and Evolution, 23 :447 457, 2002. [3] R. D. M. Page. Treeview : An application to display phylogenetic trees on personal computers. Computer Applications in the Biosciences, 12 :357 358, 1996. [4] E. Paradis, K. Strimmer, J. Claude, G. Jobb, R. Opgen-Rhein, J. Dutheil, Y. Noel, and B. Bolker. ape : Analyses of phylogenetics and evolution. r package version 1.8-2, 2006. Logiciel Version 2.3.0 (2006-04-24) qri Page 11/11 Compilé le 2006-07-11