FLUX DE TRAVAUX ET LEURS APPLICATIONS EN BIOINFORMATIQUE Étienne Lord, étudiant au doctorat en informatique Directeur de recherche : Vladimir Makarenkov Codirecteur : Abdoulaye Baniré Diallo
Résumé 1. Les flux de travaux et la phylogénie 2. La comparaison des flux de travaux «k-means, k-medoids, distance Euclidienne, distance cosine, partitionnement hiérarchique» 3. Critère de support des flux de travaux dans le partitionnement 4. Exemples de flux de travaux en bioinformatique 5. Conclusions et perspectives
Les flux de travaux Un flux de travaux est un patron de tâches ordonnées pouvant être exécutées de manière répétitive Data-flow / control-flow Galaxy Données individuelles Exécution concurrente Armadillo Taverna Sémantique individuelle Structures de contrôle externes Suspension et reprise de tâches
Les arbres phylogénétiques Représentation de la relation évolutive entre des espèces basée sur l étude des gènes M. marshali M. oregonensis M. montanus M. triangularis Modification de l image de Roderic Page. Systematic Biology, couverture Juin 2007, inspiré de Maddison (1997).
Quatre méthodologies d inférence d arbres phylogénétiques L inférence d arbres phylogénétique est une méthodologie permettant d émettre des hypothèses sur l évolution des espèces Méthodes de reconstruction phylogénétiques et logiciels associés Méthodes avec modèles d évolution Méthodes basées sur les caractères Maximum de vraisemblance : fastdnaml (~100 taxa) PhyML (~200 taxa) RAxML (~10 000 taxa) FastTree2 (>237 000 taxa) Méthodes basées sur les distances Méthode de distances: Neighbor (~1000 taxa) BioNJ (> 1000 taxa) RapidNJ (~13 000 taxa) Ninja (~100 000 taxa) Méthodes sans modèle d évolution Méthodes bayésiennes : BEAST (~100 taxa) MrBayes (~200 taxa) Maximum de parcimonie : DNAPars (~500 taxa) PROTPars (~500 taxa) TNT (~70 000 taxa) Oblong (>1 000 000 taxa)
Exemple de flux de travaux en bioinformatique Méthodes (13) 120,000 séquences Logiciels (3) Une reconstruction phylogénétique par Peters et al. (2011) BMC Biology 9, 55.
Les plates-formes de flux de travaux en bioinformatiques Plates-formes de flux de travaux bioinformatiques Plateforme Classe Flux de travaux Accès au «nuage» Application Kepler (2004) Galaxy (2005) Taverna (2003) LONI (2003) Bio-Jeti (2009) Triana (1997) Locale Web Locale, services Web Locale, services Web Locale, services Web Client- Serveur Data-flow Data-flow Data-flow Oui (Ecogrid) O ui (Amazon EC2) Oui (mygrid) Général Bioinformatique Bioinformatique Data-flow Oui Bioinformatique Control-flow Oui Bioinformatique Data-flow/ Control-flow Oui Général Kepler (http://kepler-project.org), Galaxy (http://galaxy.psu.edu), Taverna (http://www.taverna.org.uk), LONI (http://pipeline.loni.ucla.edu), Bio-Jeti (http://biojeti.cs.tu-dortmund.de), Triana (http://www.trianacode.org)
Une nouvelle plate-forme de flux de travaux Armadillo adn.bioinfo.uqam.ca/armadillo Lord, E., Leclercq, M., Boc, A., Diallo, A.B., et Makarenkov, V. (2012). Armadillo 1.1: an original workflow platform for designing and conducting phylogenetic analysis and simulations. PloS One, 7(1), e 29903.
Armadillo v1.0 (adn.bioinfo.uqam.ca/armadillo) Locale Langage Java Données internes Data-flow et Control-flow sans programmation Phylogénétique (A)Une structure de control-flow (If). (B) Différents types d alignements de séquences. (C)Différentes couleurs pour ajouter au processus cognitif. (D)Exécution conditionnelle de code source Java.
Inclut les logiciels nécessaires pour inférer les arbres phylogénétiques Transfert horizontaux de gènes Alignement de séquences multiples Détection de transfert horizontaux de gènes Logiciel PHYLIP Reconstruction Alignement de séquences ancestralesde Évaluation des modèles d'évolution séquences Détection de la pression sélective Scripts locaux Applications externes Arbres et séquences alléatoires Visualisation Accès à des bases de données Blast Accès à des bases de données biologiques Inférence phylogénétique Alignement de séquences multiples Détection de transfert horizontaux de gènes Logiciel PHYLIP Reconstruction de séquences ancestrales Évaluation des modèles d'évolution Détection de la pression sélective Scripts locaux Applications externes Méthodes Arbres et séquences alléatoires Visualisation propres à Armadillo Accès à des bases de données Blast Accès à des bases de données biologiques Micro- ARNs * (en développement) Alignment information Figure 3.7b BAli- phy ClustalW ClustalW2 GBlock Kalign Garli Mafft Muscle TBA Probcons T- Coffee HGT PhyloNet - Ancestor Detection LatTrans RiataHGT (UQAM) (UQAM) ClustalO MAQ* Bowtie* PIRN Ranger- dtl SPR- DIST EEEP jmodeltest (Nucleic Acid) GARLI MrBayes RAxML FastTree2 NINJA BioNJ TNT Oblong fastdnaml PhyML DNAPARS NEIGHBOR (Phylip) (Phylip) Convert to Protein or DNA Rename Generate HTML Filter Remove Archaeopteryx mirdup mircheck Détec&on des gènes ancestraux RootTree Robinson& (using Fould MidPoint) (UQAM) PROML (Phylip) Concatenate Save to File Scriptree PRODIST (Phylip) Create Groups Split Output to Screen TreeDist (Phylip) RETREE (Phylip) Download from WWW CONSENSE DNADIST (Phylip) (Phylip) SEQBOOT (Phylip) Load Files PaML (baseml) Load Sequences Custom Run Java Random Program (Code) Sequences Rshell Base de données Web Fetch dbfetch EB- Eye Ncbi Ncbi eutils Sequences (Web EBI) (Web EBI) Download (Pubmed) Ncbi SQL Blast Database Download query BioMart* Blast EBI Blast Web Ncbi ProtTest (Amino Acid) SPR Hybrid- IdentiRicati Interleave on tool DNAML (Phylip) PaML (codeml) Load Trees Random Trees Create Local BlastDB Gene Ontology Modèles d évolu&on k- means/ k- medoids DNAML- Erate PaML (yn00) Regular Expression Seq- Gen LocalBlast Phylogénétique Analyse de la pression sélec&ve Recherche de séquences Blast
La plate-forme Armadillo : utilisations et statistiques Projets en cours (2014-2015) Protocoles basés sur l ontologie et l analyse sémantique Cours sur la phylogénomique Séquençage de nouvelle génération Métagénomique Version en ligne (version 2.0 )
Problématique Problématique: une expérimentation in silico évolue et résulte en différentes versions d un flux de travaux. Comment les comparer?
Comparaison de Flux de travaux Lord, E., Diallo, A. B., et Makarenkov, V. (2014a). Workflow classification using partitioning and hierarchical clustering algorithms (soumis à Advances in Data Analysis and Classification).
Classification de flux de travaux Travaux récents sur la comparaison et le regroupement de flux de travaux Costa et al. (2012) Resource Discovery. Springer Berlin Heidelberg, 104-121. Regroupement basé sur les metadata et la description en langage naturel. Silva et al. (2011) Journal of Computational Interdisciplinary Sciences, 2(1), 23-35. Regroupement basé sur la similarité des relations entre les composants et sur les flux de travaux internes. Wombacher et Li (2010) IEEE International Conference on Services Computing, 337-345. Regroupement basé sur des N-gram (décomposition du flux de travaux dans un langage). Kastner et al. (2009) Computer Aided Systems Theory. Springer Berlin Heidelberg, 737-744. Regroupement k-means en utilisant la distance cosine et des vecteurs de poids représentants les transitions entre les tâches. Santos et al. (2008) Provenance and Annotation of Data and Processes. Springer Berlin Heidelberg,160-173. Regroupement k-means en utilisant un espace vectoriel et la distance du maximum common induced subgraph (MCIS) (Information structurelle). Goderis (2008) Thèse de doctorat, University of Manchester. Regroupement structurel basé sur l identification des activités. Jung et Bae (2006) Computational Science and Its Applications. Springer Berlin Heidelberg, 379-389. Regroupement structurel basé sur les composants similaires.
Différent encodages des flux de travaux : type I et type II Flux de travaux Encodage mesure de distance Matrice binaire méthode de regroupement Nombre de groupes Encoding of Type I W1 W2 W3 W4 W5 Weights for Encoding of Type I Blast (NCBI) 0 0 0 1 0 0.35 ClustalW2 0 1 0 0 1 0.49 HGT Detector 3.2 1 1 1 0 1 0.88 Muscle 1 0 0 0 1 0.41 PROTML (Phylip) 1 0 0 0 0 0.68 PhyML (1) 0 1 1 0 1 1.13 PhyML (2) 0 0 0 0 1 1.13 Probcons 0 0 1 0 0 0.55 Robinson&Foulds distance 0 0 0 1 0 0.25 SEQBOOT 1 0 0 0 0 0.14 Seq- Gen 0 1 0 1 0 0.43 Disperser les tâches similaires pour des exécutions plus rapides Vecteur de temps moyens Encoding of Type II W1 W2 W3 W4 W5 Weights for Encoding of Type II Blast (NCBI) 0 0 0 1 0 0.10 ClustalW2 0 1 0 0 1 0.10 HGT Detector 3.2 1 1 1 0 1 1.00 Muscle 1 0 0 0 1 0.10 PROTML (Phylip) 1 0 0 0 0 0.10 PhyML 0 1 1 0 2 0.10 Probcons 0 0 1 0 0 0.10 Robinson&Foulds distance 0 0 0 1 0 0.10 SEQBOOT 1 0 0 0 0 0.10 Seq- Gen 0 1 0 1 0 0.10 Vecteur de poids Grouper les flux de travaux similaires en fonction de mots-clés Encoding of Type III W1 W2 W3 W4 W5 Weights for Encoding of Type III Matrice d occurrence Blast (NCBI) 0 0 0 1 0 0.35 HGT Detector 3.2 1 1 1 0 1 0.88 Robinson&Foulds distance 0 0 0 1 0 0.25 ClustalW2 PhyML 0 1 0 0 1 1.62 Muscle PhyML 0 0 0 0 1 1.54 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.55
Paire de tâches PhyML 0 1 1 0 2 0.10 Différent Probcons encodages 0 0des 1 0 flux 0 de 0.10 travaux : type III et type IV Robinson&Foulds distance 0 0 0 1 0 0.10 SEQBOOT 1 0 0 0 0 0.10 Matrice d occurrence Seq- Gen 0 1 0 1 0 0.10 Encoding of Type III W1 W2 W3 W4 W5 Weights for Encoding of Type III Blast (NCBI) 0 0 0 1 0 0.35 HGT Detector 3.2 1 1 1 0 1 0.88 Robinson&Foulds distance 0 0 0 1 0 0.25 ClustalW2 PhyML 0 1 0 0 1 1.62 Muscle PhyML 0 0 0 0 1 1.54 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.55 PROTML (Phylip) HGT Detector 3.2 1 0 0 0 0 1.56 PhyML HGT Detector 3.2 0 1 1 0 2 2.01 Probcons PhyML 0 0 1 0 0 1.68 SEQBOOT (Phylip) PROTML (Phylip) 1 0 0 0 0 0.82 Seq- Gen Blast (NCBI) 0 0 0 1 0 0.78 Seq- Gen ClustalW2 0 1 0 0 0 0.92 Encoding of Type IV W1 W2 W3 W4 W5 Weights for Encoding of Type IV Blast (NCBI) 0 0 0 1 0 0.10 HGT Detector 3.2 1 1 1 0 1 1.00 Robinson&Foulds distance 0 0 0 1 0 0.10 ClustalW2 PhyML 0 1 0 0 1 0.10 Muscle PhyML 0 0 0 0 1 0.10 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.10 PROTML (Phylip) HGT Detector 3.2 1 0 0 0 0 1.00 PhyML HGT Detector 3.2 0 1 1 0 2 1.00 Probcons PhyML 0 0 1 0 0 0.10 SEQBOOT (Phylip) PROTML (Phylip) 1 0 0 0 0 0.10 Seq- Gen Blast (NCBI) 0 0 0 1 0 0.10 Seq- Gen ClustalW2 0 1 0 0 0 0.10 INPUT_Sequences 1 0 1 0 1 1.00 INPUT_Tree 1 1 1 2 0 1.00 OUTPUT_Blast (NCBI) 0 0 0 1 0 1.00 OUTPUT_Matrix 1 1 1 1 1 1.00 OUTPUT_MultipleTrees 0 0 0 1 0 1.00 OUTPUT_OutputText 1 1 1 2 1 1.00 OUTPUT_Results 1 1 1 1 1 1.00 Vecteur de temps moyens Vecteur de poids Disperser les tâches similaires pour des exécutions plus rapides Encourager la réutilisation des données (génomiques) Matrice d occurrence
Distance entre les flux de travaux Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Soit w une matrice bidimensionnelle contenant des mesures pour n éléments (i.e. des flux de travaux) et m variables (i.e. des tâches individuelles ou des paires de tâches). Soit y = {y 1,, y m } le vecteur de coefficients de pondérations attribués aux variables, on retrouve les distances d : Distance Euclidienne pondérée: d ij = m p= 1 y p ( w ip w jp ) 2 Distance cosine pondérée: d ij = 1 cosθ = 1 m p= 1 m p= 1 y p y p w ( w 2 ip ip w m p= 1 jp y ) p w 2 jp
Méthodes de regroupement Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Méthodes hiérarchiques UPGMA (Sokal et Michener, 1958) Neighbor Joining (Saitou et Nei, 1987) FITCH et KITSCH (Fitch et Margoliash, 1967) Méthodes de partitionnement k-means (MacQueen, 1967) k-medoids (Kauffman et Rousseeuw, 1990)
Algorithmes de k- means et k- medoids k=2 k=2 Note: le nombre de groupes (k) est déterminé préalablement.
Choix du nombre de classes (K) Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Indice de Calinski et Harabasz (1974) CH ( K) = SS SS ( n K) ( K 1) K B 2 SSB = nk meank mean W k = 1 SS W = K n k k = 1 i= 1 w ik mean k 2 n k, nombre d éléments dans la classe k; w ik, flux de travaux i dans la classe k. Indice Silhouette (Rousseeuw, 1987) nk b( i) a( i) s( k) / nk max( a( i), b( i)) i 1 K = s( K) = [ s( k) ]/ K = k = 1 a(i), distance moyenne de i avec les autres éléments du groupe k; b(i), la plus petite distance entre les différents groupes. Indice LogSS (Hartigan, 1975) SS logss ( K) = log SS Revue par : B W Milligan et Cooper (1985) Psychometrika, 50(2), 159-179. Arbelaitz et al. (2013) Pattern Recognition, 46(1), 243-256.
Jeux de données Nombre de flux de travaux (N) Encodage de Types I et II Simulations Deux jeux de données de flux de travaux bioinformatiques et phylogénétiques. Encodage de Type III Encodaged e Type IV Nombre de classes (K) Mots-clés utilisés pour l encodage de Types II et IV Armadillo 120 17 30 47 4 HGT myexperiment 100 318 345 497 15 BLAST Évaluation des méthodes de partitionnement : Indice Rand (1971) Évaluation des méthodes hiérarchiques : Distance de Robinson et Foulds (1981) a + b RI = n 2 a, nombre d éléments dans les mêmes classes dans les deux partitions. b, nombre d éléments qui sont dans des classes différentes dans les deux partitions. ( B1 ) ( B2 ) + ( B2 ) ( B1 ) d RF ( T1, T2 ) =. 2 B 1 et B 2 représentent le nombre de bipartitions non triviales entre les arbres T 1 et T 2.
Résultats pour le jeu de données d Armadillo (n=120) (a) Effet du critère d'optimisation; (b) Effet du type d encodage; (c) Effet de la mesure de distances; (d) Effet de l'algorithme de partitionnement appliqué;
Conclusions pour le regroupement par partitionnement (a) Effet des critères d'optimisation pour les encodages non pondérés (les deux premiers jeux de barres) et pondérés (quatre derniers jeux de barres); (b) Effet de la mesure de distances; (c) Effet de l'algorithme de partitionnement appliqué; La distance cosine pondérée, utilisée avec l algorithme k-medoids, l encodage de type I et l indice Silhouette, montre la meilleure performance. N.B. Les plus grandes valeurs de l indice Rand sont les meilleures.
Regroupement hiérarchique pour le jeu de données d Armadillo Classification hiérarchique des stratégies de regroupement évaluées sur le jeu de données d Armadillo (n=120) Évaluation de la distance Euclidienne et cosine pondérée et non-pondérée avec les algorithmes de regroupement hiérarchique UPGMA, Neighbor-Joining, FITCH, KITSCH et les encodages de type I à IV. Classification hiérarchique en utilisant la distance de Robinson et Foulds obtenue par l algorithme Neighbor- Joining avec le logiciel T-Rex et Mega.
Conclusions pour le regroupement hiérarchique (a) Effet des critères d'optimisation pour les encodages non pondérés (les deux premiers jeux de barres) et pondérés (quatre derniers jeux de barres); (b) Effet de l'algorithme de partitionnement appliqué; (c) Effet de la mesure de distance; L encodage de type I avec la distance cosine et l algorithme de Fitch ont démontré une meilleure performance. N.B. Les plus petites valeurs de la distance de Robinson et Foulds (RF) sont les meilleurs.
Problématique Problématique: les algorithmes de regroupement sont des heuristiques et même avec un nombre de classes fixe, différentes solutions de partitionnement sont obtenues. Peut-on avoir une mesure du support de ce partitionnement? Galphimia Nicotiana Petunia Lycopersi 100 46 Cypirapea Oenothera 100 Victoria Barclaya 0.01 Arbre phylogénétique avec scores de support obtenus par la méthode de bootstrap.
Critère de support pour la Comparaison de flux de travaux Lord, E., Diallo, A. B., et Makarenkov, V. (2014a). Workflow classification using partitioning and hierarchical clustering algorithms (soumis à Advances in Data Analysis and Classification).
Nouveau critère de support : idée de base Flux de travaux Partitionnement Exemple: les flux de travaux 1 et 2 sont toujours réunis. Comment décider que l on a trouvé le regroupement par partitionnement idéal si deux indices donnent des résultats différents? Le flux de travaux 3 change souvent de partition. Indice CH 55.00 50.0 45.00 40.0 35.00 (c) 1 500 1000 999 Partitions Indice SI 1.00 0.98 0.96 0.94 0.95 (d) 1 500 1000 999 Partitions
Nouveau critère de support : calcul de la valeur de support par paires PS S q, ij = Valeur de l indice de regroupement sélectionné pour le partitionnement q (S q ), si w i et w j sont dans la même classe lors du partitionnement Sinon, 0 S qi = S q, si w i est dans une classe singleton Sinon, 0 Flux de travaux W1 0 W2 1 0 PS( w, w i j ) W3 0.17 0.17 0.45 W4 0 0 0.37 0 W5 0 0 0.37 1 0 W6 0 0 0.37 1 1 0 Q q= 1 = Q q= 1 S q, ij S q PS( w ) i Q q= 1 = Q q= 1 S S qi q
Nouveau critère de support : calcul du support individuel PSG PSG( w ) = Support individuel (PSG) 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 i ( n j= 1( j i) max( PS( w, w i j ),1 PS( w, w i n j ))) + max( PS( w ),1 PS( w )) i i En conclusion, ce critère de support peut servir à identifier des éléments mal supportés, y compris les outliers, sans avoir à utiliser des techniques telles que le bootstrap ou jacknife (Hennig (2008). Journal of multivariate analysis, 99(6), 1154-1176).
PSG( W ) = 2( n i= 1 i 1 j = 1 Jeu de données d Armadillo (n=120) max( PS( w, w i j ),1 PS( w, w i n 2 j )) + n i= 1 max( PS( w ),1 i PS( w ))) i k-means Critères de regroupement k-means k-medoids Calinski- Harabasz 0.940 0.690 Silhouette 0.664 0.847 logss 0.653 0.830 k-medoids
Application du critère de support à d autres jeux de données? Jeu de données de Iris, Fisher (1936) (a) Classification originale Iris setosa Iris virginica Iris setosa Iris versicolor (b) k-means 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris versicolor Iris setosa Iris versicolor Iris virginica (c) k-medoids 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris setosa Iris versicolor Iris virginica Iris virginica
Application du critère de support à d autres jeux de données? Jeu de données de Iris, Fisher (1936) (a) Classification originale Iris setosa Iris virginica Iris setosa Méthode de regroupement k-mean Iris versicolor k-medoids Iris versicolor (b) k-means 1.0 Iris Iris Iris 0.8 Indices d optimisation 0.6 setosa versicolor virginica Calinski-Harabasz 0.99±0.01 0.92±0.02 0.91±0.03 Support (PSG) 0.4 Calinski- Harabasz 0.2 Silhouette 0.0 0.98±0.01 Silhouette 0.94±0.02 0.90±0.03 Iris setosa Iris versicolor Iris virginica Calinski-Harabasz 0.98±0.01 0.90±0.08 0.94±0.01 (c) k-medoids Silhouette 0.90±0.01 0.76±0.01 0.78±0.01 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris virginica Iris setosa Iris versicolor Iris virginica
Exemples de Flux de travaux bioinformatiques Ransy, D. G., Lord, E., Caty, M., Lapointe, N., Boucher, M., Diallo, A. B., Soudeyns, H. (2014). Subtle Differences in Selective Pressures Applied on the Envelope Gene of HIV-1 in Pregnant Versus Non-Pregnant Women. (soumis à Journal of Virology). Lord, E., Remita, M. A., Agharbaoui, Z., Leclercq, M., Badawi, M. A., Makarenkov, V., Sarhan, F., et Diallo, A. B. (2014b). WMP: A novel comprehensive Wheat mirna database, including related bioinformatics software (soumis à Molecular Biology and Evolution).
Exemple: études de l évolution du VIH chez les femmes enceintes Étude de la pression sélective sur la protéine gp120 du virus de l immunodéficience humaine de type I (VIH) chez les femmes enceintes. Ransy, D. G., Lord, E. et al. (soumis à Journal of Virology). (A) Répétition de l analyse de plusieurs jeux de données. (B) Alignement des séquences, à l aide du logiciel Muscle (Edgar, 2004), de la protéine gp120. (C) Inférence de l arbre phylogénétique à partir d une méthode de maximum de vraisemblance. (D) Logiciel PAML utilisé pour l évaluation de la pression sélective à différents sites.
Exemple : flux de travaux utilisé pour annoter les séquences cibles Création d une banque de données de petits ARNs chez le blé. Lord, E. et al. (soumis à Molecular Biology and Evolution). (A) Exécution concurrente de l algorithme de recherche de séquences BLAST sur les bases de données de séquences NCBI et SwissProt. (B) Exécution conditionnelle de la recherche ontologique si on a des résultats en (A). (C) Recherche par la méthode BLAST, mais sur la base de données TReMBL et recherche ontologique sur ces résultats, s il n y a pas de résultats en (A).
Conclusions et perspectives
Conclusions Nous avons analysé, conçu, et implémenté une nouvelle plate-forme de flux de travaux phylogénétique. Nous avons proposé et validé par simulations quatre stratégies d encodage des flux de travaux. Nous avons validé l utilisation d une distance cosine pondérée pour le regroupement des flux de travaux. Un nouveau critère de support a été proposé. Des flux de travaux créés et exécutés dans la plateforme Armadillo pour réaliser une étude sur le VIH de type I chez des femmes enceintes et une nouvelle banque de données de petits ARNs chez le blé.
Perspectives : la plate-forme pourrait être adaptée à d autres domaines Alignment informatio n BAli- phy ClustalW ClustalW2 GBlock Kalign Garli Mafft Muscle TBA Probcons T- Coffee HGT Detector (UQAM) LatTrans PhyloNet - RiataHGT Ancestor (UQAM) jmodeltest (Nucleic Acid) ProtTest (Amino Acid) Une sélection de commandes Linux fastdnaml DNAPARS (Phylip) PhyML NEIGHBOR (Phylip) RootTree (using MidPoint) PROML (Phylip) Robinson& Fould (UQAM) PRODIST (Phylip) TreeDist (Phylip) RETREE (Phylip) CONSENSE (Phylip) SEQBOOT (Phylip) DNADIST (Phylip) PaML (baseml) DNAML (Phylip) PaML (codeml) DNAML- Erate PaML (yn00) cd ls rm cp mv chown chmod chgrp Convert to Protein or DNA Filter Concatenat e Create Groups Rename Remove Save to File Split Generate HTML Archaeopteryx Scriptree Output to Screen Download from WWW Custom Progra m Rshell* Load Files Run Java (Code) SQL Database query Load Sequences Random Sequences Blast Download Load Trees Random Trees Create Local BlastDB Regular Expression Seq- Gen LocalBlast pwd mkdir rmdir scp rcp mmv su / sudo date times sleep uniq nice slocate locate df bzip2 tar gzip dbfetch (Web EBI) EB- Eye (Web EBI) Ncbi Download Ncbi eutils (Pubmed) Fetch Sequences Ncbi BioMart* Blast Web Ncbi Phylogénétique man help read paste Rind du sort tsort tree top ps bg cron crontab time env export kill let declare set unset uuencode uudecode alias adduser addgroup printf clear echo exec true false wget awk/ gawk sed command func@on if un@l eval more wc grep/ egrep head case for while continue break less tail cat cut
Remerciements Merci au laboratoire de bioinformatique à l Université du Québec à Montréal : Vladimir Makarenkov, Abdoulaye Baniré Diallo, Alix Boc, Mickael Leclercq, Alpha Boubacar Diallo, Dunarel Badescu, Amine Mohamed Remita, Nadia Tahiri
Complexités algorithmiques des algorithmes de regroupement K nombre de classes. n nombre d éléments. m nombre de variables pour chaque élément. i nombre d itération de l algorithme. * Basé sur l analyse de Xu, R., et Wunsch, D. (2005). IEEE Transactions on Neural Networks, 16(3), 645-678. ** Voir Riesen, K., et Bunke, H. (2009). International Journal of Pattern Recognition and Artificial Intelligence, 23(06), 1053-1081.