Étienne Lord, étudiant au doctorat en informatique Directeur de recherche : Vladimir Makarenkov Codirecteur : Abdoulaye Baniré Diallo

Documents pareils

La programmation d un système de flux (workflow) pour pallier à l explosion des données scientifiques - problèmes, défis et solutions -

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Linux et le Shell. Francois BAYART. Atelier du samedi 20 Novembre

Atelier individuel. Linux 101. Frédérick Lefebvre & Maxime Boissonneault frederick.lefebvre@calculquebec.ca U. Laval - Janv. 2014

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Introduction à MATLAB R

Bon ben voilà c est fait!

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

SysFera. Benjamin Depardon

Application de K-means à la définition du nombre de VM optimal dans un cloud

Introduction à Linux (pour le HPC) «Linux 101» Présentation :

Outils pour la pratique

Aide-Mémoire unix. 9 février 2009

Laboratoire 4 Développement d un système intelligent

D r o i t s D r o i t s Q u i z z : i n t e r n e t t e x t e

Année Universitaire ième année IMAC Mardi 6 janvier Cloud computing Travaux Pratiques

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big Data et Graphes : Quelques pistes de recherche

Perl Orienté Objet BioPerl There is more than one way to do it

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

La classification automatique de données quantitatives

sshgate Patrick Guiran Chef de projet support

Pharmed. gestion de pharmacie hospitalière. Installation / déploiement

«Astrophysique et instrumentations associées» Cours UNIX Benoît Semelin

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Séance 0 : Linux + Octave : le compromis idéal

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Analyse des données de séquençage massif par des méthodes phylogénétiques

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Compte-rendu re union Campus AAR 3 mars 2015

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

SERVEUR DE SAUVEGARDE POUR BCDI3. par. G.Haberer, A.Peuch, P.Saadé

L art d ordonnancer. avec JobScheduler. François BAYART

Introduction aux bases de données: application en biologie

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Mac OS X en entreprise

Laboratoire d Automatique et Productique Université de Batna, Algérie

INF6304 Interfaces Intelligentes

Configurer la supervision pour une base MS SQL Server Viadéis Services

Travaux pratiques avec RapidMiner

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

TP 4 de familiarisation avec Unix

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

1 Configuration des Fichiers Hosts, Hostname, Resolv.conf

Environnements informatiques

Vers une Optimisation de l Algorithme AntTreeStoch

Sauvegarde automatique des données de GEPI

2015 kmeans. September 3, 2015

Serveur de sauvegardes incrémental

Installation d'un serveur sftp avec connexion par login et clé rsa.

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Intégration de la dimension sémantique dans les réseaux sociaux

Oracle 11g. Installation et administration. Claude Duvallet 1/36

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

C.M. 1 & 2 : Prise en main de Linux

MRTG & RRD Tool. Multi Router Traffic Grapher

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Big Data et Graphes : Quelques pistes de recherche

Programmation C. Apprendre à développer des programmes simples dans le langage C

PPe jaune. Domingues Almeida Nicolas Collin Leo Ferdioui Lamia Sannier Vincent [PPE PROJET FTP]

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Qu'est-ce que c'est??

Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

GPC Computer Science

Introduction au Système d Exploitation Unix/Linux

Table des matières Hakim Benameurlaine 1

22/06/2015. Linux Initiation. Formation Le Corguillé 1.07

Installation d'un serveur FTP géré par une base de données MySQL

MCMC et approximations en champ moyen pour les modèles de Markov

Linux LTE 2 - ISSBA. Année universitaire Linux Réseau et Archivage. Jean-Michel RICHER Faculté des Sciences, H206 1

Lieberman Software Corporation

Sauvegarde sous MAC avec serveur Samba

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Unix/Linux I. 1 ere année DUT. Université marne la vallée

Once the installation is complete, you can delete the temporary Zip files..

Programmation Web. Madalina Croitoru IUT Montpellier

Introduction aux Systèmes et aux Réseaux

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

VoD ( Video on Demand ) avec VLC

Procédure d installation Trixbox - A2Billing

Apprentissage statistique dans les graphes et les réseaux sociaux

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Surveiller et contrôler vos applications à travers le Web

Guide d'installation de la base de données ORACLE 10g ( ) pour linux FEDORA CORE 4.

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Les Boitiers de Vote Electroniques (Clickers)

CONFIGURATION DU SERVEUR DE MAILS EXIM. par. G.Haberer, A.Peuch, P.Saade

PROXY SQUID-SQARD. procédure

Projet Administration Réseaux

Tuto 2 : Configuration Virtual box, Configuration et installation du serveur XiBO

Transcription:

FLUX DE TRAVAUX ET LEURS APPLICATIONS EN BIOINFORMATIQUE Étienne Lord, étudiant au doctorat en informatique Directeur de recherche : Vladimir Makarenkov Codirecteur : Abdoulaye Baniré Diallo

Résumé 1. Les flux de travaux et la phylogénie 2. La comparaison des flux de travaux «k-means, k-medoids, distance Euclidienne, distance cosine, partitionnement hiérarchique» 3. Critère de support des flux de travaux dans le partitionnement 4. Exemples de flux de travaux en bioinformatique 5. Conclusions et perspectives

Les flux de travaux Un flux de travaux est un patron de tâches ordonnées pouvant être exécutées de manière répétitive Data-flow / control-flow Galaxy Données individuelles Exécution concurrente Armadillo Taverna Sémantique individuelle Structures de contrôle externes Suspension et reprise de tâches

Les arbres phylogénétiques Représentation de la relation évolutive entre des espèces basée sur l étude des gènes M. marshali M. oregonensis M. montanus M. triangularis Modification de l image de Roderic Page. Systematic Biology, couverture Juin 2007, inspiré de Maddison (1997).

Quatre méthodologies d inférence d arbres phylogénétiques L inférence d arbres phylogénétique est une méthodologie permettant d émettre des hypothèses sur l évolution des espèces Méthodes de reconstruction phylogénétiques et logiciels associés Méthodes avec modèles d évolution Méthodes basées sur les caractères Maximum de vraisemblance : fastdnaml (~100 taxa) PhyML (~200 taxa) RAxML (~10 000 taxa) FastTree2 (>237 000 taxa) Méthodes basées sur les distances Méthode de distances: Neighbor (~1000 taxa) BioNJ (> 1000 taxa) RapidNJ (~13 000 taxa) Ninja (~100 000 taxa) Méthodes sans modèle d évolution Méthodes bayésiennes : BEAST (~100 taxa) MrBayes (~200 taxa) Maximum de parcimonie : DNAPars (~500 taxa) PROTPars (~500 taxa) TNT (~70 000 taxa) Oblong (>1 000 000 taxa)

Exemple de flux de travaux en bioinformatique Méthodes (13) 120,000 séquences Logiciels (3) Une reconstruction phylogénétique par Peters et al. (2011) BMC Biology 9, 55.

Les plates-formes de flux de travaux en bioinformatiques Plates-formes de flux de travaux bioinformatiques Plateforme Classe Flux de travaux Accès au «nuage» Application Kepler (2004) Galaxy (2005) Taverna (2003) LONI (2003) Bio-Jeti (2009) Triana (1997) Locale Web Locale, services Web Locale, services Web Locale, services Web Client- Serveur Data-flow Data-flow Data-flow Oui (Ecogrid) O ui (Amazon EC2) Oui (mygrid) Général Bioinformatique Bioinformatique Data-flow Oui Bioinformatique Control-flow Oui Bioinformatique Data-flow/ Control-flow Oui Général Kepler (http://kepler-project.org), Galaxy (http://galaxy.psu.edu), Taverna (http://www.taverna.org.uk), LONI (http://pipeline.loni.ucla.edu), Bio-Jeti (http://biojeti.cs.tu-dortmund.de), Triana (http://www.trianacode.org)

Une nouvelle plate-forme de flux de travaux Armadillo adn.bioinfo.uqam.ca/armadillo Lord, E., Leclercq, M., Boc, A., Diallo, A.B., et Makarenkov, V. (2012). Armadillo 1.1: an original workflow platform for designing and conducting phylogenetic analysis and simulations. PloS One, 7(1), e 29903.

Armadillo v1.0 (adn.bioinfo.uqam.ca/armadillo) Locale Langage Java Données internes Data-flow et Control-flow sans programmation Phylogénétique (A)Une structure de control-flow (If). (B) Différents types d alignements de séquences. (C)Différentes couleurs pour ajouter au processus cognitif. (D)Exécution conditionnelle de code source Java.

Inclut les logiciels nécessaires pour inférer les arbres phylogénétiques Transfert horizontaux de gènes Alignement de séquences multiples Détection de transfert horizontaux de gènes Logiciel PHYLIP Reconstruction Alignement de séquences ancestralesde Évaluation des modèles d'évolution séquences Détection de la pression sélective Scripts locaux Applications externes Arbres et séquences alléatoires Visualisation Accès à des bases de données Blast Accès à des bases de données biologiques Inférence phylogénétique Alignement de séquences multiples Détection de transfert horizontaux de gènes Logiciel PHYLIP Reconstruction de séquences ancestrales Évaluation des modèles d'évolution Détection de la pression sélective Scripts locaux Applications externes Méthodes Arbres et séquences alléatoires Visualisation propres à Armadillo Accès à des bases de données Blast Accès à des bases de données biologiques Micro- ARNs * (en développement) Alignment information Figure 3.7b BAli- phy ClustalW ClustalW2 GBlock Kalign Garli Mafft Muscle TBA Probcons T- Coffee HGT PhyloNet - Ancestor Detection LatTrans RiataHGT (UQAM) (UQAM) ClustalO MAQ* Bowtie* PIRN Ranger- dtl SPR- DIST EEEP jmodeltest (Nucleic Acid) GARLI MrBayes RAxML FastTree2 NINJA BioNJ TNT Oblong fastdnaml PhyML DNAPARS NEIGHBOR (Phylip) (Phylip) Convert to Protein or DNA Rename Generate HTML Filter Remove Archaeopteryx mirdup mircheck Détec&on des gènes ancestraux RootTree Robinson& (using Fould MidPoint) (UQAM) PROML (Phylip) Concatenate Save to File Scriptree PRODIST (Phylip) Create Groups Split Output to Screen TreeDist (Phylip) RETREE (Phylip) Download from WWW CONSENSE DNADIST (Phylip) (Phylip) SEQBOOT (Phylip) Load Files PaML (baseml) Load Sequences Custom Run Java Random Program (Code) Sequences Rshell Base de données Web Fetch dbfetch EB- Eye Ncbi Ncbi eutils Sequences (Web EBI) (Web EBI) Download (Pubmed) Ncbi SQL Blast Database Download query BioMart* Blast EBI Blast Web Ncbi ProtTest (Amino Acid) SPR Hybrid- IdentiRicati Interleave on tool DNAML (Phylip) PaML (codeml) Load Trees Random Trees Create Local BlastDB Gene Ontology Modèles d évolu&on k- means/ k- medoids DNAML- Erate PaML (yn00) Regular Expression Seq- Gen LocalBlast Phylogénétique Analyse de la pression sélec&ve Recherche de séquences Blast

La plate-forme Armadillo : utilisations et statistiques Projets en cours (2014-2015) Protocoles basés sur l ontologie et l analyse sémantique Cours sur la phylogénomique Séquençage de nouvelle génération Métagénomique Version en ligne (version 2.0 )

Problématique Problématique: une expérimentation in silico évolue et résulte en différentes versions d un flux de travaux. Comment les comparer?

Comparaison de Flux de travaux Lord, E., Diallo, A. B., et Makarenkov, V. (2014a). Workflow classification using partitioning and hierarchical clustering algorithms (soumis à Advances in Data Analysis and Classification).

Classification de flux de travaux Travaux récents sur la comparaison et le regroupement de flux de travaux Costa et al. (2012) Resource Discovery. Springer Berlin Heidelberg, 104-121. Regroupement basé sur les metadata et la description en langage naturel. Silva et al. (2011) Journal of Computational Interdisciplinary Sciences, 2(1), 23-35. Regroupement basé sur la similarité des relations entre les composants et sur les flux de travaux internes. Wombacher et Li (2010) IEEE International Conference on Services Computing, 337-345. Regroupement basé sur des N-gram (décomposition du flux de travaux dans un langage). Kastner et al. (2009) Computer Aided Systems Theory. Springer Berlin Heidelberg, 737-744. Regroupement k-means en utilisant la distance cosine et des vecteurs de poids représentants les transitions entre les tâches. Santos et al. (2008) Provenance and Annotation of Data and Processes. Springer Berlin Heidelberg,160-173. Regroupement k-means en utilisant un espace vectoriel et la distance du maximum common induced subgraph (MCIS) (Information structurelle). Goderis (2008) Thèse de doctorat, University of Manchester. Regroupement structurel basé sur l identification des activités. Jung et Bae (2006) Computational Science and Its Applications. Springer Berlin Heidelberg, 379-389. Regroupement structurel basé sur les composants similaires.

Différent encodages des flux de travaux : type I et type II Flux de travaux Encodage mesure de distance Matrice binaire méthode de regroupement Nombre de groupes Encoding of Type I W1 W2 W3 W4 W5 Weights for Encoding of Type I Blast (NCBI) 0 0 0 1 0 0.35 ClustalW2 0 1 0 0 1 0.49 HGT Detector 3.2 1 1 1 0 1 0.88 Muscle 1 0 0 0 1 0.41 PROTML (Phylip) 1 0 0 0 0 0.68 PhyML (1) 0 1 1 0 1 1.13 PhyML (2) 0 0 0 0 1 1.13 Probcons 0 0 1 0 0 0.55 Robinson&Foulds distance 0 0 0 1 0 0.25 SEQBOOT 1 0 0 0 0 0.14 Seq- Gen 0 1 0 1 0 0.43 Disperser les tâches similaires pour des exécutions plus rapides Vecteur de temps moyens Encoding of Type II W1 W2 W3 W4 W5 Weights for Encoding of Type II Blast (NCBI) 0 0 0 1 0 0.10 ClustalW2 0 1 0 0 1 0.10 HGT Detector 3.2 1 1 1 0 1 1.00 Muscle 1 0 0 0 1 0.10 PROTML (Phylip) 1 0 0 0 0 0.10 PhyML 0 1 1 0 2 0.10 Probcons 0 0 1 0 0 0.10 Robinson&Foulds distance 0 0 0 1 0 0.10 SEQBOOT 1 0 0 0 0 0.10 Seq- Gen 0 1 0 1 0 0.10 Vecteur de poids Grouper les flux de travaux similaires en fonction de mots-clés Encoding of Type III W1 W2 W3 W4 W5 Weights for Encoding of Type III Matrice d occurrence Blast (NCBI) 0 0 0 1 0 0.35 HGT Detector 3.2 1 1 1 0 1 0.88 Robinson&Foulds distance 0 0 0 1 0 0.25 ClustalW2 PhyML 0 1 0 0 1 1.62 Muscle PhyML 0 0 0 0 1 1.54 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.55

Paire de tâches PhyML 0 1 1 0 2 0.10 Différent Probcons encodages 0 0des 1 0 flux 0 de 0.10 travaux : type III et type IV Robinson&Foulds distance 0 0 0 1 0 0.10 SEQBOOT 1 0 0 0 0 0.10 Matrice d occurrence Seq- Gen 0 1 0 1 0 0.10 Encoding of Type III W1 W2 W3 W4 W5 Weights for Encoding of Type III Blast (NCBI) 0 0 0 1 0 0.35 HGT Detector 3.2 1 1 1 0 1 0.88 Robinson&Foulds distance 0 0 0 1 0 0.25 ClustalW2 PhyML 0 1 0 0 1 1.62 Muscle PhyML 0 0 0 0 1 1.54 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.55 PROTML (Phylip) HGT Detector 3.2 1 0 0 0 0 1.56 PhyML HGT Detector 3.2 0 1 1 0 2 2.01 Probcons PhyML 0 0 1 0 0 1.68 SEQBOOT (Phylip) PROTML (Phylip) 1 0 0 0 0 0.82 Seq- Gen Blast (NCBI) 0 0 0 1 0 0.78 Seq- Gen ClustalW2 0 1 0 0 0 0.92 Encoding of Type IV W1 W2 W3 W4 W5 Weights for Encoding of Type IV Blast (NCBI) 0 0 0 1 0 0.10 HGT Detector 3.2 1 1 1 0 1 1.00 Robinson&Foulds distance 0 0 0 1 0 0.10 ClustalW2 PhyML 0 1 0 0 1 0.10 Muscle PhyML 0 0 0 0 1 0.10 Muscle SEQBOOT (Phylip) 1 0 0 0 0 0.10 PROTML (Phylip) HGT Detector 3.2 1 0 0 0 0 1.00 PhyML HGT Detector 3.2 0 1 1 0 2 1.00 Probcons PhyML 0 0 1 0 0 0.10 SEQBOOT (Phylip) PROTML (Phylip) 1 0 0 0 0 0.10 Seq- Gen Blast (NCBI) 0 0 0 1 0 0.10 Seq- Gen ClustalW2 0 1 0 0 0 0.10 INPUT_Sequences 1 0 1 0 1 1.00 INPUT_Tree 1 1 1 2 0 1.00 OUTPUT_Blast (NCBI) 0 0 0 1 0 1.00 OUTPUT_Matrix 1 1 1 1 1 1.00 OUTPUT_MultipleTrees 0 0 0 1 0 1.00 OUTPUT_OutputText 1 1 1 2 1 1.00 OUTPUT_Results 1 1 1 1 1 1.00 Vecteur de temps moyens Vecteur de poids Disperser les tâches similaires pour des exécutions plus rapides Encourager la réutilisation des données (génomiques) Matrice d occurrence

Distance entre les flux de travaux Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Soit w une matrice bidimensionnelle contenant des mesures pour n éléments (i.e. des flux de travaux) et m variables (i.e. des tâches individuelles ou des paires de tâches). Soit y = {y 1,, y m } le vecteur de coefficients de pondérations attribués aux variables, on retrouve les distances d : Distance Euclidienne pondérée: d ij = m p= 1 y p ( w ip w jp ) 2 Distance cosine pondérée: d ij = 1 cosθ = 1 m p= 1 m p= 1 y p y p w ( w 2 ip ip w m p= 1 jp y ) p w 2 jp

Méthodes de regroupement Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Méthodes hiérarchiques UPGMA (Sokal et Michener, 1958) Neighbor Joining (Saitou et Nei, 1987) FITCH et KITSCH (Fitch et Margoliash, 1967) Méthodes de partitionnement k-means (MacQueen, 1967) k-medoids (Kauffman et Rousseeuw, 1990)

Algorithmes de k- means et k- medoids k=2 k=2 Note: le nombre de groupes (k) est déterminé préalablement.

Choix du nombre de classes (K) Flux de travaux Encodage mesure de distance méthode de regroupement Nombre de groupes Indice de Calinski et Harabasz (1974) CH ( K) = SS SS ( n K) ( K 1) K B 2 SSB = nk meank mean W k = 1 SS W = K n k k = 1 i= 1 w ik mean k 2 n k, nombre d éléments dans la classe k; w ik, flux de travaux i dans la classe k. Indice Silhouette (Rousseeuw, 1987) nk b( i) a( i) s( k) / nk max( a( i), b( i)) i 1 K = s( K) = [ s( k) ]/ K = k = 1 a(i), distance moyenne de i avec les autres éléments du groupe k; b(i), la plus petite distance entre les différents groupes. Indice LogSS (Hartigan, 1975) SS logss ( K) = log SS Revue par : B W Milligan et Cooper (1985) Psychometrika, 50(2), 159-179. Arbelaitz et al. (2013) Pattern Recognition, 46(1), 243-256.

Jeux de données Nombre de flux de travaux (N) Encodage de Types I et II Simulations Deux jeux de données de flux de travaux bioinformatiques et phylogénétiques. Encodage de Type III Encodaged e Type IV Nombre de classes (K) Mots-clés utilisés pour l encodage de Types II et IV Armadillo 120 17 30 47 4 HGT myexperiment 100 318 345 497 15 BLAST Évaluation des méthodes de partitionnement : Indice Rand (1971) Évaluation des méthodes hiérarchiques : Distance de Robinson et Foulds (1981) a + b RI = n 2 a, nombre d éléments dans les mêmes classes dans les deux partitions. b, nombre d éléments qui sont dans des classes différentes dans les deux partitions. ( B1 ) ( B2 ) + ( B2 ) ( B1 ) d RF ( T1, T2 ) =. 2 B 1 et B 2 représentent le nombre de bipartitions non triviales entre les arbres T 1 et T 2.

Résultats pour le jeu de données d Armadillo (n=120) (a) Effet du critère d'optimisation; (b) Effet du type d encodage; (c) Effet de la mesure de distances; (d) Effet de l'algorithme de partitionnement appliqué;

Conclusions pour le regroupement par partitionnement (a) Effet des critères d'optimisation pour les encodages non pondérés (les deux premiers jeux de barres) et pondérés (quatre derniers jeux de barres); (b) Effet de la mesure de distances; (c) Effet de l'algorithme de partitionnement appliqué; La distance cosine pondérée, utilisée avec l algorithme k-medoids, l encodage de type I et l indice Silhouette, montre la meilleure performance. N.B. Les plus grandes valeurs de l indice Rand sont les meilleures.

Regroupement hiérarchique pour le jeu de données d Armadillo Classification hiérarchique des stratégies de regroupement évaluées sur le jeu de données d Armadillo (n=120) Évaluation de la distance Euclidienne et cosine pondérée et non-pondérée avec les algorithmes de regroupement hiérarchique UPGMA, Neighbor-Joining, FITCH, KITSCH et les encodages de type I à IV. Classification hiérarchique en utilisant la distance de Robinson et Foulds obtenue par l algorithme Neighbor- Joining avec le logiciel T-Rex et Mega.

Conclusions pour le regroupement hiérarchique (a) Effet des critères d'optimisation pour les encodages non pondérés (les deux premiers jeux de barres) et pondérés (quatre derniers jeux de barres); (b) Effet de l'algorithme de partitionnement appliqué; (c) Effet de la mesure de distance; L encodage de type I avec la distance cosine et l algorithme de Fitch ont démontré une meilleure performance. N.B. Les plus petites valeurs de la distance de Robinson et Foulds (RF) sont les meilleurs.

Problématique Problématique: les algorithmes de regroupement sont des heuristiques et même avec un nombre de classes fixe, différentes solutions de partitionnement sont obtenues. Peut-on avoir une mesure du support de ce partitionnement? Galphimia Nicotiana Petunia Lycopersi 100 46 Cypirapea Oenothera 100 Victoria Barclaya 0.01 Arbre phylogénétique avec scores de support obtenus par la méthode de bootstrap.

Critère de support pour la Comparaison de flux de travaux Lord, E., Diallo, A. B., et Makarenkov, V. (2014a). Workflow classification using partitioning and hierarchical clustering algorithms (soumis à Advances in Data Analysis and Classification).

Nouveau critère de support : idée de base Flux de travaux Partitionnement Exemple: les flux de travaux 1 et 2 sont toujours réunis. Comment décider que l on a trouvé le regroupement par partitionnement idéal si deux indices donnent des résultats différents? Le flux de travaux 3 change souvent de partition. Indice CH 55.00 50.0 45.00 40.0 35.00 (c) 1 500 1000 999 Partitions Indice SI 1.00 0.98 0.96 0.94 0.95 (d) 1 500 1000 999 Partitions

Nouveau critère de support : calcul de la valeur de support par paires PS S q, ij = Valeur de l indice de regroupement sélectionné pour le partitionnement q (S q ), si w i et w j sont dans la même classe lors du partitionnement Sinon, 0 S qi = S q, si w i est dans une classe singleton Sinon, 0 Flux de travaux W1 0 W2 1 0 PS( w, w i j ) W3 0.17 0.17 0.45 W4 0 0 0.37 0 W5 0 0 0.37 1 0 W6 0 0 0.37 1 1 0 Q q= 1 = Q q= 1 S q, ij S q PS( w ) i Q q= 1 = Q q= 1 S S qi q

Nouveau critère de support : calcul du support individuel PSG PSG( w ) = Support individuel (PSG) 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 i ( n j= 1( j i) max( PS( w, w i j ),1 PS( w, w i n j ))) + max( PS( w ),1 PS( w )) i i En conclusion, ce critère de support peut servir à identifier des éléments mal supportés, y compris les outliers, sans avoir à utiliser des techniques telles que le bootstrap ou jacknife (Hennig (2008). Journal of multivariate analysis, 99(6), 1154-1176).

PSG( W ) = 2( n i= 1 i 1 j = 1 Jeu de données d Armadillo (n=120) max( PS( w, w i j ),1 PS( w, w i n 2 j )) + n i= 1 max( PS( w ),1 i PS( w ))) i k-means Critères de regroupement k-means k-medoids Calinski- Harabasz 0.940 0.690 Silhouette 0.664 0.847 logss 0.653 0.830 k-medoids

Application du critère de support à d autres jeux de données? Jeu de données de Iris, Fisher (1936) (a) Classification originale Iris setosa Iris virginica Iris setosa Iris versicolor (b) k-means 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris versicolor Iris setosa Iris versicolor Iris virginica (c) k-medoids 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris setosa Iris versicolor Iris virginica Iris virginica

Application du critère de support à d autres jeux de données? Jeu de données de Iris, Fisher (1936) (a) Classification originale Iris setosa Iris virginica Iris setosa Méthode de regroupement k-mean Iris versicolor k-medoids Iris versicolor (b) k-means 1.0 Iris Iris Iris 0.8 Indices d optimisation 0.6 setosa versicolor virginica Calinski-Harabasz 0.99±0.01 0.92±0.02 0.91±0.03 Support (PSG) 0.4 Calinski- Harabasz 0.2 Silhouette 0.0 0.98±0.01 Silhouette 0.94±0.02 0.90±0.03 Iris setosa Iris versicolor Iris virginica Calinski-Harabasz 0.98±0.01 0.90±0.08 0.94±0.01 (c) k-medoids Silhouette 0.90±0.01 0.76±0.01 0.78±0.01 1.0 Support (PSG) 0.8 0.6 0.4 0.2 0.0 Calinski- Harabasz Silhouette Iris virginica Iris setosa Iris versicolor Iris virginica

Exemples de Flux de travaux bioinformatiques Ransy, D. G., Lord, E., Caty, M., Lapointe, N., Boucher, M., Diallo, A. B., Soudeyns, H. (2014). Subtle Differences in Selective Pressures Applied on the Envelope Gene of HIV-1 in Pregnant Versus Non-Pregnant Women. (soumis à Journal of Virology). Lord, E., Remita, M. A., Agharbaoui, Z., Leclercq, M., Badawi, M. A., Makarenkov, V., Sarhan, F., et Diallo, A. B. (2014b). WMP: A novel comprehensive Wheat mirna database, including related bioinformatics software (soumis à Molecular Biology and Evolution).

Exemple: études de l évolution du VIH chez les femmes enceintes Étude de la pression sélective sur la protéine gp120 du virus de l immunodéficience humaine de type I (VIH) chez les femmes enceintes. Ransy, D. G., Lord, E. et al. (soumis à Journal of Virology). (A) Répétition de l analyse de plusieurs jeux de données. (B) Alignement des séquences, à l aide du logiciel Muscle (Edgar, 2004), de la protéine gp120. (C) Inférence de l arbre phylogénétique à partir d une méthode de maximum de vraisemblance. (D) Logiciel PAML utilisé pour l évaluation de la pression sélective à différents sites.

Exemple : flux de travaux utilisé pour annoter les séquences cibles Création d une banque de données de petits ARNs chez le blé. Lord, E. et al. (soumis à Molecular Biology and Evolution). (A) Exécution concurrente de l algorithme de recherche de séquences BLAST sur les bases de données de séquences NCBI et SwissProt. (B) Exécution conditionnelle de la recherche ontologique si on a des résultats en (A). (C) Recherche par la méthode BLAST, mais sur la base de données TReMBL et recherche ontologique sur ces résultats, s il n y a pas de résultats en (A).

Conclusions et perspectives

Conclusions Nous avons analysé, conçu, et implémenté une nouvelle plate-forme de flux de travaux phylogénétique. Nous avons proposé et validé par simulations quatre stratégies d encodage des flux de travaux. Nous avons validé l utilisation d une distance cosine pondérée pour le regroupement des flux de travaux. Un nouveau critère de support a été proposé. Des flux de travaux créés et exécutés dans la plateforme Armadillo pour réaliser une étude sur le VIH de type I chez des femmes enceintes et une nouvelle banque de données de petits ARNs chez le blé.

Perspectives : la plate-forme pourrait être adaptée à d autres domaines Alignment informatio n BAli- phy ClustalW ClustalW2 GBlock Kalign Garli Mafft Muscle TBA Probcons T- Coffee HGT Detector (UQAM) LatTrans PhyloNet - RiataHGT Ancestor (UQAM) jmodeltest (Nucleic Acid) ProtTest (Amino Acid) Une sélection de commandes Linux fastdnaml DNAPARS (Phylip) PhyML NEIGHBOR (Phylip) RootTree (using MidPoint) PROML (Phylip) Robinson& Fould (UQAM) PRODIST (Phylip) TreeDist (Phylip) RETREE (Phylip) CONSENSE (Phylip) SEQBOOT (Phylip) DNADIST (Phylip) PaML (baseml) DNAML (Phylip) PaML (codeml) DNAML- Erate PaML (yn00) cd ls rm cp mv chown chmod chgrp Convert to Protein or DNA Filter Concatenat e Create Groups Rename Remove Save to File Split Generate HTML Archaeopteryx Scriptree Output to Screen Download from WWW Custom Progra m Rshell* Load Files Run Java (Code) SQL Database query Load Sequences Random Sequences Blast Download Load Trees Random Trees Create Local BlastDB Regular Expression Seq- Gen LocalBlast pwd mkdir rmdir scp rcp mmv su / sudo date times sleep uniq nice slocate locate df bzip2 tar gzip dbfetch (Web EBI) EB- Eye (Web EBI) Ncbi Download Ncbi eutils (Pubmed) Fetch Sequences Ncbi BioMart* Blast Web Ncbi Phylogénétique man help read paste Rind du sort tsort tree top ps bg cron crontab time env export kill let declare set unset uuencode uudecode alias adduser addgroup printf clear echo exec true false wget awk/ gawk sed command func@on if un@l eval more wc grep/ egrep head case for while continue break less tail cat cut

Remerciements Merci au laboratoire de bioinformatique à l Université du Québec à Montréal : Vladimir Makarenkov, Abdoulaye Baniré Diallo, Alix Boc, Mickael Leclercq, Alpha Boubacar Diallo, Dunarel Badescu, Amine Mohamed Remita, Nadia Tahiri

Complexités algorithmiques des algorithmes de regroupement K nombre de classes. n nombre d éléments. m nombre de variables pour chaque élément. i nombre d itération de l algorithme. * Basé sur l analyse de Xu, R., et Wunsch, D. (2005). IEEE Transactions on Neural Networks, 16(3), 645-678. ** Voir Riesen, K., et Bunke, H. (2009). International Journal of Pattern Recognition and Artificial Intelligence, 23(06), 1053-1081.