Manue de 'utiisateur de Wapam Tabe des matières 1Wapam, une recherche de motifs par automates pondérés...3 2Tutorie : un exempe simpe d'utiisation...3 Utiisation avec Rdisk...3 Utiisation sans Rdisk...6 3Entrée et sorties de données de Wapam...7 Données en entrée...7 Formuaire pour rechercher pusieurs motifs...7 Données de sortie...8 Format Web (HTML)...8 Format XML...9 Format CSV...9 Remarque sur e nombre de résutats...10 4Queques détais sur e fonctionnement de Wapam...10 Les automates pondérés (WFA)...10 Wapam et Wapam/Rdisk...12 Performances...13 Besoins spécifiques...13 Références...14 Page 1/14
Index des iustrations Iustration 1: exempe de saisie de données dans 'interface web...4 Iustration 2: Autre exempe de saisie de données dans 'interface web : recherche dans un génome5 Iustration 3: Autre exempe de saisie de données dans 'interface web : recherche dans une banque personnee...5 Iustration 4: Progression de a compiation des processeurs de Rdisk (FPGA) avant a fitration des séquences...5 Iustration 5 : Affichage des résutats de 'exempe en HTML.....6 Iustration 6: Positionnement du job ancé dans a fie d'attente des tâches de genocuster...6 Iustration 7: Exempe de a sortie HTML avec 'option «each sequence matched»...8 Iustration 8: Exempe de résutats avec 'option «each match». Dans cette séquence, e motif apparaît deux fois aux positions 481 et 593...9 Iustration 9: Exempe de a sortie au format XML...9 Iustration 10 Exempe de a sortie au format CVS...10 Iustration 11 : un automate pondéré du motif D [ILV] x(1,3) A....11 Iustration 12 : Exempe d'automate représentant un motif Prosite : D [ILV] x(1,3) A...11 Iustration 13 : Exempe d'automate modifié à a main...11 Iustration 14 : Achitecture matériee de WAPAM...12 Iustration 15 : Comparaison des temps de recherche de motif (* : estimations)...13 Page 2/14
1 Wapam, une recherche de motifs par automates pondérés Wapam est un outi de recherche de motifs déveoppé au sein de 'équipe de recherche SYMBIOSE et mis en igne sur e site de a pate forme OUEST genopoe. Wapam peut rechercher rapidement des motifs protéiques ou nucéiques, avec ou sans erreur(s), dans des génomes compets, dans des banques de données et dans des banques personnees (maxi. 80M). L'interface Web permet aux utiisateurs de ancer eur requête sur e custer de machines (genocuster) mis à disposition par a pate forme ou d'utiiser 'accéérateur Rdisk. Rdisk est une architecture spéciaisée conçu par 'équipe de recherche SYMBIOSE pour réduire considérabement e temps de recherche du motif dans es séquences cibes. La première particuarité de Wapam, est qu'i recherche des motifs exprimés en automates pondérés (WFA) (voir e chapitre 4). Les automates pondérés peuvent être générés à partir de motifs Prosite. Chaque séquence est enfiée progressivement dans cet automate. I en ressort un score seui qui permet d'évauer 'adéquation de a séquence avec e motif.. Typiquement, un score simpe : c'est e nombre d'erreurs de substitutions par rapport à un motif Prosite. Si e score passe au dessus d'un certain seui, e motif est détecté à a position courante (exempe : si une seue substitution est toérée e score seui sera égae à 1 et e motif sera détecté si e score est supérieur ou éga à 1. Une recherche avec Wapam avec ou sans erreurs prend e même temps d'exécution. L'autre particuarité de Wapam est son coupage avec a machine prototype Rdisk qui permet une accéération matériee du cacu. Lors d'une étape de compiation, 'automate du motif est transformé en circuit spéciaisé. Chacun des 31 processeurs reconfigurabes qui composent Rdisk sont ensuite paramétrés avec ce circuits. La séquence est divisée en 31 morceaux qui sont traités dans chacun des processeurs. 2 Tutorie : un exempe simpe d'utiisation Utiisation avec Rdisk Page 3/14
Iustration 1: exempe de saisie de données dans 'interface web Nous souhaitons rechercher e motif Prosite D [ILV] x(1,3) A dans a bases de données protéiques SwissProt. I faut aors générer 'automate en appuyant sur e bouton correspondant. L'automate représentant ce motif se trouve dans 'iustration 1 I est important de noter que si une modification de paramètres est effectuée aors que 'automate est généré, i faut e générer une nouvee fois. Ici nous avons choisi d'utiiser Rdisk. Iustration 1: Exempe de saisie de données I est possibe de modifier 'automate, par exempe pour donner pus de poids à une transition (voir e chapitre 4). Nous aurions pu aussi choisir de rechercher ce motif dans un génome comme dans 'iustration 2 Dans ce cas i faut préciser 'organisme et e ou es chromosome(s) vous pouvez séectionner pusieurs chromosomes avec a touche maj. et s'assurer que 'option «each sequence matched» est séectionnée. Page 4/14
Iustration 2: Autre exempe de saisie de données dans 'interface web : recherche dans un génome Enfin i est possibe de réaiser une recherche de motif dans une banque personnee (Iustration 3 Attention votre banque ne doit pas dépasser 80M et es séquences sont au format FASTA. Iustration 3: Autre exempe de saisie de données dans 'interface web : recherche dans une banque personnee. Une page de mise en attente affiche un indicateur de progression de compiation et de passage des séquences comme indiqué sur 'iustration 4. Iustration 4: Progression de a compiation des processeurs de Rdisk (FPGA) avant a fitration des séquences. Les résutats sont aors ceux représentés dans 'iustration 5. Page 5/14
Iustration 5 : Affichage des résutats de 'exempe en HTML.. Utiisation sans Rdisk Les saisies sont es mêmes que dans 'iustration 1, i suffit de ne pas cocher a case Rdisk. L'iustration 6, montre e nombre de jobs en attente sur genocuster. La requête est pacée dans cette fie d'attente avant d'être exécutée sur un des noeuds du custer de machines. Iustration 6: Positionnement du job ancé dans a fie d'attente des tâches de genocuster. Les résutats sont es mêmes que dans 'iustration 5. Page 6/14
3 Entrée et sorties de données de Wapam Données en entrée Les paramètres à rempir sur e formuaire Web sont es suivants : Donner son emai est optionne, mais conseié. Certaines recherches peuvent être assez ongues, vous risquez donc de fermer votre navigateur et ainsi de perdre e ien sur a page résutat. Dans tous es cas e fichier résutat est sauvegardé 5 jours sur nos serveurs. Le nom de motif est égaement facutatif. I vous permet de différencier vos requêtes orsque vous en ancez pusieurs. Si votre motif est nucéique vous devez e préciser. Choisir d'utiiser Rdisk ou non. La machine spéciaisée Rdisk permet d'accéérer es cacus (voir ci dessous). C'est un prototype de recherche qui peut être souvent hors service. Définir es séquences cibes. La pate forme met à disposition environ 200 génomes et une vingtaine de banques de données. Des génomes et bases de données peuvent être rajoutées à a demande (webmaster@genouest.org). Si on utiise Rdisk ce choix est beaucoup pus imité, mais à encore nous pouvons faire des rajouts à a demande.vous pouvez égaement importer vos séquences personnees. Choisir e type de résutat : toutes es occurences de motifs («chaque match») ou juste es séquences qui matchent avec e motif («chaque sequence qui match»). Habitueement, vous choisirez «eatch match» (en particuier orsque a recherche se fait dans un génome). Formuaire pour rechercher pusieurs motifs Accessibe par un ien qui est en haut à gauche du formuaire. I permet de ancer Wapam itérativement sur un ensembe de motifs (ensembe de motifs dans un format texte et non au format Word). Les autres paramètres d'entrée sont identiques. Dans ce cas d'utiisation : es matrices des motifs ne sont pas modifiabes manueement. Les résutats sont excusivement envoyés par mai : soit un mai par résutat, soit un seu mai pour tous es résutats. Les résutats sont aors enregistrés dans un unique fichier. Pour avoir des renseignements sur e ancement d'un ensembe de motifs ou pour mettre en pace un traitement avec de nombreux motifs, contactez webmaster@genouest.org. Page 7/14
Données de sortie Les 3 formats de description des résutats contiennent exactement es mêmes données mais ees sont présentées différemment. Format Web (HTML) Le format HTML vous permet de visuaiser vos données dans un tabeau dans votre navigateur internet (iustration 7). Iustration 7: Exempe de a sortie HTML avec 'option «each sequence matched» Le nombre de résutats affichés sur une page peut être déterminé en rempissant e champ texte «Resut per pages» en haut de a page (par défaut 1500). Les données récupérées (iustration 7) sont : Le nom du chromosome ou de a séquence. Vous pouvez aer directectement au chromosome ou à a séquence qui vous intéresse en ciquant sur e champ «jump to» en haut de a page. Le brin (pour 'instant a recherche ne se fait que sur e brin pus) La position de début et a position de fin de a séquence affichée dans es résutats (et non cee du motif). e coût ou nombre d'erreurs par rapport au motif initia La séquence dont on peut séectionner a ongueur d'affichage dans e champ texte «maximum sequences ength» en haut de a page (par défaut 30). La ongueur réee de a portion de a séquence affichée. Page 8/14
Iustration 8: Exempe de résutats avec 'option «each match». Dans cette séquence, e motif apparaît deux fois aux positions 481 et 593. Format XML Le format XML (iustration 9) est un format standard (cf http://www.w3.org/xml/1999/xml in 10 points.fr.htm) permettant d'enregistrer des données de façon à ce qu'ee puissent être reues faciement par un humain ou un programme. Vous en aurez peut être besoin si vous souhaitez traiter es données automatiquement par un script que vous souhaitez écrire vous même. En réaité, e format Web est produit à partir du format XML. Iustration 9: Exempe de a sortie au format XML Format CSV Le format CVS (iustration 10 ) permet d'importer vos données dans n'importe que ogicie tabeur comme Exce ou Open Office.Cac. I est ui aussi traduit à partir du format XML. Le format CSV utiisé par WAPAM est e suivant : e séparateur de champs est a virgue, e séparateur de texte est e guiemet. Pour récupérer un document CSV dans Exce, 1. Sur 'interface web de WAPAM, ciquez sur e bouton droit de a souris sur e ien 'Description des résutats au format CSV'', enfin ciquez sur 'Enregistrer a cibe du ien sous...' 2. Dans Exce : Fichier/Ouvrir 3. Séectionnez "tous" dans 'type de fichier' 4. Séectionnez e type de fichier CSV et vaidez 5. Séectionnez toute a coonne A Page 9/14
6. Dans e menu "Données" séectionnez "Convertir" 7. Choisissez 'option "déimité" et appuyez sur "suivant" 8. Indiquez comme séparateur a virgue et comme indicateur de texte e guiemet 9. Ciquez sur terminer 10. Vous n'avez pus qu'à formater votre tabeau comme bon vous sembe. Iustration 10 Exempe de a sortie au format CVS Remarque sur e nombre de résutats Nous avons imité e nombre de résutats en sortie de Wapam (par genocuster : 2000 / par Rdisk : 500). En effet, une requête avec un trop grand nombre de réponses apparaît difficiement interprétabe : i est aors préférabe que 'utiisateur bioogiste d'affine sa recherche. I est toutefois possibe d'augmenter ces seuis en contactant webmaster@genouest.org. 4 Queques détais sur e fonctionnement de Wapam Les automates pondérés (WFA) Un automate caractérisant un motif sera représenté par 'ensembe des positions du motif, reiés entre ees par des transitions (iustration 11). L'automate est pondéré, c'est à dire que chaque transition est étiquetée par une ettre qui peut être ue seon 'aphabet de a séquence (bases nucéique ou protéique) et par un poids. La séquence est progressivement «enfiée» dans 'automate, et, à chaque position, e poids de sa transition est additionné au score. Ce poids refète 'adéquation d'une partie de a séquence cibe (banque ou génome) avec a ettre ue à cette position dans e motif. Par défaut ce poids est éga à 1 si a ettre n'est pas a même (substitution) et à 0 si c'est a même. Le motif est reconnu orsque 'état fina est actif avec un score supérieur ou éga au score ou seui d'erreur fixé. Par exempe si une erreur est toérée e seui sera éga à 1. Page 10/14
Sur 'iustration 11 présentant un exempe d'automate pondéré, chaque rond est un état, chaque fèche est une transition. Iustration 11 : un automate pondéré du motif D [ILV] x(1,3) A. Les automates utiisés par Wapam sont sous a forme suivante (iustration 12). Par exempe, si a portion de séquence qui passe dans 'automate passe de 'état 0 à 1 en isant un D e coût sera de 0 sinon e coût sera de 1. Iustration 12 : Exempe d'automate représentant un motif Prosite : D [ILV] x(1,3) A. Les poids peuvent être pus généraux que e simpe décompte «0 / 1» ; i est possibe de modifier manueement 'automate. Par exempe a substitution de D par N, R ou A en première position peut coûter 3 au ieu de 1 (Iustration 13). Iustration 13 : Exempe d'automate modifié à a main. Page 11/14
La pateforme dispose d'autres outis pour générer des automates pondérés (génération de poids «à a BLOSSUM», utiisation de matrices poids/position PWM...) Contactez webmaster@genouest.org pour des questions à ce sujet. Wapam et Wapam/Rdisk Wapam peut être utiisé de deux façons (Iustration 14) : soit i est ancé sur genocuster (comme tous es autres ogicies de a pate forme) et a recherche se fait sur un noeud du custer, soit i est coupé avec 'architecture Rdisk qui paraéise a recherche sur un ensembe de cartes. Iustration 14 : Achitecture matériee de WAPAM. Rdisk est une architecture spéciaisée constituée de pusieurs dizaines de cartes (actueement 31). Chaque carte contient un processeur reconfigurabe (FPGA) coupé à un disque dur. Les automates pondérés sont directement cabés sur es FPGA, ce qui permet une évauation simutanée des états. Ce cabage utiise autant d'éements matéries que de transitions d'états dans 'automate. Les processeurs utiisés ont une surface pouvant caber des automates ayant jusqu'à une centaine de transitions. Les 31 cartes se partagent e baayage de a banque ou du génome (1/31 ieme par carte). L'ensembe du prototype Rdisk a été conçu pour fitrer rapidement es bases de données, es disques durs étant directement reiés aux processeurs FPGA. Rdisk étant un prototype de recherche, i n'est pas toujours en service. Si vous avez besoins de cacus intensif en recherche de motifs, contactez a pateforme (webmaster@genouest.org) pour que nous mettions en pace un traitement adapté de vos données ou de vos motifs. Page 12/14
Performances L'iustration15 présente une comparaison des temps de recherche de motif entre 'impémentation ogiciee de Wapam et 'accéération matériee Wapam/Rdisk (moyenne sur 50 motifs pris aéatoirement parmi un ensembe de 3331 motifs). Pour ne pas surcharger es serveurs, a recherche peut être arrêtée dès qu'i y a pus d'un certain nombre de résutats (auto stop). Dans tous es cas, une recherche avec Wapam avec ou sans erreurs prend e même temps d'exécution. Sur a version ogiciee, e temps d'exécution est inéaire par rapport à a taie de 'automate (et donc du motif). Pour Wapam/Rdisk, tous es motifs sont traités dans e même temps (tant qu'is sont acceptés par Rdisk, c'est à dire tant qu'i n'y a pas pus qu'une centaine de transitions). Wapam ogicie Wapam + autostop 2000 Wapam/Rdisk Wapam/Rdisk + précompiation 1 motif 2605 s 2003 s 72 s 23 s 3331 motifs 100 jours* 77 jours* < 3jours < 1jour Iustration 15 : Comparaison des temps de recherche de motif (* : estimations) L'accéération apportée par Rdisk est encore pus importante à partir du deuxième ancement, orsque es motifs ont déjà été compiés, car Wapam / Rdisk se souvient des automates pondérés compiés précedemment. La modification du seui d'erreur ne demande pas une nouvee compiation. Besoins spécifiques Nous sommes à votre disposition (webmaster@genouest.org) pour coaborer sur des tâches particuières, comme par exempe : ajouter d'autres banques de données, réaiser des automates pondérés répondant à des objectifs particuiers, mettre en pace sur e custer ou sur Rdisk des cacus intensifs (grand nombre de séquences, de motifs/d'automates, ancements itérés, anayse de résutats...); nous pouvons paramétrer finement Wapam pour obtenir es meieurs temps de cacus sur votre appication, vous fournir un accès à Wapam en igne de commande sur genocuster Page 13/14
Références Merci de citer a référence suivante dans vos travaux utiisant Wapam. Stéphane Guyetant, Mathieu Giraud, Ludovic L'Hours, Steven Derrien, Stéphane Rubini, Dominique Lavenier, and Frédéric Raimbaut. Custer of re configurabe nodes for scanning arge genomic banks. Parae Computing, 31(1):73 96, 2005. Page 14/14