Manuel d'utilisation de Wapam



Documents pareils
Lexmark Print Management

NUANCE The experience speaks for itself

Conception et réalisation d une sectorisation

Une grille pour évaluer la qualité de vos données et choisir votre outil de D Q M

La transformation du centre informatique. Les enjeux économiques, écologiques et métiers des centres informatiques

Automobile et aéronautique

UNICEF/ /Toutounji

Face au deuil, Vous n êtes pas seul(e) Ce guide vous est proposé par la Caf de Meurthe-et-Moselle et les Associations Deuil Espoir et Favec.

Vétérinaires : quelles perspectives d activité en 2010?

Master Actuariat-Finance Master Actuariat-Prévoyance Sociale. Prof ABDELKADER SALMI 2012

TSP 6500/7000 SÉRIE. Spécifications Chariots tridirectionnels à nacelle élevable

Rejoignez le. No 1 mondial. de la franchise *! Créez votre entreprise en Franchise avec SUBWAY.

Sécurité Lexmark pour les imprimantes et MFP compatibles avec les solutions

De la caractérisation à l identification des langues

La gestion de la relation client au sein de la PME. Contenu de la présentation. Le CRM outil pour les PME? SOGID SA

Guide d utilisation 4738

WIRELESS SYSTEM QLX-D USER GUIDE. Le Guide de l Utilisateur Shure Incorporated 27A22351 (Rev. 1)

NOTRE MISSION NOTRE APPROCHE NOTRE ÉQUIPE NOTRE MARCHÉ. Confiance. Professionnalisme. Confidentialité

Guide d utilisation 5117


La conception et les spécifications peuvent être modifiées sans préavis.

MUTUELLES DE SANTÉ ET ASSOCIATIONS DE MICRO-ENTREPRENEURS GUIDE

Comment s installer aux Canaries

Le recours à l Aide complémentaire santé : les enseignements d une expérimentation sociale à Lille

LE MANUEL DE L INITIATIVE DE LAVAGE DES MAINS

Une introduction à l analyse discriminante avec SPSS pour Windows

DE COMMERCE ET DE GESTION

PRIMOPIERRE. Société Civile de Placement Immobilier

2 juillet h00 Mairie de Saint-Priest

Système PBX IP hybride

Mesure de facteur de bruit sur analyseur de réseaux vectoriel corrigée en Paramètres-S. Frédéric Molina

Jacques Lévy, professeur à l'universités de Reims et à l'institut d'études politiques de Paris, fellow au Wissenschaftskolleg zu Berlin

l EXCLUSION, INCLUSION m

LE Chapitre I : Rappels généraux. Chapitre 13 Les câbles

Développement du leadership :

Informations techniques. Ultrason Mesure du niveau dans des liquides et des solides en vrac/pulvérulents VEGASON 61, 62, 63

Le Conseil général, acteur de l insertion

Bouclier sanitaire : choisir entre égalité et équité?

UNIVERSITÉ LIBRE DE BRUXELLES FACULTÉ DE PHARMACIE SCIENCES PHARMACEUTIQUES COSMÉTOLOGIE ET DERMOPHARMACIE PHARMACIE OFFICINALE PHARMACIE D INDUSTRIE

MÉCÉNAT PARTICIPATIF : tous à l œuvre! Cérémonie de décoration de donateurs de la culture

CI/SfB (29) Et6. Janvier Dispositifs d Attente pour Béton Armé Pour l Industrie de la Construction

Un guide du bailleur : pourquoi?...3

Dossier d actualité ARCHITECTURE DE L INFORMATION, ARCHITECTURE DES CONNAISSANCES VEILLE ET ANALYSES. Sommaire. n 74 Avril /16

Structures dynamiques Listes chaînées

Importation des données dans Open Office Base

de suivi et d évaluation de la participation des enfants

Serrurier Métallier. Thionville l Hayange l l s. Moyeuvre /Grande. Montigny les Metz l l l s. Morhange l s s. Verny. l l s Jarville l.

Intégration architecturale des équipements

Université libre FACULTÉ DES SCIENCES DE LA MOTRICITÉ. Kinésithérapie et réadaptation. Education physique. Ostéopathie.

ATLAS FORESTIER INTERACTIF DU GABON VERSION PILOTE Document de Synthèse

Infrastructure - Capacity planning. Document FAQ. Infrastructure - Capacity planning. Page: 1 / 7 Dernière mise à jour: 16/04/14 16:09

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

Les solutions pour une gestion de l éclairage simple et intelligente

Initiation à LabView : Les exemples d applications :

ENVOI EN NOMBRE DE SMS

SOMMAIRE. Vous souhaitez embaucher dans votre entreprise un ou plusieurs apprenti(e)s. INFOS APPRENTISSAGE

Utiliser Freemind à l'école

et Groupe Eyrolles, 2006, ISBN :

SYMBIOSES. Comment changer les comportements? Jeter des idées sur le papier p.6. n o 70 mars, avril, mai 2006

OpenOffice Base Gestionnaire de Base de Données

Préconisations Portail clients SIGMA

1. INTRODUCTION On voit apparaître depuis quelques années des codes de calcul de tenue à la mer des navires par la méthode des singularités utilisant

Guide d'utilisation du Serveur USB

Octobre 2011 ALIMENTAIRE. DOSSIER SANTé SécURITé N 4. Proximité : le retour. Rachat de contrat assurance-vie = danger

ENVOI EN NOMBRE DE SMS

Le service de création de site Internet : Mode d emploi. La Création de Site Internet

SUGARCRM MODULE RAPPORTS

MEDIAplus elearning. version 6.6

Les Enseignants de l Ere Technologique - Tunisie. Niveau 1

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

MÉCANIQUE DES STRUCTURES

E.2.14 ACTIVITES ECONOMIQUES

Support pour les langues s écrivant de droite à gauche

Import des utilisateurs depuis Sconet et STSweb - mise à jour du 04/10/06

Les écarts des coûts hospitaliers sont-ils justifiables? Réflexions sur une convergence tarifaire entre les secteurs public et privé en France

Qu'est ce que le Cloud?

MODE OPERATOIRE OPENOFFICE BASE

Cours de Génie Logiciel

1. Installation du Module

Chess Arbiter Pro (version Dames) Notice d utilisation

Comptabilité - USR. Logiciel : Comptabilité USR - Version 2,16 Documentation réalisée par JJ Gorge Trésorier Tir à l'arc le 04/04/ / 15

PROJET TRIBOX-2012-A

Vous y trouverez notamment les dernières versions Windows, MAC OS X et Linux de Thunderbird.

Le Service de Télétransmission par Internet des banques du Réseau OCÉOR GUIDE UTILISATEURS. Version V1.0

Dossier d actualité PISA : CE QUE L ON EN SAIT ET CE QUE VEILLE ET ANALYSES. Sommaire. n 66 Oct Une évaluation qui polarise l attention 1/18

HP Data Protector Express Software - Tutoriel 4. Utilisation de Quick Access Control (Windows uniquement)

MANUEL DE L UTILISATEUR

Créer une base de données

Rapports d activités et financiers par Internet. Manuel Utilisateur

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Répondre à un courrier - Transférer un courrier 20

Guide de configuration de SQL Server pour BusinessObjects Planning

Réseau : Interconnexion de réseaux, routage et application de règles de filtrage.

Table des Matières. Pages 3-4. A propos d emblue. Page 5. L environnement emblue. Création d une campagne d marketing. Pages 6-15.

Livre blanc Mesure des performances sous Windows Embedded Standard 7

Installation et paramétrage. Accès aux modèles, autotextes et clip- art partagés

Séquence de découverte de SparkAngels Logiciel d entraide numérique

Table des matières : 16 ASTUCES OUTLOOK

Transcription:

Manue de 'utiisateur de Wapam Tabe des matières 1Wapam, une recherche de motifs par automates pondérés...3 2Tutorie : un exempe simpe d'utiisation...3 Utiisation avec Rdisk...3 Utiisation sans Rdisk...6 3Entrée et sorties de données de Wapam...7 Données en entrée...7 Formuaire pour rechercher pusieurs motifs...7 Données de sortie...8 Format Web (HTML)...8 Format XML...9 Format CSV...9 Remarque sur e nombre de résutats...10 4Queques détais sur e fonctionnement de Wapam...10 Les automates pondérés (WFA)...10 Wapam et Wapam/Rdisk...12 Performances...13 Besoins spécifiques...13 Références...14 Page 1/14

Index des iustrations Iustration 1: exempe de saisie de données dans 'interface web...4 Iustration 2: Autre exempe de saisie de données dans 'interface web : recherche dans un génome5 Iustration 3: Autre exempe de saisie de données dans 'interface web : recherche dans une banque personnee...5 Iustration 4: Progression de a compiation des processeurs de Rdisk (FPGA) avant a fitration des séquences...5 Iustration 5 : Affichage des résutats de 'exempe en HTML.....6 Iustration 6: Positionnement du job ancé dans a fie d'attente des tâches de genocuster...6 Iustration 7: Exempe de a sortie HTML avec 'option «each sequence matched»...8 Iustration 8: Exempe de résutats avec 'option «each match». Dans cette séquence, e motif apparaît deux fois aux positions 481 et 593...9 Iustration 9: Exempe de a sortie au format XML...9 Iustration 10 Exempe de a sortie au format CVS...10 Iustration 11 : un automate pondéré du motif D [ILV] x(1,3) A....11 Iustration 12 : Exempe d'automate représentant un motif Prosite : D [ILV] x(1,3) A...11 Iustration 13 : Exempe d'automate modifié à a main...11 Iustration 14 : Achitecture matériee de WAPAM...12 Iustration 15 : Comparaison des temps de recherche de motif (* : estimations)...13 Page 2/14

1 Wapam, une recherche de motifs par automates pondérés Wapam est un outi de recherche de motifs déveoppé au sein de 'équipe de recherche SYMBIOSE et mis en igne sur e site de a pate forme OUEST genopoe. Wapam peut rechercher rapidement des motifs protéiques ou nucéiques, avec ou sans erreur(s), dans des génomes compets, dans des banques de données et dans des banques personnees (maxi. 80M). L'interface Web permet aux utiisateurs de ancer eur requête sur e custer de machines (genocuster) mis à disposition par a pate forme ou d'utiiser 'accéérateur Rdisk. Rdisk est une architecture spéciaisée conçu par 'équipe de recherche SYMBIOSE pour réduire considérabement e temps de recherche du motif dans es séquences cibes. La première particuarité de Wapam, est qu'i recherche des motifs exprimés en automates pondérés (WFA) (voir e chapitre 4). Les automates pondérés peuvent être générés à partir de motifs Prosite. Chaque séquence est enfiée progressivement dans cet automate. I en ressort un score seui qui permet d'évauer 'adéquation de a séquence avec e motif.. Typiquement, un score simpe : c'est e nombre d'erreurs de substitutions par rapport à un motif Prosite. Si e score passe au dessus d'un certain seui, e motif est détecté à a position courante (exempe : si une seue substitution est toérée e score seui sera égae à 1 et e motif sera détecté si e score est supérieur ou éga à 1. Une recherche avec Wapam avec ou sans erreurs prend e même temps d'exécution. L'autre particuarité de Wapam est son coupage avec a machine prototype Rdisk qui permet une accéération matériee du cacu. Lors d'une étape de compiation, 'automate du motif est transformé en circuit spéciaisé. Chacun des 31 processeurs reconfigurabes qui composent Rdisk sont ensuite paramétrés avec ce circuits. La séquence est divisée en 31 morceaux qui sont traités dans chacun des processeurs. 2 Tutorie : un exempe simpe d'utiisation Utiisation avec Rdisk Page 3/14

Iustration 1: exempe de saisie de données dans 'interface web Nous souhaitons rechercher e motif Prosite D [ILV] x(1,3) A dans a bases de données protéiques SwissProt. I faut aors générer 'automate en appuyant sur e bouton correspondant. L'automate représentant ce motif se trouve dans 'iustration 1 I est important de noter que si une modification de paramètres est effectuée aors que 'automate est généré, i faut e générer une nouvee fois. Ici nous avons choisi d'utiiser Rdisk. Iustration 1: Exempe de saisie de données I est possibe de modifier 'automate, par exempe pour donner pus de poids à une transition (voir e chapitre 4). Nous aurions pu aussi choisir de rechercher ce motif dans un génome comme dans 'iustration 2 Dans ce cas i faut préciser 'organisme et e ou es chromosome(s) vous pouvez séectionner pusieurs chromosomes avec a touche maj. et s'assurer que 'option «each sequence matched» est séectionnée. Page 4/14

Iustration 2: Autre exempe de saisie de données dans 'interface web : recherche dans un génome Enfin i est possibe de réaiser une recherche de motif dans une banque personnee (Iustration 3 Attention votre banque ne doit pas dépasser 80M et es séquences sont au format FASTA. Iustration 3: Autre exempe de saisie de données dans 'interface web : recherche dans une banque personnee. Une page de mise en attente affiche un indicateur de progression de compiation et de passage des séquences comme indiqué sur 'iustration 4. Iustration 4: Progression de a compiation des processeurs de Rdisk (FPGA) avant a fitration des séquences. Les résutats sont aors ceux représentés dans 'iustration 5. Page 5/14

Iustration 5 : Affichage des résutats de 'exempe en HTML.. Utiisation sans Rdisk Les saisies sont es mêmes que dans 'iustration 1, i suffit de ne pas cocher a case Rdisk. L'iustration 6, montre e nombre de jobs en attente sur genocuster. La requête est pacée dans cette fie d'attente avant d'être exécutée sur un des noeuds du custer de machines. Iustration 6: Positionnement du job ancé dans a fie d'attente des tâches de genocuster. Les résutats sont es mêmes que dans 'iustration 5. Page 6/14

3 Entrée et sorties de données de Wapam Données en entrée Les paramètres à rempir sur e formuaire Web sont es suivants : Donner son emai est optionne, mais conseié. Certaines recherches peuvent être assez ongues, vous risquez donc de fermer votre navigateur et ainsi de perdre e ien sur a page résutat. Dans tous es cas e fichier résutat est sauvegardé 5 jours sur nos serveurs. Le nom de motif est égaement facutatif. I vous permet de différencier vos requêtes orsque vous en ancez pusieurs. Si votre motif est nucéique vous devez e préciser. Choisir d'utiiser Rdisk ou non. La machine spéciaisée Rdisk permet d'accéérer es cacus (voir ci dessous). C'est un prototype de recherche qui peut être souvent hors service. Définir es séquences cibes. La pate forme met à disposition environ 200 génomes et une vingtaine de banques de données. Des génomes et bases de données peuvent être rajoutées à a demande (webmaster@genouest.org). Si on utiise Rdisk ce choix est beaucoup pus imité, mais à encore nous pouvons faire des rajouts à a demande.vous pouvez égaement importer vos séquences personnees. Choisir e type de résutat : toutes es occurences de motifs («chaque match») ou juste es séquences qui matchent avec e motif («chaque sequence qui match»). Habitueement, vous choisirez «eatch match» (en particuier orsque a recherche se fait dans un génome). Formuaire pour rechercher pusieurs motifs Accessibe par un ien qui est en haut à gauche du formuaire. I permet de ancer Wapam itérativement sur un ensembe de motifs (ensembe de motifs dans un format texte et non au format Word). Les autres paramètres d'entrée sont identiques. Dans ce cas d'utiisation : es matrices des motifs ne sont pas modifiabes manueement. Les résutats sont excusivement envoyés par mai : soit un mai par résutat, soit un seu mai pour tous es résutats. Les résutats sont aors enregistrés dans un unique fichier. Pour avoir des renseignements sur e ancement d'un ensembe de motifs ou pour mettre en pace un traitement avec de nombreux motifs, contactez webmaster@genouest.org. Page 7/14

Données de sortie Les 3 formats de description des résutats contiennent exactement es mêmes données mais ees sont présentées différemment. Format Web (HTML) Le format HTML vous permet de visuaiser vos données dans un tabeau dans votre navigateur internet (iustration 7). Iustration 7: Exempe de a sortie HTML avec 'option «each sequence matched» Le nombre de résutats affichés sur une page peut être déterminé en rempissant e champ texte «Resut per pages» en haut de a page (par défaut 1500). Les données récupérées (iustration 7) sont : Le nom du chromosome ou de a séquence. Vous pouvez aer directectement au chromosome ou à a séquence qui vous intéresse en ciquant sur e champ «jump to» en haut de a page. Le brin (pour 'instant a recherche ne se fait que sur e brin pus) La position de début et a position de fin de a séquence affichée dans es résutats (et non cee du motif). e coût ou nombre d'erreurs par rapport au motif initia La séquence dont on peut séectionner a ongueur d'affichage dans e champ texte «maximum sequences ength» en haut de a page (par défaut 30). La ongueur réee de a portion de a séquence affichée. Page 8/14

Iustration 8: Exempe de résutats avec 'option «each match». Dans cette séquence, e motif apparaît deux fois aux positions 481 et 593. Format XML Le format XML (iustration 9) est un format standard (cf http://www.w3.org/xml/1999/xml in 10 points.fr.htm) permettant d'enregistrer des données de façon à ce qu'ee puissent être reues faciement par un humain ou un programme. Vous en aurez peut être besoin si vous souhaitez traiter es données automatiquement par un script que vous souhaitez écrire vous même. En réaité, e format Web est produit à partir du format XML. Iustration 9: Exempe de a sortie au format XML Format CSV Le format CVS (iustration 10 ) permet d'importer vos données dans n'importe que ogicie tabeur comme Exce ou Open Office.Cac. I est ui aussi traduit à partir du format XML. Le format CSV utiisé par WAPAM est e suivant : e séparateur de champs est a virgue, e séparateur de texte est e guiemet. Pour récupérer un document CSV dans Exce, 1. Sur 'interface web de WAPAM, ciquez sur e bouton droit de a souris sur e ien 'Description des résutats au format CSV'', enfin ciquez sur 'Enregistrer a cibe du ien sous...' 2. Dans Exce : Fichier/Ouvrir 3. Séectionnez "tous" dans 'type de fichier' 4. Séectionnez e type de fichier CSV et vaidez 5. Séectionnez toute a coonne A Page 9/14

6. Dans e menu "Données" séectionnez "Convertir" 7. Choisissez 'option "déimité" et appuyez sur "suivant" 8. Indiquez comme séparateur a virgue et comme indicateur de texte e guiemet 9. Ciquez sur terminer 10. Vous n'avez pus qu'à formater votre tabeau comme bon vous sembe. Iustration 10 Exempe de a sortie au format CVS Remarque sur e nombre de résutats Nous avons imité e nombre de résutats en sortie de Wapam (par genocuster : 2000 / par Rdisk : 500). En effet, une requête avec un trop grand nombre de réponses apparaît difficiement interprétabe : i est aors préférabe que 'utiisateur bioogiste d'affine sa recherche. I est toutefois possibe d'augmenter ces seuis en contactant webmaster@genouest.org. 4 Queques détais sur e fonctionnement de Wapam Les automates pondérés (WFA) Un automate caractérisant un motif sera représenté par 'ensembe des positions du motif, reiés entre ees par des transitions (iustration 11). L'automate est pondéré, c'est à dire que chaque transition est étiquetée par une ettre qui peut être ue seon 'aphabet de a séquence (bases nucéique ou protéique) et par un poids. La séquence est progressivement «enfiée» dans 'automate, et, à chaque position, e poids de sa transition est additionné au score. Ce poids refète 'adéquation d'une partie de a séquence cibe (banque ou génome) avec a ettre ue à cette position dans e motif. Par défaut ce poids est éga à 1 si a ettre n'est pas a même (substitution) et à 0 si c'est a même. Le motif est reconnu orsque 'état fina est actif avec un score supérieur ou éga au score ou seui d'erreur fixé. Par exempe si une erreur est toérée e seui sera éga à 1. Page 10/14

Sur 'iustration 11 présentant un exempe d'automate pondéré, chaque rond est un état, chaque fèche est une transition. Iustration 11 : un automate pondéré du motif D [ILV] x(1,3) A. Les automates utiisés par Wapam sont sous a forme suivante (iustration 12). Par exempe, si a portion de séquence qui passe dans 'automate passe de 'état 0 à 1 en isant un D e coût sera de 0 sinon e coût sera de 1. Iustration 12 : Exempe d'automate représentant un motif Prosite : D [ILV] x(1,3) A. Les poids peuvent être pus généraux que e simpe décompte «0 / 1» ; i est possibe de modifier manueement 'automate. Par exempe a substitution de D par N, R ou A en première position peut coûter 3 au ieu de 1 (Iustration 13). Iustration 13 : Exempe d'automate modifié à a main. Page 11/14

La pateforme dispose d'autres outis pour générer des automates pondérés (génération de poids «à a BLOSSUM», utiisation de matrices poids/position PWM...) Contactez webmaster@genouest.org pour des questions à ce sujet. Wapam et Wapam/Rdisk Wapam peut être utiisé de deux façons (Iustration 14) : soit i est ancé sur genocuster (comme tous es autres ogicies de a pate forme) et a recherche se fait sur un noeud du custer, soit i est coupé avec 'architecture Rdisk qui paraéise a recherche sur un ensembe de cartes. Iustration 14 : Achitecture matériee de WAPAM. Rdisk est une architecture spéciaisée constituée de pusieurs dizaines de cartes (actueement 31). Chaque carte contient un processeur reconfigurabe (FPGA) coupé à un disque dur. Les automates pondérés sont directement cabés sur es FPGA, ce qui permet une évauation simutanée des états. Ce cabage utiise autant d'éements matéries que de transitions d'états dans 'automate. Les processeurs utiisés ont une surface pouvant caber des automates ayant jusqu'à une centaine de transitions. Les 31 cartes se partagent e baayage de a banque ou du génome (1/31 ieme par carte). L'ensembe du prototype Rdisk a été conçu pour fitrer rapidement es bases de données, es disques durs étant directement reiés aux processeurs FPGA. Rdisk étant un prototype de recherche, i n'est pas toujours en service. Si vous avez besoins de cacus intensif en recherche de motifs, contactez a pateforme (webmaster@genouest.org) pour que nous mettions en pace un traitement adapté de vos données ou de vos motifs. Page 12/14

Performances L'iustration15 présente une comparaison des temps de recherche de motif entre 'impémentation ogiciee de Wapam et 'accéération matériee Wapam/Rdisk (moyenne sur 50 motifs pris aéatoirement parmi un ensembe de 3331 motifs). Pour ne pas surcharger es serveurs, a recherche peut être arrêtée dès qu'i y a pus d'un certain nombre de résutats (auto stop). Dans tous es cas, une recherche avec Wapam avec ou sans erreurs prend e même temps d'exécution. Sur a version ogiciee, e temps d'exécution est inéaire par rapport à a taie de 'automate (et donc du motif). Pour Wapam/Rdisk, tous es motifs sont traités dans e même temps (tant qu'is sont acceptés par Rdisk, c'est à dire tant qu'i n'y a pas pus qu'une centaine de transitions). Wapam ogicie Wapam + autostop 2000 Wapam/Rdisk Wapam/Rdisk + précompiation 1 motif 2605 s 2003 s 72 s 23 s 3331 motifs 100 jours* 77 jours* < 3jours < 1jour Iustration 15 : Comparaison des temps de recherche de motif (* : estimations) L'accéération apportée par Rdisk est encore pus importante à partir du deuxième ancement, orsque es motifs ont déjà été compiés, car Wapam / Rdisk se souvient des automates pondérés compiés précedemment. La modification du seui d'erreur ne demande pas une nouvee compiation. Besoins spécifiques Nous sommes à votre disposition (webmaster@genouest.org) pour coaborer sur des tâches particuières, comme par exempe : ajouter d'autres banques de données, réaiser des automates pondérés répondant à des objectifs particuiers, mettre en pace sur e custer ou sur Rdisk des cacus intensifs (grand nombre de séquences, de motifs/d'automates, ancements itérés, anayse de résutats...); nous pouvons paramétrer finement Wapam pour obtenir es meieurs temps de cacus sur votre appication, vous fournir un accès à Wapam en igne de commande sur genocuster Page 13/14

Références Merci de citer a référence suivante dans vos travaux utiisant Wapam. Stéphane Guyetant, Mathieu Giraud, Ludovic L'Hours, Steven Derrien, Stéphane Rubini, Dominique Lavenier, and Frédéric Raimbaut. Custer of re configurabe nodes for scanning arge genomic banks. Parae Computing, 31(1):73 96, 2005. Page 14/14