Programmes de comparaison de banques de données



Documents pareils
Introduc)on à Ensembl/ Biomart : Par)e pra)que

Certificats Electronique d AE sur Clé USB

Bases de Données Relationnelles. Le Modèle Relationnel

I4 : Bases de Données

Les bases de données

22/06/2015. Linux Initiation. Formation Le Corguillé 1.07

OpenPaaS Le réseau social d'entreprise

Bases de Données relationnelles et leurs systèmes de Gestion

Les techniques de multiplexage

LA COMPTABILITE DE COUVERTURE EN IFRS DEMYSTIFIEE **** IMA France 5 février 2008 Xavier Paper et Patrick Grinspan. Paper Audit & Conseil 1

Sécurité des réseaux wi fi

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Prérequis réseau constructeurs

Notion de base de données

S8 - Sécurité IBM i : nouveautés 6.1 et 7.1

Bases de Données Avancées

Notes de cours : bases de données distribuées et repliquées

AGREGATION DE LIENS ENTRE UNE APPLIANCE FAST360 ET UN COMMUTATEUR. Table des matières PRINCIPES DE L'AGREGATION DE LIENS... 2

Administration des bases de données. Jean-Yves Antoine

JANVIER 2012 THEMA 14

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

BTS/CGO P10 SYSTEME INFORMATION Année

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

4 Exemples de problèmes MapReduce incrémentaux

16H Cours / 18H TD / 20H TP

PROTEGER SA CLE USB AVEC ROHOS MINI-DRIVE

Bases de données et sites WEB

KPI (Key Performance Indicator) dans MOSS

Guide d'utilisation. Mendeley

La version 3: 100% conforme aux dernières exigences de la DGI au Maroc. Edition Déclaration Télé-déclaration des liasses fiscales

IFT3030 Base de données. Chapitre 1 Introduction

Exchange Traded Funds (ETF) Mécanismes et principales utilisations. 12 Mai 2011

Outils d évaluation des réseaux routiers (RONET) Version 1.0

Affichez vos envies avec les nouveaux téléviseurs LCD BRAVIA E4000 de Sony!

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Information sur l accés sécurisé aux services Baer Online Monaco

PROJET 1 : BASE DE DONNÉES REPARTIES

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

CRYPTOGRAPHIE. Chiffrement par flot. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

Votre premier projet Android

Extraction de données authentifiantes de la mémoire Windows

AutoForm plus R6 : Besoins systèmes

Perl Orienté Objet BioPerl There is more than one way to do it

2. DIFFÉRENTS TYPES DE RÉSEAUX

Fiche technique rue de Londres Paris Tél. : Mail : contact@omnikles.com

PROGRAMMES FORMATIONS INTERNET

Vers, virus et autres calamités

Configuration du matériel Cisco. Florian Duraffourg

Airylab. Caméras Basler Ace. Guide de démarrage rapide

`bob`=pti=áåi~ä=pti= `bob`=`çååéåí=pt

ereader compact 9 et reproducteur multimédia portable

Note de version PUBLICATION V juillet 2014

Ladibug TM 2.0 Logiciel de présentation visuel d'image Manuel de l utilisateur - Français

FORMATION. * Information Analysis, decision making, Information technologie, * Financial Strategy, Multinational Finance, Strategic management ;

Construire des plug-ins pour SAS Management Console SAS 9.1

stockage, pour des économies en termes de temps et de coûts. Avantages principaux

WiFI Sécurité et nouvelles normes

Secure Deletion of Data from Magnetic and Solid-State Memory

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Mise en oeuvre d'une base de données mono-utilisateur avec SQLite

Cours n 12. Technologies WAN 2nd partie

MANUEL DES CAMERAS IP V2.0

PHP. Bertrand Estellon. 26 avril Aix-Marseille Université. Bertrand Estellon (AMU) PHP 26 avril / 214

Intégrité des données

Création d'une interface graphique

Simplifier l authentification avec Kerberos

Gestion de Portefeuille. Mesures de Performance Ajustées du Risque

Bases de données et sites WEB Licence d informatique LI345

TESTING NETWORK HARDWARE

Gestion des transactions et accès concurrents dans les bases de données relationnelles

Conversion d un entier. Méthode par soustraction

Symantec Backup Exec 2012

Module Administration BD Chapitre 1 : Surcouche procédurale dans les SGBDS

Le langage SQL (première partie) c Olivier Caron

Ce document synthétise les principaux aspects de DayTrader Live, le service le plus haut de gamme de DayByDay.

Manuel d installation de Business Objects Web Intelligence Rich Client.

1- Gaz-mm British standrad to mm. DIAMÈTRE EXTÉRIEUR FILETÉ mm. DIAMÈTRE INTÉRIEUR TARAUDÉ mm

Big data et sciences du Vivant L'exemple du séquençage haut débit

Virtualisation & Sécurité

Tout d abord les pré-requis : Au menu un certain nombre de KB

Communication technique TC1552 Ed 01 Date: 22/11/2011

SQL Historique

Connecteur Zimbra pour Outlook 2007 et 2010 (ZCO) w

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. ses côtés opposés. ses côtés opposés de. deux côtés opposés

Raja Bases de données distribuées A Lire - Tutoriel

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Manuel installateur XT200i

McGILL UNIVERSITY MARTLET CLASSIC UNIVERSITE McGILL CLASSIQUE MARTLET

3D Lab. NANO TRANSPORT & NANO PLAYER. Lecteurs réseaux AUDIOPHILE - PROFESSIONNEL. PCM & DSD natif. UPnP DNLA - Bit Perfect media device

SECURIDAY 2012 Pro Edition [Data Recovery, Sauvegarde à chaud, Sauvegarde à froid]

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Plan. Rappels sur Netflow v1 v8. Netflow v9. Collecteur UTC «IPFlow» Cisco IOS : Implémentation de Netflow IPv6

Procédure d'installation complète de Click&Decide sur un serveur

GUIDE UTILISATEUR SYSTEMES CCTV

Jeu d instructions NIOS II

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Transcription:

Programmes decomparaison debanquesdedonnées FASTA

introduction Programmesdecomparaisonde2séquencestroplongs Méthodesheuristiques But:filtrerparétapessuccessiveslesséquences «intéressantes» Etablissementd'unscorepourclasserlesmeilleuressimilitudes locales. Les2plusutilisés:FASTAetBLAST.

FASTA FASTA(pronouncedFAST Aye)standsforFAST All,reflectingthefactthat itcanbeusedforafastproteincomparisonorafastnucleotidecomparison W.R.PearsonandD.J.Lipman(1988),"ImprovedToolsforBiological SequenceAnalysis",Proc.Natl.Acad.Sci.USA.85:2444 2448, W.R.Pearson(1990)"RapidandSensitiveSequenceComparisonwith FASTPandFASTA"MethodsinEnzymology183:63 98

1èreétape k tuple protéine:k=2 ac.nucléique:k=4à 6

2èmeétape PAM250 init1 Scoreinitialinitn

3èmeétape

4èmeétape Scoreoptimalopt banded'insertion délétion

Résumédesétapesdecalcul Recherchedesrégionsàforteidentité(park tuple). Recalculeàl'aided'unematriceàscorespourles10 meilleuresrégionstrouvéesprécédemment(lesscores init1=régionsinitialesde1erordre) Joindrelesrégions.(obtentiond'unscoreinitn) Alignementoptimaldes2séquencesuniquementdans unerégiondélimitéeparlameilleurerégioninitialeinitn. Estréaliséavecunnombrelimitédeséquencesfixépar l'utilisateur.onobtientunscoreopt.

Avantages bonnesensibilitécarprendencomptelesinsertions délétions. minimisationdesexplorationsentrelesdeuxséquences étapedeprogrammationdynamique,enciblantdeplus,les régionsoùl'ondoiteffectuerlarecherched'alignement. étaped'alignementoptimalestréaliséeuniquementsurla meilleurerégiondehautesimilitude. éviteenpartielebruitdefonddûàdesmotifsnonsignificatifset intrinsèquesàlaséquencerecherchée Inconvénients nepaspouvoirconsidérerdegrandesinsertionsdurant l'alignementdesséquences. Fondésurméthodeheuristique.

Améliorations considèrelatotalitédesdiagonalespoureffectuerl'algorithme d'alignementlocaldesmithetwatermanplutôtqued'effectuer l'alignementglobaldeneedlemanetwunschuniquementsurdes portionsdeséquencesprotéiques. Editiondesrésultats enfonctiondesscoresopt. Evaluationdesrésultats L'estimationstatistiqueestfaiteàpartirdesscoresobtenusavec l'ensembledesséquencesdelabanque. programmesprdfetprss(méthodedemontecarlo)pourestimer lavaliditéd'unscoreoptparticulierentreuneséquencedelabanque etlaséquencerecherchée. PRDFproduitdessimulationsselonl'algorithmedeNeedlemanet Wunschappliquélocalementpourl'étaped'alignementoptimal. PRSSutilisel'algorithmecompletdeSmithetWatermanentredeux séquencesprotéiques.

FASTAversion3

2 1 FASTAversion2

3 3

4 5 6 fin

ProgramFunction fasta fastx/y tfastx/y scanaproteinordnasequence libraryforsimilarsequences compareadnasequencetoa proteinsequencedatabase, comparingthetranslateddna sequenceinforwardandreverse frames. comparesaproteintoa translateddnadatabank.

BasicLocalAlignmentSearch Tool KarlinS.andAltschulS.F.(1990).Methodsforassessingthestatistical significanceofmolecularsequencefeaturesbyusinggeneralscoring schemes.procnatlacadsciusa,87,2264 2268. KarlinS.andAltschulS.F.(1993).Applicationsandstatisticsformultiple high scoringsegmentsinmolecularsequences.proc.natl.acad.sci.usa, 90,5873 5877

Conceptionfondéesurmodèlestatistique HSP:High scoringsegmentpair:unsegmentcommun,descoresignificatif etle+longpossibleentre2séquencescorrespondantàunesimilitudesans insertion délétion. MSP(Maximal scoringsegmentpair).lemeilleurscoreobtenuparmitous lescouplesdefragmentspossiblesquepeuventproduire2séquences. MéthodesstatistiquesdeBLASTpermettentladéterminationdela significationbiologiquedesmsps.

ProtéineW=3 Ac.nucléiquesW=11 Pourlesprotéines constructiond'unelistedemotssimilaires. Motsimilaire:motobtenantunscore>seuil parmatricedesubstitution

RecherchedeHigh scoringsegmentpair(hsp) «Hit»

Extensions'arrêtesi: lafind'unedes2séquencesestatteinte lescorecumulé 0 lescorecumulé<max x

Evaluationdesrésultats Score(bits)S'=(λS lnk)/ln2 λetk:constantesstatistiquesdusystèmedescores S:scorebrut m,n:longueursdes2séquences E value:e=mn2 S' 1E 1E 100 50 I Mêmegène I Gènes#id mêmeespèce espècesvoisines Relations pluslointaines 0. E value 1 I inintéressants

Avantages Algorithmefondésurcritèresstatistiques Recherchedesfragmentsidentiquesmaisaussisimilaires(pourprotéines). Vialamatricedesubstitution,intègredescritèresbiologiques. Résultatstriésselonplusieurscritères(ex:significationstatistiqueetnonpas seulementvaleurdescore) Trèsrapide(optimisationduprogramme,précodificationdelabanque) Inconvénients bruitdefondimportantlorsdel'identificationdessegments.siséquence possèdedesrégionsrépétéesoudessegmentsdebassecomplexité(segments nonspécifiquesd'unecaractéristiquebiologiquemaiscommunsàplusieurs familles). Filtres:SEGouXNU

ProgramFunction BLASTn BLASTp BLASTX TBLASTN DNAsequencevsDNAsequence library proteinsequencevsprotein sequencelibrary compareadnasequencetoa proteinsequencedatabase, comparingthetranslateddna sequenceinforwardandreverse frames. compareaproteinsequencetoa nucleicsequencedatabase translatedinforwardand reverseframes.

BLAST2 3x+rapidequeBLAST1 phased'extensionn'alieuque si2hitssontsurlamême diagonale. PSI BLAST(PositionSpecificIterative) sensibilitéaccrue constructiond'unprofilà partird'un1erblastclassique utilepourrecherchermembres d'unemêmefamille. Déduirefonctionsdeprotéines hypothétiques BLAST2 Profil recherche résultats

nr Allnon redundantgenbankcdstranslations+refseqproteins+pdb+swissprot +PIR+PRF

1 2 3 4

Sequencesproducingsignificantalignments:ScoreE Value (bits) 1.sp Q57997 Y577_METJAPROTEINMJ0577>gi 2128018 pir A64372...3142e 85 2.pdb 1MJH Structure BasedAssignmentOfTheBiochemicalF...2721e 72 3.dbj BAA29916 (AP000003)170aalonghypotheticalprotein[P...1076e 23 4.sp Q57951 Y531_METJAHYPOTHETICALPROTEINMJ0531>gi 212801...914e 18 5.gi 2622094(AE000872)conservedprotein[Methanobacteriumt...854e 16 6.gi 2621993(AE000865)conservedprotein[Methanobacteriumt...814e 15 7.gi 2621194(AE000803)conservedprotein[Methanobacteriumt...807e 15

sp Q57951 Y531_METJAHYPOTHETICALPROTEINMJ0531>gi 2128015 pir C64366 hypothetical proteinhomologmj0531 Methanococcusjannaschii >gi 1591234(U67502)conservedhypotheticalprotein [Methanococcusjannaschii] Length=170 Score=91.3bits(223),Expect=4e 18 Identities=59/156(37%),Positives=88/156(55%),Gaps=14/156(8%) Query:4MYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLN63 +YKKI+PTDS++AKHEV++V+DS+G+ Sbjct:25LYKKIVIPTDGSDVSLEAAKHAINIAKEFDAEVYAIYVVD VSPFVGLPA 73 Query:64KSVEEFENELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDI123 +E+ELLEE++++KKE+GK+++G+PEIV+AE+D+ Sbjct:74EGSWELISEL LKEEGQEALKKVKKMAEEWGVKIHTEMLEGVPANEIVEFAEKKKADL130 Query:124IIMGSHGKTNLKEILLGSVTENVIKKSNKPVLVVKR159 I+MG+GKTL+ILLGSVEVIK++PVLVVK+ Sbjct:131IVMGTTGKTGLERILLGSVAERVIKNAHCPVLVVKK166

Limitesdelarecherchedesimilarités pourdéterminerunefonction Gènesinconnus:casdesgènes«orphelins» Erreurs Gènesorthologuesetparalogues Évolution Épissagealternatif:éliminationdifférentedesintronsARNmdifférents Associationdefragmentsdegènesdifférentsfonctionsnouvelles Maturationpost traductionnelle Protéinecodéeparlegénomeprotéinemature Vérificationexpérimentale