Programmes decomparaison debanquesdedonnées FASTA
introduction Programmesdecomparaisonde2séquencestroplongs Méthodesheuristiques But:filtrerparétapessuccessiveslesséquences «intéressantes» Etablissementd'unscorepourclasserlesmeilleuressimilitudes locales. Les2plusutilisés:FASTAetBLAST.
FASTA FASTA(pronouncedFAST Aye)standsforFAST All,reflectingthefactthat itcanbeusedforafastproteincomparisonorafastnucleotidecomparison W.R.PearsonandD.J.Lipman(1988),"ImprovedToolsforBiological SequenceAnalysis",Proc.Natl.Acad.Sci.USA.85:2444 2448, W.R.Pearson(1990)"RapidandSensitiveSequenceComparisonwith FASTPandFASTA"MethodsinEnzymology183:63 98
1èreétape k tuple protéine:k=2 ac.nucléique:k=4à 6
2èmeétape PAM250 init1 Scoreinitialinitn
3èmeétape
4èmeétape Scoreoptimalopt banded'insertion délétion
Résumédesétapesdecalcul Recherchedesrégionsàforteidentité(park tuple). Recalculeàl'aided'unematriceàscorespourles10 meilleuresrégionstrouvéesprécédemment(lesscores init1=régionsinitialesde1erordre) Joindrelesrégions.(obtentiond'unscoreinitn) Alignementoptimaldes2séquencesuniquementdans unerégiondélimitéeparlameilleurerégioninitialeinitn. Estréaliséavecunnombrelimitédeséquencesfixépar l'utilisateur.onobtientunscoreopt.
Avantages bonnesensibilitécarprendencomptelesinsertions délétions. minimisationdesexplorationsentrelesdeuxséquences étapedeprogrammationdynamique,enciblantdeplus,les régionsoùl'ondoiteffectuerlarecherched'alignement. étaped'alignementoptimalestréaliséeuniquementsurla meilleurerégiondehautesimilitude. éviteenpartielebruitdefonddûàdesmotifsnonsignificatifset intrinsèquesàlaséquencerecherchée Inconvénients nepaspouvoirconsidérerdegrandesinsertionsdurant l'alignementdesséquences. Fondésurméthodeheuristique.
Améliorations considèrelatotalitédesdiagonalespoureffectuerl'algorithme d'alignementlocaldesmithetwatermanplutôtqued'effectuer l'alignementglobaldeneedlemanetwunschuniquementsurdes portionsdeséquencesprotéiques. Editiondesrésultats enfonctiondesscoresopt. Evaluationdesrésultats L'estimationstatistiqueestfaiteàpartirdesscoresobtenusavec l'ensembledesséquencesdelabanque. programmesprdfetprss(méthodedemontecarlo)pourestimer lavaliditéd'unscoreoptparticulierentreuneséquencedelabanque etlaséquencerecherchée. PRDFproduitdessimulationsselonl'algorithmedeNeedlemanet Wunschappliquélocalementpourl'étaped'alignementoptimal. PRSSutilisel'algorithmecompletdeSmithetWatermanentredeux séquencesprotéiques.
FASTAversion3
2 1 FASTAversion2
3 3
4 5 6 fin
ProgramFunction fasta fastx/y tfastx/y scanaproteinordnasequence libraryforsimilarsequences compareadnasequencetoa proteinsequencedatabase, comparingthetranslateddna sequenceinforwardandreverse frames. comparesaproteintoa translateddnadatabank.
BasicLocalAlignmentSearch Tool KarlinS.andAltschulS.F.(1990).Methodsforassessingthestatistical significanceofmolecularsequencefeaturesbyusinggeneralscoring schemes.procnatlacadsciusa,87,2264 2268. KarlinS.andAltschulS.F.(1993).Applicationsandstatisticsformultiple high scoringsegmentsinmolecularsequences.proc.natl.acad.sci.usa, 90,5873 5877
Conceptionfondéesurmodèlestatistique HSP:High scoringsegmentpair:unsegmentcommun,descoresignificatif etle+longpossibleentre2séquencescorrespondantàunesimilitudesans insertion délétion. MSP(Maximal scoringsegmentpair).lemeilleurscoreobtenuparmitous lescouplesdefragmentspossiblesquepeuventproduire2séquences. MéthodesstatistiquesdeBLASTpermettentladéterminationdela significationbiologiquedesmsps.
ProtéineW=3 Ac.nucléiquesW=11 Pourlesprotéines constructiond'unelistedemotssimilaires. Motsimilaire:motobtenantunscore>seuil parmatricedesubstitution
RecherchedeHigh scoringsegmentpair(hsp) «Hit»
Extensions'arrêtesi: lafind'unedes2séquencesestatteinte lescorecumulé 0 lescorecumulé<max x
Evaluationdesrésultats Score(bits)S'=(λS lnk)/ln2 λetk:constantesstatistiquesdusystèmedescores S:scorebrut m,n:longueursdes2séquences E value:e=mn2 S' 1E 1E 100 50 I Mêmegène I Gènes#id mêmeespèce espècesvoisines Relations pluslointaines 0. E value 1 I inintéressants
Avantages Algorithmefondésurcritèresstatistiques Recherchedesfragmentsidentiquesmaisaussisimilaires(pourprotéines). Vialamatricedesubstitution,intègredescritèresbiologiques. Résultatstriésselonplusieurscritères(ex:significationstatistiqueetnonpas seulementvaleurdescore) Trèsrapide(optimisationduprogramme,précodificationdelabanque) Inconvénients bruitdefondimportantlorsdel'identificationdessegments.siséquence possèdedesrégionsrépétéesoudessegmentsdebassecomplexité(segments nonspécifiquesd'unecaractéristiquebiologiquemaiscommunsàplusieurs familles). Filtres:SEGouXNU
ProgramFunction BLASTn BLASTp BLASTX TBLASTN DNAsequencevsDNAsequence library proteinsequencevsprotein sequencelibrary compareadnasequencetoa proteinsequencedatabase, comparingthetranslateddna sequenceinforwardandreverse frames. compareaproteinsequencetoa nucleicsequencedatabase translatedinforwardand reverseframes.
BLAST2 3x+rapidequeBLAST1 phased'extensionn'alieuque si2hitssontsurlamême diagonale. PSI BLAST(PositionSpecificIterative) sensibilitéaccrue constructiond'unprofilà partird'un1erblastclassique utilepourrecherchermembres d'unemêmefamille. Déduirefonctionsdeprotéines hypothétiques BLAST2 Profil recherche résultats
nr Allnon redundantgenbankcdstranslations+refseqproteins+pdb+swissprot +PIR+PRF
1 2 3 4
Sequencesproducingsignificantalignments:ScoreE Value (bits) 1.sp Q57997 Y577_METJAPROTEINMJ0577>gi 2128018 pir A64372...3142e 85 2.pdb 1MJH Structure BasedAssignmentOfTheBiochemicalF...2721e 72 3.dbj BAA29916 (AP000003)170aalonghypotheticalprotein[P...1076e 23 4.sp Q57951 Y531_METJAHYPOTHETICALPROTEINMJ0531>gi 212801...914e 18 5.gi 2622094(AE000872)conservedprotein[Methanobacteriumt...854e 16 6.gi 2621993(AE000865)conservedprotein[Methanobacteriumt...814e 15 7.gi 2621194(AE000803)conservedprotein[Methanobacteriumt...807e 15
sp Q57951 Y531_METJAHYPOTHETICALPROTEINMJ0531>gi 2128015 pir C64366 hypothetical proteinhomologmj0531 Methanococcusjannaschii >gi 1591234(U67502)conservedhypotheticalprotein [Methanococcusjannaschii] Length=170 Score=91.3bits(223),Expect=4e 18 Identities=59/156(37%),Positives=88/156(55%),Gaps=14/156(8%) Query:4MYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLN63 +YKKI+PTDS++AKHEV++V+DS+G+ Sbjct:25LYKKIVIPTDGSDVSLEAAKHAINIAKEFDAEVYAIYVVD VSPFVGLPA 73 Query:64KSVEEFENELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDI123 +E+ELLEE++++KKE+GK+++G+PEIV+AE+D+ Sbjct:74EGSWELISEL LKEEGQEALKKVKKMAEEWGVKIHTEMLEGVPANEIVEFAEKKKADL130 Query:124IIMGSHGKTNLKEILLGSVTENVIKKSNKPVLVVKR159 I+MG+GKTL+ILLGSVEVIK++PVLVVK+ Sbjct:131IVMGTTGKTGLERILLGSVAERVIKNAHCPVLVVKK166
Limitesdelarecherchedesimilarités pourdéterminerunefonction Gènesinconnus:casdesgènes«orphelins» Erreurs Gènesorthologuesetparalogues Évolution Épissagealternatif:éliminationdifférentedesintronsARNmdifférents Associationdefragmentsdegènesdifférentsfonctionsnouvelles Maturationpost traductionnelle Protéinecodéeparlegénomeprotéinemature Vérificationexpérimentale