Bioinformatique O. Lecompte Laboratoire de Bioinformatique et Génomique Intégratives - IGBMC odile.lecompte@igbmc. fr Introduction De l artisanat au haut débit 1951 première séquence protéique 1967 construction d arbres phylogénétiques 1970 algorithme de Needleman & Wunsch 1977 séquençage de l ADN (Méthode Sanger) premier package bioinformatique (Staden) 1978 bases de données Pir, EMBL, Genbank 1981 algorithme d alignement local (Smith & Waterman) 1990 programme Blast 1991 étiquettes d ADNc «EST» 1995 séquençage du génome complet d une bactérie 1996 séquençage complet du génome de la levure 2001 première version du génome humain => Début de l ère post-génomique 1
Introduction L ère post-génomique 2002 Waterson 2004 ENCODE PC 2005 Roche, 454 Séquence préliminaire du génome de la souris (Waterston et al., 2002) (2,5 Gb) ENCODE, projet d identification de tous les éléments fonctionnels du génome humain (ENCODE Project Consortium, 2004) Séquenceur automatique haut débit de 2 ème génération par pyroséquençage : GS20 2007 Illumina, Solexa Séquenceur automatique haut débit de 2 ème génération par synthèse microfluidique : Genome Analyzer Applied Biosystems Séquençage automatique haut débit de 2ème génération par ligation : système SOLiD 2008 Helicos Séquenceur automatique de 2 ème génération par synthèse sans pré amplification 2010 Plus de 1000 génomes complets disponibles Introduction Contexte scientifique interactomes génomes transcriptomes protéomes phénomes 2
Introduction La bioinformatique est partout! Growth of PDB génomique structurale génomique transcriptomique interactomique phénomique protéomique Introduction Bioinformatique Définition Utilisation de l outil informatique dans l acquisition, la gestion et l analyse d informations d origine biologique Séquences Structures Profils d expression 3
Introduction Principaux axes Bases de données stocker l information, l organiser et la rendre accessible Développement de logiciels - outils pour l assemblage de contigs - outils de comparaison de séquences - outils de prédiction de structures secondaires ou tridimensionnelles - outils de clustering... Bioanalyse: formuler des prédictions (localiser un gène, prédire la fonction d un gène, annoter un génome, recherche de cibles...) énoncer des hypothèses généralistes (repliement des protéines, évolution des espèces, modèle cellulaire...) Introduction Quelques centres de bioinformatique EBI (European Bioinformatics Institute) http://www.ebi.ac.uk/ NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ 4
Introduction Plan 1 de données 2 Comparaison de 2 séquences 3 Alignement multiple 4 Phylogénie moléculaire de données en biologie Rôles des banques Stockage Diffusion (ftp, web ) Organisation et standardisation des données Connectivité avec autres banques Actualisation 5
NAR Database Categories Quelques banques majeures Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits 6
de séquences nucléiques généralistes 3 banques Genbank (NCBI) DNA databank of Japan (DDBJ) EMBL nucleotide sequence database Échanges quotidiens des séquences collectées Effort d unification=> format accord entre GenBank et EMBL en 1986 accord entre Genbank/EMBL et DDBJ in 1987 Les banques de séquences nucléiques généralistes Des banques incontournables : dépôt obligatoire i dans une des 3 banques avant publication unique moyen d accès aux séquences Alimentation : soumission directe par la communauté scientifique (associée ou non à une publication) dépôts de brevets Conséquences banques exhaustives banques extrêmement redondantes contiennent des erreurs 7
Soumission des séquences : Webin, Bankit, Sequin Webin http://www.ebi.ac.uk/embl/submission/webin.html Evolution de la banque EMBL Sept 2010 : 292 milliards de nucléotides, 195 millions d entrées http://www3.ebi.ac.uk/services/dbstats/ 8
Le «top 10» des organismes Septembre 2005 (en nb de nucléotides) Monodelphis : opossum Loxodonta : éléphant Dasypus : armadillo Septembre 2010 (en nb de nucléotides) Les divisions basées sur la taxonomie EMBL GB Human HUM - Primates - PRI Mus musculus MUS MUS Rodents ROD ROD Other mammals MAM MAM Other vertebrates VRT VRT Invertebrates INV INV Plants PLN Fungi FUN PLN Procaryotes PRO BCT Viruses VRL VRL Bacteriophages PHG PHG Unclassified UNC UNA Synthetic SYN SYN Environmental sample ENV ENV Transgenic TGN TGN 9
Divisions Les classes Standard STD Patents PAT basées sur la nature des données Expressed Sequence Tags EST High-Throughput cdna sequencing HTC Transcriptome Shotgun assembly TSA ex : CAGE (Cap Analysis Gene Expression) sequences => the initial 20 bases from a 5 end mrna Genome Survey Sequence GSS Sequence Tagged Sites STS High-Throughput Genome sequencing HTG Whole Genome Shotgun WGS Mass sequences for Genome Annotation MGA Third Party Annotation Constructed Annotated constructed TPA CON ANN 10
Les ESTs CAAT Site Codon Codon Site de d initiation initiateur Stop terminaison 5 UTR Intron 1 Intron 2 3 UTR TATA Signal de polyadenylation ARN prémessager ARNm mature coiffe CDS Poly A 5 3 5 UTR 3 UTR Reverse transcriptase ADNc Séquençage des EST Classe Construct (CON) Taille Max d une séquence : 350 kb Découpage de la séquence Les différentes séquences qui constituent la séquence originelle Absence de «vraie» séquence ID BS standard; circular DNA; CON; 4214814 BP. AC AL009126; SV AL009126.1 DT 18-MAY-2001 (Rel. 67, Created) DT 18-MAY-2001 (Rel. 67, Last updated, Version 1) DE Bacillus subtilis complete genome.... FH Key Location/Qualifiers FH source 1..4214814 /db_xref="taxon:1423" /organism="bacillus subtilis" /strain="168" CO join(z99104.1:1..213080,z99105.1:18431..221160,z99106.1:13061..209100, CO Z99107.1:11151..213190,Z99108.1:11071..208430,Z99109.1:11751..210440, CO Z99110.1:15551..216750,Z99111.1:16351..208230,Z99112.1:4601..208780, CO Z99113.1:26001..233780,Z99114.1:14811..207730,Z99115.1:12361..213680, CO Z99116.1:13961..218470,Z99117.1:14281..213420,Z99118.1:17741..218410, CO Z99119.1:15771..215640,Z99120.1:16411..217420,Z99121.1:14871..209510, CO Z99122.1:11971..212610,Z99123.1:11301..212150,Z99124.1:11271..215534) // 11
Les classes AC X64011; S78972; SV X64011.1 Organisation de l information Un enregistrement (entrée) : les informations relatives à la séquence la séquence elle-même indicateur de fin d enregistrement Les champs : regrouper les informations d un même type faciliter l accès à l information Format général (flat file) : enregistrements organisés séquentiellement fichier texte (ASCII) fichiers disponibles en XML ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP. DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8) DE L.ivanovii sod gene for superoxide dismutase KW sod gene; superoxide dismutase. OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii."; RL Mol. Gen. Genet. 231:313-322(1992). DR SWISS-PROT; P28763; SODM_LISIV. FH Key Location/Qualifiers FH source 1..756 /organism="listeria ivanovii" CDS 109..717 /db_xref="swiss-prot:p28763" /product="superoxide dismutase" /protein_id="caa45406.1" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavsg HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240 ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720 tcgaaaggct cacttaggtg ggtcttttta tttcta 756 // 12
Les champs de la banque EMBL Code à 2 lettres Nature de la molécule classe et division identifiant N d accès Version Date Description Mots-clés Organisme Références ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP. AC X64011; S78972; SV X64011.1 DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8) DE L.ivanovii sod gene for superoxide dismutase KW sod gene; superoxide dismutase. OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of the RT gene product."; RL Mol. Gen. Genet. 231:313-322(1992). Les champs de la banque EMBL Références Liens «Features» RN [2] RP 1-756 RA Kreft J.; RT ; RL Submitted (21-APR-1992) 1992) to the EMBL/GenBank/DDBJ databases. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am RL Hubland, 8700 Wuerzburg, FRG DR SWISS-PROT; P28763; SODM_LISIV. FH Key Location/Qualifiers FH source 1..756 /db_xref="taxon:1638" /organism="listeria ivanovii" /strain="atcc 19119" RBS 95..100 /gene="sod" terminator 723..746 /gene="sod" CDS 109..717 /db_xref="swiss-prot:p28763" /transl_table=11 /gene="sod" /EC_number="1.15.1.1" /product="superoxide dismutase" /protein_id="caa45406.1" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavsg HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" 13
Les champs de la banque EMBL Sequence header Sequence Fin de l enregistrement SQ // Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca g 240 ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720 tcgaaaggct cacttaggtg ggtcttttta tttcta 756 Nucleotide base codes (IUPAC) Authority Nomenclature Committee of the International Union of Biochemistry Reference Cornish-Bowden, A. Nucl Acid Res 13, 3021-3030 (1985) Symbol Meaning Symbol Meaning Symbol Meaning a a; adenine m a or c v a or c or g; not t c c; cytosine r a or g h a or c or t; not g g g; guanine w a or t d a or g or t; not c t t; thymine in DNA; uracil in RNA s c or g b c or g or t; not a y c or t n a or c or g or t k g or t «Features» «Key» - la nature biologique de l élément annoté - des informations i sur les changements de la séquence (versions, mutations,..) «Location» position de l élément annoté dans la séquence «Qualifiers» des informations supplémentaires concernant l élément annoté Key Location/Qualifiers source 1..1859 /db_xref="taxon:3899" /organism="trifolium repens" /tissue_type="leaves" CDS 14..1495 /db_xref="swiss-prot:p26204" /EC_number="3.2.1.21" /product="beta-glucosidase" /protein_id="caa40058.1" /translation="mdfivaifalfvissitstnaveastlldignlsr... ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 14
Eléments annotés («Feature keys») misc_feature misc_difference conflict unsure old_sequence variation modified_base gene misc_signal promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal RBS polya_signal enhancer attenuator terminator rep_origin misc_rna prim_transcript precursor_rna mrna 5'clip 3'clip 5'UTR 3'UTR exon CDS sig_peptide transit_peptide mat_peptide intron polya_site rrna trna scrna snrna snorna immunoglobulin_related C_region D_segment J_segment N_region S_region V_region V_segment repeat_region repeat_unit LTR satellite misc_binding primer_bind protein_bind misc_recomb idna misc_structure stem_loop D_loop http://www3.ebi.ac.uk/services/webfeat/ Position («Location») descriptifs de position : une base un site entre deux bases : un base situé dans un intervalle donné : une région : x x^y xy x.y x..y opérateurs : complement (location) join (location,location,...location) Exemples 330 base 330 100..322 bases de 100 à 322 inclues <100..322 La borne inférieure est située en 5 de la base 100 <1..322 L élément annoté commence avant la première base de la séquence 1..>322 L élément annoté continue au-delà de la position 332 (100.110) Une base entre les positions 100 et 110 inclues 102^103 Le site situé entre les bases 102 et 103 join(10..200,330..400) Les régions 10 à 200 et 330 à 400 réunies en une seule séquence complement(25..700) région 25 à 700 en complémentaire complement(join(230..501,810..1500)) Les régions 230 à 501 et 810 à 1500 réunies puis complémentées 15
Features Exemple: Opéron bactérien source 1..9430 /organism="lactococcus sp." /strain="mg1234" -35 signal 160..165 /gene="gala" /evidence=experimental -10_signal 179..184 /gene="gala" /evidence=experimental CDS 405..1934 /gene="gala" /product="galactose permease" /function="galactose transporter" /evidence=experimental CDS 2003..30013001 /gene="galm" /product="aldose 1-epimerase" /EC_number="5.1.3.3" /function="mutarotase" CDS 3235..4537 /gene="galk" /product="galactokinase" /EC_number="2.7.1.6" /evidence=experimental Features Exemple: gène eucaryote source 1..19924 /organism="" /db_xref="taxon:9606" /tissue_type="placenta" gene 1..19855 /gene="csn2" promoter 1..9389 /gene="csn2" TATA_signal 9360..9367 /gene="csn2" exon 9390..9437 /gene="csn2" /number=1 mrna join(9390..9437,14108..14170,15036..15062,16042..16062, 16158..16202,17307..17837,18756..18797,19519..19855) /gene="csn2" /product="beta-casein" intron 9438..14107 /gene="csn2" /number=1 exon 14108..14170 /gene="csn2" /number=2 CDS join(14120..14170,15036..15062,16042..16062,16158..16202, 17307..17837,18756..18761) /gene="csn2" /codon_start=1 /product="beta-casein" /protein_id="aac82978.1" /db_xref="gi:2695661" /translation="mkvlilaclvalalaretieslssseesiteykqkvekvkhedq QQGEDEHQDKIYPSFQPQPLIYPFVEPIPYGFLPQNILPLAQPAVVLPVPQPEIMEVP KAKDTVYTKGRVMPVLKSPTIPFFDPQIPKLTDLENLHLPLPLLQPLMQQVPQPIPQT LALPPQPLWSVPQPKVLPIPQQVVPYPQRAVPVQALLLNQELLLNPTHQIYPVTQPLA PVHNPISV" 16
Le format Genbank LOCUS X64011 756 bp DNA linear BCT 26-SEP-2006 DEFINITION L.ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 NID g44010 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG... Le format Genbank FEATURES Location/Qualifiers source 1..756 /organism="listeria ivanovii" /strain="atcc 19119" /db_xref="taxon:1638" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /product="superoxide dismutase" /protein_id="caa45406.1" /db_xref="swiss-prot:p28763" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavs GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" terminator 723..746 /gene="sod" BASE COUNT 247 a 136 c 151 g 222 t ORIGIN 1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 61 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 121 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 181 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca... 601 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 661 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 721 tcgaaaggct cacttaggtg ggtcttttta tttcta // 17
Mise à jour Quotidiennement : les séquences collectées chaque jour sont : échangées entre les banques «ajoutées» à des sections particulières: EMBL updates, GENBANKNEW... Ex : EMBLNEW (=EMBL updates) contient 8 637 321 entrées le 8/09/10 Tous les trois mois : remise à jour complète (full release) la section NEW est «ajoutée» à la banque générale toute la banque est ré-indexée EMBL release, indexée 9 juin 2010 Les banques de séquences peptidiques généralistes à haute valeur ajoutée issues de traduction ti automatique ti GenPept Compilation de banques 18
Les banques à haute valeur ajoutée SWISS-PROT: http://www.expasy.ch/sprot/ créée en 1986 collaboration entre le groupe d Amos Bairoch (Swiss Institute of Bioinformatics) et l EBI annotation de très bonne qualité nombreuses références croisées vers de nombreuses banques non redondante 520 000 entrées en septembre 2010 (non exhaustive) le format est très proche de celui de la banque EMBL manuel de l utilisateur : http://www.expasy.org/sprot/userman.html Une entrée Swiss-Prot commentaires Références croisées Annotations ID TPIS_LEIME Reviewed; PRT; 251 AA. AC P48499; DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot. DT 01-FEB-1996, sequence version 1. DT 18-APR-2006, entry version 39. DE TRIOSEPHOSPHATE ISOMERASE (EC 5.3.1.1) (TIM). OS Leishmania mexicana. OC Eukaryota; Euglenozoa; Kinetoplastida; Trypanosomatidae; Leishmania. OX NCBI_TaxID=5665; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=94170780; PubMed=8125090; RA Kohl L., Callens M., Wierenga R.K., Opperdoes F.R., Michels P.A.M.; RT "Triose-phosphate isomerase of Leishmania mexicana mexicana. Cloning.. RN [2] RP X-RAY CRYSTALLOGRAPHY (1.83 ANGSTROMS). RX MEDLINE=99249704; PubMed=10235625; RA Williams J.C., Zeelen J.P., Neubauer G., Vriend G., Backmann J., RA Michels P.A.M., Lambeir A.-M., Wierenga R.K.; RT "Structural and mutagenesis studies of leishmania triosephosphate.. CC -!- CATALYTIC ACTIVITY: D-GLYCERALDEHYDE 3-PHOSPHATE = DIHYDROXY- CC ACETONE PHOSPHATE. CC -!- PATHWAY: PLAYS AN IMPORTANT ROLE IN SEVERAL METABOLIC PATHWAYS. CC -!- SUBUNIT: HOMODIMER. CC -!- SUBCELLULAR LOCATION: FOUND IN GLYCOSOMES, AS WELL AS CYTOPLASM. CC -!- SIMILARITY: BELONGS TO THE TRIOSEPHOSPHATE ISOMERASE FAMILY. DR EMBL; X74797; CAA52804.1; -. DR PDB; 1AMK; 17-DEC-97. DR InterPro; IPR000652; Trioseph_isomrse. isomrse DR Pfam; PF00121; TIM; 1. DR ProDom; PD001005; Trioseph_isomrse; 1. DR PROSITE; PS00171; TIM; 1. KW Isomerase; Glycolysis; Gluconeogenesis; Fatty acid biosynthesis; KW Pentose shunt; 3D-structure. ACT_SITE 96 96 BY SIMILARITY. ACT_SITE 168 168 BY SIMILARITY. SQ SEQUENCE 251 AA; 27178 MW; 987DFEED46F1E3EE CRC64; MSAKPQPIAA ANWKCNGTTA SIEKLVQVFN EHTISHDVQC VVAPTFVHIP LVQAKLRNPK YVISAENAIA KSGAGEVS MPILKDIGVH WVILGHSERR TYYGETDEIV AQKVSEACKQ GFMVIACIGE TLQQREANQT AKVVLSQTSA IAAKLTKDAW NQVVLAYEPV WAIGTGKVAT PEQAQEVHLL LRKWVSENIG TDVAAKLRIL YGGSVNAANA ATLYAKPDIN GFLVGGASLK PEFRDIIDAT R // 19
Les banques issues de traduction automatique GENBANK CDS 109..717 /protein_id="caa45406.1" /db_xref=" banque:access " /translation="miltg " CDS 1201..1809 /protein_id="caa45407.1" /db_xref=" banque:access " /translation="minhl " CDS 2221..2829 /protein_id="caa45408.1" /db_xref=" banque:access " /translation="mvgtt " GENPEPT Les banques issues de traduction automatique EMBL CDS 109..717 /protein_id="caa45406.1" /db_xref=" banque:access " /translation="miltg " CDS 1201..1809 /protein_id="caa45407.1" /db_xref=" banque:access " /translation="minhl " CDS 2221..2829 /protein_id="caa45408.1" /db_xref=" banque:access " /translation="mvgtt " Swissprot TrEMBL SpTrEMBL RemTrEMBL 20
Une entrée de la banque TrEMBL ID O67224_AQUAE Unreviewed; PRT; 562 AA. AC O67224; DT 01-AUG-1998 (TrEMBLrel. 07, Created) DT 01-AUG-1998 (TrEMBLrel. 07, Last sequence update) DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update) DE Hydrogenase regulation HoxX. GN Name=hoxX; OrderedLocusNames=AQ_1156; OS Aquifex aeolicus. OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex. OX NCBI_TaxID=63363; RN [1] RP NUCLEOTIDE SEQUENCE. RC STRAIN=VF5; RX MEDLINE=98196666; PubMed=9537320; DOI=10.1038/32831; RA Deckert G., Warren P.V., Gaasterland T., Young W.G., Lenox A.L., RA Graham D.E., Overbeek R., Snead M.A., Keller M., Aujay M., Huber R., RA Feldman R.A., Short J.M., Olsen G.J., Swanson R.V.; RT "The complete genome of the hyperthermophilic bacterium Aquifex RT aeolicus."; RL Nature 392:353-358(1998). DR EMBL; AE000726; AAC07186.1; -; Genomic_DNA. DR PIR; E70399; E70399. KW Complete proteome; Nuclear protein. SQ SEQUENCE 562 AA; 65495 MW; 1856B80EC277B7EB CRC64; MRILFLSYRF NSLSQRLYCE LTEREHEVSV ELDVHPDLTV EAAELYKPDL IIAPFLKRKI PQEVWKKYKT LIIHPGPPGD RGPNALDWAI MKGERIWGVT LLEASEEYDA GDVWAYRTFP MRFARKASIY RNEVTEGVVE CVLEALENFE RGDFKPTPQK EHWWNPKMEQ ELRRVDWEQD DTKTVLRKVY ASDSQPGASS KVLGKEVLLF NAYPEEELKG KPGEVLALRD EAVCIGTRDG AVWITHMRER KKESIKLPSA RVLGEFLKGV KEDPIKPWEK VDFKTYREIL YEEEDGIGFI HFNFYNGAMS TEQCYRLLET IKYAKKRPVK AIVLLGSEDF FSNGMNLNTI ENAESPADES WRNINAIDDV CEEILKTPDK LTVAGMQGNA GAGGVFLALT CDLVFAREGV VLNPHYKNIG NLYGSEFWTY TLPKRVGWEK GKEVMENRMP ISSKKAFEIG LIDGVFGKTP KEFRQRLKER IKNFINSKDF YEFIEKKKKE RTSGEWLEEI QKCREHELEK MKLNFYGFDT SYHIARYYFV RRKPHFRTPP YLAIHRRLKF SL // Les compilations de banques TrEMBL PIR-PSD ~ complète 12 500 000 entrées Swissprot 21
22