De l artisanat au haut débit



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Bibliographie Introduction à la bioinformatique

Introduction aux bases de données: application en biologie

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Big data et sciences du Vivant L'exemple du séquençage haut débit

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Base de données bibliographiques Pubmed-Medline

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

MABioVis. Bio-informatique et la

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Bases de données des mutations

Analyse des données de séquençage massif par des méthodes phylogénétiques

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Contrôle de l'expression génétique :

Biomarqueurs en Cancérologie

VI- Expression du génome

Identification de nouveaux membres dans des familles d'interleukines

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Extraction d information des bases de séquences biologiques avec R

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Gènes Diffusion - EPIC 2010

Perl Orienté Objet BioPerl There is more than one way to do it

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

CATALOGUE DES PRESTATIONS DE LA

Bases de données et outils bioinformatiques utiles en génétique

Physiopathologie : de la Molécule à l'homme

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Séquence 2. L expression du patrimoine génétique. Sommaire

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Introduction à la Génomique Fonctionnelle

Hépatite chronique B Moyens thérapeutiques

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Eco-système calcul et données

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

TD de Biochimie 4 : Coloration.

TP Bases de données réparties

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Génétique et génomique Pierre Martin

Les OGM. 5 décembre Nicole Mounier

Création et développement d une base de données sur le VIH

UNIVERSITÉ DU QUÉBEC À MONTRÉAL

Bases moléculaires des mutations Marc Jeanpierre

Détection et prise en charge de la résistance aux antirétroviraux

L universalité et la variabilité de l ADN

Univers Vivant Révision. Notions STE

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Logiciel Libre & qualité. Présentation

MYRIAD. l ADN isolé n est à présent plus brevetable!

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

Cellules procaryotes Service histologie Pr.k.mebarek

SysFera. Benjamin Depardon

Ingénieur R&D en bio-informatique

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Luca : à la recherche du plus proche ancêtre commun universel Patrick Forterre, Simonetta Gribaldo, Céline Brochier

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Calcul intensif pour la biologie

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Compte-rendu de fin de projet

Conférence technique internationale de la FAO

Environmental Research and Innovation ( ERIN )

Génomique Comparative et intégrative

Module 5 La maturation de l ARN et le contrôle post-transcriptionnel chez les eucaryotes

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

EMME : un environnement de gestion des métadonnées expérimentales

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

WEA Un Gérant d'objets Persistants pour des environnements distribués

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Séquençage et Assemblage. de Génomes. François Denizot Emmanuel Talla LCB-IBSM CNRS

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Séquencer une application

Biologie Computationnelle

Résistance du VIH-1 aux antirétroviraux dans les compartiments anatomiques et cellulaires

Structure quantique cohérente et incohérente de l eau liquide

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Résistance du virus de l hépatite C aux nouveaux traitements anti-viraux

Système de Gestion Électronique de la Qualité Une étude de cas

UNIV. TOULON (IUT TOULON) Référence GALAXIE : 4128

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Recherche et veille documentaire scientifique

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

La diffusion du Registre du Commerce et des Sociétés en France

Dr Pascale Vergne-Salle Service de Rhumatologie, CHU de Limoges. Membre enseignant chercheur EA 4021

Depuis des milliers de générations, le ver à soie est l objet d une sélection

Master en Biochimie et Biologie moléculaire et cellulaire (BBMC)

OUTILS DE FINANCEMENT DE L INNOVATION TECHNOLOGIQUE ET DE LA VALORISATION DE LA RECHERCHE

Transcription:

Bioinformatique O. Lecompte Laboratoire de Bioinformatique et Génomique Intégratives - IGBMC odile.lecompte@igbmc. fr Introduction De l artisanat au haut débit 1951 première séquence protéique 1967 construction d arbres phylogénétiques 1970 algorithme de Needleman & Wunsch 1977 séquençage de l ADN (Méthode Sanger) premier package bioinformatique (Staden) 1978 bases de données Pir, EMBL, Genbank 1981 algorithme d alignement local (Smith & Waterman) 1990 programme Blast 1991 étiquettes d ADNc «EST» 1995 séquençage du génome complet d une bactérie 1996 séquençage complet du génome de la levure 2001 première version du génome humain => Début de l ère post-génomique 1

Introduction L ère post-génomique 2002 Waterson 2004 ENCODE PC 2005 Roche, 454 Séquence préliminaire du génome de la souris (Waterston et al., 2002) (2,5 Gb) ENCODE, projet d identification de tous les éléments fonctionnels du génome humain (ENCODE Project Consortium, 2004) Séquenceur automatique haut débit de 2 ème génération par pyroséquençage : GS20 2007 Illumina, Solexa Séquenceur automatique haut débit de 2 ème génération par synthèse microfluidique : Genome Analyzer Applied Biosystems Séquençage automatique haut débit de 2ème génération par ligation : système SOLiD 2008 Helicos Séquenceur automatique de 2 ème génération par synthèse sans pré amplification 2010 Plus de 1000 génomes complets disponibles Introduction Contexte scientifique interactomes génomes transcriptomes protéomes phénomes 2

Introduction La bioinformatique est partout! Growth of PDB génomique structurale génomique transcriptomique interactomique phénomique protéomique Introduction Bioinformatique Définition Utilisation de l outil informatique dans l acquisition, la gestion et l analyse d informations d origine biologique Séquences Structures Profils d expression 3

Introduction Principaux axes Bases de données stocker l information, l organiser et la rendre accessible Développement de logiciels - outils pour l assemblage de contigs - outils de comparaison de séquences - outils de prédiction de structures secondaires ou tridimensionnelles - outils de clustering... Bioanalyse: formuler des prédictions (localiser un gène, prédire la fonction d un gène, annoter un génome, recherche de cibles...) énoncer des hypothèses généralistes (repliement des protéines, évolution des espèces, modèle cellulaire...) Introduction Quelques centres de bioinformatique EBI (European Bioinformatics Institute) http://www.ebi.ac.uk/ NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ 4

Introduction Plan 1 de données 2 Comparaison de 2 séquences 3 Alignement multiple 4 Phylogénie moléculaire de données en biologie Rôles des banques Stockage Diffusion (ftp, web ) Organisation et standardisation des données Connectivité avec autres banques Actualisation 5

NAR Database Categories Quelques banques majeures Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits 6

de séquences nucléiques généralistes 3 banques Genbank (NCBI) DNA databank of Japan (DDBJ) EMBL nucleotide sequence database Échanges quotidiens des séquences collectées Effort d unification=> format accord entre GenBank et EMBL en 1986 accord entre Genbank/EMBL et DDBJ in 1987 Les banques de séquences nucléiques généralistes Des banques incontournables : dépôt obligatoire i dans une des 3 banques avant publication unique moyen d accès aux séquences Alimentation : soumission directe par la communauté scientifique (associée ou non à une publication) dépôts de brevets Conséquences banques exhaustives banques extrêmement redondantes contiennent des erreurs 7

Soumission des séquences : Webin, Bankit, Sequin Webin http://www.ebi.ac.uk/embl/submission/webin.html Evolution de la banque EMBL Sept 2010 : 292 milliards de nucléotides, 195 millions d entrées http://www3.ebi.ac.uk/services/dbstats/ 8

Le «top 10» des organismes Septembre 2005 (en nb de nucléotides) Monodelphis : opossum Loxodonta : éléphant Dasypus : armadillo Septembre 2010 (en nb de nucléotides) Les divisions basées sur la taxonomie EMBL GB Human HUM - Primates - PRI Mus musculus MUS MUS Rodents ROD ROD Other mammals MAM MAM Other vertebrates VRT VRT Invertebrates INV INV Plants PLN Fungi FUN PLN Procaryotes PRO BCT Viruses VRL VRL Bacteriophages PHG PHG Unclassified UNC UNA Synthetic SYN SYN Environmental sample ENV ENV Transgenic TGN TGN 9

Divisions Les classes Standard STD Patents PAT basées sur la nature des données Expressed Sequence Tags EST High-Throughput cdna sequencing HTC Transcriptome Shotgun assembly TSA ex : CAGE (Cap Analysis Gene Expression) sequences => the initial 20 bases from a 5 end mrna Genome Survey Sequence GSS Sequence Tagged Sites STS High-Throughput Genome sequencing HTG Whole Genome Shotgun WGS Mass sequences for Genome Annotation MGA Third Party Annotation Constructed Annotated constructed TPA CON ANN 10

Les ESTs CAAT Site Codon Codon Site de d initiation initiateur Stop terminaison 5 UTR Intron 1 Intron 2 3 UTR TATA Signal de polyadenylation ARN prémessager ARNm mature coiffe CDS Poly A 5 3 5 UTR 3 UTR Reverse transcriptase ADNc Séquençage des EST Classe Construct (CON) Taille Max d une séquence : 350 kb Découpage de la séquence Les différentes séquences qui constituent la séquence originelle Absence de «vraie» séquence ID BS standard; circular DNA; CON; 4214814 BP. AC AL009126; SV AL009126.1 DT 18-MAY-2001 (Rel. 67, Created) DT 18-MAY-2001 (Rel. 67, Last updated, Version 1) DE Bacillus subtilis complete genome.... FH Key Location/Qualifiers FH source 1..4214814 /db_xref="taxon:1423" /organism="bacillus subtilis" /strain="168" CO join(z99104.1:1..213080,z99105.1:18431..221160,z99106.1:13061..209100, CO Z99107.1:11151..213190,Z99108.1:11071..208430,Z99109.1:11751..210440, CO Z99110.1:15551..216750,Z99111.1:16351..208230,Z99112.1:4601..208780, CO Z99113.1:26001..233780,Z99114.1:14811..207730,Z99115.1:12361..213680, CO Z99116.1:13961..218470,Z99117.1:14281..213420,Z99118.1:17741..218410, CO Z99119.1:15771..215640,Z99120.1:16411..217420,Z99121.1:14871..209510, CO Z99122.1:11971..212610,Z99123.1:11301..212150,Z99124.1:11271..215534) // 11

Les classes AC X64011; S78972; SV X64011.1 Organisation de l information Un enregistrement (entrée) : les informations relatives à la séquence la séquence elle-même indicateur de fin d enregistrement Les champs : regrouper les informations d un même type faciliter l accès à l information Format général (flat file) : enregistrements organisés séquentiellement fichier texte (ASCII) fichiers disponibles en XML ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP. DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8) DE L.ivanovii sod gene for superoxide dismutase KW sod gene; superoxide dismutase. OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii."; RL Mol. Gen. Genet. 231:313-322(1992). DR SWISS-PROT; P28763; SODM_LISIV. FH Key Location/Qualifiers FH source 1..756 /organism="listeria ivanovii" CDS 109..717 /db_xref="swiss-prot:p28763" /product="superoxide dismutase" /protein_id="caa45406.1" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavsg HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" SQ Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca 240 ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720 tcgaaaggct cacttaggtg ggtcttttta tttcta 756 // 12

Les champs de la banque EMBL Code à 2 lettres Nature de la molécule classe et division identifiant N d accès Version Date Description Mots-clés Organisme Références ID X64011; SV 1; linear; genomic DNA; STD; PRO; 756 BP. AC X64011; S78972; SV X64011.1 DT 28-APR-1992 (Rel. 31, Created) DT 26-SEP-2006 (Rel. 89, Last updated, Version 8) DE L.ivanovii sod gene for superoxide dismutase KW sod gene; superoxide dismutase. OS Listeria ivanovii OC Bacteria; Firmicutes; Bacillus/Clostridium group; OC Bacillus/Staphylococcus group; Listeria. RN [1] RX MEDLINE; 92140371. RA Haas A., Goebel W.; RT "Cloning of a superoxide dismutase gene from Listeria ivanovii by RT functional complementation in Escherichia coli and characterization of the RT gene product."; RL Mol. Gen. Genet. 231:313-322(1992). Les champs de la banque EMBL Références Liens «Features» RN [2] RP 1-756 RA Kreft J.; RT ; RL Submitted (21-APR-1992) 1992) to the EMBL/GenBank/DDBJ databases. RL J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am RL Hubland, 8700 Wuerzburg, FRG DR SWISS-PROT; P28763; SODM_LISIV. FH Key Location/Qualifiers FH source 1..756 /db_xref="taxon:1638" /organism="listeria ivanovii" /strain="atcc 19119" RBS 95..100 /gene="sod" terminator 723..746 /gene="sod" CDS 109..717 /db_xref="swiss-prot:p28763" /transl_table=11 /gene="sod" /EC_number="1.15.1.1" /product="superoxide dismutase" /protein_id="caa45406.1" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavsg HAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLKAA IESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPVLGL DVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" 13

Les champs de la banque EMBL Sequence header Sequence Fin de l enregistrement SQ // Sequence 756 BP; 247 A; 136 C; 151 G; 222 T; 0 other; cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 60 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 120 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 180 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca g 240 ggacacgcag aacttgcaag taaacctggg gaagaattag ttgctaatct agatagcgtt 300 cctgaagaaa ttcgtggcgc agtacgtaac cacggtggtg gacatgctaa ccatacttta 360 ttctggtcta gtcttagccc aaatggtggt ggtgctccaa ctggtaactt aaaagcagca 420 atcgaaagcg aattcggcac atttgatgaa ttcaaagaaa aattcaatgc ggcagctgcg 480 gctcgttttg gttcaggatg ggcatggcta gtagtgaaca atggtaaact agaaattgtt 540 tccactgcta accaagattc tccacttagc gaaggtaaaa ctccagttct tggcttagat 600 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 660 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 720 tcgaaaggct cacttaggtg ggtcttttta tttcta 756 Nucleotide base codes (IUPAC) Authority Nomenclature Committee of the International Union of Biochemistry Reference Cornish-Bowden, A. Nucl Acid Res 13, 3021-3030 (1985) Symbol Meaning Symbol Meaning Symbol Meaning a a; adenine m a or c v a or c or g; not t c c; cytosine r a or g h a or c or t; not g g g; guanine w a or t d a or g or t; not c t t; thymine in DNA; uracil in RNA s c or g b c or g or t; not a y c or t n a or c or g or t k g or t «Features» «Key» - la nature biologique de l élément annoté - des informations i sur les changements de la séquence (versions, mutations,..) «Location» position de l élément annoté dans la séquence «Qualifiers» des informations supplémentaires concernant l élément annoté Key Location/Qualifiers source 1..1859 /db_xref="taxon:3899" /organism="trifolium repens" /tissue_type="leaves" CDS 14..1495 /db_xref="swiss-prot:p26204" /EC_number="3.2.1.21" /product="beta-glucosidase" /protein_id="caa40058.1" /translation="mdfivaifalfvissitstnaveastlldignlsr... ---------+---------+---------+---------+---------+---------+---------+--------- 1 10 20 30 40 50 60 70 79 14

Eléments annotés («Feature keys») misc_feature misc_difference conflict unsure old_sequence variation modified_base gene misc_signal promoter CAAT_signal TATA_signal -35_signal -10_signal GC_signal RBS polya_signal enhancer attenuator terminator rep_origin misc_rna prim_transcript precursor_rna mrna 5'clip 3'clip 5'UTR 3'UTR exon CDS sig_peptide transit_peptide mat_peptide intron polya_site rrna trna scrna snrna snorna immunoglobulin_related C_region D_segment J_segment N_region S_region V_region V_segment repeat_region repeat_unit LTR satellite misc_binding primer_bind protein_bind misc_recomb idna misc_structure stem_loop D_loop http://www3.ebi.ac.uk/services/webfeat/ Position («Location») descriptifs de position : une base un site entre deux bases : un base situé dans un intervalle donné : une région : x x^y xy x.y x..y opérateurs : complement (location) join (location,location,...location) Exemples 330 base 330 100..322 bases de 100 à 322 inclues <100..322 La borne inférieure est située en 5 de la base 100 <1..322 L élément annoté commence avant la première base de la séquence 1..>322 L élément annoté continue au-delà de la position 332 (100.110) Une base entre les positions 100 et 110 inclues 102^103 Le site situé entre les bases 102 et 103 join(10..200,330..400) Les régions 10 à 200 et 330 à 400 réunies en une seule séquence complement(25..700) région 25 à 700 en complémentaire complement(join(230..501,810..1500)) Les régions 230 à 501 et 810 à 1500 réunies puis complémentées 15

Features Exemple: Opéron bactérien source 1..9430 /organism="lactococcus sp." /strain="mg1234" -35 signal 160..165 /gene="gala" /evidence=experimental -10_signal 179..184 /gene="gala" /evidence=experimental CDS 405..1934 /gene="gala" /product="galactose permease" /function="galactose transporter" /evidence=experimental CDS 2003..30013001 /gene="galm" /product="aldose 1-epimerase" /EC_number="5.1.3.3" /function="mutarotase" CDS 3235..4537 /gene="galk" /product="galactokinase" /EC_number="2.7.1.6" /evidence=experimental Features Exemple: gène eucaryote source 1..19924 /organism="" /db_xref="taxon:9606" /tissue_type="placenta" gene 1..19855 /gene="csn2" promoter 1..9389 /gene="csn2" TATA_signal 9360..9367 /gene="csn2" exon 9390..9437 /gene="csn2" /number=1 mrna join(9390..9437,14108..14170,15036..15062,16042..16062, 16158..16202,17307..17837,18756..18797,19519..19855) /gene="csn2" /product="beta-casein" intron 9438..14107 /gene="csn2" /number=1 exon 14108..14170 /gene="csn2" /number=2 CDS join(14120..14170,15036..15062,16042..16062,16158..16202, 17307..17837,18756..18761) /gene="csn2" /codon_start=1 /product="beta-casein" /protein_id="aac82978.1" /db_xref="gi:2695661" /translation="mkvlilaclvalalaretieslssseesiteykqkvekvkhedq QQGEDEHQDKIYPSFQPQPLIYPFVEPIPYGFLPQNILPLAQPAVVLPVPQPEIMEVP KAKDTVYTKGRVMPVLKSPTIPFFDPQIPKLTDLENLHLPLPLLQPLMQQVPQPIPQT LALPPQPLWSVPQPKVLPIPQQVVPYPQRAVPVQALLLNQELLLNPTHQIYPVTQPLA PVHNPISV" 16

Le format Genbank LOCUS X64011 756 bp DNA linear BCT 26-SEP-2006 DEFINITION L.ivanovii sod gene for superoxide dismutase. ACCESSION X64011 S78972 NID g44010 VERSION X64011.1 GI:44010 KEYWORDS sod gene; superoxide dismutase. SOURCE Listeria ivanovii. ORGANISM Listeria ivanovii Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae; Listeria. REFERENCE 1 (bases 1 to 756) AUTHORS Haas,A. and Goebel,W. TITLE Cloning of a superoxide dismutase gene from Listeria ivanovii by functional complementation in Escherichia coli and characterization of the gene product JOURNAL Mol. Gen. Genet. 231 (2), 313-322 (1992) MEDLINE 92140371 REFERENCE 2 (bases 1 to 756) AUTHORS Kreft,J. TITLE Direct Submission JOURNAL Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie, Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG... Le format Genbank FEATURES Location/Qualifiers source 1..756 /organism="listeria ivanovii" /strain="atcc 19119" /db_xref="taxon:1638" RBS 95..100 /gene="sod" gene 95..746 /gene="sod" CDS 109..717 /gene="sod" /EC_number="1.15.1.1" /product="superoxide dismutase" /protein_id="caa45406.1" /db_xref="swiss-prot:p28763" /translation="mtyelpklpytydalepnfdketmeihytkhhniyvtklneavs GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK" terminator 723..746 /gene="sod" BASE COUNT 247 a 136 c 151 g 222 t ORIGIN 1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat 61 gtaatttctt ttcacataaa taataaacaa tccgaggagg aatttttaat gacttacgaa 121 ttaccaaaat taccttatac ttatgatgct ttggagccga attttgataa agaaacaatg 181 gaaattcact atacaaagca ccacaatatt tatgtaacaa aactaaatga agcagtctca... 601 gtttgggaac atgcttatta tcttaaattc caaaaccgtc gtcctgaata cattgacaca 661 ttttggaatg taattaactg ggatgaacga aataaacgct ttgacgcagc aaaataatta 721 tcgaaaggct cacttaggtg ggtcttttta tttcta // 17

Mise à jour Quotidiennement : les séquences collectées chaque jour sont : échangées entre les banques «ajoutées» à des sections particulières: EMBL updates, GENBANKNEW... Ex : EMBLNEW (=EMBL updates) contient 8 637 321 entrées le 8/09/10 Tous les trois mois : remise à jour complète (full release) la section NEW est «ajoutée» à la banque générale toute la banque est ré-indexée EMBL release, indexée 9 juin 2010 Les banques de séquences peptidiques généralistes à haute valeur ajoutée issues de traduction ti automatique ti GenPept Compilation de banques 18

Les banques à haute valeur ajoutée SWISS-PROT: http://www.expasy.ch/sprot/ créée en 1986 collaboration entre le groupe d Amos Bairoch (Swiss Institute of Bioinformatics) et l EBI annotation de très bonne qualité nombreuses références croisées vers de nombreuses banques non redondante 520 000 entrées en septembre 2010 (non exhaustive) le format est très proche de celui de la banque EMBL manuel de l utilisateur : http://www.expasy.org/sprot/userman.html Une entrée Swiss-Prot commentaires Références croisées Annotations ID TPIS_LEIME Reviewed; PRT; 251 AA. AC P48499; DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot. DT 01-FEB-1996, sequence version 1. DT 18-APR-2006, entry version 39. DE TRIOSEPHOSPHATE ISOMERASE (EC 5.3.1.1) (TIM). OS Leishmania mexicana. OC Eukaryota; Euglenozoa; Kinetoplastida; Trypanosomatidae; Leishmania. OX NCBI_TaxID=5665; RN [1] RP SEQUENCE FROM N.A. RX MEDLINE=94170780; PubMed=8125090; RA Kohl L., Callens M., Wierenga R.K., Opperdoes F.R., Michels P.A.M.; RT "Triose-phosphate isomerase of Leishmania mexicana mexicana. Cloning.. RN [2] RP X-RAY CRYSTALLOGRAPHY (1.83 ANGSTROMS). RX MEDLINE=99249704; PubMed=10235625; RA Williams J.C., Zeelen J.P., Neubauer G., Vriend G., Backmann J., RA Michels P.A.M., Lambeir A.-M., Wierenga R.K.; RT "Structural and mutagenesis studies of leishmania triosephosphate.. CC -!- CATALYTIC ACTIVITY: D-GLYCERALDEHYDE 3-PHOSPHATE = DIHYDROXY- CC ACETONE PHOSPHATE. CC -!- PATHWAY: PLAYS AN IMPORTANT ROLE IN SEVERAL METABOLIC PATHWAYS. CC -!- SUBUNIT: HOMODIMER. CC -!- SUBCELLULAR LOCATION: FOUND IN GLYCOSOMES, AS WELL AS CYTOPLASM. CC -!- SIMILARITY: BELONGS TO THE TRIOSEPHOSPHATE ISOMERASE FAMILY. DR EMBL; X74797; CAA52804.1; -. DR PDB; 1AMK; 17-DEC-97. DR InterPro; IPR000652; Trioseph_isomrse. isomrse DR Pfam; PF00121; TIM; 1. DR ProDom; PD001005; Trioseph_isomrse; 1. DR PROSITE; PS00171; TIM; 1. KW Isomerase; Glycolysis; Gluconeogenesis; Fatty acid biosynthesis; KW Pentose shunt; 3D-structure. ACT_SITE 96 96 BY SIMILARITY. ACT_SITE 168 168 BY SIMILARITY. SQ SEQUENCE 251 AA; 27178 MW; 987DFEED46F1E3EE CRC64; MSAKPQPIAA ANWKCNGTTA SIEKLVQVFN EHTISHDVQC VVAPTFVHIP LVQAKLRNPK YVISAENAIA KSGAGEVS MPILKDIGVH WVILGHSERR TYYGETDEIV AQKVSEACKQ GFMVIACIGE TLQQREANQT AKVVLSQTSA IAAKLTKDAW NQVVLAYEPV WAIGTGKVAT PEQAQEVHLL LRKWVSENIG TDVAAKLRIL YGGSVNAANA ATLYAKPDIN GFLVGGASLK PEFRDIIDAT R // 19

Les banques issues de traduction automatique GENBANK CDS 109..717 /protein_id="caa45406.1" /db_xref=" banque:access " /translation="miltg " CDS 1201..1809 /protein_id="caa45407.1" /db_xref=" banque:access " /translation="minhl " CDS 2221..2829 /protein_id="caa45408.1" /db_xref=" banque:access " /translation="mvgtt " GENPEPT Les banques issues de traduction automatique EMBL CDS 109..717 /protein_id="caa45406.1" /db_xref=" banque:access " /translation="miltg " CDS 1201..1809 /protein_id="caa45407.1" /db_xref=" banque:access " /translation="minhl " CDS 2221..2829 /protein_id="caa45408.1" /db_xref=" banque:access " /translation="mvgtt " Swissprot TrEMBL SpTrEMBL RemTrEMBL 20

Une entrée de la banque TrEMBL ID O67224_AQUAE Unreviewed; PRT; 562 AA. AC O67224; DT 01-AUG-1998 (TrEMBLrel. 07, Created) DT 01-AUG-1998 (TrEMBLrel. 07, Last sequence update) DT 01-MAR-2004 (TrEMBLrel. 26, Last annotation update) DE Hydrogenase regulation HoxX. GN Name=hoxX; OrderedLocusNames=AQ_1156; OS Aquifex aeolicus. OC Bacteria; Aquificae; Aquificales; Aquificaceae; Aquifex. OX NCBI_TaxID=63363; RN [1] RP NUCLEOTIDE SEQUENCE. RC STRAIN=VF5; RX MEDLINE=98196666; PubMed=9537320; DOI=10.1038/32831; RA Deckert G., Warren P.V., Gaasterland T., Young W.G., Lenox A.L., RA Graham D.E., Overbeek R., Snead M.A., Keller M., Aujay M., Huber R., RA Feldman R.A., Short J.M., Olsen G.J., Swanson R.V.; RT "The complete genome of the hyperthermophilic bacterium Aquifex RT aeolicus."; RL Nature 392:353-358(1998). DR EMBL; AE000726; AAC07186.1; -; Genomic_DNA. DR PIR; E70399; E70399. KW Complete proteome; Nuclear protein. SQ SEQUENCE 562 AA; 65495 MW; 1856B80EC277B7EB CRC64; MRILFLSYRF NSLSQRLYCE LTEREHEVSV ELDVHPDLTV EAAELYKPDL IIAPFLKRKI PQEVWKKYKT LIIHPGPPGD RGPNALDWAI MKGERIWGVT LLEASEEYDA GDVWAYRTFP MRFARKASIY RNEVTEGVVE CVLEALENFE RGDFKPTPQK EHWWNPKMEQ ELRRVDWEQD DTKTVLRKVY ASDSQPGASS KVLGKEVLLF NAYPEEELKG KPGEVLALRD EAVCIGTRDG AVWITHMRER KKESIKLPSA RVLGEFLKGV KEDPIKPWEK VDFKTYREIL YEEEDGIGFI HFNFYNGAMS TEQCYRLLET IKYAKKRPVK AIVLLGSEDF FSNGMNLNTI ENAESPADES WRNINAIDDV CEEILKTPDK LTVAGMQGNA GAGGVFLALT CDLVFAREGV VLNPHYKNIG NLYGSEFWTY TLPKRVGWEK GKEVMENRMP ISSKKAFEIG LIDGVFGKTP KEFRQRLKER IKNFINSKDF YEFIEKKKKE RTSGEWLEEI QKCREHELEK MKLNFYGFDT SYHIARYYFV RRKPHFRTPP YLAIHRRLKF SL // Les compilations de banques TrEMBL PIR-PSD ~ complète 12 500 000 entrées Swissprot 21

22