Bioinformatique Ressources et banques de données internationales Frédéric Lecerf frederic.lecerf@agrocampus-ouest.fr UMR PEGASE Equipe Génétique & Génomique Bioinformatique Plan du module 1. Présentation des banques et les différents BLAST 2. Ressources du NCBI 3. Autres ressources (Ensembl, Biomart, UCSC) 2 1
Bioinformatique 1. Présentation des banques et les différents BLAST Source : S. Lagarrigue (UMRGA) 3 Bioinformatique Les différentes Banques 4 2
Bioinformatique Banques (rappel) Les banques de séquences (et logiciels) d accès public 1. Banques de séquences Nucléotidiques 2. Banques de séquences Protéiques Banques généralistes (séquences soumises par les chercheurs) Banques spécialisées (données issues d un traitement) - nucléotidiques (transfac, ) http://www.gene-regulation.com/ - protéiques (Prosite, ) http://us.expasy.org/prosite/ 5 Bioinformatique Banques (rappel) Banques généralistes de séquences nucléotidiques EMBL : http://www.ebi.ac.uk (banque européenne) GENBANK : http://www.ncbi.nlm.nih.gov (banque américaine) DDBJ : http://www.ddbj.nig.ac.jp (banque japonnaise) Echanges d informations entre ces 3 banques (depuis 1987) Maintenant il existe des vérifications sont faites à la soumission (curation) Il existe désormais un recueil de séquences référencées, annotées et «contrôlées» : The Reference Sequence (RefSeq) collection http://www.ncbi.nlm.nih.gov/refseq/ 6 3
Bioinformatique Banques (rappel) Banques généralistes de séquences protéiques Swissprot & TrEMBL : http://www.expasy.ch/ PIR : http://pir.georgetown.edu/pirwww/support/sitemap.shtml Uniprot : http://www.expasy.uniprot.org/ consortium EBI-PIR-SIB 7 Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL - 87 500 000 seq in 160 milliard de nt partie codante (cds) connue ou prédite Banque protéiques TrEMBL 4 260 000 seq PR séquencées NNNNatgNNNNNNtagNNNN Swiss-Prot 260 000 seq 8 4
Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL - 87 500 000 seq in 160 milliard de nt Séquences annotées par des chercheurs ("nr") Séquences «séquençage complet des génomes» (HTG-WGS-STS) Séquences «séquençage partiel à haut débit des cdna» (EST-HTC) 9 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Quelle banque choisir? 10 5
Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : EST 11 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : HTG 12 6
Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) banque : nr 13 Bioinformatique Banques (rappel) Séquences traduites avec une annotation provenant du gène (nom, espèce, ) Banque protéiques TrEMBL 4 260 000 seq avril 2007 PR séquencées Séquences annotées par différentes informations fiables (annotations manuelles) : domaines, motifs, Swiss-Prot 260 000 seq Séquençage direct de protéines ou de peptides 14 7
Bioinformatique Les différentes banques Depuis 2006, fusion swissprot / uniprot Toutes les fiches sont disponibles sur le même site (TrEMBL et swissprot). L unique différence est la présence ou non d une étoile Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level 13281 0.08% 2: Evidence at transcript level 537508 3.05% 3: Inferred from homology 3877735 21.97% 4: Predicted 13223191 74.91% 5: Uncertain 0 0.00% Source : http://www.ebi.ac.uk/uniprot/tremblstats/ 8
Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level 73099 13.7% 2: Evidence at transcript level 69939 13.1% 3: Inferred from homology 373413 70.1% 4: Predicted 14454 2.7% 5: Uncertain 1887 0.4% Source : http://web.expasy.org/docs/relnotes/relstat.html Bioinformatique Les différents BLAST 18 9
Bioinformatique Accès à ces programmes pour la recherche des homologues à une séq 19 Bioinformatique séquence banque blastn nt vs. nt blastp aa vs. aa blastx translated nt vs. aa tblastn aa vs. translated nt tblastx translated nt vs. translated nt 20 10
Bioinformatique séquence banque blastn blastp blastx tblastn tblastx requête «classique» d une séquence nt requête «classique» d une séquence nt «lissage» de la variabilité ex : EST inconnue, identité avec une PR? Obtention de plus d informations (inclusion des infos de séquence de nt) Combinaison des deux derniers cas 21 Conclusion - Banques Banques nt : 3 grandes classes Gènes (nr, refseq ) A priori, de la séquence complète codante Annotation (nom, fonction) disponible Génomique (HTG, WGS) séquence (contig) de fragment génomique Pas d annotation (ou uniquement localisation) EST : Fragment de séquences codantes Beaucoup de redondance, surreprésentation de la partie 3 Pas d annotation (nom espèce et tissus, au mieux) 11
Conclusion - Banques Banques protéiques Majorité des séquences protéiques Traduction in silico «copier-coller» de l annotation de la fiche GenBank Annotation plus poussée dans les fiches swissprot / UniprotKB Intervention annotateur ATTENTION : de plus en plus «d inferred from homology» Peu ou pas de séquençage direct de protéines Conclusion - BLAST Les différents BLAST 3 catégories : «classiques» : blastn et blastp «avancés» : blastx, tblastn, tblastx «spécifiques» : PHI-Blast (et d autres encore) Hors «spécifiques», le choix du programme dépend du contexte et des objectifs Garder à l esprit que certaines choses ne sont pas possible avec tblastx, par exemple 12
Bioinformatique 2. Ressources du NCBI 25 26 13
@ 27 @ 28 14
Bioinformatique - NCBI 29 Bioinformatique - NCBI Symbol? Aliases? MIM? GeneID? 30 15
Bioinformatique - NCBI 31 Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/gene/2218 32 16
Bioinformatique - NCBI - CCDS : Conserved CDS - Conserved Domains - EST : liste d EST associées - Full text in PMC : PUBMED - GEO Profiles : Expression de ce gène dans différentes XP - HomoloGene : orthologue - Nucleotide : Nt séquences, STS, WGS (pas EST) - OMIM : Online Medelian Inheritance in Man - UniSTS: liste de STS - UniGene : ensemble transcript regroupés selon le même site de transcription - HGNC : HUGO Gene Nomenclature Comittee - UCSC : - KEGG : Kyoto Encyclopedia of Genes and Genomes Variable selon les gènes 33 Bioinformatique - NCBI NP_006722.2 GI:119395714 NM_006731.2 AL601876.1 GeneID:2672? 34 17
Bioinformatique - NCBI Différentes nomenclatures d identifiants Accession Number ET GI number : AL601876.1 : accession number et numéro de version GI:119395714 : GI number (pas de notion de version) Ces ID peuvent désigner la même séquence GI maintenu pour des raisons de compatibilité (1 ère version) RefSeq ID : Liens vers des données RefSeq (curated or not) Structure : XX_000000.0 (ou XX_000000000.0) avec XX: type de données 6 chiffres d identifiant.0 : numéro de version Note : un ID XX_000000 désigne la dernière version 35 Bioinformatique - NCBI Type de données RefSeq «revues» Préfixe NC_ AC_ NG_ NM_ NP_ AP_ NR_ Type Complete genomic molecules (genomes, chr, organelles, plasmids) Alternate complete genomic molecules Incomplete genomic region Transcript products Protein products Alternate protein products Non-coding transcripts Type de données «mixed» : automated AND curated (expert review) 36 18
Bioinformatique - NCBI Type de données RefSeq «automated» Préfixe NT_ ou NW_ NZ_XXXX XM_ XP_ XR_ YP_ ZP_ NS_ Type Intermediate genomic assemblies of BAC / WGS Collection of WGS (acc. not tracked between released and XXXX identifies a genome project) Transcript products Protein products Non-coding transcripts Protein products: no corresponding transcripts record provided Protein products: annotated on NZ_accessions Genomic records that does not reflect the real structure of molecules (e.g. unordered assembly) Type de données «automated» : processus d annotation automatique (pas de vérification individuelle) 37 Bioinformatique - NCBI A bit confused? Let s have a look http://www.ncbi.nlm.nih.gov/gene/2218 38 19
Bioinformatique - NCBI 39 Bioinformatique - NCBI Intérêt des données brutes? FTP? WDSL? SOAP? API? Dump SQL? Fichiers XML? 40 20
Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Schéma de la base de données de Gene Ontology 41 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? 42 21
Bioinformatique - NCBI Fichier DISEASE de KEGG 43 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? Structure sous forme de fiches Cas : Uniprot, KEGG disease, OMIM, etc 44 22
Bioinformatique - NCBI RTFM! 45 Bioinformatique - NCBI Les autres bases de données disponibles? EnooooOOOOOOOooooormément de bases sur le site du NCBI http://www.ncbi.nlm.nih.gov/database/datamodel/ Néanmoins, il faut : Distinguer les bases ultra-spécialisées (ex : GENSAT, Gene Expression Nervous System Atlas) ou «juste» hébergées par le NCBI (ex : OMIM) Appréhender la «redondance» et les sous-ensembles, ex : GenBank et RefSeq donne accès des séquences qui sont elles-mêmes contenues dans la base Nucleotide (pour les nt) ou Protein Gérer les «connexions cachées» : une recherche sur Entrez vous rebasculera vers la base «Gene» Now, /mode catalogue ON 46 23
Bioinformatique - NCBI Base : Nucléotide séquences de nt : WGS, STS (no EST ou GSS, similaire EST mais sequences génomiques) différentes sources : GENBANK, RefSeq, etc 47 Bioinformatique - NCBI Base Protein Source : GenBank, EMBL, DDBJ, PIR, SWISS-PROT, PRF & PDB 48 24
Bioinformatique - NCBI Base : Genome Lien vers MAPVIEW Lien vers Liste PR Lien vers Liste mrna Lien vers page Entrez pour une recherche uniquement dans ce contig NC_ Let s have a look : http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2759&type=0&name=complete%20eukaryota 49 Bioinformatique - NCBI MapViewer http://www.ncbi.nlm.nih.gov/mapview/ 50 25
Bioinformatique - NCBI Genome Projects Ensemble des «large scale sequencing» projects, complete or not http://www.ncbi.nlm.nih.gov/genomeprj 51 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines 52 26
Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/domains 53 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines Conserved Domains : source : Pfam, Smart & COG http://www.ncbi.nlm.nih.gov/cdd 54 27
Bioinformatique - NCBI UniSTS Listes non redondantes et unifiées de STS (i.e. marqueurs) Application pour de la cartographie génétique 55 Bioinformatique - NCBI UniSTS 56 28
Bioinformatique - NCBI dbsnp Les SNP disponibles chez différentes espèces Possibilités de chercher les SNP disponibles selon un gène, une région, etc, etc http://www.ncbi.nlm.nih.gov/snp 57 Bioinformatique - NCBI dbgap Relation phénotype génotype Données issues de projet de GWAS, re-séquençage, etc Accès très «pointue» : localisation SNP, p-value, etc 58 29
Bioinformatique - NCBI dbgap 59 Bioinformatique - NCBI dbgap 60 30
Bioinformatique - NCBI UniGene Système de paritionnement des séquences GenBank pour obtenir un ensemble non redondant de gènes en clusters (ouf!) En clair Un cluster UniGene est sensé regrouper un ensemble de séquences provenant d un gène unique http://www.ncbi.nlm.nih.gov/unigene 61 Bioinformatique - NCBI HomoloGene Détection automatique des homologues parmi des ensembles de gènes eucaryotes 62 31
Bioinformatique - NCBI 63 Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/homologene/20322 64 32
Bioinformatique - NCBI Existence de «mini-sites» d espèces références http://www.ncbi.nlm.nih.gov/genome/guide/human/ http://www.ncbi.nlm.nih.gov/genome/guide/mouse/ http://www.ncbi.nlm.nih.gov/genome/guide/rat/ http://www.ncbi.nlm.nih.gov/genome/guide/zebrafish/ Information générale : http://www.ncbi.nlm.nih.gov/genomes/ 65 Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier http://www.ncbi.nlm.nih.gov/taxonomy 66 33
Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier http://www.ncbi.nlm.nih.gov/taxonomy 67 Bioinformatique - NCBI GEO : Gene Expression Omnibus A chaque publication scientifique, les données d expression (puce) sont mis à disposition de la communauté Accès aux données normalisées de plan d expérience Applications : Quel est le niveau d expression d un gène selon un contexte? GEO profiles Réalisation de méta-analyse (analyse de tous les plans d expérience à partir d un tissu pour plusieurs espèces, par exemple) : GEO datasets 68 34
Bioinformatique - NCBI GEO 69 Bioinformatique - NCBI GEO profile Recherche par un nom de gène (e.g. BMPR) 70 35
Bioinformatique - NCBI GEO profile 71 Bioinformatique - NCBI GEO datasets Recherche d ensemble de données de transcriptomique selon : Le tissu Le nb d échantillon Le type d expérience http://www.ncbi.nlm.nih.gov/gds 72 36
Bioinformatique - NCBI GEO datasets 73 Bioinformatique - NCBI GEO datasets 74 37
Bioinformatique - NCBI Cancer Chromosomes Aberrations chromosomiques de lignées cancéreuses Données de SKY-FISH et de CGH http://www.ncbi.nlm.nih.gov/cancerchromosomes 75 Bioinformatique - NCBI Biosystems Obtention de groupes de molécules interagissant dans un système biologique Différents types de «biosystems» : Pathway (interactions gènes, protéines ou petites molécules) Disease (interactions gènes, marqueurs biologiques) Connexions base KEGG http://www.ncbi.nlm.nih.gov/biosystems 76 38
Bioinformatique - NCBI Biosystems 77 Bioinformatique - NCBI Biosystems 78 39
Bioinformatique - NCBI Biosystems 79 Bioinformatique - NCBI OMIM & OMIA Online Mendelian Inherintance in Man or Animals Liste de gènes et de maladies / caractères héritables Connexion entre gènes et maladies Pour une maladie / caractère : apport du maximum de connaissances (gènes, cartographie, bibliographie, etc ) 80 40
Bioinformatique - NCBI 81 Bioinformatique - NCBI Autres bases? PubChem : action biologique, bioassays PubMed MeSH (Medical Subject Headings) : controlled vocabulary to retrieve informations 82 41
Bioinformatique - NCBI Still alive? Que retenir de cette présentation? 83 Bioinformatique - NCBI Conclusion Trop d information tue l information? Exemple du NCBI : site extrêmement vaste Richesse des bases de données Richesse des outils Accès à l arrière-cours (données brutes FTP) Accès aux méthodes (protocole SOAP) Et les autres UCSC, EBI, UNIPROT, MGI, KEGG, Ensembl, GO, etc, etc 84 42
Bioinformatique - NCBI Conclusion VOUS ne pouvez pas tout connaître (and nobody does) Il faut avoir une vue d ensemble d une base Comprendre les relations Appréhender leurs obtentions (expérimental? in silico?) Est-ce une réplication (i.e. suis-je à la source?)? pour en retirer l information qui vous sera utile, par ex: la structure 3D d une protéine pourra m être utile si j identifie une mutation dans un gène Les niveaux d expressions d un gène dans d autres espèces peuvent m aider à comprendre mon expérience (et à formuler des hypothèses) L implication de mon gène dans telle maladie me permettra d étayer (ou non) les niveaux d expressions dans mon expérience 85 Bioinformatique - NCBI Conclusion Au final : 1. c est vaste 2. Je ne peux pas tout connaître On fait comment? 86 43
Bioinformatique 3. Sites web et outils spécifiques 87 Bioinformatique Sites web : ENSEMBL & USCS 2 sites «généralistes» : Ensembl et UCSC Synthèse d information sur les génomes séquencés Synthèse de l annotation de ces génomes Outils disponibles : BLAST et BLAT 88 44
Bioinformatique Sites web : ENSEMBL ENSEMBL : http://www.ensembl.org Réconciliation de données de génomique fonctionnelle De nombreuses API disponibles Bioinformatique Sites web : ENSEMBL 45
Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 46
Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 47
Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 48
Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 49
Bioinformatique Sites web : UCSC Genome Browser USCS ou «Golden Path» : http://genome.ucsc.edu Orientation génomique structurale Options différentes (comparaison de génomes, ) Bioinformatique Sites web : UCSC Genome Browser 50
Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 51
Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 52
Sites web Ensembl et UCSC Ces 2 sites utilisent les données de sites «institutionnels» et d autres sites (notion de réconciliation de données) : HGNC, EBI, UniProt, etc 2 philosophies différentes (fonctionnelles vs. structurales), même si des chevauchements existent Très vaste et très complet Accès plus ou moins facilité aux données brutes : API PERL / Biomart pour Ensembl Table browser et Galaxy pour UCSC Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet : www.biomart.org 106 53
Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet : www.biomart.org Système d interrogation de bases de données (Ensembl, EBI, Uniprot, VEGA, ) et de récupération de données spécifiques selon des filtres personnalisés. Utilisation «classique» : Mon ensemble de gènes à moi Uniprot ID? GOA? Chromosome? Nom? Homologues? Domaines? InterPro ID? NCBI? Entrez? 107 Bioinformatique Sites web : BIOMART 108 54
Bioinformatique Sites web : BIOMART 109 Bioinformatique Sites web : BIOMART 110 55
Bioinformatique Sites web : BIOMART 111 Bioinformatique Sites web : BIOMART Domaine GST C-term 112 56
Bioinformatique Sites web : BIOMART 113 Bioinformatique Sites web : BIOMART 114 57
Bioinformatique Sites web : BIOMART 115 Bioinformatique Sites web : BIOMART 116 58
Bioinformatique Sites web : BIOMART 117 Bioinformatique Sites web : BIOMART Liens PERL : récupération du script permettant d obtenir la requête en cours 118 59
Bioinformatique Sites web : BIOMART BIOMART : possibilité d interrogation de multiples bases de données de façon très souple et pointue sans programmation! Interconnexion entre différents bases de données Réelle alternative à la programmation pour obtenir de façon rapide des ensembles d annotations spécifiques d une fonction, d un chromosome, d une classe de gène, Liens PERL pour relancer le script ultérieurement 119 Bioinformatique Sites web : GALAXY Galaxy : http://galaxy.psu.edu Plateforme de manipulation et d analyse de données Alternative à R, Programmation, UNIX, etc Framework de logiciels 120 60
Bioinformatique Sites web : GALAXY 121 Bioinformatique Sites web : GALAXY 122 61
Bioinformatique Sites web : GALAXY Etc, etc, etc 123 Bioinformatique Sites web : GALAXY Beaucoup plus ouvert : envoi de vos propes données, utilisation de données publiques (Biomart ou UCSC) Possibilité de réaliser des workflow sur les données Possibilité d ajouter vos propres programmes De plus en plus utilisé comme framework pour l intégration de programme d analyse 124 62
Bioinformatique Sites web More? Suite EMBOSS : http://emboss.sourceforge.net BioPERL : http://www.bioperl.org/wiki/main_page N oubliez pas les «classiques» : NCBI, EBI, Progression de l interconnexion Possibilité de requête 125 63