Bioinformatique. Ressources et banques de données internationales

Documents pareils

Introduction aux bases de données: application en biologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Base de données bibliographiques Pubmed-Medline

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Big data et sciences du Vivant L'exemple du séquençage haut débit

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Identification de nouveaux membres dans des familles d'interleukines

Perl Orienté Objet BioPerl There is more than one way to do it

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Bibliographie Introduction à la bioinformatique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Extraction d information des bases de séquences biologiques avec R

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Eco-système calcul et données

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Génétique et génomique Pierre Martin

Bases de données et outils bioinformatiques utiles en génétique

Gènes Diffusion - EPIC 2010

CATALOGUE DES PRESTATIONS DE LA

Compte-rendu de fin de projet

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Biomarqueurs en Cancérologie

MABioVis. Bio-informatique et la

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

Les bases de données transcriptionnelles en ligne

Bases de données des mutations

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Bases de données Outils de gestion

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

SysFera. Benjamin Depardon

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Qu'est-ce que c'est??

OBJECTIFS. Une démarche E-science

Biologie Computationnelle

Caches sémantiques coopératifs pour la gestion de données sur grilles

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

3 Octobre Les Communautés MS

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Cours Base de données relationnelles. M. Boughanem, IUP STRI

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Equipe Structure, Fonction et Evolution des Génomes de Blé

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Manuel du logiciel PrestaTest.

CESI Bases de données

L art d ordonnancer. avec JobScheduler. François BAYART

JDev Atelier Datalift

Rapport de certification ANSSI-CSPN-2011/14. Fonctionnalités de pare-feu de StoneGate Firewall/VPN build 8069

2 disques en Raid 0,5 ou 10 SAS

RELEASE NOTES. Les nouveautés Desktop Manager 2.8

Le Client/Serveur avec Enterprise Miner version 4

4. SERVICES WEB REST 46

Vulnérabilités et sécurisation des applications Web

LE RESEAU GLOBAL INTERNET

Disponibilité et fiabilité des services et des systèmes

EMME : un environnement de gestion des métadonnées expérimentales

Présentation du module Base de données spatio-temporelles

SYSTÈMES D INFORMATIONS

Bases de données Cours 1 : Généralités sur les bases de données

Évaluation et implémentation des langages

M1 : Ingénierie du Logiciel

Architectures web/bases de données

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Développer des Applications Internet Riches (RIA) avec les API d ArcGIS Server. Sébastien Boutard Thomas David

Installation et configuration du logiciel BauBit

Physiopathologie : de la Molécule à l'homme

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

: seul le dossier dossier sera cherché, tous les sousdomaines

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

White Paper - Livre Blanc

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Hépatite chronique B Moyens thérapeutiques

Essais cliniques de phase 0 : état de la littérature

Recherche bibliographique avec PubMed/MedLine

Systèmes d'informations historique et mutations

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

Evaluation de la conformité du Système de validation Vaisala Veriteq vlog à la norme 21 CFR Part 11

L axe 5 du Cancéropole Nord Ouest

Transcription:

Bioinformatique Ressources et banques de données internationales Frédéric Lecerf frederic.lecerf@agrocampus-ouest.fr UMR PEGASE Equipe Génétique & Génomique Bioinformatique Plan du module 1. Présentation des banques et les différents BLAST 2. Ressources du NCBI 3. Autres ressources (Ensembl, Biomart, UCSC) 2 1

Bioinformatique 1. Présentation des banques et les différents BLAST Source : S. Lagarrigue (UMRGA) 3 Bioinformatique Les différentes Banques 4 2

Bioinformatique Banques (rappel) Les banques de séquences (et logiciels) d accès public 1. Banques de séquences Nucléotidiques 2. Banques de séquences Protéiques Banques généralistes (séquences soumises par les chercheurs) Banques spécialisées (données issues d un traitement) - nucléotidiques (transfac, ) http://www.gene-regulation.com/ - protéiques (Prosite, ) http://us.expasy.org/prosite/ 5 Bioinformatique Banques (rappel) Banques généralistes de séquences nucléotidiques EMBL : http://www.ebi.ac.uk (banque européenne) GENBANK : http://www.ncbi.nlm.nih.gov (banque américaine) DDBJ : http://www.ddbj.nig.ac.jp (banque japonnaise) Echanges d informations entre ces 3 banques (depuis 1987) Maintenant il existe des vérifications sont faites à la soumission (curation) Il existe désormais un recueil de séquences référencées, annotées et «contrôlées» : The Reference Sequence (RefSeq) collection http://www.ncbi.nlm.nih.gov/refseq/ 6 3

Bioinformatique Banques (rappel) Banques généralistes de séquences protéiques Swissprot & TrEMBL : http://www.expasy.ch/ PIR : http://pir.georgetown.edu/pirwww/support/sitemap.shtml Uniprot : http://www.expasy.uniprot.org/ consortium EBI-PIR-SIB 7 Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL - 87 500 000 seq in 160 milliard de nt partie codante (cds) connue ou prédite Banque protéiques TrEMBL 4 260 000 seq PR séquencées NNNNatgNNNNNNtagNNNN Swiss-Prot 260 000 seq 8 4

Bioinformatique Banques (rappel) avril 2007 Banque nucléotidiques - genbank - EMBL - 87 500 000 seq in 160 milliard de nt Séquences annotées par des chercheurs ("nr") Séquences «séquençage complet des génomes» (HTG-WGS-STS) Séquences «séquençage partiel à haut débit des cdna» (EST-HTC) 9 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Quelle banque choisir? 10 5

Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : EST 11 Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) Banque : HTG 12 6

Bioinformatique Banques (rappel) Exemple : annotation d une séquence inconnue (obtenu par séquençage, criblage d une banque d ADNC, ) banque : nr 13 Bioinformatique Banques (rappel) Séquences traduites avec une annotation provenant du gène (nom, espèce, ) Banque protéiques TrEMBL 4 260 000 seq avril 2007 PR séquencées Séquences annotées par différentes informations fiables (annotations manuelles) : domaines, motifs, Swiss-Prot 260 000 seq Séquençage direct de protéines ou de peptides 14 7

Bioinformatique Les différentes banques Depuis 2006, fusion swissprot / uniprot Toutes les fiches sont disponibles sur le même site (TrEMBL et swissprot). L unique différence est la présence ou non d une étoile Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level 13281 0.08% 2: Evidence at transcript level 537508 3.05% 3: Inferred from homology 3877735 21.97% 4: Predicted 13223191 74.91% 5: Uncertain 0 0.00% Source : http://www.ebi.ac.uk/uniprot/tremblstats/ 8

Bioinformatique Les différentes banques Protein existence (PE): entries % 1: Evidence at protein level 73099 13.7% 2: Evidence at transcript level 69939 13.1% 3: Inferred from homology 373413 70.1% 4: Predicted 14454 2.7% 5: Uncertain 1887 0.4% Source : http://web.expasy.org/docs/relnotes/relstat.html Bioinformatique Les différents BLAST 18 9

Bioinformatique Accès à ces programmes pour la recherche des homologues à une séq 19 Bioinformatique séquence banque blastn nt vs. nt blastp aa vs. aa blastx translated nt vs. aa tblastn aa vs. translated nt tblastx translated nt vs. translated nt 20 10

Bioinformatique séquence banque blastn blastp blastx tblastn tblastx requête «classique» d une séquence nt requête «classique» d une séquence nt «lissage» de la variabilité ex : EST inconnue, identité avec une PR? Obtention de plus d informations (inclusion des infos de séquence de nt) Combinaison des deux derniers cas 21 Conclusion - Banques Banques nt : 3 grandes classes Gènes (nr, refseq ) A priori, de la séquence complète codante Annotation (nom, fonction) disponible Génomique (HTG, WGS) séquence (contig) de fragment génomique Pas d annotation (ou uniquement localisation) EST : Fragment de séquences codantes Beaucoup de redondance, surreprésentation de la partie 3 Pas d annotation (nom espèce et tissus, au mieux) 11

Conclusion - Banques Banques protéiques Majorité des séquences protéiques Traduction in silico «copier-coller» de l annotation de la fiche GenBank Annotation plus poussée dans les fiches swissprot / UniprotKB Intervention annotateur ATTENTION : de plus en plus «d inferred from homology» Peu ou pas de séquençage direct de protéines Conclusion - BLAST Les différents BLAST 3 catégories : «classiques» : blastn et blastp «avancés» : blastx, tblastn, tblastx «spécifiques» : PHI-Blast (et d autres encore) Hors «spécifiques», le choix du programme dépend du contexte et des objectifs Garder à l esprit que certaines choses ne sont pas possible avec tblastx, par exemple 12

Bioinformatique 2. Ressources du NCBI 25 26 13

@ 27 @ 28 14

Bioinformatique - NCBI 29 Bioinformatique - NCBI Symbol? Aliases? MIM? GeneID? 30 15

Bioinformatique - NCBI 31 Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/gene/2218 32 16

Bioinformatique - NCBI - CCDS : Conserved CDS - Conserved Domains - EST : liste d EST associées - Full text in PMC : PUBMED - GEO Profiles : Expression de ce gène dans différentes XP - HomoloGene : orthologue - Nucleotide : Nt séquences, STS, WGS (pas EST) - OMIM : Online Medelian Inheritance in Man - UniSTS: liste de STS - UniGene : ensemble transcript regroupés selon le même site de transcription - HGNC : HUGO Gene Nomenclature Comittee - UCSC : - KEGG : Kyoto Encyclopedia of Genes and Genomes Variable selon les gènes 33 Bioinformatique - NCBI NP_006722.2 GI:119395714 NM_006731.2 AL601876.1 GeneID:2672? 34 17

Bioinformatique - NCBI Différentes nomenclatures d identifiants Accession Number ET GI number : AL601876.1 : accession number et numéro de version GI:119395714 : GI number (pas de notion de version) Ces ID peuvent désigner la même séquence GI maintenu pour des raisons de compatibilité (1 ère version) RefSeq ID : Liens vers des données RefSeq (curated or not) Structure : XX_000000.0 (ou XX_000000000.0) avec XX: type de données 6 chiffres d identifiant.0 : numéro de version Note : un ID XX_000000 désigne la dernière version 35 Bioinformatique - NCBI Type de données RefSeq «revues» Préfixe NC_ AC_ NG_ NM_ NP_ AP_ NR_ Type Complete genomic molecules (genomes, chr, organelles, plasmids) Alternate complete genomic molecules Incomplete genomic region Transcript products Protein products Alternate protein products Non-coding transcripts Type de données «mixed» : automated AND curated (expert review) 36 18

Bioinformatique - NCBI Type de données RefSeq «automated» Préfixe NT_ ou NW_ NZ_XXXX XM_ XP_ XR_ YP_ ZP_ NS_ Type Intermediate genomic assemblies of BAC / WGS Collection of WGS (acc. not tracked between released and XXXX identifies a genome project) Transcript products Protein products Non-coding transcripts Protein products: no corresponding transcripts record provided Protein products: annotated on NZ_accessions Genomic records that does not reflect the real structure of molecules (e.g. unordered assembly) Type de données «automated» : processus d annotation automatique (pas de vérification individuelle) 37 Bioinformatique - NCBI A bit confused? Let s have a look http://www.ncbi.nlm.nih.gov/gene/2218 38 19

Bioinformatique - NCBI 39 Bioinformatique - NCBI Intérêt des données brutes? FTP? WDSL? SOAP? API? Dump SQL? Fichiers XML? 40 20

Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Schéma de la base de données de Gene Ontology 41 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? 42 21

Bioinformatique - NCBI Fichier DISEASE de KEGG 43 Bioinformatique - NCBI Bioinfo «haut-débit», the «promise heaven» files formats Format TSV : Tabular Separated Values Format XML (notion de structure, champs, hiérarchie) Format SQL : intégration directe dans votre base de données (peut être d une structure complexe ) Format «RECORD» : le pire cas? Structure sous forme de fiches Cas : Uniprot, KEGG disease, OMIM, etc 44 22

Bioinformatique - NCBI RTFM! 45 Bioinformatique - NCBI Les autres bases de données disponibles? EnooooOOOOOOOooooormément de bases sur le site du NCBI http://www.ncbi.nlm.nih.gov/database/datamodel/ Néanmoins, il faut : Distinguer les bases ultra-spécialisées (ex : GENSAT, Gene Expression Nervous System Atlas) ou «juste» hébergées par le NCBI (ex : OMIM) Appréhender la «redondance» et les sous-ensembles, ex : GenBank et RefSeq donne accès des séquences qui sont elles-mêmes contenues dans la base Nucleotide (pour les nt) ou Protein Gérer les «connexions cachées» : une recherche sur Entrez vous rebasculera vers la base «Gene» Now, /mode catalogue ON 46 23

Bioinformatique - NCBI Base : Nucléotide séquences de nt : WGS, STS (no EST ou GSS, similaire EST mais sequences génomiques) différentes sources : GENBANK, RefSeq, etc 47 Bioinformatique - NCBI Base Protein Source : GenBank, EMBL, DDBJ, PIR, SWISS-PROT, PRF & PDB 48 24

Bioinformatique - NCBI Base : Genome Lien vers MAPVIEW Lien vers Liste PR Lien vers Liste mrna Lien vers page Entrez pour une recherche uniquement dans ce contig NC_ Let s have a look : http://www.ncbi.nlm.nih.gov/genomes/genlist.cgi?taxid=2759&type=0&name=complete%20eukaryota 49 Bioinformatique - NCBI MapViewer http://www.ncbi.nlm.nih.gov/mapview/ 50 25

Bioinformatique - NCBI Genome Projects Ensemble des «large scale sequencing» projects, complete or not http://www.ncbi.nlm.nih.gov/genomeprj 51 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines 52 26

Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/domains 53 Bioinformatique - NCBI Bases «structurales» Structure experimentally designed 3D Domains Automatically identified Recherche selon séquence, nom, domaines Conserved Domains : source : Pfam, Smart & COG http://www.ncbi.nlm.nih.gov/cdd 54 27

Bioinformatique - NCBI UniSTS Listes non redondantes et unifiées de STS (i.e. marqueurs) Application pour de la cartographie génétique 55 Bioinformatique - NCBI UniSTS 56 28

Bioinformatique - NCBI dbsnp Les SNP disponibles chez différentes espèces Possibilités de chercher les SNP disponibles selon un gène, une région, etc, etc http://www.ncbi.nlm.nih.gov/snp 57 Bioinformatique - NCBI dbgap Relation phénotype génotype Données issues de projet de GWAS, re-séquençage, etc Accès très «pointue» : localisation SNP, p-value, etc 58 29

Bioinformatique - NCBI dbgap 59 Bioinformatique - NCBI dbgap 60 30

Bioinformatique - NCBI UniGene Système de paritionnement des séquences GenBank pour obtenir un ensemble non redondant de gènes en clusters (ouf!) En clair Un cluster UniGene est sensé regrouper un ensemble de séquences provenant d un gène unique http://www.ncbi.nlm.nih.gov/unigene 61 Bioinformatique - NCBI HomoloGene Détection automatique des homologues parmi des ensembles de gènes eucaryotes 62 31

Bioinformatique - NCBI 63 Bioinformatique - NCBI http://www.ncbi.nlm.nih.gov/homologene/20322 64 32

Bioinformatique - NCBI Existence de «mini-sites» d espèces références http://www.ncbi.nlm.nih.gov/genome/guide/human/ http://www.ncbi.nlm.nih.gov/genome/guide/mouse/ http://www.ncbi.nlm.nih.gov/genome/guide/rat/ http://www.ncbi.nlm.nih.gov/genome/guide/zebrafish/ Information générale : http://www.ncbi.nlm.nih.gov/genomes/ 65 Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier http://www.ncbi.nlm.nih.gov/taxonomy 66 33

Bioinformatique - NCBI Base Taxonomy Présence d un numéro de taxon dans de nombreuses bases NCBI Permet de connaître cet ID et d obtenir d autres informations (SNP disponibles, séquences, etc ) Toujours utile pour vérifier http://www.ncbi.nlm.nih.gov/taxonomy 67 Bioinformatique - NCBI GEO : Gene Expression Omnibus A chaque publication scientifique, les données d expression (puce) sont mis à disposition de la communauté Accès aux données normalisées de plan d expérience Applications : Quel est le niveau d expression d un gène selon un contexte? GEO profiles Réalisation de méta-analyse (analyse de tous les plans d expérience à partir d un tissu pour plusieurs espèces, par exemple) : GEO datasets 68 34

Bioinformatique - NCBI GEO 69 Bioinformatique - NCBI GEO profile Recherche par un nom de gène (e.g. BMPR) 70 35

Bioinformatique - NCBI GEO profile 71 Bioinformatique - NCBI GEO datasets Recherche d ensemble de données de transcriptomique selon : Le tissu Le nb d échantillon Le type d expérience http://www.ncbi.nlm.nih.gov/gds 72 36

Bioinformatique - NCBI GEO datasets 73 Bioinformatique - NCBI GEO datasets 74 37

Bioinformatique - NCBI Cancer Chromosomes Aberrations chromosomiques de lignées cancéreuses Données de SKY-FISH et de CGH http://www.ncbi.nlm.nih.gov/cancerchromosomes 75 Bioinformatique - NCBI Biosystems Obtention de groupes de molécules interagissant dans un système biologique Différents types de «biosystems» : Pathway (interactions gènes, protéines ou petites molécules) Disease (interactions gènes, marqueurs biologiques) Connexions base KEGG http://www.ncbi.nlm.nih.gov/biosystems 76 38

Bioinformatique - NCBI Biosystems 77 Bioinformatique - NCBI Biosystems 78 39

Bioinformatique - NCBI Biosystems 79 Bioinformatique - NCBI OMIM & OMIA Online Mendelian Inherintance in Man or Animals Liste de gènes et de maladies / caractères héritables Connexion entre gènes et maladies Pour une maladie / caractère : apport du maximum de connaissances (gènes, cartographie, bibliographie, etc ) 80 40

Bioinformatique - NCBI 81 Bioinformatique - NCBI Autres bases? PubChem : action biologique, bioassays PubMed MeSH (Medical Subject Headings) : controlled vocabulary to retrieve informations 82 41

Bioinformatique - NCBI Still alive? Que retenir de cette présentation? 83 Bioinformatique - NCBI Conclusion Trop d information tue l information? Exemple du NCBI : site extrêmement vaste Richesse des bases de données Richesse des outils Accès à l arrière-cours (données brutes FTP) Accès aux méthodes (protocole SOAP) Et les autres UCSC, EBI, UNIPROT, MGI, KEGG, Ensembl, GO, etc, etc 84 42

Bioinformatique - NCBI Conclusion VOUS ne pouvez pas tout connaître (and nobody does) Il faut avoir une vue d ensemble d une base Comprendre les relations Appréhender leurs obtentions (expérimental? in silico?) Est-ce une réplication (i.e. suis-je à la source?)? pour en retirer l information qui vous sera utile, par ex: la structure 3D d une protéine pourra m être utile si j identifie une mutation dans un gène Les niveaux d expressions d un gène dans d autres espèces peuvent m aider à comprendre mon expérience (et à formuler des hypothèses) L implication de mon gène dans telle maladie me permettra d étayer (ou non) les niveaux d expressions dans mon expérience 85 Bioinformatique - NCBI Conclusion Au final : 1. c est vaste 2. Je ne peux pas tout connaître On fait comment? 86 43

Bioinformatique 3. Sites web et outils spécifiques 87 Bioinformatique Sites web : ENSEMBL & USCS 2 sites «généralistes» : Ensembl et UCSC Synthèse d information sur les génomes séquencés Synthèse de l annotation de ces génomes Outils disponibles : BLAST et BLAT 88 44

Bioinformatique Sites web : ENSEMBL ENSEMBL : http://www.ensembl.org Réconciliation de données de génomique fonctionnelle De nombreuses API disponibles Bioinformatique Sites web : ENSEMBL 45

Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 46

Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 47

Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 48

Bioinformatique Sites web : ENSEMBL Bioinformatique Sites web : ENSEMBL 49

Bioinformatique Sites web : UCSC Genome Browser USCS ou «Golden Path» : http://genome.ucsc.edu Orientation génomique structurale Options différentes (comparaison de génomes, ) Bioinformatique Sites web : UCSC Genome Browser 50

Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 51

Bioinformatique Sites web : UCSC Genome Browser Bioinformatique Sites web : UCSC Genome Browser 52

Sites web Ensembl et UCSC Ces 2 sites utilisent les données de sites «institutionnels» et d autres sites (notion de réconciliation de données) : HGNC, EBI, UniProt, etc 2 philosophies différentes (fonctionnelles vs. structurales), même si des chevauchements existent Très vaste et très complet Accès plus ou moins facilité aux données brutes : API PERL / Biomart pour Ensembl Table browser et Galaxy pour UCSC Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet : www.biomart.org 106 53

Bioinformatique Sites web : BIOMART La fin des bioinformaticiens? Serveur internet : www.biomart.org Système d interrogation de bases de données (Ensembl, EBI, Uniprot, VEGA, ) et de récupération de données spécifiques selon des filtres personnalisés. Utilisation «classique» : Mon ensemble de gènes à moi Uniprot ID? GOA? Chromosome? Nom? Homologues? Domaines? InterPro ID? NCBI? Entrez? 107 Bioinformatique Sites web : BIOMART 108 54

Bioinformatique Sites web : BIOMART 109 Bioinformatique Sites web : BIOMART 110 55

Bioinformatique Sites web : BIOMART 111 Bioinformatique Sites web : BIOMART Domaine GST C-term 112 56

Bioinformatique Sites web : BIOMART 113 Bioinformatique Sites web : BIOMART 114 57

Bioinformatique Sites web : BIOMART 115 Bioinformatique Sites web : BIOMART 116 58

Bioinformatique Sites web : BIOMART 117 Bioinformatique Sites web : BIOMART Liens PERL : récupération du script permettant d obtenir la requête en cours 118 59

Bioinformatique Sites web : BIOMART BIOMART : possibilité d interrogation de multiples bases de données de façon très souple et pointue sans programmation! Interconnexion entre différents bases de données Réelle alternative à la programmation pour obtenir de façon rapide des ensembles d annotations spécifiques d une fonction, d un chromosome, d une classe de gène, Liens PERL pour relancer le script ultérieurement 119 Bioinformatique Sites web : GALAXY Galaxy : http://galaxy.psu.edu Plateforme de manipulation et d analyse de données Alternative à R, Programmation, UNIX, etc Framework de logiciels 120 60

Bioinformatique Sites web : GALAXY 121 Bioinformatique Sites web : GALAXY 122 61

Bioinformatique Sites web : GALAXY Etc, etc, etc 123 Bioinformatique Sites web : GALAXY Beaucoup plus ouvert : envoi de vos propes données, utilisation de données publiques (Biomart ou UCSC) Possibilité de réaliser des workflow sur les données Possibilité d ajouter vos propres programmes De plus en plus utilisé comme framework pour l intégration de programme d analyse 124 62

Bioinformatique Sites web More? Suite EMBOSS : http://emboss.sourceforge.net BioPERL : http://www.bioperl.org/wiki/main_page N oubliez pas les «classiques» : NCBI, EBI, Progression de l interconnexion Possibilité de requête 125 63