INTRODUCTION A LA BIOINFORMATIQUE Yvan Le Bras @Yvan2935 Yvan.le_bras@irisa.fr CNRS IRISA INRIA Plateforme GenOuest 20 avril 2016 Olivier Collin (https://www.e-biogenouest.org/resources/527)
BANQUES
Bases et banques Quantité croissante des banques : 1380 env. NAR : http://www3.oup.co.uk/nar/database/c Multiplicité des bases (et des formats) : défi pour l intégration des données Hétérogénéité des données Hétérogénéité de structure des bases Certains champs ou propriétés non interrogeables Métabanques
Aug 1986 Dec 1988 Sep 1991 Dec 1993 Oct 1995 Aug 1997 Aug 1999 Jun 2001 Apr 2003 Feb 2005 Dec 2006 Oct 2008 Aug 2010 Feb 1986 Mar 1988 Mar 1990 Jun 1992 Feb 1994 Aug 1995 Feb 1997 Aug 1998 Apr 2000 Oct 2001 Apr 2003 Oct 2004 Apr 2006 Oct 2007 Apr 2009 Oct 2010 Apr 2012 Evolution 160000000000,00 140000000000,00 120000000000,00 Entries 100000000000,00 60000000,00 40000000,00 20000000,00 00000000,00 80000000,00 60000000,00 40000000,00 20000000,00 0,00 Entries 80000000000,00 60000000000,00 40000000000,00 20000000000,00 Base Pairs Entries 0,00 GenBank : 560 Go
Typologie des banques Banque généraliste : GenBank EMBL DDBJ Swissprot Banque spécialisée :organisme MGD Mouse Genome Database FlyBase Banque spécialisée : thème InterPro EPD eukaryotic promoter database Banque spécialisée : métabolisme KEGG EcoCyc Banque spécialisée :interactions DIP BIND Banque spécialisée : famille PKR: protein kinase resource RNA 16S
Difficultés Le souci principal est l hétérogénéité des données: hétérogénéité des données hétérogénéité de structure des bases Certains champs ne sont pas interrogeables.
Percolation Une séquence : «Putative dinosaur genomic DNA, partial sequence» XXU41319 ctattcctta attaatgtct acatggctat ttttaatgtt attactgttt gtcactataa aaaaacgctc atttgagaca atactgacat taactgcttc aacttctacg cacggaactt ttaattaaat tagcacagga atgttaaatt taatanacaa aaggttattt cgctgtatga taaaaaaaac c Résultats : Score E Sequences producing significant alignments: (bits) Value gi 1171159 gb U41319.1 XXU41319 Putative dinosaur genomic D... 311 3e-82 gi 48994873 gb U00096.2 Escherichia coli K-12 MG1655 compl... 258 4e-66 gi 1800040 dbj D90890.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 1800027 dbj D90889.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 56384585 gb AE005174.2 Escherichia coli O157:H7, comple... 234 6e-59 gi 47118301 dbj BA000007.2 Escherichia coli O157:H7 DNA, c... 234 6e-59 gi 11340291 emb AL359633.15 Human DNA sequence from clone... 42 0.44 gi 56542470 gb AE008692.1 Zymomonas mobilis subsp. mobilis... 40 1.8 gi 45381968 emb AL109844.14 HSJ636L22 Human DNA sequence fr... 40 1.8 gi 42733300 emb AL929056.20 Zebrafish DNA sequence from cl... 40 1.8 gi 5777575 emb AL078463.11 HSJ365I19 Human DNA sequence fro... 40 1.8 gi 47115352 emb CR407567.2 Human DNA sequence from clone R... 40 1.8 gi 32451243 emb BX537114.2 Human DNA sequence from clone R... 40 1.8
Banques généralistes Séquences nucléotidiques EMBL en Europe GENBANK aux USA DDBJ au Japon Echange d infos entre ces 3 banques Séquences protéiques Swissprot (annotation manuelle fiable) / TrEMBL (traduction automatique de séquence et annotation du gène) Uniprot (fusion avec Swissprot/ TrEMBL depuis 2006) PIR Protein Information Resource
Exemple du NCBI
Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio
Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Un type de requête : danio rerio[organism] AND "creatine kinase" AND "mitochondrial 2" Cherchez le gène mentionné dans la vidéo suivante vers 0:34 : https://www.youtube.com/watch?v=kprnhlznatu
Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Un type de requête : danio rerio[organism] AND "creatine kinase" AND "mitochondrial 2" Cherchez le gène mentionné dans la vidéo suivante : https://www.youtube.com/watch?v=kprnhlznatu Une solution : utiliser l identifiant de référence : NM_200697
Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Une solution : utiliser l identifiant de référence : NM_200697
Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Une solution : utiliser l identifiant de référence : NM_200697
Beaucoup d identifiants différents et de codes
De plus près
De plus près HUGO Gene Nomenclature Committee
Ensembl De plus près
De plus près Human Protein Reference Database
De plus près Online Mendelian Inheritance in Man
De plus près Vega
De plus près
De plus près
NM_001079802,1 NP_001073270.1 AL158070 CCDS6766,1 ENSP00000350687..
Les identifiants Très nombreux et parfois redondant Accession Number et GI number : AL158070 / Accession number et numéro de version GI:119395714 / GI number = premier type d identifiant de séquence NCBI Ils désignent la même séquence! GI maintenu pour des raisons de compatibilité RefSeq ID Liens vers données RefSeq jeu de séquences non redondante et bien annotées Génomique, transcrits, protéines Structure : XX_000000.0 XX pour le type de données 6 ou 9 chiffres d identification.0 pour le numéro de version (n est pas mentionné pour les dernières versions)
Les identifiants Données RefSeq «curated» Données RefSeq «automated» Données RefSeq «mixed» Curated Automated
Autres bases du NCBI Beaucoup beaucoup Nucleotide Protein Genome Une base pour tous les génomes (Genome) Une base par génome (Genome Projects) UniGene Ensemble non redondant de gènes représentés chacun par un groupe de séquences HomoloGene Liste des homologues entre gènes eucaryotes Structure Structure 3D domains Conserved domains UniSTS Liste de marqueurs non redondants dbsnp dbgap Taxonomy Gene Expression Omnibus (GEO).
Autres bases du NCBI HomoloGene par l exemple Cherchez les homologues du gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio
Des sites pour retrouver l info Deux principaux sites très complet : Ensembl Génomique fonctionnelle Interrogation facilité via API Perl ou Biomart UCSC Génomique structurale Comparaison de génomes Interrogation facilitée via UCSC Genome Browser ou Galaxy Notion de réconciliation de données Synthèse d informations issus de différentes banques et bases Outils disponibles de comparaison de séquences : BLAST et BLAT
Des sites pour retrouver l info UCSC via Galaxy en pratique Instance Galaxy de l IFB : Manipulation de séquences http://frontend.francebioinformatique.fr/proxy/fprng0yigo5ewmd1gh4p97y8wa3j8jem/ Supports pour aller plus loin : Manipulation de séquences https://www.e-biogenouest.org/resources/848 Utilisation de Galaxy https://www.e-biogenouest.org/resources/844