INTRODUCTION A LA BIOINFORMATIQUE

Documents pareils
Introduction aux bases de données: application en biologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Perl Orienté Objet BioPerl There is more than one way to do it

Bibliographie Introduction à la bioinformatique

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

CATALOGUE DES PRESTATIONS DE LA

Big data et sciences du Vivant L'exemple du séquençage haut débit

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

MABioVis. Bio-informatique et la

Extraction d information des bases de séquences biologiques avec R

Résultats annuels Exercice clos au 30 avril juin 2015

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Impact on revenue requirements no Description (000$)

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Base de données bibliographiques Pubmed-Medline

CHAPITRE 3 LA SYNTHESE DES PROTEINES

DERIVES SUR ACTIONS ET INDICES. Christophe Mianné, Luc François

LaFourchette.com IMC AWARD E-COMMERCE

Réunion publique/téléconférence

Tutoriel Cloud IFB - Initiation -

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Eco-système calcul et données

We make your. Data Smart. Data Smart

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Bases de données et outils bioinformatiques utiles en génétique

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

DynAmiser vos investissements

Les bases de données transcriptionnelles en ligne

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Tendances du Marché Publicitaire

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

OBJECTIFS. Une démarche E-science

Structure quantique cohérente et incohérente de l eau liquide

Surveillance épidémiologique : application à la détection et la prédiction des épidémies

Compte-rendu de fin de projet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Les dates SAS expliquées à ma fille

Partie 0 : Gestion des tablespace et des utilisateurs... 3

Catalogue de formations

Cours de Java. Sciences-U Lyon. Java - Introduction Java - Fondamentaux Java Avancé.

Conférence téléphonique. Tél.: (+33) Fax: (+33)

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Récupération de calories pour le chauffage et la production d eau chaude

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

OpenPaaS Le réseau social d'entreprise

LE RÉSEAU INTERNATIONAL D IMPLANTATION D ENTREPRISES. Philippe CHAMPEMOND Directeur Adjoint Erai Chine S IMPLANTER EN CHINE STRATEGIES & SOLUTIONS

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Machine virtuelle W4M- Galaxy : Guide d'installation

Procédure d'installation de SQL Server Express 2008

Biologie Computationnelle

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Technologie Netapp. Novembre 2010

Création et développement d une base de données sur le VIH

Dates and deadlines

DEA ès Sciences de Gestion. DES en Sciences Economiques. Ingénieur diplômé de l'ecole Polytechnique de Paris.

Bilan de référencement

CREATION WEB DYNAMIQUE

Les informations sur l accessibilité et les conditions d accès pour les vélos sont disponibles sur eurostar.com.

Comptabilité énergétique

Avec Skandia Euro Guaranteed Fund 2012 Maîtrisez les yo-yo des marchés financiers

L entraînement à la synergie d équipe «CrewResource Management» Cyrille Colin Pauline Occelli

Groupe 11 TABLE DES MATIERES

Jean-François Boulicaut & Mohand-Saïd Hacid

Analyse des données de séquençage massif par des méthodes phylogénétiques

MRTG & RRD Tool. Multi Router Traffic Grapher

MANUELS NUMÉRIQUES PROCÉDURE DE TÉLÉCHARGEMENT

Solidarité Agissante Active Solidarity SAGI Assemblée Générale Ordinaire Samedi 6 Décembre, 2014

Lettre d information. Octobre 2014

Identification de nouveaux membres dans des familles d'interleukines

EXA1415 : Annotations

Mobile Paiement: perspectives et axes de développement

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

La gestion de projet collaborative dans un contexte d amélioration continue

Qu'est-ce que c'est??

LE RENFORCEMENT DES CAPACITÉS DES ACTEURS DES FILIÈRES AGRICOLES: L EXPERIENCE DU PROJET MISTOWA. Plan

«Cachez-moi cette page!»

Notes de cours : bases de données distribuées et repliquées

MonUPMC vue par l enseignant

Cloud Computing : quels intérêts et quelles solutions pour les développeurs?

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

ORGANISATION MONDIALE DE LA PROPRIÉTÉ INTELLECTUELLE GENÈVE COMITÉ PERMANENT DES TECHNIQUES DE L INFORMATION

2 disques en Raid 0,5 ou 10 SAS

SIG CELLULE DE CRISE. LIEU FORUM ESRI VERSAILLES NOM DE L INTERVENANT Olivier BOURGUIGNON - Arkema / DISIT DATE 3 OCT 2012

REUNION PRESSE JEUDI 13 FEVRIER Contact presse CAPmedias / Anne COPEY / anne.copey@capmedias.

Systèmes d informations nouvelles générations. Répartition, Parallèlisation, hétérogénéité dans les SGBD. Exemple d application d un futur proche

: l IDRIS a vingt ans!

Estimations définitives des prix pour les bobines d acier laminé à chaud européens, reconnues par le secteur

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Transcription:

INTRODUCTION A LA BIOINFORMATIQUE Yvan Le Bras @Yvan2935 Yvan.le_bras@irisa.fr CNRS IRISA INRIA Plateforme GenOuest 20 avril 2016 Olivier Collin (https://www.e-biogenouest.org/resources/527)

BANQUES

Bases et banques Quantité croissante des banques : 1380 env. NAR : http://www3.oup.co.uk/nar/database/c Multiplicité des bases (et des formats) : défi pour l intégration des données Hétérogénéité des données Hétérogénéité de structure des bases Certains champs ou propriétés non interrogeables Métabanques

Aug 1986 Dec 1988 Sep 1991 Dec 1993 Oct 1995 Aug 1997 Aug 1999 Jun 2001 Apr 2003 Feb 2005 Dec 2006 Oct 2008 Aug 2010 Feb 1986 Mar 1988 Mar 1990 Jun 1992 Feb 1994 Aug 1995 Feb 1997 Aug 1998 Apr 2000 Oct 2001 Apr 2003 Oct 2004 Apr 2006 Oct 2007 Apr 2009 Oct 2010 Apr 2012 Evolution 160000000000,00 140000000000,00 120000000000,00 Entries 100000000000,00 60000000,00 40000000,00 20000000,00 00000000,00 80000000,00 60000000,00 40000000,00 20000000,00 0,00 Entries 80000000000,00 60000000000,00 40000000000,00 20000000000,00 Base Pairs Entries 0,00 GenBank : 560 Go

Typologie des banques Banque généraliste : GenBank EMBL DDBJ Swissprot Banque spécialisée :organisme MGD Mouse Genome Database FlyBase Banque spécialisée : thème InterPro EPD eukaryotic promoter database Banque spécialisée : métabolisme KEGG EcoCyc Banque spécialisée :interactions DIP BIND Banque spécialisée : famille PKR: protein kinase resource RNA 16S

Difficultés Le souci principal est l hétérogénéité des données: hétérogénéité des données hétérogénéité de structure des bases Certains champs ne sont pas interrogeables.

Percolation Une séquence : «Putative dinosaur genomic DNA, partial sequence» XXU41319 ctattcctta attaatgtct acatggctat ttttaatgtt attactgttt gtcactataa aaaaacgctc atttgagaca atactgacat taactgcttc aacttctacg cacggaactt ttaattaaat tagcacagga atgttaaatt taatanacaa aaggttattt cgctgtatga taaaaaaaac c Résultats : Score E Sequences producing significant alignments: (bits) Value gi 1171159 gb U41319.1 XXU41319 Putative dinosaur genomic D... 311 3e-82 gi 48994873 gb U00096.2 Escherichia coli K-12 MG1655 compl... 258 4e-66 gi 1800040 dbj D90890.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 1800027 dbj D90889.1 E.coli genomic DNA, Kohara clone #... 258 4e-66 gi 56384585 gb AE005174.2 Escherichia coli O157:H7, comple... 234 6e-59 gi 47118301 dbj BA000007.2 Escherichia coli O157:H7 DNA, c... 234 6e-59 gi 11340291 emb AL359633.15 Human DNA sequence from clone... 42 0.44 gi 56542470 gb AE008692.1 Zymomonas mobilis subsp. mobilis... 40 1.8 gi 45381968 emb AL109844.14 HSJ636L22 Human DNA sequence fr... 40 1.8 gi 42733300 emb AL929056.20 Zebrafish DNA sequence from cl... 40 1.8 gi 5777575 emb AL078463.11 HSJ365I19 Human DNA sequence fro... 40 1.8 gi 47115352 emb CR407567.2 Human DNA sequence from clone R... 40 1.8 gi 32451243 emb BX537114.2 Human DNA sequence from clone R... 40 1.8

Banques généralistes Séquences nucléotidiques EMBL en Europe GENBANK aux USA DDBJ au Japon Echange d infos entre ces 3 banques Séquences protéiques Swissprot (annotation manuelle fiable) / TrEMBL (traduction automatique de séquence et annotation du gène) Uniprot (fusion avec Swissprot/ TrEMBL depuis 2006) PIR Protein Information Resource

Exemple du NCBI

Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio

Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Un type de requête : danio rerio[organism] AND "creatine kinase" AND "mitochondrial 2" Cherchez le gène mentionné dans la vidéo suivante vers 0:34 : https://www.youtube.com/watch?v=kprnhlznatu

Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Un type de requête : danio rerio[organism] AND "creatine kinase" AND "mitochondrial 2" Cherchez le gène mentionné dans la vidéo suivante : https://www.youtube.com/watch?v=kprnhlznatu Une solution : utiliser l identifiant de référence : NM_200697

Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Une solution : utiliser l identifiant de référence : NM_200697

Exemple du NCBI Nucleotide par l exemple Cherchez le gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio Une solution : utiliser l identifiant de référence : NM_200697

Beaucoup d identifiants différents et de codes

De plus près

De plus près HUGO Gene Nomenclature Committee

Ensembl De plus près

De plus près Human Protein Reference Database

De plus près Online Mendelian Inheritance in Man

De plus près Vega

De plus près

De plus près

NM_001079802,1 NP_001073270.1 AL158070 CCDS6766,1 ENSP00000350687..

Les identifiants Très nombreux et parfois redondant Accession Number et GI number : AL158070 / Accession number et numéro de version GI:119395714 / GI number = premier type d identifiant de séquence NCBI Ils désignent la même séquence! GI maintenu pour des raisons de compatibilité RefSeq ID Liens vers données RefSeq jeu de séquences non redondante et bien annotées Génomique, transcrits, protéines Structure : XX_000000.0 XX pour le type de données 6 ou 9 chiffres d identification.0 pour le numéro de version (n est pas mentionné pour les dernières versions)

Les identifiants Données RefSeq «curated» Données RefSeq «automated» Données RefSeq «mixed» Curated Automated

Autres bases du NCBI Beaucoup beaucoup Nucleotide Protein Genome Une base pour tous les génomes (Genome) Une base par génome (Genome Projects) UniGene Ensemble non redondant de gènes représentés chacun par un groupe de séquences HomoloGene Liste des homologues entre gènes eucaryotes Structure Structure 3D domains Conserved domains UniSTS Liste de marqueurs non redondants dbsnp dbgap Taxonomy Gene Expression Omnibus (GEO).

Autres bases du NCBI HomoloGene par l exemple Cherchez les homologues du gène de la creatine kinase, mitochondrial 2 du poisson zèbre, le danio rerio

Des sites pour retrouver l info Deux principaux sites très complet : Ensembl Génomique fonctionnelle Interrogation facilité via API Perl ou Biomart UCSC Génomique structurale Comparaison de génomes Interrogation facilitée via UCSC Genome Browser ou Galaxy Notion de réconciliation de données Synthèse d informations issus de différentes banques et bases Outils disponibles de comparaison de séquences : BLAST et BLAT

Des sites pour retrouver l info UCSC via Galaxy en pratique Instance Galaxy de l IFB : Manipulation de séquences http://frontend.francebioinformatique.fr/proxy/fprng0yigo5ewmd1gh4p97y8wa3j8jem/ Supports pour aller plus loin : Manipulation de séquences https://www.e-biogenouest.org/resources/848 Utilisation de Galaxy https://www.e-biogenouest.org/resources/844