Banques de Données de séquences

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Bibliographie Introduction à la bioinformatique

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Introduction aux bases de données: application en biologie

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Base de données bibliographiques Pubmed-Medline

In t r o d u c t i o n

MABioVis. Bio-informatique et la

Extraction d information des bases de séquences biologiques avec R

Perl Orienté Objet BioPerl There is more than one way to do it

Big data et sciences du Vivant L'exemple du séquençage haut débit

CHAPITRE 3 LA SYNTHESE DES PROTEINES

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

UNE OFFRE MODERNE DE BANQUE À DOMICILE

CATALOGUE DES PRESTATIONS DE LA

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Eco-système calcul et données

EOLE TRADING INTEGRALE

TD de Biochimie 4 : Coloration.

DOCUMENTS : LES RAPPORTS LOCATIFS

Le centre sera fermé du 20 au 31 juillet 2015

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

L informatique comme discipline au gymnase. Renato Renner Institut für Theoretische Physik ETH Zürich

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Analyse des données de séquençage massif par des méthodes phylogénétiques

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

La gestion des documents administratifs à la Bibliothèque nationale de France

1/ La place du référencement dans la gestion de trafic sur un site web

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

AGIRFINANCES. Votre partenaire Budget. Son objectif est de vous permettre d établir votre budget.

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Evaluation de la mise en œuvre des formations CRM & FH

Hépatite chronique B Moyens thérapeutiques

Indicateurs des marchés de gros de l électricité Mars 2011

TITRE DE LA PRÉSENTATION > TITRE DE LA PARTIE PROJET D ORGANISATION ADMINISTRATIVE ET TECHNIQUE CIBLE

Revue des Marchés. Charles Gagné

We make your. Data Smart. Data Smart

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

12 mois pour un budget

Elaboration des Ad AP COTITA 27 janvier 2015

UNEP /UNESCO /UNCH / ECA

Amanlis le 10 mai 2014 AUDIT THERMIQUE EHPAD LANGOURLA

DESS INGENIERIE FINANCIERE

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

La pratique du football chez les U13. et les U14F-U17F

Thème 2 : Les techniques et stratégies de prospection

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

LBPoker. Barrière BarrierePoker.fr est un site de poker en ligne agréé par l Arjel sous le numéro 0023-PO

: l IDRIS a vingt ans!

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Bilan du marché organisé du gaz. 8 mars 2012

Dématérialisation du courrier: à éviter

Effectifs et taux de réponse par discipline

Guinée - Epidémie de la Maladie à virus Ebola Rapport de la Situation Epidémiologique Maladie a Virus Ebola en Guinée 07 Juin 2015

formations Le Guide de FORMATIONS 1er semestre 2015 DÉVELOPPEZ VOTRE ACTIVITÉ PAR L ENRICHISSEMENT DE VOS COMPÉTENCES COMMERÇANTES + D INFO

Mike Manning, Directeur général, Société financière de l industrie de l électricité de l Ontario

Comment Elaborer un Plan d Action

SysFera. Benjamin Depardon

Chapitre 7 : Structure de la cellule Le noyau cellulaire

DUN-LE-PALESTEL DUN-LE-PALESTEL. Généralité de Moulins, sénéchaussée de Guéret

Master Audit Contrôle Finance d Entreprise en apprentissage. Organisation de la formation

Bases de données et outils bioinformatiques utiles en génétique

Ingénieur R&D en bio-informatique

Agence de communication digitale

BANQUE NATIONALE DE ROUMANIE BANQUE NATIONALE DE ROUMANIE

Ordonnance sur la formation menant au bachelor et au master de l Ecole polytechnique fédérale de Lausanne

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

LISTE DES MARCHES PUBLICS CONCLUS EN 2009 PAR L'AGENCE DE L'EAU SEINE-NORMANDIE (Application de l'article 133 du Code des Marchés Publics)

CALENDRIERS DES FORMATIONS LILLE

Comité de suivi collège Galilée du 08 octobre 2014

L AMPHI #2 LA REVOLITION MOBILE EST EN MARCHE. #Amphi2GIW

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

6 MARS 2013 RÉUNION D INFORMATION. Réunion d informati on 6 mars 2013

Une démarche ACE Lean Six Sigma dans l IT

Article 133 : MAIRIE DU BOULOU

Comment dimensionner un réseau logistique européen? Quels enjeux pour la Supply Chain?

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

21 ème Observatoire des Taux meilleurtaux.com. C O N F É R E N C E D E P R E S S E 3 f é v r i e r

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Le secteur de la restauration commerciale : données économiques, évolution des prix et du nombre de plaintes du secteur

MonUPMC vue par l enseignant

Biomarqueurs en Cancérologie

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

6ème. 20/05/ :13. Jour / heure : vendredi 8h30 10h20

Structure quantique cohérente et incohérente de l eau liquide

VI- Expression du génome

Dossier Financier. La première partie décrit les hypothèses de fonctionnement retenues que ce soit d un point de vue organisationnel ou financier.

Mesurage de la qualité acoustique de revêtements. acoustique de revêtements

Conférence téléphonique. Tél.: (+33) Fax: (+33)

AQUITAINE. Suivi de la Demande touristique ~

Programme de formation

Diplôme Fédéral de Web Project Manager

MENER UNE RECHERCHE D INFORMATION

Annuaire(des(programmes(de(sciences(participatives( (Collectif(national(SPB(

L avenir du coût des médicaments Point de vue des régimes d'assurancemédicaments. Présenté par : Michel de Paiva

FORMATIONS OUVRANT DROIT AU VERSEMENT DE LA TAXE D'APPRENTISSAGE Année Universitaire

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Cagec Gestion. La lettre de l'entreprise culturelle

Transcription:

Banques de Données de séquences D après cours de l équipe Bonsai, CRIStAL UMR 9189 Sylvain.legrand@univ-lille1.fr 7 et 8 Septembre 2016 Sylvain Legrand

Introduction

Définition bioinformatique Un domaine de recherche qui analyse et interprète des données biologiques, au moyen de méthodes informatiques, afin de créer de nouvelles connaissances en biologie (Quninkal et Rechenmann, 2004) En langue anglaise on distingue 2 termes : - Bionformatics : applique des algorithmes, modèles statistiques dans l objectif d interpréter, classer et comprendre des données biologiques - Computational Biology: développer des modèles mathématiques et outils associés pour résoudre des problèmes biologiques En français : Bioanalyse ~ Bionformatics ; Recherche en Bioinformatique ~ Computational Biology 3

Définition bioinformatique Une définition simple : l approche in silico de la biologie Biologie Informatique Bioinformatique Trois activités principales Production de données, Stockage Analyse des données Conception de logiciels d analyse, de modélisation 4

Quelques conseils Méfiez-vous des résultats donnés par les logiciels - La qualité des résultats est parfois diminuée au profit de la rapidité - Certains problèmes admettent un ensemble infini de possibilités à ce n est pas toujours la solution la meilleure qui est trouvée - Certains logiciels ne font que de la prédiction Méfiez-vous des banques de données : - Les données ne sont pas toujours fiables - La mise à jour des données n est pas systématiquement récente 5

Champs d application Bioinformatique des séquences biologiques ADN, protéines, alignement de séquences, identifications de gènes Bioinformatiques des métabolites Identification, annotation... Bioinformatique structurale Analyse du repliement des macromolécules biologiques Bioinformatique des réseaux Intéractions entre gènes gènes, protéines, métabolites... Bioinformatique des populations Ex: Modélisation de l évolution de populations dans des environnements donnés... 6

Banques de données Ensemble de données relatives à un domaine, organisées par traitement informatique, accessibles en ligne et à distance Souvent, les données sont stockées sous la forme de fichiers texte formatés (respectant une disposition particulière) Besoin de développer des logiciels spécifiques pour interroger les données contenues dans ces banques 7

Quelques formats de données biologiques X Seqret http://www.ebi.ac.uk/tools/sfc/emboss_seqret/ 8

Banques de séquences nucléiques

Banques de séquences nucléiques Origine des données à séquençage de molécules d ADN ou d ARN Les données stockées: 1 séquences + ses annotations = 1 entrée - Fragments de génomes à un ou plusieurs gènes, un bout de gène, séquence intergénique, - Génomes complets - ARNm, ARNt, ARNr, (fragments ou entiers) Toutes des séquences (ADN ou ARN) sont écrites avec des T Le brin donné dans la banque est appelé brin + ou brin direct, Attention, ce n est pas forcément le brin codant 10

Banques de séquences nucléiques Brin codant Brin codant >Séquence NNNNATGCCTACGTNNNNNNNNCATCGGTATCNNNNNNNN Griffiths et al 2002 11

Banques nucléiques, collaboration = + + Echange quotidien des données entre les 3 banques 12

Banques nucléiques, mises à jour Une nouvelle version disponible plusieurs fois par an - Date et numéro de version (release) - Données figées à une date fixée (les séquences collectées jusque là Mise à disposition des «updates» - Mise à jour quotidienne des données - Toutes les nouvelles séquences depuis la dernière version - ARNm, ARNt, ARNr, (fragments ou entiers) Facilité de traitement des données - Pas besoin de télécharger la banque entière à chaque mise à jour 13

Banques nucléiques, explosion du nombre de séquences 2.5E+11 Taille de GenBank en Août 2016 (genbank/statistics/) 3.E+08 Nombre de bases 2E+11 1.5E+11 1E+11 2.E+08 2.E+08 1.E+08 Nombre de séquences 5E+10 5.E+07 0 0.E+00 déc-82 avr-84 août-85 janv-87 mai-88 oct-89 févr-91 juil-92 nov-93 mars-95 août-96 déc-97 mai-99 sept-00 janv-02 juin-03 oct-04 mars-06 juil-07 déc-08 avr-10 août-11 janv-13 mai-14 oct-15 Nombre de bases Nombre de séquences 14

Format d une entrée 15

EMBL, description générale 16

GenBank et DDBJ, description générale http://www.ncbi.nlm.nih.gov/sitemap/samplerecord.html 17

Features 18

Exemple de «keys» 19

Exemple de «keys» 20

Localisation des objets 21

Qualifiers 22

Exemple de «Feature» d une séquence ADN 23

Mise à jour des données et limites Evolution possible des entrées - Changements dans la séquence, dans les annotations - Ajout d une séquence, d une annotation, d une publication Les entrées sont mises à jour par uniquement par leurs auteurs Forte redondance Un même fragment de séquence présent dans plusieurs entrées Annotations peu normalisées Difficulté de recherche d une information particulière Annotations (souvent) peu précises Peu de descriptions sur les gènes et leurs produits Erreurs dans les annotations 24

Autres bases de données de séquences au NCBI http://www.ncbi.nlm.nih.gov/guide/dna-rna/ 25

RefSeq 26

Différents niveaux de correction des données 27

Quelques numéro d accession de RefSeq 28

Banques de séquences protéiques

Les banques de séquences protéiques Origine des données - Traduction de séquences d ADN à nombreuses données disponibles dans les banques nucléiques - Séquençage de protéines à peu, car long et couteux Les données stockées : séquences et annotations - Protéines entières - Fragments de protéines 30

UniProt et ses deux banques 31

Les annotations SwissProt 32

Les annotations SwissProt 33

Format des entrées UniProt, 34

Format des entrées UniProt, 35

Format des entrées UniProt, lignes CC 36

Format des entrées UniProt, lignes FT 37

Fiabilité de l information 38

Liens vers d autres banques 39

Autres banques de séquences UniProt - UniRef100 : regroupement des séquences identiques et de leurs fragments provenant d un même organisme - UniRef90 : entrées de UniRef100 avec plus de 90% d identité - UniRef50 : idem pour 50% d identité UniProt + d autres banques (PDB, RefSeq, FlyBase, brevets, ) 40

Les banques protéiques de «deuxième niveau» 41

Banques de motifs et domaines protéiques 42

Banques de connaissances protéiques 43

Interpro 44

Banques d intéractions protéiques 45

Structures 3D de protéines 46

PDB, la banque de structures 3D 47

Interroger les banques de données

Rechercher des données à partir d annotations Recherche de mots ou expressions dans le texte des entrées via une interface d interrogation Ce que souhaitent les utilisateurs - Obtenir des données pertinentes à Pas trop de résultats, mais tous ceux relatifs à leur problématique - Prendre rapidement en main l interface - Obtenir rapidement les résultats - Pouvoir manipuler les données obtenues à changer de format, lancer des calculs Principal système d interrogation Gquery (Entrez), le système développé par le NCBI http://www.ncbi.nlm.nih.gov/gquery/ 49

Gquery, le système d interrogation du NCBI 50

NCBI, recherche d un terme Quelles entrées de la banque nucléique contiennent le gène MAX? Saisie de «max» dans la zone de requêtes - Recherche le mot «max» dans tout le texte des entrées - Pas spécifique du nom du gène : 1 466 658 entrées Saisie de «max [gene] - Recherche du mot «max» dans les champs correspondant au nom de gène - Recherche ciblée : 911 entrées 51

NCBI, utilisation des champs 52

NCBI, association de termes Trois opérateurs booléens* possibles : AND, OR, NOT Dans la banque nucléotide : rattus norvegicus [organism] AND mus musculus [organism] - 1 entrée : «Synthetic construct chimeric tyrosine hydroxylase» rattus norvegicus [organism] OR mus musculus [organism] - 2 063 974 entrées - La séquence provient soit du rat soit de la souris rattus norvegicus [organism] NOT mus musculus [organism] - 334 078 entrées - Toutes les séquences du rat, sauf la séquence chimérique * Outils de recherches informatiques permettant de trier plus précisément les résultats d une requête 53

NCBI, comment construire une requête? 54

NCBI, recherches avancées Recherche avancée Opérateurs booléens Champs Historique 55

Sylvain Legrand Maître de Conférences UMR CNRS 8198 EVO-ECO-PALEO Evolution, Ecologie et Paléontologie Université de Lille - Sciences et Technologies Bât SN2, bureau 208-59655 Villeneuve d'ascq sylvain.legrand@univ-lille1.fr www.univ-lille1.fr Tél. +33 (0)3 20 43 40 16