Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits. O. Lecompte Bioinformatique



Documents pareils
Introduction aux bases de données: application en biologie

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Bibliographie Introduction à la bioinformatique

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

Identification de nouveaux membres dans des familles d'interleukines

Extraction d information des bases de séquences biologiques avec R

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Big data et sciences du Vivant L'exemple du séquençage haut débit

CATALOGUE DES PRESTATIONS DE LA

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Les bases de données transcriptionnelles en ligne

MABioVis. Bio-informatique et la

Base de données bibliographiques Pubmed-Medline

Introduction à la Génomique Fonctionnelle

Introduction. La bioinformatique : Traitement des informations biologiques par des méthodes informatiques et/ou mathématiques.

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Perl Orienté Objet BioPerl There is more than one way to do it

Compte-rendu de fin de projet

Les OGM. 5 décembre Nicole Mounier

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Contrôle de l'expression génétique :

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Ingénieur R&D en bio-informatique

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Génétique et génomique Pierre Martin

Eco-système calcul et données

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Biomarqueurs en Cancérologie

Séquence 2. L expression du patrimoine génétique. Sommaire

Bases de données et outils bioinformatiques utiles en génétique

EXA1415 : Annotations

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

VI- Expression du génome

INF6304 Interfaces Intelligentes

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Conférence technique internationale de la FAO

1S Modèles de rédaction Enoncés

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Thierry DELZESCAUX. «biopicsel» group, URA CNRS-CEA 2210 Service MIRCen, I²BM, CEA Fontenay-aux-Roses, France.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Charges virales basses sous traitement: définition impact virologique. Laurence Bocket Virologie CHRU de Lille

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

3: Clonage d un gène dans un plasmide

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Biologie Computationnelle

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Editing and managing Systems engineering processes at Snecma

Insulinothérapie et diabète de type 1

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Bases de données des mutations

TD de Biochimie 4 : Coloration.

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Gènes Diffusion - EPIC 2010

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Mise en œuvre d une infrastructure de virtualisation au CNRGV

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Tutoriel Cloud IFB - Initiation -

CONTROVERSE : IDR OU QUANTIFERON LORS D'UN CONTAGE EN EHPAD?

Hépatite chronique B Moyens thérapeutiques

SysFera. Benjamin Depardon

SPECIFICATION DES ECHANGES DE DONNEES INFORMATISES (E.D.I.)

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

Recherche dans un tableau

TEST DE DÉTECTION DE LA PRODUCTION D INTERFÉRON γ POUR LE DIAGNOSTIC DES INFECTIONS TUBERCULEUSES

Présentation de ACE. ACE : Amélioration Continue de l Efficacité. Technologies & Processus / Information Technology & Processes.

Problématiques de recherche. Figure Research Agenda for service-oriented computing

L axe 5 du Cancéropole Nord Ouest

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

des banques pour la recherche

L innovation technologique des entreprises françaises au Brésil

UNIVERSITÉ DU QUÉBEC À MONTRÉAL

Les débuts de la génétique

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

INFORMATIONS DIVERSES

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Structure quantique cohérente et incohérente de l eau liquide

Conception de Médicament

PACKZ System Requirements. Version: Version: Copyright 2015, PACKZ Software GmbH. 1

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Transcription:

Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits PROSITE banque de motifs et de profils caractéristiques de domaines ou de familles de protéines (Amos Bairoch, Swiss Institute of Bioinformatics) Conservation signification biologique : site actif d une enzyme site de fixation : ions métalliques ADN ADP/ATP, GDP/GTP protéine... cystéines impliquées dans un pont disulfure

Motif 1) alignement d une famille 2) définition du motif 3) test sur Swiss-Prot Bon motif => retrouver toutes les protéines appartenant à la famille et uniquement ces protéines. «Faux positif (false positive)» : protéine prédite comme ayant le motif mais qui n appartient pas à la famille «Faux négatif (false negative)» : protéine prédite comme n ayant pas le motif mais qui appartient à la famille Description du Pattern Ambiguïtés : x => un acide aminé quelconque [ALT] => Ala ou Leu ou Thr {AM} => un acide aminé quelconque sauf Ala ou Met Répétition d un acide aminé x(3) : équivaut à x-x-x x(2,4) : équivaut à x-x ou x-x-x ou x-x-x-x Exemples: [AC]-x-V-x(4)-{ED}. => [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp} A-x-[ST](2)-x(0,1)-V. => Ala-any-[Ser or Thr]-[Ser or Thr]-(any or none)-val

PROSITE (Prosite.dat) ID ZINC_FINGER_C2H2_1; PATTERN. AC PS00028; DT APR-1990 (CREATED); JUN-1994 (DATA UPDATE); SEP-2006 (INFO UPDATE). DE Zinc finger C2H2 type domain signature. PA C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H. NR /RELEASE=50.7,232345; NR /TOTAL=8007(1371); /POSITIVE=7856(1251); /UNKNOWN=6(5); NR /FALSE_POS=145(115); /FALSE_NEG=32; /PARTIAL=3; CC /TAXO-RANGE=??E?V; /MAX-REPEAT=35; CC /SITE=1,zinc; /SITE=3,zinc; /SITE=7,zinc; /SITE=9,zinc; CC /VERSION=1; DR Q24174, ABRU_DROME, T; Q9P8W3, ACE1_TRIRE, T; O14258, ACE2_SCHPO, T; DR P21192, ACE2_YEAST, T; Q9H2P0, ADNP_HUMAN, T; Q9Z103, ADNP_MOUSE, T; DR Q9JKL8, ADNP_RAT, T; P07248, ADR1_YEAST, T; P39413, AEF1_DROME, T;.. 3D 1YUI; 1YUJ; 1ARD; 1ARE; 1ARF; 1PAA; 2ADR; 1NCS; 1ZFD; 2DRP; 1ZAA; 1AAY; 3D 1A1F; 1A1G; 1A1H; 1A1I; 1A1J; 1A1K; 1A1L; 1SP1; 1SP2; 1ZNF; 2GLI; 1UBD; 3D 1ZNM; 3ZNF; 4ZNF; 1BBO; 1TF3; 1TF6; 5ZNF; 7ZNF; DO PDOC00028; // InterPro InterPro (http://www.ebi.ac.uk/interpro) Integrated Resource of Protein Domains and Functional Sites Banque qui intègre plusieurs banques de : motifs domaines familles protéiques repeats => couvre 78% des entrées Uniprot Recherche par interrogation sur le texte par InterProScan (comparaison d une protéine à la banque) http://www.ebi.ac.uk/interpro

InterPro Organisation de la banque InterPro Relations parents-enfants : parent : motifs qui décrivent une famille enfant : motifs spécifiques d une sous-famille

Organisation de la banque InterPro Relations contains/found in : found in : un domainepeutêtretrouvédansdifférentesfamilles Ex: le domaine IPR000130 est trouvé dans 15 familles de protéines : neprilysin, astacin contains : une famille peut contenir plusieurs domaines Une entrée InterPro

Interpro Protein matches for protein BCL6_HUMAN(P41182) from the the UniProt/Swiss-Prot database. Interproscan (sequence search)

Interproscan (sequence search) Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits

Gene Ontology (GO) http://www.geneontology.org/ But : mise en place d un vocabulaire standardisé s appliquant à la connaissance du rôle des gènes et des protéines Avantages : La standardisation : la définition claire d une fonction la génomique comparative au niveau fonctionnel Les descriptions concises et non ambigües peuvent être exploitées par un logiciel et par un humain 3 ontologies : Fonction moléculaire : facteur de transcription, ADN polymérase,... Processus biologique : mitose, réplication,... Composant cellulaire : localisation, complexes,... GO Molecular function Gene ontology : tool for the unification of biology. O. Lecompte Gene ontology consortium. Nature genetics 25:25-28 (2000) Bioinformatique

GO Cellular components Gene ontology : tool for the unification of biology. Gene ontology consortium. Nature genetics 25:25-28 (2000) GO biological process Gene ontology : tool for the unification of biology. Gene ontology consortium. Nature genetics 25:25-28 (2000)

Human GoA (octobre 2007) The GOA project : to provide high-quality GO annotations to proteins in the UniProt Knowledgebase Banques Séquences nucléiques protéiques mixtes Structures Familles, domaines et sites protéiques Ontologie Cluster de transcrits

Banque de clusters de transcrits (regroupés par gène d un même organisme) limiter la redondance des séquences d ARNm et d EST de GenBank meilleure information sur le gène confrontation des EST chevauchantes données sur l expression du gène (tissus, stade de développement, conditions physiologiques) données sur le splicing alternatif http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene UniGene 1) Filtrage des séquences recherche des contaminants (E. coli, vecteurs de clonage) recherche des repeats, régions de faible complexité élimination des séquences de moins de 100 pb informatives 2) Clusters initiaux comparaison ARNm/ARNm 3) Ajout des EST comparaison EST/clusters initiaux Comparaison EST/EST 4) Réunions de clusters 2 clusters contenant des EST non chevauchants mais provenant d un même clone (extrémité 5 et 3 ) sont réunis 5) Elimination de certains clusters les clusters doivent contenir au moins une séquence correspondant à la région 3 du gène Animaux: Anopheles gambiae Bos taurus Danio rerio Drosophila melanogaster Homo sapiens Mus musculus Rattus norvegicus Xenopus laevis Plantes: Arabidopsis thaliana Hordeum vulgare Oryza sativa Triticum aestivum Zea mays

UniGene Hs.449884 Homo sapiens complexin 4 CPLX4 P Has similarity to known Proteins (after translation) A Contains a poly-adenylation signal M Clone is putatively CDS-complete Conclusions Une quantité énorme de données hétérogènes Des banques généralistes incontournables : Genbank / EMBL / DDBJ Uniprot, Refseq PDB Effort d intégration des données (ex : Interpro, Go, banques génomiques) Effort de validation (Swissprot, RefSeq) Effort de diminution des redondances (ex : RefSeq, Unigene)