Annotation de protéines



Documents pareils
Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Introduction aux bases de données: application en biologie

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Identification de nouveaux membres dans des familles d'interleukines

Bibliographie Introduction à la bioinformatique

Prédiction de la structure d une

CHAPITRE 3 LA SYNTHESE DES PROTEINES

MABioVis. Bio-informatique et la

Perl Orienté Objet BioPerl There is more than one way to do it

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Chapitre 7 : Structure de la cellule Le noyau cellulaire

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Big data et sciences du Vivant L'exemple du séquençage haut débit

Analyse,, Conception des Systèmes Informatiques

TD de Biochimie 4 : Coloration.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Cours Bases de données 2ème année IUT

INTRODUCTION À L'ENZYMOLOGIE

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Spécificités, Applications et Outils

Base de données bibliographiques Pubmed-Medline

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Les cytokines et leurs récepteurs. Laurence Guglielmi

Cellules procaryotes Service histologie Pr.k.mebarek

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Évaluation et implémentation des langages

Les bases de données transcriptionnelles en ligne

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

ÉCOLES NORMALES SUPÉRIEURES ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES CONCOURS D ADMISSION SESSION 2013 FILIÈRE BCPST COMPOSITION DE BIOLOGIE

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

INF6304 Interfaces Intelligentes

Efficacité énergétique pour les particuliers : une solution pour le monitoring énergétique

La séparation membranaire : comment maintenir la performance des membranes?

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Bases de données et outils bioinformatiques utiles en génétique

Introduction aux SGBDR

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

EXERCICES : MECANISMES DE L IMMUNITE : pages

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Algorithmique répartie

AGREGATION DE BIOCHIMIE GENIE BIOLOGIQUE

STRUCTURE ET FONCTION DES PLURICELLULAIRES

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Règles d engagement. Présentation Diapositives Bibliographie Questions Les vertus de la marche

Introduction au datamining

GMIN206 Info. Biologique et Outils bioinformatiques. Elodie Cassan

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Limitations of the Playstation 3 for High Performance Cluster Computing

Cours 1 : Qu est-ce que la programmation?

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

données en connaissance et en actions?

Monitoring d un Datacenter du concept à la réalisation

CHAPITRE 2 : Structure électronique des molécules

Plus courts chemins, programmation dynamique

BREVET D ÉTUDES PROFESSIONNELLES AGRICOLES SUJET

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Le cadre de conception est présenté sous forme d une matrice 6x6 avec les interrogations en colonne et les éléments de réification en ligne.

Service d accompagnement pédagogique de l Université Sorbonne Paris Cité

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Production d une protéine recombinante

Mon premier rpm. 7 juin Avant de commencer RPM URPMI RPMBUILD... 2

Master Informatique Aix-Marseille Université

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Niveau de management Individuel Relationnel Organisationnel Accueillir l Homme dans sa globalité et capitaliser sur son hyper complexité

Créer une application de livre interactif pour tablette avec Indesign CS6 et Adobe Digital Publishing Suite

Système de contrôle du trafic d une ligne de métro Dossier de tests

Respiration Mitochondriale

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

Conception des systèmes répartis

DE L ALGORITHME AU PROGRAMME INTRO AU LANGAGE C 51

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Le rôle de l endocytose dans les processus pathologiques

Introduction. René J. Chevance

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

VI- Expression du génome

Thème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme

Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

L annuaire et le Service DNS

Des applications locales à l infonuagique: comment faire la transition?

Panorama général des normes et outils d audit. François VERGEZ AFAI

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Biologie Computationnelle

Centre Universitaire LA CITADELLE 220, avenue de l Université B.P DUNKERQUE CEDEX 1 GUIDE DES ETUDES LICENCE PROFESSIONNELLE

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

La classification automatique de données quantitatives

3: Clonage d un gène dans un plasmide

Transcription:

JS Varré Université Lille 1 jean-stephane.varre@lifl.fr http://www.lifl.fr/~varre jean-stephane.varre@lifl.fr 1 /

Pourquoi faire de l annotation automatique de protéines? Il est difficile de trouver expérimentalement la fonction d une protéine sans connaissance préalable Besoin de nombreuses expériences dans diverses conditions expérimentales Long et coûteux Pas garantie de résultats Besoin de points de départ pour orienter les recherches jean-stephane.varre@lifl.fr 2 /

Que peut-on prédire de façon automatique? La fonction de la protéine (pas finement) C est un transporteur de sucre, mais duquel? Certains domaines fonctionnels Cette partie de la protéine se lie à l ATP (molécule énergétique) Les modifications post-traductionnelles C est une protéine O-glycosylée sur tel acide aminé Les structures 2D et 3D des protéines La localisation cellulaire de la protéine C est une protéine membranaire jean-stephane.varre@lifl.fr 3 /

Limite des connaissances En général, plus de 30% des gènes d un génome sont de fonction inconnue Exemple d une bactérie, Bacillus subtilis 16% des gènes similaires à d autres gènes de fonction inconnue 26% des gènes sans similarité Exemple de la levure 6400 gènes dont 2.500 (39%) de fonction complètement inconnue. Il s agit de l un des organismes les plus étudiés du point de vue expérimental (génétique et biologie moléculaire). Son génome complet est disponible depuis 1996. Pour le génome humain, 60% des gènes sont complètement inconnus. Beaucoup de fonctions cellulaires sont encore à découvrir! jean-stephane.varre@lifl.fr 4 /

Prédiction de la fonction Comparaison de séquence Utilisation de Blast Pb : si la (les) région(s) trouvée(s) ne couvre(nt) pas toute la protéine, est-ce qu il s agit de la (les) régions importante(s) pour la fonction? Prédiction de domaines Des banques contiennent uniquement les régions importantes pour la fonction des protéines (domaines/motifs protéiques) Pb : comment définir ces domaines? Pb : comment identifier ces domaines sur une protéine inconnue? jean-stephane.varre@lifl.fr 5 /

Motifs et domaines protéiques Motifs protéiques Résidus essentiels à une fonction conservée (site actif) Résidus pas nécessairement consécutifs sur la séquence primaire, mais proches dans la structure 3D Ne se replient pas indépendamment Domaines protéiques Fragments de séquence contigus conservés dans une ou plusieurs familles Se replient indépendamment jean-stephane.varre@lifl.fr 6 /

Prosite, une banque de motifs protéiques Créée en 1988 (http://www.expasy.ch/prosite/) Motifs protéiques ayant une signification biologique particulière + documentation complète Deux représentations des motifs Pseudo-expression régulière ( pattern ) Matrice de poids (profil) Construite manuellement But : aide à l annotation protéique Recherche la présence de motifs dans une séquence jean-stephane.varre@lifl.fr 7 /

Construction d un pattern Prosite jean-stephane.varre@lifl.fr 8 /

Etapes de construction d un pattern Construction : Etude d un article de revue Recherche d autres séquences qui possèdent le motif Construction d un alignement multiple (correction à la main) Recherche de sites pertinents biologiquement Recherche d une séquence courte conservée (max. 5 résidus) Vérification de la qualité du pattern et correction éventuelle Bon pattern : Aussi court que possible Détecte toutes (ou presque) les séquences qui ont le motif Ne détecte pas trop de faux positifs jean-stephane.varre@lifl.fr 9 /

Exemple de motif protéique Basic-leucine zipper (bzip) Site trouvé dans des facteurs de transcription eucaryotes Fonction : Fixation à l ADN (reconnaissance d un palindrome de 6 nt) Dimérisation entre facteurs N Acc : PS000, PDOC000, PS50217 PFAM : PF00170 InterPro : IPR004827 jean-stephane.varre@lifl.fr 10 /

Construction du pattern de bzip TOXE_COCCA/19-34 RrklQNrvAQrKyRtR FOS_MESAU/143-157 Rr.eRNkmAAaKcRnR FOS_MOUSE/143-157 Rr.eRNkmAAaKcRnR FOS_MSVFB/143-157 Rr.eRNkmAAaKcRnR YA82_SCHPO/128-141 Ka..RNrqAAqKcRiK YDC3_SCHPO/270-284 Kr.rRNtaASaRfRiK YEN5_YEAST/389-404 RlleRNriAAsKcRqR YHA9_YEAST/149-164 KkkaQNraAQkAfReR [KR]-x(1,3)-[RKSAQ]-N-x(2)-[SAQ](2)-x-[RKTAENQ]-x-R-x-[RK] jean-stephane.varre@lifl.fr 11 /

Vérification de la qualité du pattern Trouvé dans 149 séquences 131 vrais positifs (avec bzip et pattern) 18 faux positifs (sans bzip, avec pattern) 62 faux négatifs (bzip, sans pattern) (3 seq tronquées) Sélectivité : 87,92 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 68,95 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver tous les vrais positifs jean-stephane.varre@lifl.fr 12 /

Construction d une matrice de poids (profil) Même point de départ : alignement multiple Calcul du poids de chaque acide aminé pour chaque position pertinente Fréquence de chaque acide aminé de la colonne Equivalence entre acides aminés Recherche d un profil dans une séquence : Fréquence de l acide aminé présent dans la séquence étudiée Somme des fréquences trouvée à chaque position Profil trouvé si la somme est supérieure à un seuil propre au profil jean-stephane.varre@lifl.fr 13 /

La qualité du profil bzip Trouvé dans 180 séquences (tous vrais positifs) 13 faux négatifs (dont 2 séquences tronquées) Sélectivité : 100 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 94,24 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver tous les vrais positifs jean-stephane.varre@lifl.fr 14 /

PFAM, une autre banque de motifs et domaines Gérée par le Sanger (http://www.sanger.ac.uk/software/pfam/) Construction et annotation automatiques des entrées Motifs et domaines représentés par des chaînes de Markov cachées (HMM) Permettent la modélisation des insertions-délétions Etapes de construction Mise en place à partir de séquences similaires Extension à des séquences de plus en plus éloignées jean-stephane.varre@lifl.fr 15 /

Construction du HMM de bzip RrklQNrvAQrKyRtR Rr.eRNkmAAaKcRnR Rr.eRNkmAAaKcRnR Rr.eRNkmAAaKcRnR Ka..RNrqAAqKcRiK Kr.rRNtaASaRfRiK RlleRNriAAsKcRqR KkkaQNraAQkAfReR jean-stephane.varre@lifl.fr 16 /

Exemples de banques de domaines Blocks Segments multiples alignés sans insertions-délétions Régions les plus conservées des protéines Calibrage contre la banque SwissProt Description du domaine : alignement Prodom Recherche de blocs par comparaison de toutes les séquences de SwissProt deux à deux Annotation automatique Description du domaine : consensus (acide aminé le plus fréquent) jean-stephane.varre@lifl.fr 17 /

InterPro Gérée par l EBI (http://www.ebi.ac.uk/interpro/) Contenu Superfamilles, familles, domaines, motifs, sites fonctionnels, modifications post-traductionnelles, structures 3D Regroupe plusieurs banques existantes Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams, Superfamilly, SCOP, CATH, MSD Une entrée Description biologique détaillée Représentation de l objet par les différentes banques jean-stephane.varre@lifl.fr 18 /

Prédiction de la localisation cellulaire Prédiction de domaines transmembranaires Programmes basés sur l apprentissage à partir de protéines dont les domaines transmembranaires sont connus Critère principal : hydrophobicité des acides aminés Prédiction de peptide signal Peptide signal : suite d acides aminés située au début d une protéine et indiquant à la machinerie cellulaire vers quel compartiment adresser la protéine Aussi basé sur l apprentissage Les jeux d apprentissage sont spécifiques à un compartiment cellulaire jean-stephane.varre@lifl.fr 19 /

Part I Etude des structures 2D et 3D jean-stephane.varre@lifl.fr 20 /

Structures 3D de protéines 1958 : détermination de la première structure 3D de protéine par Kendrew et Perutz Découverte de la complexité de la structure 3D d une protéine Hypothèses de l époque : Deux protéines avec des séquences proches se replient de façon semblable Deux protéines ayant des structures 3D proches ont des séquences proches La structure 3D des protéines est déterminante pour leur fonction jean-stephane.varre@lifl.fr 21 /

wwpdb : la banque de structures 3D worldwilde Protein Data Bank Seule banque de structures 3D de protéines, acides aminés et grosses molécules biologiques 1971 : le RSCB (Research Collaboratory for Structural Bioinformatics) créé la banque PDB 2003 : regroupement des 3 banques de structures 3D en une seule RSCB (Research Collaboratory for Structural Bioinformatics) MSD (Macromolecular Structure Database) PDBj (Protein Data Bank Japan) jean-stephane.varre@lifl.fr 22 /

PDB, nombre d entrées jean-stephane.varre@lifl.fr 23 /

Structure d une partie de AP1 human jean-stephane.varre@lifl.fr 24 /

Classification structurale des protéines Classification des protéines basée sur leurs structures 2D, 3D et leur fonction Construction manuelle aidée d outils de comparaison de structures et de séquences 2 banques : SCOP CATH jean-stephane.varre@lifl.fr 25 /

SCOP, hiérarchie principale Structural Classification of Proteins Fold (similarités structurales majeures) Mêmes éléments 2D, dans le même ordre et avec la même topologie Superfamilly (possibilité d un ancêtre commun) Faible conservation de séquence Mais caractéristiques structurelles et fonctionnelles liées Familly (lien dans l évolution clairement démontré) Souvent > 30% identité jean-stephane.varre@lifl.fr 26 /

SCOP, les classes (haut de la hiérarchie) Protéines tout α Protéines tout β Protéines α/β (éléments α et β mélangés) Protéines α+β (éléments α et β séparés) Protéines multi-domaine Peptides et protéines de membrane et de surface Petites protéines Protéines coiled-coil Peptides Protéines artificielles jean-stephane.varre@lifl.fr 27 /

Hiérarchie de AP1 human dans SCOP 1 Root: scop 2 Class: Coiled coil proteins [57942] Not a true class 3 Fold: Parallel coiled-coil [57943] this is not a true fold; includes oligomers of shorter identical helices 4 Superfamily: Leucine zipper domain [57959] 5 Family: Leucine zipper domain [57960] 6 Protein: C-jun [57975] 7 Species: Human (Homo sapiens) [57976] jean-stephane.varre@lifl.fr 28 /

CATH, hiérarchie principale Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). Class Architecture Topology Homologous Superfamily Sequence Family (S35) Non-identical (S95) Identical (S100) jean-stephane.varre@lifl.fr 29 /

Hiérarchie de AP1 human dans CATH 1.20.5.170.8.1.1 Class : Mainly Alpha Architecture : Up-down Bundle Topology : Single alpha-helices involved in coiled-coils or other helix-helix interfaces Homologous Superfamily : TRANSCRIPTION/DNA Sequence Family (S35) : TRANSCRIPTION/DNA Non-identical (S95) : TRANSCRIPTION/DNA Identical (S100) : TRANSCRIPTION/DNA jean-stephane.varre@lifl.fr 30 /

Prédiction de la structure des protéines Nbre protéines dans les banques (UniProt : 2.299.834) >> Nbre structures 3D expérimentales (PDB : 33.7 ) Besoin de logiciels de prédiction Efforts pour déterminer expérimentalement plus de structures 3D Difficultés de prédiction : Pas de règle simple d interactions entre acides aminés Des homologues distants peuvent avoir des structures proches Grande variété de structures jean-stephane.varre@lifl.fr 31 /

Prédiction de structure 2D Localisation des éléments de base de structure 2D Hélices α, feuillets β, boucles Reconnaissance de motifs Basée sur des règles de construction des éléments de base et l enchaînement de ces éléments dans les protéines Méthodes statistiques Apprentissage à partir d alignements multiples de séquences impliquées dans une hélice ou un feuillet (protéines de structure 3D connue) Résultats : en moyenne 70% des aa bien prédits jean-stephane.varre@lifl.fr 32 /

Exemple de prédiction 2D (site NPSA) KAERKRMRNRIAASKSRKRKLERIARLEEKVKTL Reel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH DSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh MLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh PHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh Consensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh KAQNSELASTANMLREQVAQLKQKVMNH HHHHHHHHHHHHHHHHHHHHTT hhcchhhhhhhhhhhhhhhhhhhhhhhh hhchhhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315) hhcchhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh jean-stephane.varre@lifl.fr 33 /

Exemple de prédiction 2D (PSIPRED) jean-stephane.varre@lifl.fr 34 /

Prédiction de structure 3D Modélisation 3D à partir d un homologue Recherche des séquences proches dans PDB Repliement de la seq inconnue à l aide de la structure connue Enfilage (threading) Banques représentatives des topologies de base Repliement de la seq dans chaque structure et sélection de la structure la plus probable Qualité de la prédiction Très variable selon la séquence étudiée Maximum entre 60 et 70% de bonne prédiction jean-stephane.varre@lifl.fr 35 /

Format des fichiers de structure 3D Ce sont des fichiers textes Format PDB (Brookhaven) : En-tête avec des informations générales sur les molécules modélisées (éventuellement leur structure 2D) Coordonnées des atomes qui composent la structure ATOM = atome de la protéine HETATM = HETeroAToM = atome des cofacteurs, substrats, ions,... liés par une liaison covalente à la protéine) mmcif (macromolecular Crystallographic Information Format) jean-stephane.varre@lifl.fr /