Annotation de protéines

Documents pareils
Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction aux bases de données: application en biologie

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Identification de nouveaux membres dans des familles d'interleukines

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

INTRODUCTION À L'ENZYMOLOGIE

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Bibliographie Introduction à la bioinformatique

Prédiction de la structure d une

MABioVis. Bio-informatique et la

Séquence 2. L expression du patrimoine génétique. Sommaire

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Introduction au Data-Mining

Big data et sciences du Vivant L'exemple du séquençage haut débit

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Apprentissage Automatique

TD de Biochimie 4 : Coloration.

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Modélisation multi-agents - Agents réactifs

Des applications locales à l infonuagique: comment faire la transition?

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Cellules procaryotes Service histologie Pr.k.mebarek

3: Clonage d un gène dans un plasmide

Introduction au Data-Mining

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Transport des gaz dans le sang

Les cytokines et leurs récepteurs. Laurence Guglielmi

Les OGM. 5 décembre Nicole Mounier

Les bases de données

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Analyse,, Conception des Systèmes Informatiques

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Évaluation et implémentation des langages

données en connaissance et en actions?

INF6304 Interfaces Intelligentes

Perl Orienté Objet BioPerl There is more than one way to do it

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Information génétique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

I. La levure Saccharomyces cerevisiae: mode de vie

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

TP N 3 La composition chimique du vivant

LE MODELE CONCEPTUEL DE DONNEES

Conférence technique internationale de la FAO

Transport des gaz dans le sang

Spécificités, Applications et Outils

1 les caractères des êtres humains.

Gestion obligataire passive

Learning Object Metadata

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

INTRODUCTION AU DATA MINING

Archived Content. Contenu archivé

Le rôle de l endocytose dans les processus pathologiques

Séquence 1. Glycémie et diabète. Sommaire

Algorithmique répartie

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

Logement pris en gestion par une Société de Logement de Service

Le Langage SQL version Oracle

ORIGINE ET DIFFERENTS TYPES DE RYTHMES BIOLOGIQUES. Carine Bécamel

CHAPITRE 2 : Structure électronique des molécules

Big data : vers une nouvelle science des risques?

Résonance Magnétique Nucléaire : RMN

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

THEME : CLES DE CONTROLE. Division euclidienne

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

TD 1 - Structures de Traits et Unification

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Apprentissage statistique dans les graphes et les réseaux sociaux

Systèmes et algorithmes répartis

L UNIVERS INSTANTANÉ:

Intégration de la dimension sémantique dans les réseaux sociaux

Conception de Médicament

voies de signalisation

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Exemple PLS avec SAS

Respiration Mitochondriale

Règles d engagement. Présentation Diapositives Bibliographie Questions Les vertus de la marche

BTS/CGO P10 SYSTEME INFORMATION Année

Plus courts chemins, programmation dynamique

RÉPERTOIRE RELÈVE SCIENTIFIQUE AU SERVICE DES ENTREPRISES AGROALIMENTAIRES. 2 e édition

Introduction au datamining

Compte-rendu re union Campus AAR 3 mars 2015

choisir H 1 quand H 0 est vraie - fausse alarme

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Production d une protéine recombinante

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Chaînes de Markov au lycée

JEAN-LUC VIRUÉGA. Traçabilité. Outils, méthodes et pratiques. Éditions d Organisation, 2005 ISBN :

Gestion des transactions et accès concurrents dans les bases de données relationnelles

Transcription:

Annotation de protéines Recherche d informations sur une séquence protéique Equipe Bonsai (2014)

Annotation expérimentale de protéines Il est difficile de trouver expérimentalement la fonction d une protéine sans connaissance préalable Besoin de nombreuses expériences dans diverses conditions expérimentales Long et coûteux Besoin d inactiver tous les gènes, voire des combinaisons de gènes (knockout, gene silencing [voir wikipedia]) Pas garantie de résultats Il faut trouver la condition dans laquelle le gène s exprime Il faut réussir à observer le phénotype lié au gène ou à son inactivation Il existe souvent des voies alternatives pour compenser l inactivation d un gène Besoin de points de départs pour orienter les recherches 2

Que peut-on prédire de façon automatique? La fonction de la protéine (pas finement) C est un transporteur de sucre, mais du quel? Certains domaines fonctionnels Cette partie de la protéine se lie à l ATP (molécule énergétique) Les modifications post-traductionnelles C est une protéine O-glycosylée sur tel acide aminé Les structures 2D et 3D des protéines La localisation cellulaire de la protéine C est une protéine membranaire 3

Limite des connaissances (2008) En général, > 30% des gènes d un génome sont de fonction inconnue Exemple d une bactérie, Bacillus subtilis 16% des gènes similaires à d autres gènes de fonction inconnue 26% des gènes sans similarité Exemple de la levure 6400 gènes dont 2.500 (39%) de fonction complètement inconnue. Il s'agit de l'un des organismes les plus étudiés du point de vue expérimental (génétique et biologie moléculaire). Son génome complet est disponible depuis 1996. Pour le génome humain, 60% des gènes sont complètement inconnus. Beaucoup de fonctions cellulaires sont encore à découvrir! 4

PRÉDICTION DE LA FONCTION DES PROTÉINES 5

Prédiction de la fonction Comparaison de séquence Pb : si la région trouvée ne couvre pas toute la protéine, est-ce qu il s agit de la région importante pour la fonction? Prédiction de domaines/motifs protéiques Pb : comment définir puis représenter ces domaines/motifs? Pb : comment les identifier sur une protéine inconnue? Motifs protéiques Résidus essentiels à une fonction conservée (site actif) Résidus pas nécessairement consécutifs sur la séquence primaire, mais proches dans la structure 3D Domaines protéiques Fragments de séquence contigus conservés dans une ou plusieurs familles Se replient indépendamment 6

Détection de régions conservées Processus pour définir un domaine/motif protéique Choix d une famille de protéines Recherche de toutes les séquences appartenant à cette famille Construction d un alignement multiple à partir de ces séquences Cas 1 : à partir de connaissances expérimentales Identification de la région ou des acides aminés essentiels à la fonction sur une ou plusieurs protéines Localisation de cette région dans l alignement Correction éventuelle de l alignement Cas 2 : par détection automatique Extraction de régions fortement conservées dans l alignement Etape finale Extraction de la région conservée puis modélisation 7

Un exemple : l hormone pancréatique (PP) Hormone peptidique produite par le prancréas Régule les fonctions pancréatiques et gastrointestinales Banques de domaines InterPro: IPR001955, Pancreatic hormone PROSITE: PS00265, PS50276, PDOC00238, PANCREATIC_HORMONE PFAM: PF00159, Pancreatic hormone peptide Entrées de structure 3D 1FP8 (voir ci-contre) 8

Prosite, une banque de motifs protéiques Créée en 1988 (http://www.expasy.ch/prosite/) Motifs protéiques ayant une signification biologique particulière + documentation complète Deux représentations des motifs Matrice poids-position («profil») Pseudo-expression régulière («pattern») Construite manuellement But : aide à l annotation protéique Recherche la présence de motifs dans une séquence 9

Prosite par l exemple: l hormone pancréatique section technique: 2 entrées associées : l une représenté par un profil (PS50276), l autre par une pattern (PS500265), 10

Prosite par l exemple (1/2): l entrée PS50276 11

Matrice poids-position de l entrée PS50276 12

Alignement des vrai-positifs de PS50276 PROFIL: 13

Prosite par l exemple (2/2): l entrée PS00256 14

Alignement des vrai-positifs de PS00265 PATTERN : [FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF] 15

Qu est-ce qu un bon pattern? Pertinent d un point de vue biologique Représentatif de la fonction décrite : Suffisamment tolérant Pas de sur-adaptation (e.g. spécialisation vers une sous-famille) Limiter le nombre de faux négatifs Détecte toutes (ou presque) les séquences qui ont la fonction Suffisamment discriminant Limiter le nombre de faux positifs Ne détecte pas trop de séquences qui n ont pas la fonction recherchée Construction d un pattern A l aide du logiciel PRATT (http://www.ebi.ac.uk/pratt/) Puis amélioration à la main 16

Construction d un pattern selon Prosite 17

Modélisation par expression régulière (pattern) NEUY CARAU/29-64 AEE..LAKYYSALRHYINLITRQRY PYY HUMAN/29-64 PEE..LNRYYASLRHYLNLVTRQRY PMY PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY PPY LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF [FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF] 18

Vérification de la qualité du pattern PS00265 Recherche du pattern dans les protéines de SwissProt Trouvé dans 84 séquences 81 vrais positifs (hormones pancréatiques possédant le pattern) 3 faux positifs (protéines quelconques possédant le pattern) 7 faux négatifs (hormones sans pattern dont 6 tronquées) Sélectivité : 96,43 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 92,05 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver les vrais positifs 19

Vérification de la qualité du pattern PS00265 20

Vérification de la qualité du pattern PS00265 21

Exemple de détection du pattern PS00265 La séquence NPF_ARTTR contre le pattern de l hormone pancréatique >NPF_ARTTR KVVHLRPRSSFSSEDEYQIYLRNVSKYIQLYGRPRF PS00265 YlrnVskYiqlYgRpRF 22

Construction d une matrice de poids (profil) Même point de départ : alignement multiple Calcul du poids de chaque acide aminé pour chaque position pertinente Fréquence de chaque acide aminé de la colonne Equivalence entre acides aminés Recherche d un profil dans une séquence : Fréquence de l acide aminé présent dans la séquence étudiée Somme des fréquences trouvées à chaque position Profil (motif) trouvé si la somme est supérieure à un seuil propre au profil 23

Point de départ : matrice des positions A D E F H I K L M N P Q R S T V W Y 1 1 1 0 0 0 0 0 0 0 0 0 5 0 0 0 0 2 0 0 2 0 0 7 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 3 0 3 4 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 7 1 0 0 0 0 0 0 0 1 0 7 3 0 0 0 0 0 1 0 0 0 1 0 0 3 1 0 0 0 0 8 0 1 0 1 0 0 0 2 0 0 0 0 2 2 1 0 0 0 0 9 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8 10 1 0 0 0 0 0 0 0 2 1 0 0 1 0 0 0 0 0 4 11 3 1 0 0 0 0 0 1 1 0 1 0 0 1 1 0 0 0 0... 24

Vers plus de souplesse Autoriser des insertions ou des délétions Ajout de pénalités particulières via une colonne supplémentaire Autoriser des substitutions (entre acides aminés voisins) Profil i,a = b f i,b M(a, b) M(a, b) : score entre les acides aminés a et b (PAM, BLOSUM,... ) f i,b : fréquence du b ième acide aminé dans la colonne i de l alignement multiple. 25

Exemple 26

Recherche d un profil Score : alignement entre le profil et la séquence Les pénalités de substitutions et de gaps sont données par le profil Seuil d admission : E-value Banque de référence : SwissProt 27

Vérification de la qualité du profil PS50276 Trouvé dans 82 séquences (tous vrais positifs) 6 faux négatifs (dont 6 séquences tronquées) Sélectivité (Precision): 100 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs (dans ce cas, les 82 séquences trouvées sont toutes positives) Sensibilité (Recall): 93.18 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode ne pas «rater» des bonne séquences. 28

Vérification de la qualité du profil PS50276 29

Vérification de la qualité du profil PS50276 30

Exemple de détection du profil PS50276 La séquence NPF_ARTTR contre le profil de l hormone pancréatique Score: 162.31 Consensus 1 PE.EAALAKYYAALRHYINLITRQRY 25 : :: :::::: : :: : : NPF_ARTTR 13 SEDEY.YQIYLRNVSKYIQLYGRPRF 37 31

PFAM, une autre banque de motifs et domaines Gérée par le Sanger Intitute (http://pfam.sanger.ac.uk/) Construction et annotation automatiques des entrée Motifs et domaines représentés par des chaînes de Markov cachées (HMM) Permettent la modélisation des insertions-délétions Etapes de construction Mise en place à partir de séquences similaires Extension à des séquences de plus en plus éloignées 32

PFAM par l exemple: l hormone pancréatique 33

PFAM par l exemple: l hormone pancréatique 34

PFAM par l exemple: l hormone pancréatique 35

PFAM par l exemple: l hormone pancréatique 36

PFAM : Modélisation avec des HMM HMM = Hidden Markov Model = Modèle de Markov caché Un ensemble d états Des probabilités de transitions entre les états Un ensemble d observations Une probabilité d émission qui indique pour chaque état la probabilité d y émettre telle information 37

Profil HMM - alignement sans indel PPY_LOPAM/1-36 PEDWASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQMAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VEDLIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VEDLRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNELRQYLKELNEYYAIMGRTRF 1 observation = 1 acide aminé 1 état = 1 colonne de l alignement multiple émissions = fréquences de chaque a.a. 38

Profil HMM - alignement avec insertions Une insertion est un fragment de la séquence qui n apparait pas dans le modèle Nouvel état : insertion PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF 39

Profil HMM - alignement avec délétions Une délétion est un fragment du modèle qui ne correspond à aucun acide aminé Ajout d états silencieux, qui n émettent rien PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF Q9PT97/29-62 AEE..LAKYYSALRHYINLITRQ.. 40

En résumé Etats matchants : colonnes avec moins de 50% de indel Etats d insertion : majorité de insertion (losange) Etats de délétion : majorité de deletion (rond) Probabilités d émission : nombre d occurrences de chaque acide aminé Probabilités de transition : nombre de séquences empruntant la transition Correction avec les pseudo-comptes : +1 à chaque compte (loi de Laplace) 41

Un exemple d occurrence du HMM La séquence NPF_ARTTR contre le HMM de l hormone pancréatique Alignments of top-scoring domains: hormone3: domain 1 of 1, from 3 to 36: score 48.4, E = 1.1e-13 *->ypskdfpenpgddaspeeelaqylralrqyinlitrpry<-* ++++ P++++s+E+e+++Ylr++++Yi+l++RpR+ 3 VHLR-----PRSSFSSEDEYQIYLRNVSKYIQLYGRPRF 36 Le HMM «Hormone_3» ou «Pancreatic hormone peptide» est trouvé dans 119 séquences de UniProt 42

Autres banques de domaines Blocks Segments multiples alignés sans insertions-délétions Régions les plus conservées des protéines Calibrage contre la banque SwissProt Description du domaine : alignement Prodom Recherche de blocs par comparaison de toutes les séquences de Uniprot deux à deux Annotation automatique Description du domaine : consensus (acide aminé le plus fréquent) 43

InterPro. Gérée par l EBI (http://www.ebi.ac.uk/interpro/) Contenu Superfamilles, familles, domaines, motifs, sites fonctionnels, modifications post-traductionnelles, structures 3D Regroupe plusieurs banques existantes Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams, Superfamilly, SCOP, CATH, MSD Une entrée Description biologique détaillée Représentation de l objet par les différentes banques 44

InterPro : différents modèles et annotations Modèles utilisés Annotations produites http://www.ebi.ac.uk/training/online/course/introduction-protein-classification-ebi 45

InterPro : objets biologiques et classification Objets biologiques : Famille, Domaine, Répétitions, Site Deux classifications hiérarchiques : Familles et Domaines (ATTENTION : 2 classifications indépendantes et ) http://www.ebi.ac.uk/training/online/course/introduction-protein-classification-ebi 46

InterPro : objets biologiques 47

InterPro : les familles Une Famille Ensemble de protéines ayant une ou des fonctions proches, dues à leurs origine commune (inférée par similarité de structure et/ou séquence) Les Familles peuvent être organisées en une Hiérarchie 48

InterPro : les familles Exemple : famille GPCR kinases (IPR000239), sans hiérarchie dans 2 slides 49

InterPro : les domaines Un Domaine En règle générale : partie d une protéine qui se replie & reste stable (structure tertiaire) indépendamment du reste de la protéine Sauf que un Domaine InterPro peut être structurel mais aussi fonctionnel ou conservé au niveau séquence (fourre tout pratique ) Domaines : Hiérarchie possible (idem Familles). Protéines : domaines souvent organisés en «modules» Exemple : dans la famille GPCR kinases (IPR000239), un «module» de 4 domaines apparaît sur 119 protéines de cette famille sous cette forme : Regulator of G protein signalling (IPR000342) Protein kinase domain (IPR000719) AGC-kinase, Pleckstrin C-terminal homology (IPR000961) domain (IPR001849) 50

Organisation des domaines dans les familles 51

Organisation des domaines vs autres domaines Pour un domaine donné (ou ses fils dans la hierarchie), quels sont les domaines co-occurents dans les protéines? 52

Organisation des domaines vs autres domaines En Orange : protein kinase domain (ou ses fils dans la hiérarchie) 53

Organisation des domaines dans les proteines? En Orange : protein kinase domain (ou ses fils dans la hiérarchie) 54

InterPro par l exemple: l hormone pancréatique 55

InterPro par l exemple: l hormone pancréatique 56

InterPro par l exemple: l hormone pancréatique 57

InterPro par l exemple: l hormone pancréatique 58

InterPro par l exemple: l hormone pancréatique 59

InterPro par l exemple: l hormone pancréatique 60

InterPro : interface d'interrogation simple 61

InterProScan : interface d'interrogation 62

InterProScan : résutats [résumé] 63

InterProScan : résutats [entrée interpro] 64

Prédiction de la localisation cellulaire Prédiction de domaines transmembranaires Programmes basés sur l apprentissage à partir de protéines dont les domaines transmembranaires sont connus Critère principal : hydrophobicité des acides aminés TopPred [sur mobyle], TMHMM [cbs.dtu.dk], voir http://www.sacs.ucsf.edu/links/transmem.html Prédiction de peptide signal Peptide signal : suite d acides aminés située au début d une protéine et indiquant à la machinerie cellulaire vers quel compartiment adresser la protéine Aussi basé sur l apprentissage (jeux d apprentissage spécifiques à un compartiment cellulaire) SignalP [cbs.dtu.dk], Prédictions de localisation cellulaire TargetP [cbs.dtu.dk], Psort [psort.org], voir http://www.psort.org/ (liste impressionnante!) 65

Prédiction de domaines transmembranaires (1/2) Exemple de résultat pour TopPred: 66

Prédiction de domaines transmembranaires (2/2) Exemple de résultat pour TM-HMM: 67

Prédiction de peptite signal (1/2) Exemple de résultat pour signalp-nn (NN = Neural Networks) voir http://www.cbs.dtu.dk/services/signalp-3.0/output.php 68

Prédiction de peptite signal (2/2) Exemple de résultat pour signalp-hmm: The common structure of signal is commonly described as a positively charged n-region, followed by a hydrophobic h-region and a neutral but polar c-region. voir http://www.cbs.dtu.dk/services/signalp-3.0/output.php 69

Localisation du peptite signal mtp, a mitochondrial targeting peptide SP, Secretory pathway voir http://www.cbs.dtu.dk/services/targetp-1.1/output.php 70

Localisation du peptite signal Loc Prediction of localization, based on the scores above; the possible values are: C Chloroplast, i.e. the sequence contains ctp, a chloroplast transit peptide; M Mitochondrion, i.e. the sequence contains mtp, a mitochondrial targeting peptide; S Secretory pathway, i.e. the sequence contains SP, a signal peptide; _ Any other location; * "don't know"; indicates that cutoff restrictions were set (see instructions) and the winning network output score was below the requested cutoff for that category. RC Reliability class, from 1 to 5, where 1 indicates the strongest prediction. RC is a measure of the size of the difference ('diff') between the highest (winning) and the second highest output scores. There are 5 reliability classes, defined as follows: 1 : diff > 0.800 2 : 0.800 > diff > 0.600 3 : 0.600 > diff > 0.400 4 : 0.400 > diff > 0.200 5 : 0.200 > diff 71

Etude des structures 2D et 3D

Prédiction de la structure des protéines Nbre protéines dans les banques (UniProt : 4.949.164) >> Nbre structures 3D expérimentales (PDB : 47.403) Besoin de logiciels de prédiction Efforts pour déterminer expérimentalement plus de structures 3D Difficultés de prédiction : Pas de règle simple d interactions entre acides aminés Des homologues distants peuvent avoir des structures proches Grande variété de structures 73

Prédiction de structure 2D Localisation des éléments de base de structure 2D Hélices α, feuillets β, boucles Reconnaissance de motifs Basée sur des règles de construction des éléments de base et l enchaînement de ces éléments dans les protéines Méthodes statistiques Apprentissage à partir d alignements multiples de séquences impliquées dans une hélice ou un feuillet (protéines de structure 3D connue) Résultats : en moyenne 70% des aa bien prédits 74

Exemple de prédiction 2D (site NPSA) KAERKRMRNRIAASKSRKRKLERIARLEEKVKTL Réel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH DSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh MLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh PHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh Consensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh KAQNSELASTANMLREQVAQLKQKVMNH HHHHHHHHHHHHHHHHHHHHTT hhcchhhhhhhhhhhhhhhhhhhhhhhh hhchhhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315) 75

Exemple de prédiction 2D (PSIPRED) 76

Prédiction de structure 3D Modélisation 3D à partir d un homologue Recherche des séquences proches dans PDB Repliement de la seq inconnue à l aide de la structure connue Enfilage (threading) Banques représentatives des topologies de base Repliement de la seq dans chaque structure et sélection de la structure la plus probable Qualité de la prédiction Très variable selon la séquence étudiée Maximum entre 60 et 70% de bonne prédiction 77

Format des fichiers de structure 3D Ce sont des fichiers textes Format PDB (Brookhaven) : En-tête avec des informations générales sur les molécules modélisées (éventuellement leur structure 2D) Coordonnées des atomes qui composent la structure ATOM = atome de la protéine HETATM = HETeroAToM = atome des cofacteurs, substrats, ions,... lié à la protéine mmcif (macromolecular Crystallographic Information Format) HEADER NEUROPEPTIDE 09-JUL-04 1TZ4 TITLE [HPP19-23]-PNPY BOUND TO DPC MICELLES COMPND MOLECULE: PANCREATIC HORMONE;......... SEQRES 1 A 37 TYR PRO SER LYS PRO ASP ASN... SEQRES 2 A 37 ALA GLU ASP LEU ALA GLN TYR... SEQRES 3 A 37 TYR ILE ASN LEU ILE THR ARG... ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM......... 1... 19.905 9.727-11.317... N 2... 21.204 10.088-10.714... C 3... 21.095 11.394-9.914... C 4... 21.697 12.392-10.306... O 5... 22.289 10.169-11.802... C 6... 22.733 8.815-12.312... C 7... 23.766 8.142-11.637... C 8... 22.138 8.233-13.450... C 9... 24.216 6.891-12.095... C 10... 22.578 6.982-13.915... C 11... 23.634 6.311-13.239... C......... 78

Annotation au niveau de l organisme Le but est de voir plus loin qu un gène ou une protéine isolée

Quelles sont toutes les fonctions cellulaires? Difficile de faire la liste de toutes les fonctions cellulaires Elles sont nombreuses Elles varient selon les organismes Pas de relation simple entre protéine (ou autre) et fonction Une protéine plusieurs fonctions (n domaines, selon le contexte) Une fonction plusieurs protéines (complexes, duplications) Relations différentes selon les organismes Existence de nombreux noms pour une même fonction Besoin de créer une ontologie pour avoir une description universelle des fonctions cellulaires

Une nomenclature pour les enzymes : EC Créée dans les années 60 et mise à jour régulièrement Décrit toutes les fonctions enzymatiques connues à l aide d un code en quatre parties (EC 1.1.1.1) Les 6 classes principales, les sous-classes, les sous-sous-classes, le numéro de série Les 6 classes principales : Classe 1 : Oxydoréductases Classe 2 : Transférases Classe 3 : Hydrolases Classe 4 : Lyases Classe 5 : Isomérases Classe 6 : Ligases

Une nomenclature générale : Gene Ontology Créée fin 90 et mise à jour régulièrement But : fournir un vocabulaire contrôlé applicable à tout organisme, même si les connaissances sur les rôles des gènes et des protéines évoluent constamment. 3 dictionnaires structurés Processus cellulaires Ex : Polarité de l axe antéro-postérieur, Glycolyse, Fonctions moléculaires Ex : Facteur de transcription, Enzyme, Composants cellulaires Ex : Noyau, Cytoplasme, Membrane, Complexe moléculaire,

Les processus cellulaires 4 grands types de processus cellulaires : Voies métaboliques Réseaux de régulation Transduction de signaux Transports membranaires Les autres processus cellulaires Synthèse des protéines (transcription, traduction, ) Réplication de l ADN Division cellulaire (mitose / méiose) Structure de la cellule (cytosquelette, membrane)

Exemples d ontologies Composants cellulaires Fonctions moléculaires Processus cellulaires

MetaCyc, une banque de voies métaboliques Banque de données de voies métaboliques non redondantes et découvertes expérimentalement, couvrant plus de 2460 organismes Schémas des voies (une voie par organisme) Informations sur les enzymes, protéines, gènes et composés Informations sur la régulation des gènes La banque la plus complète concerne E. coli

Metacyc : la voie de synthèse du tryptophane (E. coli) Produits Produits+Enzymes/Gènes/EC+régulation

Metacyc : la voie de synthèse du tryptophane (E. coli) trpe, trpd trpd trpc trpa trpc trpb trpx : gènes Source : Metacyc

Metacyc : les gènes liés à cette voie (E. coli) Localisation sur le génome Régulation L opéron trp Source : Metacyc

Comparaison des «voies du tryptophane» Escherichia coli trpe, trpd trpd trpc trpc trpa trpb 2 protéines 1 fonction (complexe) 1 protéine 2 fonctions Bacillus subtilis 2 protéines 1 fonction (duplication possible) trpe, paba trpd ynai / trpf trpc trpa trpb 2 protéines 2 fonctions

Comparaison de la localisation des gènes trp Escherichia coli Bacillus subtilis

Recherche d un gène ayant une fonction donnée Première méthode : Trouver une protéine ayant cette fonction chez un organisme proche de celui étudié, Rechercher cette protéine sur le génome à l aide de BlastX. Inconvénient : il faut bien choisir la protéine qui sert de sonde. Deuxième méthode : Trouver un (ou plusieurs) motif(s)/domaine(s) protéique(s) qui caractérise(nt) la fonction recherchée. Rechercher ce(s) motif(s)/domaine(s) sur la séquence génomique traduite dans les 6 phases de lecture. Inconvénient : très long! Est-ce que ce «travail» n est pas déjà fait?

Les banques de connaissances, KEGG KEGG : Kyoto Encyclopedia of Genes and Genomes Les données sont représentées sous la forme : de Graphes Listes de voisinages / Matrices de voisinages / Graphes (nœud = objet, arrête = interaction) d Arbres / DAG Hiérarchies 15 banques de données liées

Les banques de KEGG

KEGG : Pathways Construction manuelle des schémas métaboliques D après les publications Le schéma pour une voie représente toutes les alternatives possibles Les organismes n utilisent pas tous les même réactions pour aboutir au même composé chimique Les gènes pour un organisme donné sont colorés dans le schéma général Lien entre gène et fonction de la protéine codée par le gène

Un exemple de schéma de KEGG Assemblage du flagelle Source : KEGG

Un exemple de schéma de KEGG [1] [2] Assemblage du flagelle Source : KEGG

Un exemple de hiérarchie fonctionnelle BRITE [1] Assemblage du flagelle Source : KEGG

Un exemple de table d orthologues de KEGG [2]

SIMULATION DYNAMIQUE DES RÉSEAUX CELLULAIRES

Limites des représentations statiques Difficiles à lire Besoin de commentaires pour comprendre le fonctionnement du réseau cellulaire Pas de simulation possible + X + Y -

Avantage des représentations dynamiques Le fonctionnement complet du réseau est simulé Besoin de formaliser les connaissances Mise en place d aller-retour entre simulation et expérimentation Découverte d étapes manquantes pour que le réseau fonctionne Recherche des molécules effectuant ces étapes dans la cellule Simulations dans différentes conditions Variation des points d entrée du réseau Simulation de mutations (inactivation, sur-expression, ) Disfonctionnements (maladie, élément perturbateur, )

Limites des représentations dynamiques Besoin de nombreuses données expérimentales Seuils de concentration des molécules impliquées : Passage de l état actif à l état inactif Plus le réseaux compte de partenaires, plus il est difficile à simuler Trop de variables à prendre en compte Besoin des connaissances en biologie ET en informatique ou mathématique Nécessite la mise en place de collaborations étroites entre équipes de différentes disciplines (cela prend du temps)

Généralités sur les réseaux de régulation Un réseau (ou circuit) est un ensemble d interactions Les composants d un réseau cellulaire peuvent être des molécules biologiques ou d autres stimuli (lumière, chaleur, ) Une interaction = effet d un composant sur un autre composant du réseau Un réseau de régulation concerne les gènes et leurs produits, mais aussi la concentration en une molécule,

Les circuits positifs Nombre paire (voire nul) d interactions négatives X + + Y X - - Y [X] et [Y] augmentent [X] ou [Y] augmente X ou Y ont un effet positif sur eux-mêmes Ces circuits sont impliqués dans la différentiation cellulaire ou la mémoire.

Les circuits négatifs Nombre impaire d interactions négatives X - X Y - + [X] stable [X] et [Y] stables X et Y ont un effet négatif sur eux-mêmes Ces circuits sont impliqués dans le maintient d un état stable, dans l homéostasie

La simulation par réseaux booléens Réseau booléen = Graphe orienté Nœud = molécule biologique (gène, protéine, ) ou stimulus (lumière, ) Arrête = fonction booléenne (2 valeurs : 0/1, transcrit/non transcrit, présent/absent, ) Définition du graphe et des tables de vérités Schéma des interactions entre éléments du réseau Successions des états possibles du système Construction du graphe d états Les chemins possibles dans le graphe descriptif Découverte des états stables : soit un cycle, soit un point fixe

La simulation par équations différentielles Les équations différentielles sont des égalités faisant intervenir des fonctions et leurs dérivées Les dérivées représentent la variation de concentration d une molécule (dx) dans un laps de temps dt. L équation représente les différents éléments qui agissent sur la concentration de la molécule Limites : il faut connaître les concentrations pour résoudre les équations. Possibilité : estimation des paramètres.