Mélanges et point isoélectrique des protéines



Documents pareils
Extraction d information des bases de séquences biologiques avec R

Régression non linéaire

Initiation à l analyse en composantes principales

Exemple PLS avec SAS

Ajustement au modèle de Lotka-Volterra

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

ACIDES BASES. Chap.5 SPIESS

Chapitre 6. Fonction réelle d une variable réelle

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Annexe commune aux séries ES, L et S : boîtes et quantiles

Chapitre 2 Le problème de l unicité des solutions

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Principe de symétrisation pour la construction d un test adaptatif

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

TD DOSAGE DE PROTEINES ET ELECTROPHORESE : PARTIE THÉORIQUE BST1 SVT

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Introduction aux bases de données: application en biologie

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Lire ; Compter ; Tester... avec R

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Fiche TD avec le logiciel. Courbes de niveau. D. Chessel

K W = [H 3 O + ] [OH - ] = = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide

sur le réseau de distribution

Calculs de probabilités avec la loi normale

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Analyse de la variance Comparaison de plusieurs moyennes

Exercices sur SQL server 2000

Photoactivatable Probes for Protein Labeling

EXERCICES - ANALYSE GÉNÉRALE

Probabilités sur un univers fini

Nombre dérivé et tangente

Chapitre 3. Les distributions à deux variables

Archived Content. Contenu archivé

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

L évaluation de la qualité d un dispositif d apprentissage en ligne. Quelles traces mobiliser? Comment les interpréter?

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

choisir H 1 quand H 0 est vraie - fausse alarme

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

EN UNE PAGE PLAN STRATÉGIQUE

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Revision of hen1317-5: Technical improvements

Nouveautés printemps 2013

FONCTION DE DEMANDE : REVENU ET PRIX

Probabilités sur un univers fini

Un exemple de régression logistique sous

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

Introduction aux Statistiques et à l utilisation du logiciel R

Mode d'emploi du plugin Grayscale_Granulometry

AGROBASE : un système de gestion de données expérimentales

Analyse en Composantes Principales

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

Cours d Analyse. Fonctions de plusieurs variables

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

Face Recognition Performance: Man vs. Machine

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Insulinothérapie et diabète de type 1

Continuité et dérivabilité d une fonction

TRAVAUX PRATIQUESDE BIOCHIMIE L1

Scénarios économiques en assurance

Monitor LRD. Table des matières

F411 - Courbes Paramétrées, Polaires

NOMBRES COMPLEXES. Exercice 1 :

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Correction du baccalauréat STMG Polynésie 17 juin 2014

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

COUSIN Fabien KERGOURLAY Gilles. 19 octobre de l hôte par les. Master 2 MFA Responsable : UE Incidence des paramètres environnementaux

Comment créer un diagramme de Gantt avec OpenOffice.org

Modélisation géostatistique des débits le long des cours d eau.

Université de XY University of XY. Faculté XY Faculty of XY

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Practice Direction. Class Proceedings

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Frequently Asked Questions

SARM: Simulation of Absorption Refrigeration Machine

Optimisation des fonctions de plusieurs variables

FaceBook aime les Maths!

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Première session de travail

Fonctions de plusieurs variables

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Fonctions de deux variables. Mai 2011

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

TP11 - Administration/Tuning

Lois de probabilité. Anita Burgun

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Joints de grains : couplage entre modélisation et microscopie électronique haute résolution

Introduction à l étude des Corps Finis

Transcription:

Fiche TD avec le logiciel : tdr223 Mélanges et point isoélectrique des protéines J.R. Lobry Étude de la distribution du point isolélectrique dans un protéome. Une simulation pour invalider une interprétation trop jolie pour être vraie. D après un article de G.F. Weiller, G. Caraux et N. Sylvester (2004) Proteomics, 4:943-949. Table des matières 1 Introduction 1 2 Le point isoélectrique des protéines 2 3 Distribution du point isolélectrique dans un protéome 4 1 Introduction Cette fiche s utilise en complément de la fiche tdr221 dont elle reprend toutes les notations. On reprend en particulier la définition de la fonction logvraineg qui retourne la valeur du logarithme de la fonction du maximum de vraisemblance dans le cas d un mélange de deux lois normales (en fait l opposé de cette valeur parce que l on cherche à maximiser la vraisemblance et que la fonction d optimisation utilisée ici, nlm, cherche à minimiser la valeur de la fonction passée en argument). logvraineg <- function(param, obs) { p <- param[1] m1 <- param[2] sd1 <- param[3] m2 <- param[4] sd2 <- param[5] -sum(log(p * dnorm(obs, m1, sd1) + (1 - p) * dnorm(obs, m2, sd2))) Ainsi que la fonction simulmixnor pour simuler un mélange de deux lois normales : 1

simulmixnor <- function(n, p, m1, sd1, m2, sd2) { n1 <- rbinom(1, n, p) x1 <- rnorm(n1, m1, sd1) x2 <- rnorm(n - n1, m2, sd2) c(x1, x2) Pour ces deux fonctions, le paramètre p représente la fréquence relative de la première population dans le mélange des deux populations, m1 et m2 la moyenne pour la première et la deuxième population, respectivement, sd1 et sd2 l écarttype pour la première et la deuxième population, respectivement. Cette fiche de TD s inspire de l article (1) très amusant de Weiller et al. (2004). On reprendra leur notations. 2 Le point isoélectrique des protéines Par définition, le pi d une protéine est le ph pour lequel les charges positives compensent les charges négatives. A ce ph, la somme des charges pour tous les acides aminés est nulle. Dans les protéines il y a quatre groupes ionisables qui peuvent chargés positivement. Ce sont les trois acides aminés lysine (K), arginine (R) et histidine (H) ainsi que l extrémité N-terminale (N-term). Les charges négatives peuvent être portées par les quatre acides aminés tyrosine (Y), cystéine (C), aspartate (D) et glutamate (E) ainsi que par l extrémité C-terminale (C-term). Notons f + la somme de toutes les charges positives et f la somme de toutes les charges négatives d une protéine donnée. Ces deux valeurs dépendent du ph et des pk des groupes ionisables de la protéine. Notons I + = {K, R, H, N-term l ensemble des groupes chargés positivement et I = {Y, C, D, E, C-term ceux chargés négativement. Ainsi, la charge positive f + et la charge négative f d une protéine sont donnés par : f + = i I + n i f + i et f = i I n i f i (1) où f + i est la charge élémentaire portée par un acide aminé de type i et n i le nombre total d acide aminés de type i dans la protéine considérée. Nous avons n N term = n C term = 1. Par définition, la valeur de pi d une protéine est la solution de l équation : f + (ph) + f (ph) = 0 (2) Pour un acide aminé, f + i ou f i sont donnés par l équation d Henderson- Hasselbach : f + i (ph) = 1 1 + 10 ph pki et f i (ph) = f + i (ph) 1 = 10pH pki 1 + 10 ph pki (3) avec 0 f + i (ph) 1 et 0 f i (ph) 1. Toutes les fonctions f + i on la même allure et peuvent être déduites les unes des autres par simple translation. Ceci est également vrai pour les fonctions f i. Ce sont des fonctions sigmoïdes Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 2/8 Compilé le 2008-04-09

du ph avec un point d inflexion pour ph = pk i. C est un point de symétrie tel que f + i (pk i) = 1 2 ou f i (pk i) = 1 2. Les fonctions f + i décroissent de 1 à 0 avec le ph et réciproquement les fonctions f i augmentent de 0 à 1 avec le ph. Les courbes ont une zone de variation rapide environ une unité de ph autour de leur pk (c est la zone de tampon bien connue où une large variation de la charge ne modifie que peu le ph). A titre d illustration, représentons les courbes dans le cas de la lysine (pk = 10.0) et du glutamate (pk = 7.7), ces valeurs de pk étant extraites de (2). fp <- function(ph, pk) { 1/(1 + 10^(pH - pk)) fm <- function(ph, pk) { 10^(pH - pk)/(1 + 10^(pH - pk)) ph <- seq(from = 0, to = 14, length = 50) plot(x = ph, y = sapply(ph, fp, pk = 10), xlab = "ph", ylab = "Charge", las = 1, type = "l", lty = 1, col = "red", main = "Evolution de la charge en fonction du ph") lines(ph, sapply(ph, fm, pk = 7.7), col = "blue") legend(0, 0.5, legend = c("lysine pk = 10.0", "glutamate pk = 7.7"), col = c("red", "blue"), lty = 1) Evolution de la charge en fonction du ph 1.0 0.8 Charge 0.6 0.4 lysine pk = 10.0 glutamate pk = 7.7 0.2 0.0 0 2 4 6 8 10 12 14 ph L équation 2 n a pas de solution simple. Il existe dans la bibliothèque seqinr une fonction (computepi) permettant de calculer le pi d une protéine : library(seqinr) proteine <- read.fasta(file = system.file("sequences/seqaa.fasta", package = "seqinr"), seqtype = "AA")[[1]] proteine [1] "M" "P" "R" "L" "F" "S" "Y" "L" "L" "G" "V" "W" "L" "L" "L" "S" "Q" "L" "P" "R" [21] "E" "I" "P" "G" "Q" "S" "T" "N" "D" "F" "I" "K" "A" "C" "G" "R" "E" "L" "V" "R" [41] "L" "W" "V" "E" "I" "C" "G" "S" "V" "S" "W" "G" "R" "T" "A" "L" "S" "L" "E" "E" [61] "P" "Q" "L" "E" "T" "G" "P" "P" "A" "E" "T" "M" "P" "S" "S" "I" "T" "K" "D" "A" [81] "E" "I" "L" "K" "M" "M" "L" "E" "F" "V" "P" "N" "L" "P" "Q" "E" "L" "K" "A" "T" Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 3/8 Compilé le 2008-04-09

[101] "L" "S" "E" "R" "Q" "P" "S" "L" "R" "E" "L" "Q" "Q" "S" "A" "S" "K" "D" "S" "N" [121] "L" "N" "F" "E" "E" "F" "K" "K" "I" "I" "L" "N" "R" "Q" "N" "E" "A" "E" "D" "K" [141] "S" "L" "L" "E" "L" "K" "N" "L" "G" "L" "D" "K" "H" "S" "R" "K" "K" "R" "L" "F" [161] "R" "M" "T" "L" "S" "E" "K" "C" "C" "Q" "V" "G" "C" "I" "R" "K" "D" "I" "A" "R" [181] "L" "C" "*" attr(,"name") [1] "A06852" attr(,"annot") [1] ">A06852 183 residues" attr(,"class") [1] "SeqFastaAA" computepi(proteine) [1] 8.534902 La protéine a donc un pi de 8.53. 3 Distribution du point isolélectrique dans un protéome On s intéresse à un sous ensemble du protéome de Escherichia coli constitué de 999 protéines (3). load(url("http://pbil.univ-lyon1.fr/r/donnees/pis.rdata")) hist(pis, col = "lightgrey", main = "Distribution des points isoelectriques\n pour 999 proteines de Escherichia proba = TRUE, las = 1, border = "grey", xlab = "Point isoelectrique") lines(density(pis)) Distribution des points isoelectriques pour 999 proteines de Escherichia coli 0.4 0.3 Density 0.2 0.1 0.0 4 6 8 10 12 Point isoelectrique La distribution semble être bimodale. Essayons d ajuster un mélange de lois normales : estimate <- nlm(f = logvraineg, p = c(0.7, 5.5, 1, 9, 1), obs = pis)$estimate estimate Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 4/8 Compilé le 2008-04-09

[1] 0.7136124 5.6855310 0.5996581 9.0953438 0.9286524 Pour ce jeu de données, la première population représente donc 71.36 % de la population totale, avec un point isolélectrique voisin de 5.69, alors que le point isoélectrique de la deuxième population est voisin de 9.1. Graphiquement : x <- seq(min(pis), max(pis), length = 100) y1 <- estimate[1] * dnorm(x, estimate[2], estimate[3]) y2 <- (1 - estimate[1]) * dnorm(x, estimate[4], estimate[5]) hist(pis, col = "lightgrey", main = "Distribution des points isoelectriques\n pour 999 proteines de Escherichia proba = TRUE, ylim = c(0, 0.5), las = 1, border = "grey", xlab = "Point isoelectrique") lines(x, y1 + y2) lines(x, y1, col = "red") lines(x, y2, col = "blue") abline(v = c(7.4, 7.8), lty = 1, col = "darkgreen") arrows(x0 = 5.5, y0 = 0.5, x1 = 7.4, y1 = 0.5, length = 0.1, code = 2, col = "darkgreen") segments(x0 = 5.5, y0 = 0.49, x1 = 5.5, y1 = 0.51, col = "darkgreen") arrows(x0 = 7.8, y0 = 0.5, x1 = 9, y1 = 0.5, length = 0.1, code = 1, col = "darkgreen") segments(x0 = 9, y0 = 0.49, x1 = 9, y1 = 0.51, col = "darkgreen") text(x = 9, y = 0.5, pos = 4, col = "darkgreen", "ph interne") Distribution des points isoelectriques pour 999 proteines de Escherichia coli 0.5 ph interne 0.4 Density 0.3 0.2 0.1 0.0 4 6 8 10 12 Point isoelectrique La description de la distribution des points isoélectriques semble plus satisfaisante avec un mélange de deux lois normales qu avec une seule loi normale. Si on y regarde de plus prêt avec un graphe quantiles-quantiles : e <- estimate theo <- simulmixnor(10000, e[1], e[2], e[3], e[4], e[5]) qqplot(theo, pis, main = "Graphe quantiles-quantiles contre\nmelange de deux lois normales", xlab = "Quantiles theoriques", ylab = "Quantiles observes") lines(c(0, 10000), c(0, 10000)) Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 5/8 Compilé le 2008-04-09

Graphe quantiles quantiles contre melange de deux lois normales Quantiles observes 4 6 8 10 12 4 6 8 10 12 Quantiles theoriques on voit que cette description est assez bonne dans l ensemble. L aspect multimodal de la distribution des pis d un protéome est une observation assez générale : Isoelectric point (pi) values have long been a standard measure for distinguishing between proteins. This article analyzes distributions of pi values estimated computationally for all predicted ORFs in a selection of fully sequenced genomes. Histograms of pi values confirm the bimodality that has been observed previously for bacterial and archaeal genomes and reveal a trimodality in eukaryotic genomes. extrait du résumé de (4) Comme les protéines sont en général peu solubles au voisinage de leur point isoélectrique (5), et que le ph du cytoplasme est voisin de 7 (6), il est raisonnable de penser qu il existe une pression de sélection pour éviter que le point isoélectrique des protéines soit voisin de 7. C est une explication très raisonnable, mais complètement fausse (1). Une simple simulation permet de s en convaincre : n <- 500 x <- numeric(n) for (i in 1:n) { x[i] <- computepi(sample(proteine, replace = TRUE)) hist(x, col = "lightgrey", main = paste("distribution des points isoelectriques\npour", n, " proteines simulees"), proba = TRUE, las = 1, border = "grey", xlab = "Point isoelectrique") lines(density(x)) Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 6/8 Compilé le 2008-04-09

Distribution des points isoelectriques pour 500 proteines simulees 0.3 Density 0.2 0.1 0.0 4 6 8 10 Point isoelectrique Les distributions multimodales observées sont une conséquence directe des propriétés physico-chimiques des acide aminés (i.e. des valeurs des pk des acides aminés des protéines). Références [1] Weiller, G.F., Caraux, G., Sylvester, N. : The modal distribution of proteins isoelectric points reflects amino acid properties rather than sequence evolution. Proteomics, 4 (2004) 943 949 [2] Bjellqvist, B., Hughes, G.J., Pasquali, C., Paquet, N., Ravier, F., Sanchez, J.-C., Frutiger, S., Hochstrasser, D.F. : The focusing positions of polypeptides in immobilized ph gradients can be predicted from their amino acid sequences. Electrophoresis, 14 (1993) 1023 1031 [3] Lobry, J.R., Gautier, C. : Hydrophobicity, expressivity and aromaticity are the major trends of amino-acid usage in 999 Escherichia coli chromosomeencoded genes. Nucleic Acids Research, 22 (1994) 3174 3180 [4] Schwartz, R., Ting, C.S., King J. : Whole proteome pi values correlate with subcellular localizations of proteins for organisms within the three domains of life. Genome Research, 11 (2001) 703 709 [5] Arakawa, T., Timasheff, S.N. : Theory of protein solubility. Methods in Enzymology, 114 (1985) 49 77 [6] Slonczewski, J.L., Rosen, B.P., Alger, J.R., Macnab, R.M. : ph Homeostasis Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 7/8 Compilé le 2008-04-09

in Escherichia coli : Measurement by 31 P Nuclear Magnetic Resonance of Methylphosphonate and Phosphate. PNAS, 78 (1981) 6271 6275 Logiciel R version 2.6.2 (2008-02-08) tdr223.rnw Page 8/8 Compilé le 2008-04-09