MODÉLISATION ET ANALYSE DES PROPRIÉTÉS MÉCANIQUES DES PROTÉINES

Dimension: px
Commencer à balayer dès la page:

Download "MODÉLISATION ET ANALYSE DES PROPRIÉTÉS MÉCANIQUES DES PROTÉINES"

Transcription

1 THÈSE DE DOCTORAT DE L UNIVERSITÉ PARIS 6 PIERRE & MARIE CURIE Ecole doctorale CHIMIE PHYSIQUE ET CHIMIE ANALYTIQUE DE PARIS CENTRE Spécialité : CHIMIE (Matière Condensée) Présentée par : Isabelle SOURY-LAVERGNE NAVIZET Pour obtenir le grade de DOCTEUR de l UNIVERSITÉ PARIS 6 MODÉLISATION ET ANALYSE DES PROPRIÉTÉS MÉCANIQUES DES PROTÉINES Soutenue le 5 mars 2004 devant le jury composé de : Richard LAVERY..Directeur de thèse Monique GENEST..Rapporteur David PERAHIA.Rapporteur Christian AMATORE..Président Anne HOUDUSSE..Examinateur Jean-Marc VICTOR.Examinateur 1

2 AVERTISSEMENT La version de cette thèse n est pas la version complète de la thèse soutenue le 5 mars J y ai enlevé l article du chapitre 7 qui n a pas encore été publié.

3 3 À Damien et Léonard.

4 4

5 REMERCIEMENTS Le présent travail a été réalisé au Laboratory of Experimental and Computational Biology, au National Cancer Institute des NIH de Bethesda aux États-Unis et au Laboratoire de Biochimie Théorique à l Institut de Biologie Physico-Chimique à Paris. Je souhaite remercier tout particulièrement Richard Lavery qui a accepté de diriger cette thèse et m a permis de partir un an travailler avec Robert Jernigan. Je tiens à lui témoigner ici toute ma reconnaissance pour m avoir acceuillie dans son laboratoire et pour m avoir accordé sa confiance dans la réalisation de ce travail. Je le remercie sincèrement d avoir inspiré cette thèse avec enthousiasme. I would like to thank Robert Jernigan for accepting to have me as his first PhD student and for his kindness. Je voudrais exprimer ma profonde reconnaissance à Christian Amatore pour le soutient qu il m a témoigné tout au long de cette thèse et pour l honneur qu il me fait de présider le jury de thèse. Je remercie Monique Genest et David Perahia d avoir aimablement accepté d être les rapporteurs de cette thèse. Merci également à Anne Houdusse et Jean-Marc Victor, qui ont bien voulu examiner mon travail. Un merci tout particulier à Fabien Cailliez qui a su reprendre si vite la relève et à Chantal Prévost pour les longues discussions et les conseils en programmation. J adresse également mes plus vifs remerciements à Marc Baaden, Philippe Derreumaux, Brigitte Hartmann, Anne Lebrun, Thérèse Malliavin, Alexey Mazur, Sophie Sacquin-Mora, Youri Timsit, Peter Varnai et Krystyna Zakrzewska, pour leur disponibilité, leurs conseils et les nombreuses discussions qui m ont aidé tout au long de ces années. Merci à Daniel Piazzola pour sa bonne humeur et son assistance technologique qui ont contribué à la réussite de ce travail. Merci à Isabelle Lépine pour sa gentillesse et sa disponibilité en toutes circonstances. Merci à tous les étudiants en thèse rencontrés au Laboratoire de Biochimie théorique : Guillaume, Raphael, Ingrid, Emmanuel, Dragana, Guillaume, Cyril, Karine, Cyril et Fabien pour leur amitié et les pauses déjeuner. I am also grateful to all other scientists at the National Cancer Institute for their help and interesting discussions: particularly Pemra Doruker, Peter Greif, Ozlem Keskin, Ruth Nussinov, Yinon Shafrir, Michael Tolstorukov and Victor Zhurkin. Merci à Alain, Damien et Fabien pour la relecture de ce manuscrit. Merci aussi à vous que je ne cite pas ici mais qui avez contribué à cette thèse par vos conseils ou votre amitié. Enfin, je tiens à remercier ma famille et tout particulièrement mon tendre époux pour avoir toujours été à mes côtés pendant ces années, pour avoir partagé mes doutes et mes espoirs, pour m avoir encouragée et soutenue lorsque je ne croyais plus en mon travail et pour avoir fêté avec moi mes petites victoires. Merci aussi à Léonard, qui a certes retardé un peu la réalisation de ce manuscrit mais qui m a permis de l écrire dans les meilleures conditions qu il soit en faisant ses nuits. 5

6 6

7 TABLE DES MATIÈRES Chapitre 1 Introduction Chapitre 2 Les protéines I Structure des protéines I.1 Structure générale I.2 Les acides aminés I.2.1 Le carbone chiral I.2.2 Propriétés acido-basiques I.2.3 Classification suivant la nature des chaînes latérales I.3 La liaison peptidique I.3.1 Une liaison plane I.3.2 Les angles de la chaîne peptidique I.3.3 Diagramme de Ramachandran I.4 La hiérarchie dans la description d une structure protéique I.4.1 La structure primaire I.4.2 La structure secondaire I.4.3 La structure tertiaire I.4.4 La structure quaternaire II Les structures secondaires II.1 Les hélices II.1.1 L hélice α II.1.2 Les autres structures hélicoïdales II.2 Le feuillet β II.3 Coudes et boucles Chapitre 3 Repliement, dynamique et stabilité des protéines III Stabilité des protéines III.1 Une stabilité marginale III.2 Les différents effets influençant la stabilité de la structure native III.2.1 Interactions électrostatiques III.2.2 Effets hydrophobes et solvatation III.2.3 Ponts disulfure III.3 Cœur hydrophobe IV Le repliement des protéines IV.1 Contrôle thermodynamique ou cinétique? IV.2 Les différents modèles de repliement proposés

8 IV.3 Le repliement in vivo IV.4 Modèles théoriques pour étudier le repliement V Dépliement des protéines V.1 Provoquer un dépliement in vitro V.1.1 Contraintes globales V.1.2 Nanomanipulations V.2 Études théoriques V.2.1 Exemple d une étude par dynamique moléculaire et données expérimentales48 V.2.2 Études théoriques du dépliement VI Rigidité et flexibilité des protéines VI.1 Dynamique des protéines VI.2 Facteurs de température Chapitre 4 Méthodologie VII Champ de force VIII Minimisation VIII.1 Gradient simple et conjugué VIII.2 Quasi-Newton IX Dynamique moléculaire IX.1 Résolution de l équation du mouvement IX.2 Ensemble NPT IX.3 Conditions périodiques IX.4 Troncature LJ IX.5 Protocole de dynamique moléculaire X Représentation du solvant X.1 Solvant explicite X.2 Solvant implicite : modèle de Born généralisé XI Coordonnées internes XI.1 Le système des coordonnées internes XI.2 Système d axe : le pivot XI.3 Minimisation XI.4 Champ de force et représentation du solvant XI.5 Préparation des données : le programme PCHEM XI.6 Les différentes utilisations de LIGAND XI.7 Limitation par la taille des protéines XII Modèle granulaire XII.1 L origine du modèle granulaire

9 XII.2 Le modèle granulaire appliqué aux protéines XII.3 GNM : Gaussian Network Model XII.4 ANM : Anisotropic Network Model XII.5 Applications XII.5.1 Facteurs de température XII.5.2 Étude des modes normaux, graphes de corrélation XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques XII.6 Modification des modèles granulaires XII.7 Minimisation avec une représentation granulaire Chapitre 5 Des outils originaux pour comprendre les propriétés mécaniques des protéines XIII Les contraintes mécaniques appliquées sur les protéines XIII.1 Introduction XIII.1.1 Contraintes locales et globales XIII.1.2 Principe d application XIII.2 Contraintes globales : expériences de dépliement partiel XIII.2.1 Contrainte RMS de distance XIII.2.2 Variante ne prenant en compte que les carbones α XIII.2.3 Avantage de la contrainte XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire XIII.3 Contraintes locales XIII.3.1 Contrainte sur la valeur moyenne des distances XIII.3.2 Pourquoi cette contrainte? XIII.3.3 Calcul des constantes de force de déplacement par résidu XIV Domaines structuraux et mécaniques XIV.1 Classification automatique XIV.1.1 Indice de dissimilarité XIV.1.2 Constitution des groupes XIV.2 Comparer deux structures XIV.2.1 Comparaison de deux structures XIV.2.2 Classification des protéines par comparaison XIV.3 Identifier des domaines rigides à partir de deux structures distinctes XIV.3.1 Utilisation de superposition entre structures XIV.3.2 Utilisation de matrice de distances XIV.3.3 Exemple d algorithme utilisant la comparaison de matrices de distances114 XIV.3.4 Le problème du bruit

10 XIV.4 Définition des blocs structuraux XIV.5 Identification de domaines sans comparaison XIV.6 Domaines mécaniques Chapitre 6 Article : Flexibilité de la myosine : domaines structuraux et vibrations collectives XV Introduction XV.1 La myosine : une protéine moteur XV.1.1 Différents types de myosines XV.1.2 Cycles actine-myosine XV.2 Blocs structuraux et étude des modes normaux XVI Myosin Flexibility : Structural Domains and Collective Vibrations XVII Conclusion Chapitre 7 Article : Propriétés mécaniques des protéines à l échelle du résidu et leur utilisation pour définir des structurations en domaines XVIII Introduction XIX Probing protein mechanics: Residue-level properties and their use in defining domain structures XX Conclusion Chapitre 8 Conclusion générale BIBLIOGRAPHIE ANNEXE 1 : Contraintes mécaniques I Contraintes globales II Contraintes locales ANNEXE 2 : Important Fluctuation Dynamics of Large Protein Structures are Preserved upon Coarse-Grained Renormalization Introduction Article :

11 Chapitre 1 Introduction L essor actuel de la biologie moléculaire serait impossible sans l obtention des structures des biopolymères par cristallographie ou par spectrocopie RMN. Néanmoins, malgré la croissance exponentielle du nombre de structures résolues, ces informations sont généralement insuffisantes pour comprendre le fonctionnement des macromolécules. Les biopolymères comportent souvent des milliers de monomères (acides aminés ou nucléotides), mais ils ne sont que marginalement stables. Leurs structures sont maintenues par un ensemble d interactions faibles (van der Waals, liaisons hydrogène, effet hydrophobe, ) qui autorisent des mouvements sur des échelles de temps allant de la femtoseconde aux millisecondes et ayant des amplitudes allant de quelques dixièmes d angströms à plusieurs dizaines d angströms. Il est ainsi évident que les propriétés mécaniques et dynamiques des biopolymères sont un élément fondamental de leur fonctionnement. Malheureusement, il existe aujourd hui peu de données sur ces propriétés mécaniques. Des techniques spectroscopiques peuvent apporter des informations importantes mais elles sont difficilement interprétables quand elles impliquent des mouvements globaux de grandes molécules. D un autre côté, la cristallographie peut fournir différentes conformations d une même macromolécule (par exemple, avec ou sans substrat), mais ne donne pas beaucoup d information sur la flexibilité des éléments qui composent ces conformations. Cependant, de nombreux progrès ont été réalisés au niveau des expériences de manipulation de molécules 11

12 uniques au cours de la dernière décennie. Ces expériences consistent en l'application de forces sur une macromolécule biologique afin d'observer ses propriétés mécaniques et d'en tirer des conséquences au niveau de sa fonction biologique [Bensimon; 1996, Lavery, et al.; 2002b]. Les premières molécules à bénéficier de ce traitement ont été les brins d'adn pour des raisons techniques (disponibilité des molécules, techniques de fixation à différents supports préexistantes, ). Ces expériences ont permis de mesurer les forces nécessaires pour l'étirement [Cluzel, et al.; 1996], la torsion [Allemand, et al.; 1998] et la séparation des brins d'adn [Essevaz-Roulet, et al.; 1997]. Plus récemment, ce type d'étude a été étendu aux protéines [Smith, et al.; 2003]. Parallèlement à cette approche expérimentale, la simulation numérique de ces manipulations s'est développée afin de relier les forces appliquées aux changements structuraux impliqués au niveau moléculaire. À cette fin, différentes méthodes ont été développées. Etant donnée la difficulté de mise en oeuvre de simulations classiques de dynamique moléculaire en solvant explicite (incompatibilité des échelles de temps notamment), une approche originale a été développée au sein du laboratoire de Biochimie Théorique de l IBPC basée sur la représentation des macromolécules à l'aide de coordonnées internes. Cette modélisation a permis de réduire de manière significative le nombre de variables et de faciliter ainsi les calculs de minimisation d'énergie. Dans cette approche, les forces appliquées à la molécule sont modélisées par des contraintes géométriques [Lebrun & Lavery; 1998]. Cette méthodologie développée afin de simuler les expériences impliquant l'adn a obtenu des résultats très satisfaisants. Elle a notamment permis l'identification de nouvelles conformations de la double hélice d'adn, et d'établir un lien entre les propriétés mécaniques de l'adn et ses interactions avec des protéines comme la TBP (TATA box Binding Protein) [Lebrun & Lavery; 1999, Lebrun, et al.; 1997]. Ce succès a tout naturellement débouché sur l idée d adapter cette technique à l'étude des protéines. Les protéines représentent plus de la moitié de la masse d une cellule à l exclusion de l eau. Ces macromolécules jouent donc un rôle primordial dans le fonctionnement des organismes vivants, en réalisant des fonctions diverses. La connaissance des propriétés mécaniques des protéines est donc importante pour comprendre leur rôle au sein du vivant. En effet, plusieurs protéines subissent ou réagissent à des sollicitations mécaniques lors de leur fonctionnement. Dans cette catégorie, nous pouvons citer les protéines des fibres musculaires, les protéines moteurs et les protéines constituant des canaux transmembranaires mécanosensibles. 12

13 Ainsi, alors que la résolution de plusieurs structures cristallographiques des domaines moteurs de la myosine (qui se déplace sur un microfilament d actine) et de la kinésine (qui se déplace sur un microtubule) n'a pas pu apporter de réponse définitive quant aux mécanismes de ces moteurs, l analyse des propriétés mécaniques de ces domaines devraient fournir de nouvelles informations sur ces mécanismes. En fait, les propriétés mécaniques de toutes les protéines sont intéressantes d une façon générale. Les sites catalytiques et les surfaces d interaction des protéines sont des parties très importantes pour la fonction des protéines et présentent certainement des propriétés mécaniques tout à fait particulières nécessaires à la réalisation de cette fonction. De même, la relation entre la flexibilité d une protéine et sa thermostabilité est une question pour l instant non résolue. Un autre enjeu de l étude des propriétés mécaniques des protéines est la compréhension du repliement de celles-ci. L'étude du repliement et du dépliement des protéines revêt un intérêt tout particulier de par son importance dans le phénomène d'agrégation de protéines (formation de fibres amyloïdes). Bien que le processus de repliement se fait in vivo dans un milieu complexe, en présence des ribosomes et de molécules chaperonnes, quelques études ont été menées au niveau théorique et expérimental dans un milieu simplifié sur la dénaturation des protéines induite chimiquement, thermiquement et aussi mécaniquement,. Elles ont apporté des données intéressantes mais les propriétés mécaniques mesurées par étirement du brin polypeptidique dépendent de la position des points d attache et de la direction d étirement [Brockwell, et al.; 2003, Carrion-Vazquez, et al.; 2003]. Afin de palier la difficulté de la mise en place des expériences, l utilisation de techniques de modélisation est donc à l heure actuelle nécessaire afin d obtenir des informations sur un grand nombre de protéines. Le premier travail présenté dans cette thèse a consisté à étudier des propriétés mécaniques de la myosine par l analyse des modes normaux d un modèle granulaire, qui représente une protéine par un ensemble de ressorts reliant les paires d atomes C α séparés par moins qu une distance seuil, et par la comparaison de différentes structures cristallographiques. Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons ensuite utilisé une représentation des protéines en coordonnées internes permettant l'utilisation des outils développés pour la modélisation des acides nucléiques. Nous avons développé de 13

14 nouvelles contraintes afin de pouvoir étudier à la fois les propriétés mécaniques globales et locales (afin de définir un indice permettant de caractériser l élasticité d un brin polypeptidique résidu par résidu) des protéines. L'adaptation de ces contraintes à une représentation granulaire et de certaines contraintes à des simulations de dynamique moléculaire permet de faire des comparaisons entre les différents modèles. Après avoir fait un rappel du vocabulaire relatif aux protéines (chapitre 2), nous présenterons les connaissances actuelles sur le repliement, la dynamique et la stabilité des protéines (chapitre 3). Le chapitre 4 présente la méthodologie et les programmes utilisés pour l étude des propriétés mécaniques des protéines et le chapitre 5 les approches originales que nous avons mises au point afin d étudier ces propriétés. Enfin, les chapitres 6 et 7 présentent les résultats publiés ou soumis à publication. 14

15 Chapitre 2 Les protéines 15

16 I Structure des protéines I.1 Structure générale Une protéine est un polymère dont les unités monomériques (appelés aussi résidus) sont les acides aminés unis par des liaisons peptidiques (figure 1). La conformation (c est-à-dire le repliement) qu adopte une protéine au sein de la cellule est appelée conformation native. C est cette conformation unique qui lui assure ses propriétés spécifiques : fonctions enzymatiques et mécaniques, stabilité thermique... figure 1 : Formule développée d une protéine de n acides aminés. Les R i désignent les différentes chaînes latérales des résidus. I.2 Les acides aminés I.2.1 Le carbone chiral Un acide aminé est un composé organique contenant un groupement amine et un groupement acide carboxylique. Le type (α, β, δ,..) d acide aminé est relié à la position de l amine sur la chaîne carbonée. Les acides aminés qui composent les protéines sont les acides α-aminés. En effet, la fonction amine est en position α de la fonction acide. Le carbone où se rattache la fonction amine est appelé carbone α et sera noté par la suite C α. Comme ce carbone est relié à quatre groupes différents (COOH, NH 2, H et R), il est chiral (sauf pour la glycine où R est un hydrogène). Pour les acides aminés naturels, la configuration stéréochimique de ce centre 16

17 chiral est en général L (dans la nomenclature de Fischer). Les formes D des acides aminés sont extrêmement rares. I.2.2 Propriétés acido-basiques Les acides carboxyliques (-COOH) ne peuvent pas coexister avec des bases faibles comme les amines (-NH 2 ). En milieu aqueux, le groupement acide carboxylique des acides aminés donne son proton au groupement amine. Les acides aminés possèdent donc une structure zwitterionique (un atome porte une charge positive : -NH + 3 et un autre porte une charge négative COO - ) (figure 2). figure 2 : Structure des acides L-α-aminés. A gauche, forme neutre, à droite, forme zwitterionique. Cette dernière est présente aux valeurs de ph physiologiques. R correspond aux différentes chaînes latérales. I.2.3 Classification suivant la nature des chaînes latérales Il existe 20 acides aminés naturels (20 chaînes latérales R différentes) qui composent les protéines. Un code de trois lettres et un code d une lettre permettent de les nommer de façon synthétique (figure 3). 17

18 figure 3 : Les acides aminés : A chaque acide aminé est associé un code de trois lettres et un code d une lettre. On peut les répertorier en trois groupes selon leur réactivité chimique : polaires, chargés, hydrophobes. Les acides aminés hydrophobes ont des chaînes latérales non chargées et non polaires. Ce sont la glycine, l alanine, la valine, la leucine, l isoleucine, la proline, la 18

19 phénylalanine, le tryptophane et la méthionine. Parmi ces acides aminés, la proline a la particularité d avoir une fonction amine secondaire et un cycle qui impose des contraintes de conformation à la chaîne principale. Les chaînes latérales de la phénylalanine et de la tyrosine possèdent des groupements aromatiques dont l encombrement stérique est important. Les acides aminés polaires mais non chargés sont la sérine, la thréonine, la cystéine, la tyrosine, l asparagine et la glutamine. Leurs chaînes latérales possèdent un groupement hydroxyle, phénol, amide ou thiol. Le groupement thiol de la cystéine forme souvent un pont disulfure avec un autre résidu cystéine après oxydation (figure 4). Les ponts disulfure jouent un rôle important dans la structure des protéines en créant une liaison covalente entre deux régions distinctes de la chaîne ou entre deux chaînes protéiques différentes. figure 4 : pont disulfure Les acides aminés chargés sont l acide aspartique, l acide glutamique, la lysine, l arginine et dans certains cas l histidine. L arginine et la lysine sont chargées positivement alors que l acide aspartique et la glutamique sont chargés négativement à ph physiologiques. La charge positive de l histidine dépend de son environnement (le pka de l acide conjugué de l histidine, dont le cycle imidazole est protoné, vaut 6,1). I.3 La liaison peptidique I.3.1 Une liaison plane La liaison de polymérisation entre deux acides aminés est appelée liaison peptidique. Les ions carboxylate et ammonium réagissent pour former une liaison plane. La panéité de cette liaison a été observée expériementalement par des études cristallographiques sur les acides aminés et des peptides [Corey & Pauling; 1953, Marsh & Donohue; 1967, Pauling & Corey; 1953]. Ces résultats sont interprétables avec des calculs quantiques expliquant le recouvrement des orbitales p z des atomes C, O et N. Une étude de Milner-White propose que le recouvrement 19

20 des orbitales π de la liaison CN est responsable de la géométrie du lien peptidique [Milner- White; 1997]. Parallèlement, une délocalisation des électrons des orbitales σ compense la perte du nuage électronique de l azote. De plus, des forces coulombiennes entre l azote et le carbone raccourcissent la liaison (figure 5). figure 5 : Caractère plan de la liaison peptidique. Cette représentation ne donne pas une bonne image des charges partielles sur l azote car elle ne prend pas en compte la polarisation de la liaison σ de CN qui est opposée à celle de la liaison π. Cette planéité de la liaison peptidique réduit la géométrie autour de la liaison à deux conformères : trans et cis (la barrière de potentielle entre les conformères étant de l ordre de 20 kcal.mol -1 ). En général, les groupes peptidiques sont dans la conformation trans (figure 6) : les carbones C α sont de part et d autre de la liaison dans le plan peptidique. La conformation cis est en effet très défavorisée par l encombrement stérique des chaînes latérales. Seules les liaisons suivies par un résidu proline présentent 10% de conformation cis. figure 6 : Conformation trans et cis d'une liaison peptidique. Le plan de la liaison peptidique est coloré. L encombrement stérique de la conformation cis est représenté par des cercles rouges. 20

21 I.3.2 Les angles de la chaîne peptidique On définit en général deux types d angles dans les chaînes peptidiques. Les angles de valence sont les angles d ouverture entre deux liaisons consécutives. Les angles dièdres ou angles de torsion sont les angles entre deux plans autours d une liaison. L angle entre les deux plans ABC et BCD de la figure 7 est un angle de torsion qu on notera par une flèche autour de la liaison centrale. A angle de valence A angle dièdre D C B B C figure 7 : Définition des angles de valence et dièdres. Comme nous venons de le voir dans le paragraphe précédent, la liaison peptidique peut être considérée comme plane. L angle dièdre ω autour de la liaison peptidique est en général très proche de 180. Une étude statistique sur les angles dièdres ω de la banque de données Protein Data Bank, PDB ( [Berman, et al.; 2000], montre ainsi que l angle ω vaut 179,5 ± 3,8 [Karplus; 1996]. Les deux autres angles dièdres de la chaîne peptidique principale sont les angles φ pour l angle autour de la liaison N-C α et ψ pour l angle autour de la liaison C α -C (figure 8). Par convention, les valeurs des angles φ et ψ sont égales à 180 lorsque le peptide est dans sa forme étendue. Dans une représentation de Newman, on peut visualiser ces angles dièdres (figure 9). En regardant la liaison C α -N avec l azote à l avant-plan, l angle φ est l angle entre les deux carbones C des groupes carboxyliques. De même, l angle ψ est l angle entre les deux azotes lorsqu on regarde la liaison C α -C avec le carbone C α en premier plan. figure 8 : Définitions des angles dièdres de la chaîne principale. 21

22 N i + N i+1 C i - C α i+1 C i-1 - C i C i α C i α N i C i N i+1 C i α ψ i φ i ω i figure 9 : Trois exemples de valeur d angles dièdres dans la représentation de Newman. Les atomes situés derrière sont en caractères plus petits. I.3.3 Diagramme de Ramachandran Lorsqu on porte sur un graphe les deux angles dièdres φ et ψ, on construit un espace à deux dimensions appelé carte de Ramachandran, chercheur ayant beaucoup travaillé sur les peptides [Ramakrishnan; 2001]. Ramachandran a eu l idée de construire un modèle réduit de peptide où il pouvait faire pivoter les angles φ et ψ de 360 [Ramachandran & Ramakrishnan; 1963]. Il a alors démontré que la plupart des zones de la carte étaient interdites à cause de l encombrement stérique des chaînes latérales (figure 10). Des statistiques effectuées sur les protéines issues de la Protein Data Bank [Berman, et al.; 2000] ont permis plus tard de confirmer que seules certaines parties de la carte étaient représentées et que la proline et la glycine avaient des cartes différentes des autres acides aminés [Ramachandran & Sasisekharan; 1968]. La glycine est en effet le seul résidu sans carbone β. L hydrogène étant beaucoup moins encombrant qu une chaîne latérale carbonée, la carte de Ramachandran pour le résidu glycine montre plus de conformations accessibles que pour les résidus plus gros (figure 11). De plus, la non chiralité de ce résidu rend la carte symétrique par rapport à l origine. Dans le cas des prolines, les variations de φ sont limitées par les tension du cycle. 22

23 figure 10 : Carte de Ramachandran d une dialanine. En bleu sont les conformations les plus stables, en vert les conformations possibles et en blanc les conformations non atteintes. Les structures secondaires (hélice α droite (α) et gauche (αl), feuillets β parallèles ( ) et antiparallèles ( )) sont indiquées. figure 11 : Carte de Ramachandran des glycines. 23

24 I.4 La hiérarchie dans la description d une structure protéique I.4.1 La structure primaire La structure primaire est l ordre d enchaînement des acides aminés de la chaîne protéique. On nomme la liste des résidus en commençant par la terminaison amine (ou ammonium) et en terminant par le résidu portant la fonction acide carboxylique (ou carboxylate). Le premier résidu est alors nommé N-terminal et le dernier C-terminal. Le code à une lettre des acides aminés est alors très pratique pour décrire les protéines (voir l exemple figure 12). I.4.2 La structure secondaire La structure secondaire d un polymère correspond à la conformation locale de son squelette. C est le premier niveau d agencement dans l espace tenant compte des liaisons hydrogène. Dans le cas des protéines, elle consiste à définir les repliements réguliers et répétitifs : hélices, feuillets, coudes, Nous les décrirons plus en détail dans la partie suivante. I.4.3 La structure tertiaire La structure tertiaire d une protéine est sa disposition tridimensionnelle : c est la donnée de l agencement des structures secondaires et de l organisation spatiale des chaînes latérales. Un certain nombre d interactions stabilisent les structures tertiaires : Les liaisons disulfure entre deux cystéines forment un lien covalent entre deux parties d une chaîne qui sont espacées dans la structure primaire. Les liaisons hydrogène, qui stabilisent aussi les structures secondaires, contribuent à la stabilisation des structures tertiaires. Ces liaisons impliquent les squelettes polypeptidiques (chaînes principales) et les chaînes latérales. Les ponts salins se forment entre deux acides aminés ionisés. L attraction coulombienne entre les ions positifs et les ions négatifs stabilisent leur rapprochement. Les interactions hydrophobes sont formées entre groupements non polaires. En solution aqueuse, les groupements polaires sont tournés en général vers l extérieur des protéines globulaires alors que les groupements non polaires sont confinés à l intérieur pour interagir préférablement entre eux plutôt qu avec les molécules d eau. Ces interactions sont 24

25 plus faibles que les liaisons hydrogène et les ponts salins mais elles sont en général suffisamment nombreuses dans les régions au cœur des protéines pour permettre la stabilisation de la structure. I.4.4 La structure quaternaire La structure quaternaire est le niveau le plus élevé d organisation des protéines. Elle concerne les protéines constitués de plusieurs chaînes polypeptidiques et détermine l arrangement spatial des différentes sous-unités entre elles. Les zones de contact entre sous-unités sont très semblables à celles à l intérieur d une protéine à une seule sous-unité. Elles contiennent des chaînes latérales non polaires regroupées, des liaisons hydrogène et dans certain cas des ponts disulfure intercaténaires. Les différents niveaux de description d une protéine sont résumés dans la figure 12. Il faut noter qu en général, la donnée de la structure primaire détermine la structure tertiaire des protéines. figure 12 : Différents niveaux de description d'une protéine : primaire (1), secondaire (2) (exemple d une hélice α), tertiaire (3) et quaternaire (4). 25

26 II Les structures secondaires Au niveau de toutes les structures secondaires, les liaisons hydrogène sont formées entre les groupements C=O et H-N. Les deux structures secondaires les plus fréquentes sont les hélices α et le feuillets β. II.1 Les hélices L hélice est une structure secondaire en forme de ressort. On peut la caractériser par son pas p (distance entre deux tours de vis) et le nombre n d unités peptidiques par tour d hélice. II.1.1 L hélice α La terminologie hélice "α" n'est basée que sur une classification ancienne, antérieure à la détermination de la structure. L'hélice α est quasiment toujours une hélice droite. Elle s éloigne en tournant dans le sens des aiguilles d'une montre quand on regarde dans l axe de la chaîne principale (figure 13). figure 13 : Hélice droite : elle s'éloigne en tournant dans le sens des aiguilles d'une montre. A gauche : représentation tout atome, à droite : représentation en tube. Les résidus en avant du plan sont en bleu, les plus éloignés sont en rouge. 26

27 L hélice α contient 3,6 résidus par tour et son pas est de 5,41 Å. Les atomes sont bien compactés, ce qui est favorable aux interactions de van der Waals. L atome d'oxygène d un groupe carbonyle participe à une liaison hydrogène avec le NH appartenant à un acide aminé situé 4 positions plus loin dans la chaîne (figure 14). Les trois atomes O, H et N sont alors quasiment alignés et la distance N-O est de 2.86 Å de long. Tous les résidus forment de telles liaisons tout le long de la chaîne ce qui renforce la stabilité de l'ensemble. figure 14 : Liaisons hydrogène dans une hélice α. Les liaisons H sont représentées en bleu. Les chaînes latérales sont tournées vers l'extérieur de l'hélice. L' hélice α pourrait être gauche (tourner dans le sens opposé aux aiguilles d une montre) mais les chaînes latérales des acides aminés de la série L recouvrent de façon trop importante la chaîne principale. Cette structure gauche est alors beaucoup moins stable et donc elle est très peu observée. Théoriquement, les angles de torsions des acide aminés constituant une hélice α sont égaux à 57 pour φ et 47 pour ψ. Dans les protéines, l'hélice α n'est pas toujours exactement celle qui vient d'être décrite. Les angles sont souvent de 62 et -41 respectivement ce qui permet à l'oxygène du carbonyle de s'écarter de l'axe de l'hélice. La liaison hydrogène est alors moins linéaire donnant à l'oxygène la possibilité de former des liaisons hydrogène simultanément avec le NH du résidu en position i+4 et avec l'eau ou d'autres donneurs. 27

28 La nature des chaînes latérales réparties régulièrement autour de l hélice peut induire un caractère hydrophobe si la majorité des chaînes sont hydrophobes ou amphiphile (d un côté hydrophobe et d un autre hydrophile) si les résidus d une face sont hydrophobes et ceux de l autre face hydrophiles. Cette dernière propriété permet l assemblage des structures secondaires pour donner la structure tertiaire. II.1.2 Les autres structures hélicoïdales D autres structures hélicoïdales existent. Le ruban 2,2 7, les hélices 3 10 et Π (4,4 6 ) en sont des exemples. La notation 2,2 7, 3 10 et 4,4 6 indiquent comment les liaisons hydrogène sont placées le long de l hélice. Le nombre décimal donne le nombre de résidus par tour d hélice et l entier en indice le nombre d atomes dans l anneau fermé par la liaison hydrogène (figure 15). Avec ces notations, l hélice α est une hélice 3,6 13. ruban 2,2 7 hélice α hélice 3 10 hélice π figure 15 : Formation des liaisons hydrogène pour différentes hélices polypeptidiques. Les traits bleu représentent les liens formés par les liaisons hydrogène. Les hélices autres que α se rencontrent beaucoup moins souvent au sein des protéines. D autres structures (quaternaires) hélicoïdales existent en particulier chez les protéines fibreuses comme par exemple la kératine et le collagène, qui sont des fibres d hélices. Le collagène est constitué de 3 hélices torsadées les unes sur les autres et la kératine est constituée de dimères (deux hélices imbriquées hélicoïdalement l une dans l autre de manière à ce que les axes des hélices forment aussi une hélice (Coiled coil rod)). 28

29 II.2 Le feuillet β Dans le feuillet β, les liaisons hydrogène intermoléculaires stabilisent l alignement ordonné des chaînes peptidiques. Les chaînes polypeptidiques (ou brins) voisines sont alors dites parallèles si leurs bouts N-terminaux sont tous du même côté et antiparallèles dans le cas contraire (figure 16). figure 16 : Feuillets β, parallèles et antiparallèles. Les liaisons hydrogène sont dessinées en rouge. Comme pour les hélices α, les résidus constituant les feuillets β sont des structures secondaires dans lesquelles les points de la carte de Ramachandran sont dans des régions spécifiques. 29

30 II.3 Coudes et boucles Les coudes β sont des segments polypeptidiques qui relient deux structures secondaires répétitives (hélices ou feuillets). Ils se trouvent presque toujours à la surface des protéines. On parle souvent d épingles à cheveux β (β hairpin) car les deux extrémitées sont parallèles entre elles (voir figure 17). Les boucles Ω peuvent contenir plusieurs coudes β et ont la forme de la lettre grecque majuscule. Elles sont compactes car leur chaînes latérales ont tendance à remplir l intérieur de leurs cavités. Type I Type II figure 17 : Différents types de coudes β. À gauche : type I (φ 2 =-60, ψ 2 =-30, φ 3 =-90, ψ 3 =0 ) ; à droite : type II (φ 2 =-60, ψ 2 =120, φ 3 =+90, ψ 3 =0 ) 30

31 Chapitre 3 Repliement, dynamique et stabilité des protéines Dans ce chapitre, nous allons discuter des connaissances actuelles sur le repliement des protéines, des interactions stabilisant les structures repliées des protéines et des études expérimentales et théoriques qui ont été précédemment menées pour comprendre les processus de repliement et dépliement ainsi que la stabilité des protéines. 31

32 III Stabilité des protéines III.1 Une stabilité marginale La stabilité des protéines est intimement liée à leur repliement. Les protéines ont besoin d être dans leur état natif pour être stables. La variation d enthalpie libre de repliement d un état dénaturé à l état natif s écrit comme la contribution de l enthalpie et de l entropie. U N avec U : état déplié, N : état natif G = H T S Bien que les variations d enthalpie et d entropie soient grandes, la variation d enthalpie libre de l état dénaturé à l état natif est souvent faible (-5 à 15 kcal.mol -1 ). Cette énergie est comparable à celle de quelques liaisons hydrogène. La diminution d enthalpie favorable lors du repliement est compensée par une perte d entropie due au passage de la chaîne étendue à une structure compacte. Le terme enthalpique stabilisant la structure comprend les effets hydrophobes, les interactions de van der Waals et électrostatiques (en particulier les liaisons hydrogène et les ponts salins) ainsi que la formation de liaisons covalentes (les liaisons disulfure). Il est diminué par la perte des interactions qui existaient entre la structure dénaturée et le solvant (effet de désolvatation). III.2 Les différents effets influençant la stabilité de la structure native La stabilité des protéines est influencée par un certain nombre de forces déjà décrites dans le chapitre I.4. Les interactions qui stabilisent la structure tridimensionnelle des protéines sont principalement des interactions faibles, non covalentes : interactions électrostatiques et de van der Waals et effets hydrophobes. Des liaisons covalentes sont également mises en jeu par l intermédiaire des ponts disulfure. 32

33 III.2.1 Interactions électrostatiques Lors du repliement, les interactions électrostatiques attractives entre charges opposées ou entre dipôles sont formées et cassées. Leur contribution enthalpique au repliement dépend de la balance entre les interactions crées et celles qui ont été détruites. Interactions de van der Waals Les interactions entre les nuages électroniques de deux atomes adjacents conduisent à la présence d une force attractive pour des distances de 3-4 Å. L énergie de liaison est d environ 1 kcal.mol -1, ce qui est à peine supérieur à l énergie thermique moyenne des molécules à température ambiante (0,6 kcal.mol -1 ). Cependant, de par leur grand nombre, ces interactions jouent un rôle important dans la stabilisation de la structure des protéines et favorisent le compactage. Ponts salins Lorsqu on regarde ces interactions dans le cas de résidus chargés (négativement pour les aspartates, glutamates et l extrémité C-terminale, et positivement pour les lysines, arginines, certaines histidines et l extrémité N-terminale) on parle de ponts salins. Le fait que la formation de ponts salins soit un effet stabilisateur n est pas évident. En effet, Phelan et al. ont étudié par RMN et par des expériences de thermodynamique le cas d une protéine en fermeture éclair de 31 résidus et ont montré que la formation de ponts salins a un effet déstabilisateur. La désolvatation des chaînes latérales chargées est en effet très défavorable du point de vue énergétique et n est pas compensée par le gain des attractions coulombiennes [Phelan, et al.; 2002]. Liaisons hydrogène Les liaisons hydrogène sont le résultat des interactions électrostatiques (70%) et de van der Waals (30%) entre un atome électronégatif (généralement un atome d oxygène ou d azote) et un atome d hydrogène, porté par un atome électronégatif. Les deux atomes électronégatifs sont distants d environ 3 Å. L énergie des liaisons hydrogène de l ordre de 3 kcal.mol -1. Les acides aminés polaires peuvent ainsi former des liaisons hydrogène entre eux ou avec des molécules d eau. Ils se dissolvent donc facilement dans l eau : ils sont hydrophiles. On trouve ces liaisons notamment dans les hélices et les feuillets, stabilisant ces structures secondaires. Elles permettent également de lier les sous-unités d un oligomère. Les liaisons hydrogène 33

34 contribuent peu directement à l énergie de stabilité mais permettent des contraintes favorisant l état replié des chaînes polypeptidiques [Honig; 1999]. III.2.2 Effets hydrophobes et solvatation Le fait que les composés hydrophobes (c est-à-dire apolaires) sont peu solubles dans l eau induit un effet dit hydrophobe. L optimisation des liaisons hydrogène au voisinage des groupements apolaires conduit à la formation d une enveloppe de molécules d eau ordonnées autour de ceux-ci. Cette organisation est défavorable du point de vue entropique car elle diminue le nombre de configurations accessibles ; les groupements apolaires ont alors tendance à se rapprocher les uns des autres afin de limiter la surface de contact avec l eau. Ce phénomène entropique explique pourquoi les résidus hydrophobes des protéines solubles sont regroupés au «cœur» de celles-ci alors que la «surface» est au contraire principalement composée d acides aminés hydrophiles. Il n existe donc pas à proprement parler de liaison hydrophobe. Pour quantifier cet effet, on le définit comme l énergie associée au transfert d une surface hydrophobe de l intérieur de la protéine vers un milieu aqueux [Murphy; 2001]. Cela inclut donc les variations d énergie due aux changements des interactions de van der Waals subies par les groupements hydrophobes mais aussi les variations d enthalpie libre (variations d enthapie et surtout d entropie) associées à la restructuration de l eau. Les effets hydrophobes et les liaisons de van der Waals sont responsables de l agencement (compactage) très dense des atomes au milieu des protéines. Ainsi le repliement est dirigé par les effets hydrophobes et la stabilisation enthalpique par le compactage. L enthalpie libre de désolvatation, l énergie de transfert pour un résidu apolaire pour passer du milieu aqueux au sein de la protéine, est de l ordre de -25 cal.mol -1.Å -2. La différence d'enthalpie libre de solvatation entre protéine dénaturée et protéine repliée fournit une évaluation empirique de l'effet hydrophobe, considéré comme la principale force responsable du repliement des protéines. L enthalpie libre de solvatation peut être calculée approximativement à partir des surfaces atomiques accessibles au solvant et des paramètres de solvatations atomistiques déterminés à partir des énergies libres de transfert [Chothia; 1976, Eisenberg & McLachlan; 1986]. 34

35 III.2.3 Ponts disulfure Le rapprochement des chaînes latérales de deux cystéines et leur oxydation conduit à la formation d une liaison covalente S-S appelée pont disulfure. La majorité des protéines possédant des ponts disulfure sont des protéines extracellulaires, se repliant dans le reticulum endoplasmique (qui est un milieu oxydant) avant d être secrétées dans le milieu extracellulaire plus oxydant que le cytoplasme et dont le ph et la température sont moins bien contrôlés. L énergie de liaison correspondant étant d environ 60 kcal.mol -1, un pont disulfure impose une forte contrainte topologique à la chaîne polypeptidique. Cependant, cette énergie ne correspond pas à l énergie de formation d une liaison disulfure à partir de deux cystéines protonées. Cette dernière dépend de l environnement des deux cystéines concernées. Ainsi le rôle stabilisateur des ponts disulfure est controversé. En effet, si certaines études sur le rôle des liaisons hydrogène et des liaisons disulfure dans la stabilité thermique [Chakravarty & Varadarajan; 2002] montrent que celle-ci est favorisée par une plus grande rigidité, d autres études arrivent à une conclusion opposée [Grottesi, et al.; 2002]. III.3 Cœur hydrophobe Les interactions hydrophobes sont des facteurs importants dans le repliement et la stabilité des structures protéiques. Bien que les biologistes fassent souvent référence à l appartenance de tel ou tel résidu au cœur hydrophobe d une protéine pour expliquer les propriétés de ce résidu, il n existe pas de définition unanime du cœur hydrophobe. Certaines définitions prennent en compte la conservation au cours de l évolution des résidus hydrophobes «enfouis» tandis que d autres ne s appuient pas sur une analyse séquentielle [Hirakawa, et al.; 1999]. Quelques algorithmes ont ainsi été mis en place pour définir le cœur hydrophobe des protéines de manière systématique. Parmi eux, un algorithme proposé par Swindells décrit le cœur hydrophobe comme la collection des résidus possédant une accessibilité faible au solvant, appartenant à des régions de structures secondaires régulières et dont les chaînes latérales non polaires interagissent en partie entre elles [Swindells; 1995]. En général, ces trois propriétés sont en effet utilisées par les expérimentateurs pour définir le cœur hydrophobe de façon empirique. Les résidus appartenant au cœur hydrophobe d une protéine sont donc des résidus conservés dans les familles structurales et jouant un rôle important pour la stabilité de la protéine tant au moment de son repliement que dans sa structure native. 35

36 IV Le repliement des protéines La compréhension du mécanisme de repliement des protéines est importante. Le bon repliement de protéines est un processus essentiel à la vie parce que c est ce repliement qui assure les fonctions des protéines dans l organisme. Ainsi, les défauts de repliement de protéines causent des maladies graves telles que la fibrose kystique, l'emphysème juvénile, certains types d'hémophilie, la maladie d'alzheimer, la maladie de Kreutzfeld-Jakob et la maladie de Parkinson. D autre part, la connaissance du mécanisme de repliement (c est-à-dire les différents étapes qui le définissent) permet de prédire la structure tridimensionnelle d une protéine à partir de sa séquence primaire. Pour l instant, bien que les facteurs physico-chimiques entrant en jeu soient clairs, les règles qui permettent à une séquence d acides aminés de se replier en une structure tridimensionnelle sont inconnues. Les phénomènes de repliement se déroulent à l échelle de temps de la milliseconde mais certains peuvent se produire en quelques microsecondes [Baldwin; 1996], voire en moins d une microseconde pour des protéines qui se replient de façon ultra-rapide [Mayor, et al.; 2003]. Leur étude expérimentale est difficile et nécessite un grand nombre d approches par des techniques de biophysique pour récolter suffisamment d indices sur les mécanismes de repliement [Plaxco & Dobson; 1996, Radford; 2000]. Le repliement des protéines est depuis longtemps un sujet d intérêt étudié aussi bien du point de vue théorique qu expérimental. Il donne lieu tous les deux ans à la compétition CASP (Critical Assessment of Structure Prediction) qui teste les méthodes de prédiction de structure. IV.1 Contrôle thermodynamique ou cinétique? En 1968, Levinthal a montré que le repliement des protéines ne pouvait pas être le résultat d une recherche aléatoire de la structure native parmi toutes les structures possibles. En effet, cette recherche aléatoire prendrait un temps énorme ( Longer than the lifetime of the universe ) [Levinthal; 1968] qui n est pas compatible avec la rapidité mesurée du repliement des protéines (entre 10-4 et 100 secondes). Ceci est connu sous le nom du paradoxe de Levinthal. Levinthal suggère alors un contrôle cinétique du repliement accéléré par la formation simultanée de petits noyaux structurés, la forme native de la protéine n étant pas forcément la structure thermodynamiquement la plus stable. 36

37 D autre part, en 1975, Anfinsen suggère lui un contrôle thermodynamique où la forme native est celle d enthalpie libre la plus basse [Anfinsen & Scheraga; 1975]. Il semble qu un compromis entre les deux points de vue donne une bonne explication des faits expérimentaux et théoriques observés. Le repliement des protéines est à la fois sous contrôle thermodynamique (la structure native serait la structure la plus stable) et sous contrôle cinétique puisque l état natif est atteint grâce à la formation d intermédiaires partiellement structurés dont la formation est sous contrôle cinétique. On peut résumer le comportement de repliement des protéines dans un diagramme en entonnoir («folding funnel») proposé par Wolynes et al. [Wolynes, et al.; 1995] [Socci, et al.; 1998] et repris par Chan et Dill [Chan & Dill; 1998]. La largeur de l entonnoir rend compte de l entropie et la profondeur de l énergie ( figure 18). Ainsi, plusieurs chemins de repliement sont possibles suivant les conditions expérimentales. L entonnoir décrit alors une diminution progressive de la dimensionnalité de l espace accessible, en passant de plusieurs degrés de liberté pour la chaîne dénaturée à une absence complète pour l état natif. La présence de bosses correspond à des conformations de haute énergie (états de transition) et celle des creux (minima locaux) à des configurations localement stabilisées (états intermédiaires métastables). La cinétique est reliée à la pente de la courbe : plus elle est grande, plus le repliement est rapide. Le repliement se fait en deux temps : il est tout d abord sous contrôle cinétique pour donner un globule fondu. Le globule fondu («Molten Globule») est une structure dont la majorité des structures secondaires natives sont formées mais dont la structure tertiaire n est pas atteinte. Dans la seconde partie du repliement, la cinétique est plus lente. L état natif atteint est celui de plus grande stabilité. La différence de stabilité est cependant marginale entre l état natif et les états intermédiaires proches (5-10 kcal.mol -1 ). Ceci permet le bon fonctionnement de la protéine qui peut passer d un sous-état à un autre facilement sous l effet de l agitation thermique. Le modèle de l entonnoir résout le paradoxe de Levinthal par le fait qu il y a effectivement un grand nombre de voies de repliement mais le principe d Anfinsen est respecté puisque la structure native est la plus stable. 37

38 Energie Début de la formation de l hélice et du collapsus Etat du globule fondu Structure native Entropie Intermédiaires de repliement figure 18 : Diagramme en entonnoir du repliement d'une protéine. La largeur de l'entonnoir représente l'entropie et la profondeur l'énergie. IV.2 Les différents modèles de repliement proposés Un grand nombre de modèles de repliement protéique sont proposés suivant les différentes approches d étude utilisées. Le modèle de la charpente (framework model) postule que les structures secondaires sont formées avant la structure tertiaire [Ptitsyn; 1991]. Ce modèle laisse supposer qu il n existe qu un seul chemin menant de la chaîne polypeptidique à la protéine native. Le modèle d effondrement hydrophobe (hydrophobic collapse) proposé par Dill [Dill; 1990] suggère que la chaîne polypeptidique subit un effondrement, en regroupant des acides aminés hydrophobes, formant le cœur de la protéine, suivi de la formation des structures secondaires et tertiaires. Une variante, le modèle de la fermeture éclair hydrophobe [Dill, et al.; 1993] suggère que la formation des structures secondaires et l effondrement sont simultanés. 38

39 Le modèle de diffusion-collision présenté par Karplus et Weater en 1994 [Karplus & Weaver; 1994] postule la formation de microdomaines de repliement qui entrent en collision par un processus de diffusion pour former des domaines de tailles supérieures, jusqu à la structure native. Le modèle de nucléation-condensation tient compte de la coopérativité du repliement. C est un modèle intermédiaire entre le modèle de la charpente et le modèle d effondrement hydrophobe [Daggett & Fersht; 2003b]. Le modèle du puzzle (Jigsaw Puzzle model) [Harrison & Durbin; 1985] introduit la notion de repliement ne passant pas par un chemin unique. Puisque le nombre de conformations des protéines dénaturées est grand, il existe plusieurs chemins pour arriver à la conformation native unique. Le repliement est alors considéré comme l assemblage en puzzle de ces différents chemins. Suivant les résultats expérimentaux ou théoriques obtenus, on choisit l un ou l autre modèle pour décrire le repliement de la protéine étudiée. Les informations obtenues pour éclairer le problème du repliement des protéines peuvent porter sur l état natif, les états intermédiaires, le globule fondu (ou état partiellement replié) ou l état dénaturé. IV.3 Le repliement in vivo Les différents modèles proposés dans le paragraphe précédent sont des modèles de repliement qui ne prennent pas en compte les conditions in vivo, c est-à-dire les conditions dans le milieu cellulaire riche en molécules et en ions. Trois types de protéines auxiliaires peuvent aider les polypeptides à se replier pour prendre leurs conformations natives. Les protéines disulfure isomérases catalysent les réactions d échange entre les liaisons disulfure. Les peptidyl prolyl cis-trans isomérases permettent à certaines prolines en conformation trans de passer en conformation cis, accélérant ainsi le repliement des polypeptides contenant des résidus proline. Les protéines chaperonnes empêchent les protéines dans leur état dénaturé de former des agrégats intra ou intermoléculaires. Elles se lient aux nombreuses surfaces hydrophobes dans les structures dénaturées exposées au solvant puis se détachent de façon à faciliter le repliement. 39

40 IV.4 Modèles théoriques pour étudier le repliement La compréhension théorique du repliement des protéines est basée sur trois types d approche différents : les modèles de réseaux simples, les modèles discrets hors réseau et les dynamiques moléculaires tenant compte de la description de tous les atomes (voir la revue de Pande et al. [Pande, et al.; 1998]). Les modèles de simples chaînes soumises à des potentiels très simplifiés dans un réseau décrivent les propriétés physiques générales du problème mais ne donnent pas d information au niveau atomique. Ainsi, on peut obtenir tous les états énergétiques et décrire toute la surface énergétique. Les réseaux cubiques, dans lesquels les protéines sont représentées par des chaînes dont seules les interactions entre paires en contact sur le réseau sont prisent en compte, permettent de donner des indices sur la sélection des minima globaux. Les modèles atomistiques traitent plus souvent la dénaturation que le repliement des protéines [Fersht & Daggett; 2002]. En effet, mis à part pour les protéines qui se replient très vite comme la protéine En-HD étudiée par Mayor et al. [Mayor, et al.; 2000] [Mayor, et al.; 2003], les temps de repliement protéique de l ordre de la milliseconde sont incompatibles avec les simulations de dynamique moléculaire, restreintes à l échelle de la microseconde [Daggett; 2000], alors que la dénaturation des protéines à hautes températures (à 225 C) peut avoir lieu en moins d une nanoseconde. Par ailleurs, la structure initiale lors des études de dépliement est la structure native qui est la structure très bien caractérisée, contrairement à une structure dépliée. Ces deux processus (dépliement et repliement) réversibles se complètent mais il convient de rester prudent quant à l interprétation du dépliement sous de fortes contraintes, comme une température élevée, qui ne correspondent pas aux conditions de repliement physiologique [Finkelstein; 1997]. Cependant, la dynamique moléculaire où une contrainte impose le dépliement de la chaîne protéique, couplée avec les données expérimentales de RMN, permet de caractériser les états partiellement dépliés [Daggett & Fersht; 2003a] comme par exemple, celui de l ubiquitine dans 60% de méthanol [Alonso & Daggett; 1995] ou celui de la barnase thermiquement dépliée [Bond, et al.; 1997]. 40

41 L étude du repliement par dynamique moléculaire se développe. Les exemples du repliement d un peptide de 36 résidus [Duan & Kollman; 1998] et celui d une petite protéine de 61 résidus [Mayor, et al.; 2003] montrent que la dynamique moléculaire permet d obtenir des informations au niveau atomique non accessibles expérimentalement. Toutefois, le coût en temps de calcul reste grand et seuls des petits systèmes peuvent être abordés. 41

42 V Dépliement des protéines Le dépliement des protéines est l approche inverse du repliement des protéines. L étude du mécanisme de dénaturation des protéines peut donner des informations sur le mécanisme de repliement, ses dernières étapes et ses états intermédiaires. De plus, le début du dépliement est caractéristique de la structure tridimensionnelle des états natifs des protéines, de leur stabilité et de leur dynamique. Il donne aussi des informations sur les états intermédiaires et les dernières étapes du repliement. V.1 Provoquer un dépliement in vitro Un grand nombre d expériences ont été mises en œuvres pour comprendre le dépliement des protéines. La dénaturation des protéines se fait alors soit par l action de produits chimiques (urée, hydrochloride de guanidine, solvants organiques, corps salins ou détergents comme le dodecylsulfate de sodium), soit par un changement des propriétés physiques du milieu extérieur (température, pression, ph ) ou encore en exerçant une force externe sur la protéine (nanomanipulations). V.1.1 Contraintes globales Les détergents Les détergents sont des molécules amphiphiles dont la tête polaire reste en contact avec l eau et la queue apolaire interagit avec les chaînes protéiques. L ajout de détergents dans le milieu dénature les protéines en supprimant la stabilisation due aux effets hydrophobes au sein de la protéine. Les solvants organiques solubles dans l eau comme l éthanol ou l acétone font en général précipiter les protéines de par les effets hydrophobes. Les dénaturants La dénaturation avec l urée ou l hydrochloride de guanidine (figure 19) se fait par la création de liaisons hydrogène entre le dénaturant et la protéine. Ces liaisons pouvant être plus nombreuses dans l état dénaturé, celui-ci est stabilisé par rapport à l état natif. La protéine reste en général soluble mais dépliée. 42

43 figure 19 : Dénaturants. La température Il suffit en général d un petit écart de température pour dénaturer les protéines car la différence d enthalpie libre entre la structure native et les structures dénaturées est facilement accessible. L expression de l enthalpie libre de dépliement (N <=> U) en fonction de la température est la suivante : G = H ref T S ref + Cp(( T T ref ) T ln( T T ref )) avec H ref et S ref les valeurs respectives de l enthalpie et de l entropie du dépliement à la température de référence T ref. C p est la variation de la capacité calorifique entre l état natif et l état dénaturé. On suppose que cette dernière ne varie pas avec la température dans les gammes que nous allons discuter. La figure 20 représente des courbes de variation d enthalpie libre entre l état natif et l état dénaturé en fonction de la température. Lorsque G est positif, la structure stable est celle de l état natif. Les températures Tm correspondant à G = 0 kcal.mol -1 sont appelées température de demi-transition de dénaturation, elles correspondent aux températures où sont en équilibre autant de molécules sous la forme native que de molécules sous la forme dépliée. La courbe G(T) de la protéine B en solution aqueuse coupe une seule fois l axe G=0, la protéine B se déplie si on augmente la température. Quant à la protéine A en solution aqueuse, la courbe coupe deux fois l axe des abscisses, elle se déplie si on augmente la température mais aussi si on abaisse la température. En général, le maximum de la courbe (correspondant à S=0) se trouve pour des températures avoisinant la température physiologique. Même si la protéine A a une température de demi-transition de dénaturation (Tm A ) plus grande que celle de la protéine B (Tm B ), la protéine B est plus stable à 25 C. Ceci montre que la stabilité des 43

44 protéines à température ambiante ne détermine pas la valeur de la température de transition Tm. figure 20 : Énergie libre en fonction de la température pour deux protéines hypothétiques A et B. Pour la protéine A (en pointillés), on a pris H = 100 kcal.mol -1 à 80 C, S = 0,3 kcal.mol -1.K -1 à 80 C et C p = 2 kcal.mol -1.K -1. Pour la protéine B (en plein), on a pris H = 100 kcal.mol -1 à 60 C, S = 0,28 à 60 C, C p = 2,8 kcal.mol -1.K -1. TmA et TmB sont les températures de demi-transition de dénaturation. Le graphe a été construit d après [Freire; 2001]. Nous venons de voir que les protéines se déplient si on augmente la température et que certaines protéines se dénaturent aussi à basse température. Ainsi, les protéines ne sont stables et fonctionnelles que dans une petite fourchette de température (en général de quelques dizaines de degrés d amplitude). 44

45 Le ph Le dépliement des protéines peut se faire en augmentant ou diminuant le ph du milieu. En effet le ph influence la protonation et les charges des groupements chimiques. Souvent, le changement de ph augmente les forces électrostatiques répulsives. La pression Le dépliement sous pression hydrostatique est une méthode réversible de dénaturation qui peut être combinée avec l ajout d un dénaturant [Perrett & Zhou; 2002]. Une pression élevée induit le dépliement des protéines car le système protéine-solvant de l état dénaturé occupe un plus petit volume que celui de la forme native. Cette approche a permis une compréhension sur l origine du changement de volume observé lors de la dénaturation (qui est de l ordre de 1%). Ainsi l étude des cavités de la nucléase du staphylocoque montre que les effets de volumes exclus dans les protéines sont la raison déterminante du changement de volume lors du dépliement [Frye & Royer; 1998]. V.1.2 Nanomanipulations Depuis une dizaine d années, le développement des expériences sur molécules uniques a permis de déterminer quelques caractéristiques mécaniques de ces molécules. Ces expériences consistent à attacher des molécules uniques sur des surfaces, des fibres en verre, des microbilles ou d autres supports pour pouvoir y appliquer une force. De telles approches expérimentales se sont portées sur des ADN [Bryant, et al.; 2003] [Smith, et al.; 1996] [Cluzel, et al.; 1996] [Bustamante, et al.; 2003], des ARN [Liphardt, et al.; 2001], des complexes ADN-protéines [Dohoney & Gelles; 2001], des complexes protéine-ligand [Florin, et al.; 1994], des brins de polysaccharides [Rief, et al.; 1997b] ou des protéines comme par exemple la titine, la tenascine, la spectrine et la fibronectine (voir la revue de Smith et al. [Smith, et al.; 2003]). La première protéine à avoir été étirée mécaniquement est la titine, une protéine géante du muscle comportant environ 300 domaines immunoglobuline (Ig) et fibronectine type III connectés par des régions PEVK [Rief, et al.; 1997a, Tskhovrebova, et al.; 1997]. Les différents domaines de la titine peuvent se déplier de manière importante si une force critique est appliquée. Pour s affranchir de la complexité des protéines multidomaines naturelles, un certain nombre de polyprotéines synthétiques contenant un nombre restreint de domaines ont été étudiées [Brockwell, et al.; 2002, Fisher, et al.; 2000]. Par exemple, le dépliement d un 45

46 polymère du domaine Ig de la titine a été étudié en tirant entre les deux extrémités [Rief, et al.; 1997a]. Une des extrémité est attachée à une plaque d or fixe et l autre à la pointe d un appareil AFM (Atomic Force Microscopy). On obtient alors des graphes force-extension en dents de scie comme ceux du gauche de la figure 21. Chaque pic est provoqué par le dépliement d un domaine Ig. Le schéma de droite de la figure 21 explicite la correspondance entre les pics et la structure du polymère. La force augmente jusqu à atteindre une valeur maximum ( pn) correspondant à la force nécessaire pour qu un domaine se déplie (point 1). Le dépliement provoque une diminution brutale de la force à cause d une augmentation de la longueur du polymère (point 2). Puis le déplacement de la pointe de l AFM continue jusqu à obtenir une force permettant de déplier un nouveau domaine (point 3). Sur la figure de gauche, le modèle WLC (Worm-Like Chain model) permet de modéliser les portions montantes de la courbe et la distance entre deux sommets permet de prédire que chaque domaine mesure nm de long lorsqu il est étendu.(l étude de la forme globale de la courbe a été effectué par Evans et Ritchie [Evans & Ritchie; 1997] et celle des états intermédiaire par des études de dynamique moléculaire [Gao, et al.; 2001, Gao, et al.; 2002]). figure 21 : Graphe de l'étude sur molécule unique d'un poly-ig de la titine tiré de l article de Rief et al. [Rief, et al.; 1997a]. À gauche, graphe force/extension en dent de scie d un hexa- Igdomain avec les courbes du modèle WLC pour l analyse des pics. À droite, schéma correspondant corrélant les pics aux différentes étapes du dépliement du polymère. 46

47 La valeur de la force de dépliement, maximum des courbes, dépend de la vitesse à laquelle le domaine est étiré. La courbe de la force de dépliement en fonction de la vitesse est une droite dont la pente permet de déterminer la constante de vitesse de dépliement des molécules étudiées. L analyse de ces courbes pour différents mutants permet d obtenir des informations sur les intermédiaires de repliement. Ainsi, l étude de mutants du domaine immunoglobuline de la titine a permis de mettre en évidence un intermédiaire de dépliement ainsi que des états de transition [Williams, et al.; 2003 ]. Les auteurs ont pu montrer que, sous une faible vitesse, la barrière principale à franchir est celle caractérisée dans les études de dépliement sous l effet de dénaturants. Au contraire, sous des contraintes plus fortes, l état intermédiaire est plus peuplé et résistant au dépliement et qu il faut donc des forces plus grandes pour que le dépliement se produise. Il a été montré que les constantes de force de dépliement obtenues par dépliement mécanique et celles obtenues par dénaturation chimique sont du même ordre et que les chemins de dépliement sont similaires [Carrion-Vazquez, et al.; 1999]. Mais ces résultats sont critiquables car on peut difficilement comparer le dépliement d un monomère sous l action des agents chimiques avec celui d un polymère sous une contrainte physique [Smith, et al.; 2003]. En effet, les coordonnées de réaction ne sont pas comparables : c est en général la surface accessible au solvant pour les expériences de dénaturation chimique [Myers, et al.; 1995] et la distance entre les deux points d attache dans les expériences de nanomanipulation. Même si les expériences sur molécules uniques donnent des renseignements intéressants sur la résistance au dépliement, les domaines de la protéine résistant le mieux aux contraintes, l existence et la caractérisation d intermédiaires de dépliement et sur l effet des mutations [Williams, et al.; 2003 ], elles s avèrent difficiles à mettre en œuvre pour une étude systématique des protéines et n offrent pas une connaissance de ce qui se déroule au niveau atomique. La modélisation moléculaire et la dynamique moléculaire peuvent permettre de pallier ces carences par la représentation atomique des molécules et la possibilité d étudier tout type de protéine. 47

48 V.2 Études théoriques V.2.1 Exemple d une étude par dynamique moléculaire et données expérimentales La combinaison des études expérimentales et des simulations de dynamique moléculaire permet de caractériser l état natif, de transition et déplié. Les simulations permettent de connecter ces états à une description du chemin de repliement. Nous allons prendre le cas de l inhibiteur 2 de la chymotrypsine (CI2) traité par Daggett [Daggett; 2001]. CI2 est une petite protéine de 64 acides aminés qui se replie suivant le schéma à deux états (l état déplié est en équilibre avec l état natif sans passer par des intermédiaires). L état de transition correspondant à la structure la plus haute en énergie dans le chemin de repliement est donc une donnée importante pour comprendre ce chemin. En dynamique moléculaire, la première étape est de bien caractériser l état natif pour pouvoir ensuite le comparer aux états obtenus sous contrainte. Les auteurs ont traité une simulation de plusieurs nanosecondes (5,3 et 35 ns) de l état natif dans les conditions natives. Ils ont montré que la simulation reproduisait la majorité des mesures de couplages NOE observées par RMN et des comportements d échange d hydrogène des amides et que la chaîne principale restait proche de celles de la structure cristallographique et de la RMN. L état de transition a été étudié avec un grand nombre de techniques expérimentales. En particulier, plus d une centaine de mutations ont été étudiées tout au long de la protéine [Itzhaki, et al.; 1995a, Itzhaki, et al.; 1995b]. De plus, le repliement et le dépliement ont été observés montrant que l état de transition était le même dans les deux phénomènes. L état de transition a une surface accessible au solvant 40% plus grande que celle de l état natif ; environ 50% des résidus hydrophobes restent enterrés et environ 30% des interactions des chaînes latérales restent intactes. Les expériences d échange de proton montrent que le dépliement se fait de manière globale ce qui est en corrélation avec les résultats de repliement observés par RMN où tous les pics apparaissent en même temps. Quatre simulations de dépliement ont été réalisées à partir d états natifs tirés des structures RMN ou cristallographiques. Les quatre états de transition identifiés se ressemblent et seuls les chemins après le passage de l état de transition divergent. L état de transition est assez proche de l état natif et on retrouve des propriétés similaires entre ces états issus de la dynamique moléculaire et ceux étudiés expérimentalement. Ainsi les indices structuraux 48

49 locaux, produits des pourcentages locaux des structures tertiaires et secondaires dans les structures de l état de transition par rapport à la structure native [Daggett, et al.; 1996], corrèlent avec un coefficient de 0,9. On peut aussi faire l étude de mutants en dynamique moléculaire et retrouver des résultats obtenus expérimentalement. Certaines mutations permettent ainsi d accélérer le repliement en stabilisant l état de transition et l étude atomique de l état par dynamique moléculaire permet de prédire ces mutations qui peuvent ensuite être testées expérimentalement. D après les études RMN, l état dénaturé de CI2 est largement non structuré, à part quelques domaines restés faiblement structurés. On peut également retrouver ces informations dans les études de dépliement de dynamiques moléculaires menées jusqu à l état dénaturé. En conclusion, les méthodes expérimentales et théoriques donnent en général des résultats similaires et montrent qu il existe une seule famille d états de transition, excluant les hypothèses de chemins parallèles. CI2 se replie par un mécanisme de nucléationcondensation/collapse. En outre, la dynamique moléculaire permet de proposer des mutations pouvant accélérer le repliement et donne des détails sur les différents états. Par contre, contrairement à l expérience où tous les cas sont échantillonnés, la dynamique moléculaire ne donne qu un exemple de chemin de repliement. C est une combinaison des deux approches théorique et expérimentale qui permet d élucider les mécanismes de repliement/dépliement. V.2.2 Études théoriques du dépliement Les nombreuses études théoriques qui ont été menées lors de la dernière décennie afin de reproduire les résultats expérimentaux de nanomanipulation et d obtenir de nouvelles informations structurales au cours du dépliement de la molécule sont basées sur des méthodes de minimisation d énergie en coordonnées internes [Lavery & Lebrun; 1999] [Rohs, et al.; 1999] ou de dynamique moléculaire [Lu & Schulten; 2000] [Izrailev, et al.; 1997] [Paci & Karplus; 1999] [Bryant, et al.; 2000] dans lesquelles les forces appliquées à la biomolécule sont représentées par l introduction de contraintes supplémentaires intégrées au champ de force. Dans la plupart des cas, les simulations (comme les études expérimentales auxquelles elles sont liées) ont consisté à étirer la protéine selon une direction privilégiée (souvent déterminée par les résidus C-terminaux et N-terminaux). Elles correspondent de fait à la réponse à une sollicitation donnée de la molécule et ne fournissent donc que des informations partielles sur ses propriétés mécaniques. Or des études récentes, où le choix des points d attachement des protéines étirées était contrôlé, ont montré que la résistance au dépliement 49

50 mécanique dépend de la direction de la force appliquée [Brockwell, et al.; 2003, Carrion- Vazquez, et al.; 2003, Matouschek & Bustamante; 2003]. Il est donc nécessaire d'imaginer des contraintes permettant un dépliement de la protéine sans pour autant imprimer une direction particulière à cette déformation. Différentes approches ont été mises au point utilisant des contraintes environnementales comme la température [Kazmirski & Daggett; 1998], le rayon de giration [Paci, et al.; 2001], la pression [Hunenberger, et al.; 1995] ou des contraintes géométriques. Une contrainte de ce type a été utilisée par Gilquin et collaborateurs [Gilquin, et al.; 2000] afin d'étudier le chemin de dépliement du lysozyme de l'œuf à l'aide d'une expérience de dynamique moléculaire. Elle correspond à augmenter graduellement le RMSD entre la structure et une structure de référence. Une partie du travail présenté ici a été de développer des contraintes similaires dans le programme LIGAND, programme de minimisation d énergie en coordonnées internes. 50

51 VI Rigidité et flexibilité des protéines Des conditions environnementales (température, ph, salinité ) peuvent influencer la flexibilité des protéines et leur stabilité. Une rigidité structurelle suffisante préserve la forme native unique et spécifique de la protéine. Quant à la flexibilité interne, elle permet son bon fonctionnement (comme l activité enzymatique des enzymes). Il est donc très important que les protéines gardent une certaine flexibilité pour conserver leur activité biologique. Une protéine est donc stable si les conditions extérieures lui permettent de ne pas se déplier mais aussi d être toujours active. VI.1 Dynamique des protéines L étude par diffraction des rayons X ne fournit que des structures statiques des protéines. Pourtant les protéines sont flexibles et leur activité biologique dépend de cette flexibilité. La dynamique a lieu sur un large domaine temporel dont les différents mouvements sont cités dans le tableau ci-dessous. Mouvements Amplitude (Å) Log10 du temps caractéristique (s) Vibrations atomiques 0,01 à 1-14 à 13 Vibrations élastiques de régions globulaires 0,05 à 0,5-12 à 11 Rotations des chaînes latérales exposées 5 à à 10 Rotations des chaînes latérales enfouies 5-4 à 0 Transitions allostériques 1 à 5-5 à 0 Dénaturation locale 5 à 10-5 à 1 51

52 Les mouvements qui contribuent à la dynamique des protéines sont dus à divers mécanismes : mouvements de type vibratoire, mouvements d ensemble de domaines, mouvements de diffusion. Les vibrations atomiques sont des mouvements très rapides de l ordre de la picoseconde ou moins. Les mouvements entre domaines sont attendus dans les protéines dans lesquelles des parties de la structure peuvent bouger les unes par rapport aux autres sur plusieurs angströms. Les régions entre les domaines constituent des charnières en référence aux charnières des portes liant deux parties bougeant l une par rapport à l autre. VI.2 Facteurs de température Une manière de mesurer la flexibilité des domaines d une protéine est de regarder les facteurs de température. Si la résolution de structure de la protéine obtenue par rayons X est suffisamment bonne, les facteurs de température de chacun de ses atomes sont disponibles dans les fichiers diffusés sur la banque de données Protein Data Bank [Berman, et al.; 2000]. Le facteur de température est un facteur correctif qui rend compte du fait que les noyaux des atomes n ont une position fixe que s ils sont à la température du zéro absolu. À la température de l expérience, les noyaux oscillent autour de leur position d équilibre. La relation mathématique entre le facteur de température B j et la valeur moyenne du déplacement de l atome j ( ) 2 R r j est la suivante [van Meerssche & Feneau-Dupont; 1984] : 8Π = 3 2 r ( ) 2 Bj Rj Cette équation montre que les facteurs de température sont positifs et leur dimension est celle d une surface. Plus le facteur de température d un atome est grand, plus son noyau oscille autour de sa position d équilibre, plus cet atome fluctue. Les facteurs de température sont des grandeurs expérimentales qui peuvent être calculées de manière théorique avec la donnée des fluctuations moyennes des atomes. 52

53 Chapitre 4 Méthodologie Nous allons décrire dans cette partie les différentes approches théoriques que nous avons utilisées pour étudier les propriétés mécaniques des protéines. Suivant la taille des protéines et les informations que l on veut obtenir on choisit une description plus ou moins fine du système (la protéine étudiée et son environnement). La description du système peut se faire dans l espace des coordonnées cartésiennes où chaque atome est décrit par la donnée des trois coordonnées x, y, z dans un repère orthonormé. Le programme AMBER (Assisted Model Building with Energy Refinement) [Pearlman, et al.; 1995] est un programme de mécanique moléculaire (minimisation et calculs de modes normaux) et de dynamique moléculaire qui travaille dans cet espace. Les coordonnées internes, où chaque atome est défini par rapport aux autres atomes du système avec la donnée de distances et d angles basée sur la structure chimique, représentent une alternative utilisée dans le programme LIGAND [Lavery, et al.; 1986a, Lavery, et al.; 1995b], programme de minimisation d énergie. On peut aussi décrire le système sans tenir compte de tous les atomes. GNM (Gaussian Network Model), ANM (Anisotropic Network Model) et GNMlig sont des programmes utilisant une description granulaire du système pour faire des études de modes normaux et de la mécanique moléculaire. 53

54 VII Champ de force Compte tenu de la taille des systèmes étudiés en biologie, l'utilisation de la mécanique quantique n'est pas possible. Les macromolécules sont représentées comme un ensemble d atomes ponctuels dont les interactions sont décrites par un potentiel semi-empirique ou champ de force. On appelle champ de force le modèle mathématique représentant l'énergie potentielle d'une molécule en mécanique moléculaire. Sous ce terme sont en fait regroupés deux éléments : d'une part l'expression des différentes fonctions contribuant au calcul énergétique et d'autre part les valeurs des différentes constantes paramétrant ces fonctions. Ce potentiel empirique dans le programme AMBER est constitué de deux parties représentant les interactions entre atomes non liés (électrostatique et Lennard-Jones) et les interactions entre atomes liés (représentation harmonique des déformations des liaisons, des angles de valence et des barrières énergétiques des angles de torsion propres et impropres). Il faut noter que le nom «AMBER» est donné au programme mais aussi au champ de force utilisé dans le programme. Les paramètres que nous avons utilisés sont les paramètres parm99 [Wang, et al.; 2000]. L expression du champ de force AMBER est de la forme suivante [Cornell, et al.; 1995, Cornell, et al.; 1996] : E Amber = Eliaisons + Eangles + Edièdres + Eimpropre+ Eélec + E LJ avec : E liaisons Eangles E = k ( l l ) l l 0 2 = k ( θ θ ) θ θ 0 2 [ + Cos( nφ γ )] = Vn, φ + 2 dièdres 1 φ 54

55 E impropres = φ [ 1+ Cos( nφimpropre γ )] Vn, φ impropres + 2 impropres E élec = i< j f el ij q iq εr ij j E LJ = 12 6 lj rij* rij* fij eij * 2 < j rij rij i Le premier terme E liaisons correspond à l énergie potentielle de déformation des liaisons covalentes. Cette énergie est représentée par un potentiel harmonique (approximation justifiée par le fait qu à température ambiante les longueurs de liaison fluctuent faiblement autour de leur position d équilibre). k l représente la constante de force associée à la liaison, l est la longueur de la liaison à l instant calculé et l 0 est sa longueur de référence. Le deuxième terme E angles constitue l énergie de déformation des angles de valence. Ce terme prend également une forme quadratique, θ 0 représentant la valeur de référence de l angle θ et k θ la constante de force qui lui est associée. Le troisième terme E dièdres est l énergie représentant la déformation des angles dièdres. L expression de la contribution de chaque angle dièdre est un (ou plusieurs) terme(s) d une fonction développée en série de Fourier. L entier n est l ordre de la série de Fourier pris en compte pour l angle dièdre φ considéré, le réel V n,φ est la constante de torsion associée et γ est la phase associée. E dièdres prend déjà en compte une partie des interactions entre atomes non liés puisqu il fait intervenir quatre atomes. Ces interactions devront donc être pondérées dans l expressions des termes énergétiques entre atomes non liés. Le choix de n dépend du type de liaison dièdre qu il décrit. Le premier ordre de la série de Fourier agit sur la stabilisation des formes de conformation cis ou trans, le deuxième ordre sur la stabilisation planaire des doubles liaisons entre atomes de type sp2 et le troisième ordre sur la stabilisation des formes de conformation décalée ou éclipsée (figure 22). Une combinaison des différents ordres permet de rendre compte de l effet anomère (ou gauche) qui a lieu par exemple dans les sucres. 55

56 figure 22 : Ordres n pour les différents types d'angles. Le terme énergétique de torsions impropres E impropres donne la contribution énergétique des déformations des torsions impropres formées par trois liaisons. Une torsion impropre est par exemple l angle formé par les plans IJK et JKL définis par la figure 23. Les torsions impropres sont appelées ainsi car les quatre atomes impliqués ne sont pas linéairement liés. Ce terme sert à maintenir la planéité de certains groupements tels que le groupement carbonyle, la valeur de l ordre n est alors égale à 2. Il permet aussi de maintenir la chiralité d un carbone chiral possédant un hydrogène implicite (n est alors égal à 3). La phase γ des torsions impropres est toujours égale à 180 degrés [Case, et al.; 2002]. J K I L figure 23 : Liaisons définissant un angle de torsion impropre IJKL. Le paramétrage des termes énergétiques que nous venons de présenter est basée en général sur les données expérimentales obtenues pour de petites molécules. Les valeurs de référence sont souvent déterminées par des analyses de structures cristallographiques et les constantes de force par des études de spectroscopie (infrarouge, Raman) ou à l aide de calculs quantiques. 56

57 De même, les valeurs des paramètres n, γ et V n,φ peuvent être obtenues à l aide de données cristallographiques, RMN ou de résultats provenant de mesures de spectroscopie micro-onde. Les deux derniers termes énergétiques représentent l'interaction à distance entre atomes non liés, c est-à-dire séparés par plus de deux liaisons. La somme se fait sur tous les couples d atomes i et j non liés. On parle par exemple d'interactions 1-4 (atomes séparés par 3 liaisons), 1-5 (atomes séparés par 4 liaisons)... Ces termes définissent respectivement la contribution d énergie électrostatique E élec et un terme E LJ de type Lennard-Jones pour les interactions de type van der Waals (vdw) et de répulsion d échange. L expression de l énergie électrostatique est représentée par un potentiel coulombien où ε est la constante diélectrique et q i est la charge partielle de l atome i. La répartition globale des charges sur une molécule est simplifiée à des charges partielles localisées sur les atomes et dont la valeur dépend de leur électronégativité. Ces charges partielles sont déterminées par des calculs sur des petites molécules en utilisant des méthodes quantiques semi-empiriques ou, plus souvent aujourd hui, ab initio. Les monopoles atomiques sont ensuite optimisés pour reproduire au mieux la distribution de potentiel électrostatique autour des molécules en question. Le terme de Lennard-Jones est représenté par la somme des énergies résultant des interactions attractives et répulsives. L expression de cette énergie est sous la forme d un potentiel dit Le terme en puissance 12 correspond aux paramètres du terme répulsif à courte distance (reflet de la répulsion des nuages électroniques correspondant aux règles d exclusion de Pauli) et le terme en puissance 6 est le terme attractif à une distance moyenne (forces de dispersion de London, Keeson et Debye résultant de l induction et de l attraction de dipôles instantanés). Les paramètres e * ij et r * ij sont respectivement la profondeur du puits de potentiel et la valeur de la séparation correspondant au minimum énergétique (figure 24). Ces paramètres sont calculés à partir de mesures thermodynamiques (chaleur de vaporisation). Afin de diminuer la contribution des interactions de type 1-4 (j=i+3) qui sont déjà prises en el lj partie dans le terme E diédres, des facteurs d échelle égaux à f ij = 1/1,2 et f ij = 1/2, sont appliqués respectivement aux termes d interactions électrostatiques et Lennard-Jones. Ces facteurs sont égaux à 1 pour les autres paires d atomes. 57

58 Energie e ij * 0 r ij * séparation r ij figure 24 : Potentiel de Lennard-Jones. Définition des paramètres e ij * et r ij *. 58

59 VIII Minimisation Les programmes AMBER, LIGAND et GNMlig peuvent tous les trois minimiser la fonction d énergie du système. Le rôle de la minimisation dans les programmes de dynamique moléculaire est essentiellement de relaxer la structure initiale et d éliminer les mauvais contacts interatomiques. Ceci permet notamment d éviter les changements de conformation trop brusques dès le début d une dynamique. Les structures «minimisées» correspondent généralement au minimum local le plus proche de la structure de départ plutôt qu au minimum global d énergie. La minimisation correspond donc à la première étape d un protocole de dynamique moléculaire, elle peut être aussi utilisée en alternance avec les phases d équilibration (phases de dynamique sous contrainte) de façon à relaxer le solvant et à accélérer son équilibration autour du soluté. De même, la minimisation dans les programmes de mécanique moléculaire comme LIGAND et GNMlig permet de trouver le minimum d énergie potentielle dans le champ de force étudié et sous les contraintes imposées. Ces méthodes autorisent généralement des changements de conformation plus importants grâce à la réduction du nombre et de la nature des variables ou la simplification du champ de force. Les méthodes de minimisation sont basées sur le calcul des dérivées de la fonction d énergie et utilisent des processus itératifs : à partir de l énergie potentielle et du gradient, calculés pour un jeu de coordonnées, ces algorithmes génèrent un nouveau jeu de coordonnées correspondant à une énergie potentielle plus basse. Nous allons décrire les deux types de minimisations utilisées d une part dans le programme AMBER et d autre part dans LIGAND et GNMlig. VIII.1 Gradient simple et conjugué Les algorithmes de minimisation utilisés dans le programme AMBER sont les méthodes du gradient simple («steepest descent») et du gradient conjugué («conjugated gradients»). 59

60 Pour chaque pas de minimisation on détermine le nouveau jeu de positions des atomes r ( k +1) de l itération suivante (k+1) à partir des positions initiales des atomes r (k), de la direction de recherche s r (k) et de la valeur du déplacement α(k) en utilisant la relation : r r = r +α s ( k+1 ) ( k) ( k) ( k) Les deux méthodes diffèrent dans le choix du vecteur direction s r et dans leur vitesse de convergence. La méthode du gradient simple utilise une direction de recherche correspondant à l opposé de la valeur du gradient de l itération. r s( k) = g r ( k) r g( k) La recherche se fait donc en suivant la direction où la fonction d énergie potentielle décroît le plus. L incrément donné α(k) est ajusté de façon à suivre l évolution de l énergie (si l énergie diminue lors d une itération, la taille du pas est augmentée à l étape suivante, si elle se met à augmenter, le pas est alors diminué, faisant l hypothèse que l algorithme est en train d explorer «le versant opposé d une vallée énergétique»). Cette méthode est particulièrement efficace lorsqu on se trouve loin du minimum, par contre elle adopte généralement un comportement oscillatoire une fois le fond du puits de potentiel atteint et ne converge alors que très lentement. On l utilise donc comme première étape du processus de minimisation, en effectuant quelques centaines de cycles, pour éliminer les contacts stériques les plus importants. La seconde méthode dite du gradient conjugué converge rapidement lorsqu on se rapproche du minimum. À la première itération la direction de recherche est choisie comme précédemment, opposée au plus grand gradient. Par la suite, la direction de recherche s écrit comme une combinaison linéaire des directions du gradient de l étape k et de la direction de recherche de l étape précédente (k-1). r s r r = g + b s k ( k) ( k) ( k) ( 1) b avec ( k) r g = r g r g ( k) ( k) r ( ) ( ) k 1 g k 1 (Fletcher-Reeves) L incrément α(k) est choisi de façon à minimiser la fonction potentiel le long de la direction s r. 60

61 r r = +α r s ( k+1 ) ( k) ( k) ( k) L itération se termine lorsqu un critère de convergence est atteint. Ce critère peut être considéré comme atteint lorsque la moyenne quadratique des forces atomiques est plus petite qu une valeur choisie par l utilisateur, typiquement égale à 10-4 kcal.mol -1.Å -1, dans le cas du programme AMBER, ou lorsque la différence d énergie estimée pour le pas k+1 est plus petite qu une valeur seuil (typiquement de 10-4 kcal.mol -1 ), dans le cas du minimiseur VA13A utilisé dans le programme LIGAND. VIII.2 Quasi-Newton LIGAND est un programme qui minimise l énergie conformationnelle du système étudié avec un algorithme de minimisation de type gradient conjugué quasi-newtonien (Harwell VA13A) déjà utilisé dans le programme JUMNA pour les études sur l ADN [Cluzel, et al.; 1996, Lavery, et al.; 1995b, Lebrun & Lavery; 1996]. Alors que la procédure du gradient n utilise comme information que la pente, la méthode de Newton utilise la pente et la courbure (c est-à-dire la dérivée seconde de l énergie). Cette procédure est par conséquent optimale pour minimiser des fonctions quadratiques puisque celles-ci sont uniquement définies par ces deux quantités. Les nouvelles coordonnées sont alors données par l équation suivante : r r = α r s ( k+1 ) () k () k () k avec α(k) le pas d adaptation et s r la direction donnée par : r s = H 1 ( k ) r g ( k) ( k) où H -1 est l inverse de la matrice hessienne H du potentiel V avec [ H( k) ] ij V( k) = x x i j 61

62 Le hessien fait tourner le vecteur gradient de sorte que s r pointe vers la direction du minimum. La matrice hessienne n est pas calculée de façon analytique mais estimée en cours d algorithme. Les algorithmes de minimisation nécessitent un calcul analytique des dérivées premières de l énergie de conformation par rapport à toutes les variables indépendantes définissant le système étudié. On obtient ces dérivées en exprimant de façon analytique les forces atomiques (obtenues par dérivation de l énergie par rapport aux déplacements atomiques) et des moments des forces agissant sur chaque atome. Pour les programmes en coordonnées internes comme LIGAND, les dérivées par rapport aux coordonnées internes sont alors obtenues en combinant les forces sur les atomes contribuant à ces variables [Lavery, et al.; 1986a]. Sous l action de l ensemble des forces atomiques, les différentes parties de la molécule se déplacent les unes par rapport aux autres par translation et rotation. 62

63 IX Dynamique moléculaire Les simulations de dynamique moléculaire donnent la possibilité d observer le comportement d un système en fonction du temps. Elles permettent aussi d échantillonner un espace conformationnel important, inaccessible aux expériences de minimisation d énergie. En effet, l énergie totale du système se décompose en énergie potentielle décrite par le champ de force et en énergie cinétique liée à la température du système. L apport d énergie cinétique sous forme de température permet d exciter le système et de lui faire quitter le minimum local atteint au cours de la minimisation. Le système ayant accumulé suffisamment d énergie peut alors explorer l espace conformationnel et effectuer des transitions de conformations par sauts de barrières énergétiques successives. Nous avons donc utilisé les expériences de dynamique moléculaire afin d obtenir des structures stables et de basses énergies. Nous avons pour cela utilisé la version 7.0 [Case, et al.; 2002] du programme de dynamique moléculaire AMBER. IX.1 Résolution de l équation du mouvement En dynamique moléculaire, les configurations successives du système étudié sont générées grâce à la résolution des équations du mouvement de Newton. Il en résulte la trajectoire qui spécifie les positions (coordonnées cartésiennes) et les vitesses des atomes qui décrivent le système au cours du temps. La force F r i s appliquant sur l atome i est calculée en dérivant la fonction d énergie potentielle E p par rapport aux coordonnées cartésiennes de cet atome : r F i E p = r. i Pour chaque atome i de masse m i, la force F r i exercée par l ensemble du système sur cet atome vérifie l équation du mouvement de Newton : r F = i m i r d 2 i dt 2 L équation ci-dessus est un système d équations différentielles du deuxième ordre dont une solution discrétisée peut être obtenue à l aide d un développement de Taylor. A partir de la 63

64 connaissance des positions et de toutes leurs dérivées à l instant t, les positions à l instant (t± t), où t représente le pas d intégration, sont données par : r i r ( t ± t ) = r ( t ) i r ± t i t 2 2 () ( ) 3 3 t t ri t t ri () t + 2 r t 2 ± 6 r t 3 + O ( t Dans le cas du programme AMBER l algorithme choisi est l algorithme de Verlet [Verlet; 1967]. En additionnant les deux expressions (+ t et - t), on obtient la valeur des coordonnées à l instant t+ t en fonction de celles à l instant t- t et de celles à l instant t : 4 ) r i r ( t + t) = r ( t t) + 2r ( t) + t 2 ai( t) + O( t 4) i r i r Et en soustrayant les deux expressions (+ t et - t), on obtient la vitesse à l instant t : r r r vi () t r i = r ( t + t) ri ( t t) 2 t + O( Où vi() t et ai() t sont respectivement les composantes de la vitesse et de l accélération. t 2 ) On voit que pour déterminer la position de la particule à un temps (t+ t), il faut connaître ses deux positions précédentes et son accélération à l instant t. L initialisation de l algorithme passe par une attribution, à chaque atome, de vitesse aléatoire à l instant t 0 selon une distribution de Maxwell-Boltzmann à la température initiale souhaitée. La valeur de t doit être inférieure à celle de la période des mouvements les plus rapides du système et doit permettre de garder constante l énergie totale du système. L utilisation de l algorithme SHAKE [Ryckaert, et al.; 1977] permet d augmenter t en éliminant les oscillations les plus rapides associées aux liaisons chimiques, notamment de type X-H qui ont une période de l ordre de 10 fs. Cet algorithme s applique de façon itérative et permet de limiter les variations des longueurs de liaison dans la limite d un critère de convergence choisi. En appliquant cet algorithme aux liaisons X-H, il est généralement possible d employer un pas d intégration de 2fs. 64

65 IX.2 Ensemble NPT La définition d un protocole de simulation commence par la définition de l ensemble thermodynamique utilisé pour le système. Les trois ensembles thermodynamiques les plus communément utilisés dans les simulations de dynamique moléculaire sont : - l ensemble microcanonique (NVE), - l ensemble canonique (NVT), et - l ensemble isotherme-isobare (NPT) Selon l ensemble choisi, trois grandeurs thermodynamiques sont conservées, N le nombre de particules, V le volume, P la pression ou T la température du système. L ensemble canonique NVT est le plus simple à implémenter, même si l ensemble microcanonique NVE semble théoriquement le mieux adapté aux simulations de dynamique moléculaire puisque, par définition, l énergie totale du système doit être conservée au cours de la simulation. Cependant, des fluctuations ou de faibles dérives de l énergie totale du système sont souvent observées après quelques nanosecondes de simulation. Ces perturbations sont principalement causées par l accumulation d erreurs numériques au cours de l intégration des équations de Newton et par les approximations faites au cours du temps lors de la troncature des interactions non liées [Allen & Tildesley; 1987, Frenkel & Smit; 2002, Leach; 2001]. Du fait de sa simplicité d application nous avons effectué l étape de thermalisation (chauffage du système) ainsi qu une partie des étapes d équilibration sous contraintes dans l ensemble canonique (NVT). Par ailleurs, afin de contrôler les dérives de température et/ou de pression résultantes des erreurs de troncature des interactions à longue distance, nos simulations ont été effectuées dans l ensemble NPT. La température est définie par rapport aux vitesses atomiques suivant l équation suivante : N r2 m v i i i = 1 T = où N est le nombre d atome et k b la constante de Boltzmann. 3Nk b La méthode utilisée pour maintenir la température constante consiste à coupler le système à un réservoir externe de température [Berendsen, et al.; 1984]. Dans ce couplage à un bain 65

66 thermique, on modifie les équations du mouvement et on met en place une relaxation du premier ordre pour la température par rapport à sa valeur de référence T 0. On fait de même pour maintenir la pression constante où P est déterminée par l équation suivante : N N P = 1 mi v 2 i + i F 3 2 r r r V i 2 i= 1 i= 1 IX.3 Conditions périodiques Les molécules d eau sont additionnées autour de la protéine dans une boîte de forme polygonale. Par exemple, les boîtes octaédriques tronquées (figure 25) sont particulièrement bien adaptées pour les systèmes à géométrie sphérique comme les protéines mais aussi pour les solutés allongés (comme les fragments d ADN) si on ne souhaite pas bloquer leur rotation au sein de la cellule de simulation. (Elles permettent de minimiser le nombre de molécules d eau à rajouter par rapport à une boite sphérique.) On peut aussi ajouter des ions de manière aléatoire pour assurer l électroneutralité du système. figure 25 : boîte octaédrique tronquée Dans les simulations des macromolécules en solution, la taille finie du système pose des problèmes d effets de bords à l interface avec le vide environnant. Pour masquer les discontinuités aux frontières et simuler l aspect infini d une solution, on applique des conditions périodiques aux limites [Leach; 2001]. Le soluté et les contre-ions sont placés dans une boîte d eau qui est répliquée dans toutes les directions de l espace de manière à créer un système de dimension infinie. On construit ainsi un réseau cristallin dans lequel le comportement moléculaire est le même dans chaque maille. L application des conditions périodiques aux limites consiste alors à faire en sorte que, si une particule sort de la boîte 66

67 centrale par une face, son image dans la boîte adjacente y rentre par la face opposée. De même, lors du calcul des forces sur un atome, toutes les interactions avec les autres atomes situés dans les boîtes voisines sont prises en compte. Par contre, il faut s assurer que le soluté n interagit pas avec ses images dans les boîtes voisines. On introduit donc un critère de seuil (cutoff) au-delà duquel les interactions ne sont plus calculées. Ce seuil doit être au maximum égal à la moitié de la plus petite distance entre deux surfaces de la boîte. IX.4 Troncature LJ L approximation consistant à ne tenir compte que des interactions non-liées d un atome donné avec ses plus proches voisins situés dans une sphère, dont le rayon r c est appelé rayon de coupure permet de diminuer notablement le temps de calcul. Si le «rayon de coupure» est une approximation acceptable dans le cas du calcul des interactions de Lennard-Jones (puisque celles-ci décroissent très rapidement lorsque la distance augmente), il introduit, dans le cas des interactions électrostatiques, des discontinuités importantes dans le calcul des énergies et des forces, car le terme électrostatique ne diminue que linéairement en fonction de l inverse de la distance. Pour éviter de créer des brusques variations de forces dues au fait que le potentiel est discontinu pour r = r c on peut multiplier les termes d interactions non-liées par une fonction dite de «switch» ou ajouter au terme une fonction dite de «shift». Ceci évite les discontinuités mais ne résout pas le problème principal du calcul des interactions à longue distance. Une alternative à ce type d approche est l utilisation de la sommation d Ewald [Allen & Tildesley; 1987] qui consiste à traiter le système comme s il s agissait d un quasi-cristal et d effectuer des sommes par maille. Cette technique a été spécialement introduite pour calculer efficacement la somme des interactions électrostatiques entre les particules d'un système moléculaire dans des conditions périodiques aux bornes. Ewald a transformé le calcul de l'énergie électrostatique dans des conditions périodiques aux bornes (qui est une somme sur tous les couples d une fonction qui converge lentement) en la somme de trois termes : la somme directe qui est une somme sur l'espace réel, la somme réciproque (imaginaire ou de Fourier, effectuée dans l espace réciproque de la description de la maille) et la somme de correction (qui est une constante). L'algorithme PME «Particle Mesh Ewald» [Cheatham III, et al.; 1995] est une méthode efficace de calcul de la somme 67

68 d'ewald. Dans cette méthode, la somme directe est calculée en utilisant des coupures de l'espace réel. Par exemple, si, comme dans nos calculs, on utilise une stratégie de coupure sphérique (spherical cutoffs) avec un rayon r c, alors chaque particule n'interagit qu'avec les particules qui se trouvent à l'intérieur de la sphère de rayon r c, centrée sur cette particule. Quant à la somme réciproque, elle est approchée en utilisant une série de transformations rapides de Fourier (Fast Fourier Transforms) sur une grille où les charges sont interpolées aux points de la grille. La méthode PME permet un meilleur traitement de l électrostatique pour les interactions à longues distances que l utilisation d un simple rayon de coupure en évaluant efficacement la somme d Ewald, ce qui rend cette méthode particulièrement attractive dans le cadre des simulations de dynamique moléculaire de macromolécules en solution. IX.5 Protocole de dynamique moléculaire Les protocoles de simulation de dynamique moléculaire que nous avons utilisés suivent les étapes suivantes : Tout d abord, si la simulation est réalisée en présence de molécules d eau explicites, les molécules sont additionnées autour de la protéine dans une boîte octaédrique tronquée dont les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, des ions chlorure sont additionnés de manière aléatoire afin d'assurer l'électroneutralité du système. Après une première minimisation d'énergie, le système est chauffé de 100 K à 300 K en 10 ps en imposant des contraintes harmoniques sur les positions des atomes de la protéine, puis relaxé, toujours sous les mêmes contraintes pendant 90 ps. Ces contraintes sont ensuite progressivement relâchées au cours d'une série de cinq cycles de minimisation-équilibration (minimisation de 1000 pas suivi de 50 ps de dynamique moléculaire sous contrainte) en terminant par 50 ps de dynamique moléculaire sans contrainte. Enfin, on laisse le système évoluer pendant plusieurs nanosecondes. La longueur des liaisons dans lesquelles interviennent les atomes d'hydrogène est contrainte à l'aide de l'algorithme SHAKE [Ryckaert, et al.; 1977] et les interactions électrostatiques à longue portée sont traitées à l'aide de l'approche Particle Mesh Ewald avec une troncature du potentiel à 9 Å et le système est maintenu à pression et température constantes (1 bar et 300 K respectivement). 68

69 Si la simulation est réalisée en solvant implicite (voir ci-dessous), le système est simplifié car il n y a pas de molécules d eau à rajouter et le caractère infini est assuré par l utilisation d une fonction représentant les interactions avec le solvant. Le protocole utilisé est très similaire à celui des expériences en solvant explicite mais le nombre d atome plus réduit permet d augmenter le rayon de coupure à 15 Å. 69

70 X Représentation du solvant Les calculs de modélisation moléculaire et de dynamique moléculaire peuvent se réaliser pour des molécules placées dans le vide. Cependant, il est très intéressant de tenir compte des effets du solvant lors de l étude des molécules biologiques (notamment des protéines), ceux-ci jouant un rôle primordial dans la structuration de ces dernières (voir Chapitre 3). Il existe ainsi deux manières de tenir compte de ces effets, à savoir l utilisation de molécules d eau explicites ou l utilisation de fonctions énergétiques représentant les interactions avec le solvant. X.1 Solvant explicite On peut représenter le solvant (ici l eau) de manière explicite. Dans ce cas, chaque molécule d eau est modélisée. Modèle TIP3P Le modèle d eau que nous avons utilisé en dynamique moléculaire dans le programme AMBER est TIP3P [Jorgensen, et al.; 1983]. Ce modèle comprend trois atomes (un oxygène et deux hydrogènes) liés par trois liaisons (deux liaisons O-H de 0,957 Å et une pseudoliaison H-H de 1,514 Å) de constante de force de 553 kcal.mol -1. L oxygène est chargé négativement de 0,834 e (e est la charge élémentaire égale à 1, C) et les charges des hydrogènes sont de +0,417 e. L atténuation des interactions électrostatiques par le solvant est intrinsèque au modèle (ε = 1) ainsi que la polarisation. Limites du système Le nombre de molécule d eau à ajouter pour simuler un environnement aqueux est important et augmente avec la taille de la protéine. Il en résulte une augmentation considérable du nombre de variables du système et donc du temps de calcul. X.2 Solvant implicite : modèle de Born généralisé L utilisation d un solvant implicite est très utile pour étudier les systèmes de grande taille. En effet, ce traitement du solvant est plus rapide que les représentations explicites du solvant. 70

71 Le modèle de Born généralisé («Generalized Born», GB) traite le solvant comme un continuum diélectrique [Bashford & Case; 2000]. La contribution électrostatique à l énergie de solvatation est alors donnée par l équation suivante : E solv = 1 2 i, j 1 e κ f ε w GB qi q f GB j avec f GB r2 = + i j r2, i, j Ri Rjexp 4Ri Rj ε w est la constante diélectrique du solvant (la constante diélectrique de l eau est égale à 78,5). κ est une constante calculée d après le modèle de Debye-Hückel permettant de représenter l effet d un sel. Elle est égale à la constante de Debye-Hückel multipliée par 0,73 pour prendre en compte la surestimation de l effet du sel due au fait que rien n empêche les contres-ions d approcher très près du soluté. q i et q j sont les charges partielles des atomes i et j respectivement. f GB est une fonction telle que f GB R i quand r i,j 0. D autre part, cette fonction mime le calcul de l énergie de deux charges en interactions coulombiennes écrantées par Debye-Hückel lorsque les deux charges sont éloignées. r i,j est la distance entre les deux atomes i et j. R i et R j sont les rayons de Born des atomes i et j respectivement. Ces rayons de Born effectifs dépendent non seulement des rayons atomiques intrinsèques ρ i ou ρ j des deux atomes considérés mais aussi des rayons ρ k et des positions relatives r k des autres atomes par le biais d une fonction positive notée g. Ils sont calculés avec la méthode de Hawkins, Cramer et Truhlar [Hawkins, et al.; 1995, Hawkins, et al.; 1996] qui donne un rayon de Born plus grand que le rayon atomique. = g i k i k R 1 1 r r (,, ρ, ρ ) i ρi k i 71

72 Les paramètres utilisés sont ceux de Tsui et Case [Tsui & Case; 2000] qui ont montré que l ADN restait stable sur 12 ns de dynamique moléculaire avec l utilisation de ces paramètres. Ils ont aussi montré que pour les protéines cette modélisation du solvant permettait un gain important de temps par rapport à l utilisation d un solvant explicite tout en représentant raisonnablement des effets de solvant [Xia, et al.; 2002]. L avantage de ce modèle continu est de pouvoir limiter le nombre d atomes du système par rapport à l utilisation d un solvant explicite tout en tenant compte des effets électrostatiques du solvant. Pour une protéine d environ 2000 atomes, le remplacement du solvant explicite par l approche de Born généralisée représente ainsi un gain d environ 30% de temps de calcul (sans autres simplifications). 72

73 XI Coordonnées internes XI.1 Le système des coordonnées internes La façon canonique de décrire la structure tridimensionnelle d une molécule est de déterminer les 3N coordonnées cartésiennes x, y et z des N atomes qui la composent. Bien qu extrêmement simple, ce système de coordonnées présente l inconvénient d être irréductible et peu représentatif de la structure interne des systèmes macromoléculaires complexes. L autre base de coordonnées employée est l ensemble des coordonnées internes, c est-à-dire l ensemble des longueurs des liaisons covalentes, des angles de valence et des angles dièdres que les atomes forment entre eux. L utilisation de ce système de coordonnées présente au moins deux avantages par rapport au système cartésien : simple. La représentation des variabilités structurales des molécules étudiées est plus Les degrés de liberté les plus rigides (longueurs de liaison, certains angles de valence) peuvent être gelés (c est-à-dire que ces coordonnées peuvent être fixées à une valeur de référence). Le nombre de variables peut ainsi diminuer d un facteur dix. La surface de l énergie potentielle est alors moins accidentée, ce qui permet d améliorer la recherche de la conformation la plus stable (qui présente l énergie minimale). Le choix de geler les longueurs de liaison et certains angles de valence est justifié par le fait qu ils sont en général associés à des constantes de force élevées. Le programme LIGAND est un programme de minimisation d énergie dans lequel les molécules sont représentées en coordonnées internes. Ce programme a été développé à partir du programme JUMNA [Lavery, et al.; 1995], spécialement conçu au laboratoire pour la modélisation des acides nucléiques. Dans LIGAND, afin d accélérer la minimisation de l énergie du système, les longueurs de liaison restent constantes. De même les angles de valence des chaînes latérales sont fixés. Les variables décrivant le système se composent donc de tous les angles dièdres et des angles de valence de la chaîne principale. 73

74 Le cas des prolines est un cas particulier puisque ces acides aminés comportent un cycle flexible impliquant la chaîne principale et la chaîne latérale. Le cycle est artificiellement coupé et une contrainte de distance quadratique est appliquée pour le fermer [Lavery, et al.; 1986a]. Le système est alors correctement décrit avec un angle de valence et un angle dièdre indépendants sur la chaîne latérale. Le cycle est donc décrit par cinq variables indépendantes (un angle de valence et une torsion pour la chaîne latérale et deux angles de valence et une torsion des variables de la chaîne principale). Les deux angles de valence et les trois angles dièdres restants sont dépendants (figure 26). figure 26 : Les variables indépendantes et dépendantes d un cycle de proline. Les variables indépendantes sont en vert et les variables dépendantes en rouge. La liaison artificiellement coupée est représentée par un ressort. XI.2 Système d axe : le pivot Afin de pouvoir passer des coordonnées internes aux coordonnées cartésiennes ou de pouvoir placer plusieurs protéines les unes par rapport aux autres, un système d axes interne à chaque molécule est déterminé. Ce système est centré sur le carbone α (appelé pivot) d un des résidus de la molécule. Les vecteurs décrivant la base orthonormée de ce système sont : le vecteur normé de la liaison C α -N : u r = 1 C C α α N N 74

75 le vecteur issu du produit vectoriel normalisé entre le vecteur u r 1 et celui reliant le carbone α au carbone carbonyle adjacent (C α -C ) : u r 2 = u v 1 C C' α C C' α r v r le vecteur obtenu par le produit vectoriel des deux précédents : u3 = u1 u2 Ainsi, la position des atomes d une protéine est décrite via les coordonnées internes relativement aux autres atomes de la protéine et la position des protéines les unes par rapport aux autres est déterminée par la donnée des pivots et des repères associés. XI.3 Minimisation La minimisation utilisée par le programme LIGAND est une minimisation quasi-newtonienne (voir paragraphe VIII.2 page 61 ). XI.4 Champ de force et représentation du solvant Nous avons utilisé le champ de force AMBER décrit au paragraphe VII page 54. Dans la somme énergétique, le terme d énergie due au potentiel de déformation des liaisons covalentes n est pas calculé puisque les liaisons ne peuvent pas bouger et seuls les angles et les torsions des variables implicites non gelées rentrent dans la somme des deux termes angulaires. Les effets du solvant sont modélisés par le modèle GB (voir paragraphe X.2 page 70). Cette représentation continue du milieu environnant la protéine permet de prendre en compte les effets électrostatiques du solvant. Une représentation explicite du milieu aqueux (avec la donnée de toutes les molécules d eau autour de la protéine) n est en effet pas compatible avec une description du système en variables internes. XI.5 Préparation des données : le programme PCHEM PCHEM est un programme qui permet de préparer les données topologiques spécifiques aux protéines étudiées avec LIGAND. PCHEM définit la connectivité atomique, les types des atomes, leurs charges et leurs coordonnées. Ce programme définit aussi les variables internes décrivant le système. L utilisateur peut imposer de geler certaines variables internes en plus de celles habituellement gelées. Par exemple, on peut ne garder que les variables de la chaîne 75

76 principale en gelant les torsions des chaînes secondaires de la protéine étudiée. PCHEM décrit aussi les atomes qui bougent quand chaque angle interne varie. XI.6 Les différentes utilisations de LIGAND Le programme LIGAND est en continuelle évolution. Il a été initialement utilisé par Tap Ha Duong et Krystyna Zakzewska pour l étude des modes normaux de l ADN [Ha Duong & Zakrzewska; 1997]. Le champ de force utilisé était alors le champ de force FLEX développé par Richard Lavery et al. [Lavery, et al.; 1986b, Lavery, et al.; 1995]. Il a été aussi développé par Karine Bastard et Chantal Prévost afin de créer des boucles multi-copies pour l étude de l amarrage de macromolécules [Bastard, et al.; 2003]. Nous avons développé ce programme en y introduisant le champ de force AMBER et en y programmant des contraintes afin d étudier les propriétés mécaniques des protéines. XI.7 Limitation par la taille des protéines Dans la description du système que nous venons de présenter, chaque acide aminé est représenté par une moyenne de 9-10 variables (trois torsions et trois angles de valence pour la chaîne principale et en moyenne trois à quatre torsions pour les chaînes latérales). Pour une protéine d environ 100 résidus, le programme doit aussi gérer un peu plus de 1000 variables. Un cycle de minimisation prend dans ce cas environ 4 s sur un Athlon MP 2600 MHz avec le champ de force AMBER et la représentation du solvant par GB. Une minimisation en 225 cycles prend alors un quart d heure. Les temps de calcul sont limitants pour l étude des très gros systèmes et pour une étude systématique d un grand nombre de protéines. Une réponse à ce problème est de simplifier le système de manière encore plus drastique. 76

77 XII Modèle granulaire Il est possible d explorer les mouvements moléculaires des protéines autour de leur état d équilibre avec des simulations de mécaniques moléculaires, de dynamique moléculaire ou d analyse de modes normaux sur des systèmes décrivant tous les atomes de la molécule. Malheureusement, ces techniques sont très coûteuses pour de très grandes structures ou de gros complexes biomoléculaires et inapplicables aux structures à basse résolution où les coordonnées de l ensemble des atomes ne sont pas disponibles. Il faut donc simplifier les modèles utilisés pour décrire de tels systèmes. Le modèle granulaire est un modèle qui a fait ses preuves dans le domaine de la modélisation moléculaire que ce soit pour étudier des protéines [Doruker, et al.; 2002b, Tama, et al.; 2000, Tirion & ben-avraham; 1993, Xu, et al.; 2003] ou des ARN [Bahar & Jernigan; 1998]. XII.1 L origine du modèle granulaire Le modèle granulaire voit son origine dans la modélisation des polymères [Flory; 1969] où le monomère est représenté par un seul élément d une chaîne modèle. Ainsi un ensemble d angles de valence et d angles dièdres est remplacé par une seule jonction. Le but est alors de retrouver le comportement des polymères grâce à ce modèle. Nous utilisons un modèle granulaire dans le même but : faire des calculs dans des temps raisonnables sur de très grandes structures, ce qui serait impossible sans cette grande simplification de leur représentation. A la différence des études des polymères, les jonctions ne remplacent pas forcément un groupe de liaisons, mais peuvent également être définies entre deux éléments qui ne sont pas adjacents sur la chaîne polypeptidique. XII.2 Le modèle granulaire appliqué aux protéines La représentation des structures des protéines comme un réseau élastique est un modèle granulaire qui permet de prédire des fluctuations dynamiques des protéines autour de leur conformation native. Dans ce modèle, les carbones α sont remplacés par les nœuds du réseau élastique. Chaque nœud i est relié aux autres nœuds j qui se trouvent dans la sphère de centre i et de rayon r c, rayon limite (défini au préalable) (figure 27 et figure 28 d). Ceci ne tient pas compte des connectivités de la chaîne protéique mais uniquement des distances entre les 77

78 différents nœuds du réseau. Tous les ressorts possèdent la même constance de force γ qui est un paramètre ajustable par comparaison avec l expérience [Tirion; 1996]. Par définition, les ressorts sont considérés comme relaxés pour la conformation initiale, ce qui fait de cette conformation le minimum énergétique absolu. Cα r c γ figure 27 : Formation du modèle granulaire. Les ressorts (en rouge) sont formés entre carbones α (en jaune) séparés d une distance inférieure à r c sans tenir compte de la connectivité du brin polypeptidique (représentée par le trait noir sur le schéma de gauche). 78

79 a b c d figure 28 : Différentes représentations de la nucléase du staphylocoque. a : Tous les atomes sont représentés sauf les hydrogènes ; en bleu clair les carbones, en rouge les oxygènes, en bleu sombre les azotes et en jaune les souffres. b : Représentation de la «trace» de la protéine ; les carbones α adjacents sont reliés entre eux, tenant compte des connectivités de la chaîne protéique. c : Les carbones α sont représentés par des points. d : Réseau du modèle granulaire pour un r c de 8Å ; les traits noirs représentent les ressorts entre les différents nœuds du réseau. 79

80 XII.3 GNM : Gaussian Network Model Le programme GNM repose essentiellement sur la construction de la matrice de contact Γ de Kirchhoff. Ce programme est disponible sur le site d Ivet Bahar Pour une protéine de N résidus, cette matrice est une matrice symétrique de dimension NxN dont les éléments Γ ij hors de la diagonale sont égaux à 1 si i et j sont reliés par un ressort et nuls si i et j sont séparés par une distance plus grande que r c. Γ ii est l opposé de la somme des éléments non diagonaux de la ligne (ou de la colonne). Les équations suivantes résument la construction de la matrice : Γ ij = - h(r c -R ij ) pour i j et Γ ii = j i Γ ij La fonction h(x) est la fonction d Heaviside (h(x) = 1 si x 0 et nulle sinon). R ij est la distance entre le site i et le site j dans la conformation initiale de la protéine (voir figure 29 pour les notations). z R ij R i R i o R i i R j R ij R j o j R j y x figure 29 : Notations utilisés pour définir les positions des sites du réseau granulaire. 80

81 Ainsi, le terme diagonal Γ ii donne le nombre de résidus dans la sphère de centre i et de rayon r c, c est-à-dire le nombre de ressorts liés au site i. La corrélation entre le site i et le site j est alors donnée par la formule suivante : r < r [ ] ij B R k T i R 3 1 j > = Γ γ où γ est la valeur de la constante de force des ressorts et k B est la constante de Boltzmann, T est la température absolue, [Γ-1] ij est le ij ème élément de la matrice pseudo-inverse Γ. En effet, Γ a une valeur propre nulle et n est donc pas inversable. Son pseudo-inverse est calculé de la manière suivante : N 1 1 λ 1 [ T k kuk ] k= 1 Γ = u r r où les λ k sont les N-1 valeurs propres non nulles de Γ classées de la plus petite à la plus grande et les u r k sont les vecteurs propres associés. Le mode propre correspondant à λ 1 est celui qui est le plus coopératif, le plus global. Les modes globaux (correspondant aux petites valeurs propres) sont ceux qui sont en général impliqués dans les fonctions biologiques des protéines. On déduit des deux équations précédentes le calcul des fluctuations du résidu i en fonction des modes propres k de Γ : r < R N 1 2 > = 3kBT 1 [ T i γ λ k uk uk ] ii k= 1 r r XII.4 ANM : Anisotropic Network Model Contrairement au modèle GNM qui considère que toutes les fluctuations sont isotropes, le modèle ANM prend en compte l anisotropie de ces fluctuations. Ainsi, ce programme permet d obtenir les trois composantes des vecteurs R r i de fluctuations alors que GNM ne peut prédire que leur amplitude <( R r i ) 2 >. 81

82 82 L énergie potentielle de la structure construite à partir de N acides aminés dans le modèle ANM s écrit sous la forme gaussienne suivante : V = (γ/2) Σ i Σ j h(r c R ij ) (R ij R ij ) 2 Où la fonction h(x) est la fonction d Heaviside (h(x) = 1 si x 0 et nulle sinon). R ij est la distance entre les sites i et j de la structure initiale de la protéine, R ij est cette distance après fluctuation et r c la distance limite en dessous de laquelle deux sites sont reliés par un ressort. Ainsi, si deux sites i et j sont suffisamment proches, le ressort créé entre les deux sites contribue au potentiel de façon harmonique. Le potentiel peut aussi s écrire de la forme suivante : V = (1 / 2) R r T H R r R r est le vecteur de dimension 3N des fluctuations i R r des sites i (1 i N) et R r T est son vecteur transposé. H est la matrice hessienne composée des dérivées secondes de l énergie potentielle. H est donc une matrice de super éléments H ij de la forme : = H j i j i j i j i j i j i j i j i j i ij Z Z V Y Z V X Z V Z Y V Y Y V X Y V Z X V Y X V X X V où X i, Y i et Z i sont les coordonnées du vecteur position i R r du site i. On a d après la première expression de V : 2 ) )( ( ij i j i j i j j i R Y Y X X Y X V Y X V = = γ pour i j, et = i j ij i j i j i i R Y Y X X Y X V 2 ) )( ( γ

83 La corrélation entre les fluctuations du site i et celles du site j est donnée par l expression suivante : < R r i Rr j > = (1/Z) ( R r i R r j ) exp{-v/kt}d{ R r } = k B T tr [Η-1] ij où k B est la constante de Boltzmann, T est la température absolue, Z est la fonction de partition de configuration, et tr[η-1] ij est la trace de la ij ème sous-matrice [Η-1] ij de H -1. H -1 est la pseudo-inverse de H car les six premières valeurs propres sont nulles, correspondant aux trois translations et trois rotations globale de la molécule. < R r i R r j > peut être exprimé en fonction des contributions [ R r i R r j ] k des 3N-6 modes de fluctuations k. < R r i R r j > = Σ k [ R r i R r j ] k. avec r r r r [ Ri Rj] [ T k = kt tr λ 1 k uk uk ] ij où λ k est la k ème valeur propre non nulle de H et u r k le vecteur propre de dimension 1x3N correspondant. Les valeurs propres sont en général ordonnées de la plus petite à la plus grande après avoir éliminé les 6 valeurs propres nulles correspondant aux mouvements rigides du système (trois translations et trois rotations). Ainsi λ 1 est la valeur propre non nulle la plus petite et [ R r i R r j ] 1 est la corrélation entre le site i et le site j pour le mode propre correspondant. De même, [( R r i ) 2 ] 1 est la norme de la fluctuation du site i due au mode normal 1. XII.5 Applications XII.5.1 Facteurs de température Les programmes GNM et ANM permettent le calcul des valeurs moyennes des déplacements des résidus par l étude des modes normaux du système. Le seul paramètre indéfini est alors la constante de force des ressorts décrivant le système. Cette constante peut être déterminée à 83

84 posteriori en comparant les facteurs de température expérimentaux (répertoriés dans le fichier de la PDB) et les facteurs obtenus par le calcul. Les études sur plusieurs protéines montrent que les valeurs des constantes de force sont de l ordre de 1,0 ± 0,6 kcal.mol -1.Å -2 [Atilgan, et al.; 2001, Kundu, et al.; 2002]. D autre part, la concordance entre les valeurs théoriques des facteurs de température obtenues avec les méthodes GNM et ANM et les valeurs expérimentales est satisfaisante [Bahar, et al.; 1997]. Même si la corrélation n est pas excellente, en moyenne de 0,594 avec GNM sur une étude de 113 protéines [Kundu, et al.; 2002], elle peut atteindre une très bonne corrélation comme par exemple 0,831 pour la ferredoxine et 0,71 pour l hémoglobine [Xu, et al.; 2003]. Les écarts entre valeurs théoriques et valeurs expérimentales viennent en partie des interactions avec les protéines des mailles voisines du cristal qui influencent les valeurs expérimentales des facteurs de température. La prise en compte des protéines voisines dans le calcul de GNM permet alors d améliorer le modèle. D autre part, GNM rend compte en grande partie de l effet d empaquetage. En effet, d après Bertil Halle, les valeurs des facteurs de température dépendent essentiellement de l environnement de l atome [Halle; 2002]. Elles sont d après ses calculs étroitement corrélées avec l inverse de la densité de contact définie comme le nombre de voisins non covalents : moins un résidu est en contact avec des voisins, plus le facteur de température qui lui est associé est élevé. Ainsi, Halle propose un programme alternatif à GNM, LDM (Local density model), qui détermine les fluctuations moyennes atomiques par un calcul de densité locale. XII.5.2 Étude des modes normaux, graphes de corrélation On peut étudier les modes normaux les plus lents (ceux de valeurs propres les plus petites) et en déduire des mouvements globaux des protéines. Cette étude marche assez bien pour les mouvements impliquant l ouverture et la fermeture des enzymes. Pour chaque mode, la i ème coordonnée du vecteur propre de dimension N correspond à la valeur du vecteur sur le résidu i dans le cas des études avec GNM. Dans les études avec ANM, un vecteur propre est de dimension 3N et se décompose en N vecteurs de dimension 3 localisés sur chacun des résidus. On a donc trois valeurs par résidu correspondant aux coordonnées x, y, z des vecteurs projections. 84

85 Dans le cas de GNM, on peut colorer les résidus i de la structure de la protéine en fonction de la valeur de la coordonnée i du mode j : u ij. On peut alors visualiser les résidus qui bougent peu (petites valeurs absolues de u ij ) et les résidus qui bougent beaucoup. Deux résidus i et k dont les valeurs u ij et u kj sont de même signe bougent de manière corrélée suivant le mode j. Si les signes sont opposés, les deux résidus sont anticorrélés. tête Site de l ATP jointure bras de levier figure 30 : Représentation tubulaire de la myosine coloriée suivant la norme du quatrième vecteur non nul le plus lent. Les résidus pour lesquels la composante du quatrième vecteur a une norme faible sont en bleus. Les couleurs vont du bleu au rouge en passant par le vert suivant l ordre croissant des normes des vecteurs locaux. Avec le programme ANM, on retrouve cette information. Chaque vecteur propre de la matrice hessienne est la donnée des N vecteurs localisés sur les résidus se déplaçant selon ce mode. On peut donc représenter la structure de la protéine avec chaque résidu colorié suivant la norme du vecteur local associé (figure 30). Ceci permet de définir les régions qui bougent selon ce mode ainsi que les charnières (régions qui bougent peu). La figure 30 montre une 85

86 représentation tubulaire de la structure de la myosine II de la coquille Saint Jacques coloriée suivant les valeurs des normes des vecteurs locaux du quatrième vecteur propre non nul de l étude ANM. La gamme de couleurs va du bleu pour les normes les plus petites au rouge pour les normes les plus grandes en passant par le vert. Le quatrième vecteur propre est intéressant car les charnières, colorées en bleu, correspondent à la région enzymatique (site de l ATP (adénosine triphosphate) et à la région de jointure entre la tête de la myosine et le bras de levier. Chaîne principale Chaînes légères RES 360 Chaîne principale Chaînes légères figure 31 : Graphe de corrélation du quatrième vecteur propre le plus lent de la chaîne principale (835 résidus) et des deux chaînes légères (156 résidus chacune) de la myosine II de la coquille Saint Jacques. Les bandes blanches correspondent à la séparation entre les différentes chaînes. La couleur rouge correspond à un cosinus égal à 1, les deux résidus i et j sont donc corrélés, la couleur bleu correspond à un cosinus de 1, les résidus sont anticorrélés. A droite, représentation en ruban de la myosine avec les résidus coloriés suivant la ligne correspondant au résidu 360 du graphe de corrélation. En rouge, les résidus corrélés, qui se déplacent dans la même direction que le résidu 360 et en bleu, ceux qui déplacent dans le sens inverse. 86

87 On peut étudier les modes en représentant les flèches des vecteurs au niveau de chaque résidu. Cette méthode est assez convaincante lorsque la protéine est suffisamment petite mais la représentation peut très vite devenir trop chargée pour des grosses protéines. On peut alors visualiser les modes en faisant des graphes de corrélation. Le graphe de corrélation du vecteur propre de dimension 3N u r k est une représentation de la matrice C k de dimension NxN. L élément C k ij correspond au cosinus de l angle formé entre le vecteur localisé (composante de u r k ) sur le résidu i et le vecteur localisé sur le résidu j. La figure 31 donne un exemple d un tel graphe pour le quatrième vecteur propre le plus lent de la myosine. Le graphe de corrélation du quatrième vecteur de la myosine est assez facile à lire. On peut colorier la structure suivant les couleurs d une ligne du graphe et voir apparaître clairement les points charnières et les blocs corrélés correspondant au vecteur propre étudié. Certains graphes de corrélation ne sont pas aussi simples. En général, c est le cas lorsque les mouvements correspondent plutôt à des rotations qu à des translations. Par exemple, le cas du troisième vecteur le plus lent de la myosine est un mode où la tête effectue une rotation dans un sens alors que le bras de levier effectue une rotation dans le sens opposé. Si on crée un modèle avec deux axes de rotations, on obtient un graphe de corrélation très semblable, confirmant le mouvement de ce mode. La figure 32 représente le graphe de corrélation du mode 3, celui du modèle et une représentation avec les couleurs des résidus correspondant aux normes des vecteurs locaux du mode 3. Les deux axes de rotations sont représentés en rouge. 87

88 figure 32 : En haut à gauche, graphe de corrélation du troisième mode le plus lent de la myosine. En dessous, le graphe de corrélation d'un mode correspondant à deux rotations opposées. À droite, représentation de la structure coloriée suivant les normes du mode 3. Les deux axes de rotation sont représentés. XII.5.3 Description des ouvertures et des fermetures des sites enzymatiques L analyse des modes propres des structures fermées ou ouvertes de protéines qui subissent des changements conformationnels importants comme les sites enzymatiques permet d obtenir des renseignements sur les directions induisant ces changements de conformation. En général, les calculs sur les formes ouvertes donnent des résultats plus pertinents sur le changement de conformation et on trouve souvent qu un seul mode global suffit pour décrire le changement de conformation [Tama & Sanejouand; 2001]. Les sites enzymatiques se situent en général au niveau des charnières des modes propres les plus lents. Les résidus clefs lors des changements de conformation des sites enzymatiques doivent satisfaire aux contraintes suivantes : ils se trouvent au niveau du site actif ou sont 88

89 couplés avec celui-ci, ils doivent avoir une certaine liberté les uns par rapport aux autres pour permettre à la protéine de se couder à leur niveau et ils doivent être suffisamment empaquetés pour que les forces perturbant leur position ne soient pas localisées mais se propagent le long de la structure. C est le cas s ils sont localisés entre deux blocs relativement stables. C est en général le cas des résidus des régions contraintes des modes globaux, les régions dites charnières [Bahar & Jernigan; 1999]. Le calcul des modes normaux permet de localiser deux types de sites importants. Le premier groupe concerne les résidus importants dans la coordination des mouvements le long de la molécule. Ils correspondent aux minima de fluctuation des modes globaux et sont les sites charnières. Leur mutation influence la fonction de la protéine. Le deuxième groupe concerne les résidus couplés très fortement avec leurs voisins. Ils se trouvent en général dans des zones de haute densité et leur mutation influence la stabilité de la protéine. Ils correspondent aux maxima des mouvements de haute fréquence [Isin, et al.; 2002]. XII.6 Modification des modèles granulaires Un certain nombre d essais de simplification ou de sophistication des programmes GNM et ANM ont été testés. Nous avons par exemple essayé de modifier la représentation des ressorts pour mieux décrire le système. Si on fait dépendre la constante des ressorts en fonction de la distance initiale entre les sites (γ ij = γ.r α ij avec α égal à 1, 2, -1 ou 2), on ne change pas les résultats sur les modes propres les plus lents. Leur ordre peut subir quelques changements mais on retrouve les mêmes modes propres parmi les plus lents. Ceci donne deux informations. D une part, la hiérarchie fine des modes propres n a pas une très grande signification : le premier mode propre n est pas plus important que le troisième mais ces deux modes propres décrivent les mouvements collectifs lents de manière plus significative que le vingtième mode propre. D autre part, la description du système telle qu elle est faite dans GNM et ANM est très stable. On étudie le système proche de l équilibre dans des puits de potentiel harmonique et donc peu perturbé par des petites modifications. Il faut des perturbations très importantes pour que les résultats soient significativement différents. Par exemple, au lieu de construire un système où tous les ressorts ont la même constante, on construit un système où les constantes de ressorts prennent au choix une valeur γ 1 ou une valeur γ 2 =100γ 1. Si l attribution des valeurs de constantes (γ 1 ou γ 2 ) aux ressorts est 89

90 aléatoire alors les résultats de l étude des modes normaux seront très différents de l étude classique. Par contre, si la distribution prend en compte des critères géométriques ou structuraux du système étudié, les résultats obtenus seront semblables aux résultats d une étude avec une seule constante de force (voir Chapitre 6, page 121). On peut vouloir aussi simplifier encore plus la description du système. Un certain nombre d essais ont été faits où les sites ne représentent pas un acide aminé mais un groupe d acides aminés [Doruker, et al.; 2002a, Doruker, et al.; 2002b, Tama, et al.; 2000]. Ainsi, il est possible d obtenir les mouvements globaux en ne tenant compte que d un résidu sur 40 dans la construction du modèle granulaire de l hémagglutinine du virus influenza (qui comporte un total de 1509 acides aminés) (voir article Annexe 2). XII.7 Minimisation avec une représentation granulaire Le programme GNMlig est construit à partir des deux programmes LIGAND et ANM. Comme dans le programme ANM, ce programme utilise une représentation granulaire de la protéine. La protéine est représentée par des nœuds aux emplacements des carbones α reliés par des ressorts. La structure initiale est alors considérée comme celle d énergie la plus basse, le système de ressorts étant au repos. Le calcul de l énergie est celui du système de ressorts et les variables du programme sont les longueurs des ressorts. La minimisation est l algorithme de type gradient quasi-newtonien utilisé dans le programme LIGAND et les contraintes appliquées sur une molécule modélisée dans GNMlig sont les mêmes que dans LIGAND. Des études similaires sur les propriétés mécaniques des protéines peuvent ainsi se faire avec les deux programmes LIGAND et GNMlig. Seul le niveau de représentation est différent. Lorsque la représentation granulaire permet d obtenir les mêmes résultats que la représentation où tous les atomes sont modélisés, l utilisation de GNMlig pour une étude systématique des protéines est un gain de temps énorme. Elle permet en plus de réaliser des études sur de très grosses protéines, ce qui ne serait pas envisageable avec une représentation atomistique, telle qu implémentée dans LIGAND. 90

91 Chapitre 5 Des outils originaux pour comprendre les propriétés mécaniques des protéines 91

92 XIII Les contraintes mécaniques appliquées sur les protéines XIII.1 Introduction Une manière d étudier les propriétés mécaniques des protéines est d observer et analyser leur réaction à une contrainte mécanique imposée. Dans le domaine des expériences sur molécules uniques, la contrainte imposée est celle de l étirement [Smith, et al.; 2003] ou de la torsion entre deux points d attache [Bryant, et al.; 2003] de la macromolécule ou bien une contrainte due à un champ électrique [Washizu; 1990] ou un écoulement [Ladoux, et al.; 2001]. Dans le domaine de la modélisation, on peut reproduire ces contraintes mais aussi imaginer des contraintes qui sont encore impossibles à mettre en œuvre de façon expérimentale. XIII.1.1 Contraintes locales et globales Nous avons voulu caractériser des propriétés mécaniques des protéines en regardant leur comportement sous l application de contraintes locales et globales. Nous appelons contrainte locale une contrainte qui s applique sur un résidu (ou un petit groupe de résidus) particulier de la protéine. Cette approche consiste à contraindre le déplacement de ce résidu ou groupe de résidus par rapport à l ensemble des autres résidus et à rechercher la structure la plus stable réalisant cette contrainte. Une telle contrainte peut alors être appliquée successivement sur chacun des résidus. La réponse du système à ces contraintes successives peut ensuite être analysée à l aide de programmes adaptés. Une contrainte globale est une contrainte agissant sur l ensemble de la chaîne protéique. On analyse alors la réponse globale de la protéine à une telle contrainte. XIII.1.2 Principe d application L application d une contrainte au cours d une simulation de mécanique moléculaire consiste à rajouter un terme d énergie de pénalité au champ de force. Concrètement, un terme quadratique E pen autour d une position d équilibre est additionné à l énergie globale pour 92

93 permettre de favoriser une nouvelle position par rapport à une structure de référence, qui peut être la structure de départ ou toute autre structure par rapport à laquelle la structure initialement à l équilibre va s éloigner ou s approcher. Epen = k ( X X *) 2 X est une fonction calculée à partir de la positions des atomes, X * est la valeur de cette fonction que l on cherche à atteindre. k est une constante de force choisie pour que la contrainte soit satisfaite lors de la minimisation. Sur chaque atome, une force supplémentaire est appliquée égale à l opposé de la dérivée de l énergie de pénalité par rapport aux coordonnées de l atome. Il faut donc avoir pour chaque contrainte appliquée la valeur analytique de cette dérivée. Nous avons programmé plusieurs contraintes de ce type dans les programmes LIGAND et GNMlig et une des contraintes dans le programme AMBER. XIII.2 Contraintes globales : expériences de dépliement partiel Jusqu'à présent, la grande majorité des expériences et simulations de dépliement partiel sous contraintes mécaniques ont été réalisées en tirant sur des points particuliers de la protéine. Nous proposons des méthodes où le dépliement est induit sans imposer de direction. Seule la contrainte de distance est développée dans ce paragraphe car elle a été testée en mécanique moléculaire (avec LIGAND et GNMLig) et en dynamique moléculaire (avec AMBER). Les autres contraintes que nous avons programmées sont explicitées dans l annexe 1. XIII.2.1 Contrainte RMS de distance L'approche utilisée ici consiste à faire varier les distances entre les atomes constituant la chaîne principale (N, C α et C ) par rapport à leur valeurs dans une structure choisie comme référence. Une contrainte quadratique est utilisée pour faire augmenter une déviation quadratique moyenne (RMSD) calculée à partir des distances inter-atomiques et nommée RMS dist. 93

94 RMS dist = N N i= 1 j> i ( d ij N' d 0 ij ) 2 N représente le nombre d'atomes lourds (N, C α, C) de la chaîne principale et N' représente le nombre de paires uniques entre ces mêmes atomes (N =N(N-1)/2). d ij est la distance entre l atome i et l atome j et d 0 ij cette même distance dans la structure de référence. La contrainte rajoutée dans le champ de force s'exprime alors par l'équation suivante : E pen = k ( RMS RMS* ) 2 dist où RMS dist * est la valeur que l'on souhaite atteindre. L'expression des forces qui dérivent de ce potentiel est de la forme suivante pour le vecteur coordonnées r i de l'atome i: dist r F( i ) = de r dr pen i = ( RMS dist RMS 2k N' RMS ( d d ) dist * 0 ) ij ij r r ( i j dist j dij ) XIII.2.2 Variante ne prenant en compte que les carbones α On peut aussi appliquer la contrainte sur la RMSD de distances présentée dans le paragraphe précédent en réduisant les atomes concernés aux seuls carbones α. La somme est alors faite sur les N paires de carbones α. Cette contrainte modifiée permet ainsi de comparer les représentations granulaires à celles qui modélisent tous les atomes. XIII.2.3 Avantage de la contrainte Le fait d utiliser des distances plutôt que des coordonnées comme dans le calcul classique du RMSD utilisé par Gilquin et collaborateurs [Gilquin, et al.; 2000] évite d avoir à bloquer la rotation et la translation de la protéine au cours de la trajectoire, opération nécessaire pour le calcul du RMSD qui requiert une superposition des structures. Les autres contraintes que nous avons étudiées (voir Annexe 1) ont aussi cette caractéristique de ne pas dépendre d une superposition entre structures. 94

95 XIII.2.4 Expériences de dépliement partiel en dynamique moléculaire Nous avons programmé cette contrainte dans le programme AMBER afin d étudier le dépliement partiel en dynamique moléculaire. Nous allons décrire les protocoles d étude et présenter les résultats sur un exemple : la nucléase du staphylocoque, notée dans la suite SNase, et constituée de 149 acides aminés. Dynamique moléculaire sans contrainte Avant d étudier une dynamique sous contrainte RMS dist, nous avons tout d abord effectué deux simulations sans contraintes afin d obtenir des structures stables. La structure initiale est la structure cristallographique déterminée par Chen et al. (code 1EY0 dans la PDB) [Chen, et al.; 2000]. La première simulation a été réalisée en présence de molécules d'eau explicite (TIP3P). Les molécules d'eau (5655) sont additionnées autour de la protéine dans une boite octaédrique tronquée dont les bords sont situés à 10 Å de la surface de la protéine. Par ailleurs, 14 ions chlorures sont additionnés de manière aléatoire afin d'assurer l'électroneutralité du système, qui contient finalement atomes. Le protocole de minimisation utilisé est décrit dans le paragraphe IX.5 page 68. Une simulation de 4 ns a été réalisée. La seconde simulation utilise une représentation implicite du solvant modélisé par la modèle de Born Généralisé [Bashford & Case; 2000]. L'utilisation d'un modèle continu pour représenter le solvant permet de limiter le nombre d'atomes du système aux 2230 atomes de la protéine. Une concentration en sel de 0.1 mol.l -1 est prise en compte dans le paramètre κ du modèle. Le calcul des interactions à longue portée est tronqué à partir de 15 Å et SHAKE est de nouveau utilisé pour contraindre les liaisons impliquant des atomes d'hydrogène. Le protocole de chauffage et minimisation-équilibration utilisé pour cette seconde simulation est très similaire à celui utilisé pour la précédente en solvant explicite et le système est laissé évoluer pendant 4 ns à température constante (300 K). Les deux simulations de dynamique moléculaire dont nous venons de décrire le protocole ont été donc menées sur 4 ns. Après environ une nanoseconde de simulation, les changements observés correspondent à des oscillations autour d une structure stabilisée comme le montre les valeurs de RMSD des coordonnées d environ 1,4 Å par rapport à la structure cristallographique pour les atomes de la chaîne principale et 1,9 Å pour tous les atomes autres 95

96 que les hydrogènes pour la simulation en solvant explicite et respectivement de 2,6 Å et 3,6 Å en solvant implicite (figure 33). Si les deux états d'équilibre atteints restent relativement proches de la structure native, on constate que la déviation est supérieure pour la simulation réalisée à l'aide d'un solvant implicite. La différence majeure réside dans la conformation de la boucle composée des résidus 45 à 53 (partie de SNase présentant la flexibilité la plus grande de la protéine d'après plusieurs études [Ikura, et al.; 1997, Wang, et al.; 1997]), et les extrémités N et C-terminales. figure 33 : Évolution du RMSD (des atomes de la chaîne principale en plein, et de tous les atomes lourds en pointillés) calculé par rapport à la structure cristallographique le long des trajectoires dynamiques de SNase. Les lignes noires correspondent à la simulation utilisant une représentation explicite du solvant, les lignes grises à celle utilisant le modèle GB. Le comportement de la protéine au cours des deux simulations est différent en termes de fluctuations. Les fluctuations autour de la structure moyenne calculée sur les deux dernières nanosecondes de simulation sont en effet nettement plus importantes dans le cas de l'utilisation du solvant implicite que du solvant explicite (voir figure 34a et figure 34b). L'amplitude des mouvements moléculaires observés pour la simulation GB est en revanche du même ordre que les fluctuations observées en RMN (figure 34c). Au final, l'ensemble des structures pour les deux simulations sont superposables avec les structures expérimentales obtenues par cristallographie aux rayons X [Chen, et al.; 2000] et par RMN [Wang, et al.; 1997], à l'exception de la boucle Il semble par ailleurs que les structures issues de la dynamique en solvant explicite visitent un espace conformationnel intermédiaire aux 96

97 structures expérimentales, tandis que les structures issues de la dynamique en solvant implicite échantillonnent un espace différent au niveau de cette boucle. Cependant, mis à part cette boucle très flexible, les structures obtenues par dynamique moléculaire restent similaires aux structures expérimentales. Boucle a b c figure 34 : (a) Structures issues de la dynamique en solvant explicite superposées avec la structure moyenne de cette trajectoire; (b) Structures issues de la dynamique en solvant implicite superposées avec la structure moyenne de cette trajectoire; (c) Faisceau de structures issues de données RMN superposées (1JOR dans la PDB) avec la structure cristallographique (en vert) (1EY0 dans la PDB) et les structures moyennes issues des dynamiques en solvant implicite (en rouge) et explicite (en bleu). Dynamique moléculaire sous contrainte RMS dist Lors des simulations en dynamique moléculaire, nous utilisons une constante de force de 500 kcal.mol -1.Å -2 et la valeur de la RMS dist est augmentée par pas de 0,25 Å (solvant implicite) ou 0,5 Å (solvant implicite) toutes les 100 ps. Le dépliement a été mené jusqu à une valeur finale de RMS dist de 6,5 Å dans les deux cas. Les autres paramètres sont les mêmes que ceux utilisés au cours des dynamiques moléculaires sans contrainte. Une dynamique a été réalisée en présence de molécules de solvant explicite. Dans celle-ci, la structure de référence a été choisie comme la moyenne des structures de la dynamique sans 97

98 contrainte en solvant explicite entre 2 ns et 4 ns. La structure de départ est la dernière structure de cette même dynamique (soit après 4 ns de simulation). Une autre dynamique a été réalisée avec une représentation continue du solvant. La structure de référence est choisie comme la moyenne des structures de la dynamique sans contrainte en solvant continu entre 0.8 et 1.8 ns. La structure de départ est la structure issue de la même dynamique sans contrainte après 1.4 ns de simulation. Dépliement L'étude du dépliement se base sur un ensemble de structures calculées comme étant les moyennes des structures sur les dernières 50 ps pour chaque valeur de la contrainte imposée. Certaines de ces structures sont représentées schématiquement sur la figure 35 et la figure 36. (a) (b) (c) (d) boucle boucle figure 35 : Structures moyennes issues du chemin de dépliement de SNase en solvant explicite en fonction de la valeur de RMS dist imposée. (a) référence en solvant explicite ; (b) RMS dist = 2 Å ; (c) RMS dist = 4 Å ; (d) RMS dist = 6 Å. (a) (b) (c) (d) α1 α2 α3 figure 36 : Structures moyenne issues du chemin de dépliement de SNase en solvant implicite en fonction de la valeur de RMS dist imposée. (a) référence en solvant implicite ; (b) RMS dist = 2Å ; (c) RMS dist = 4 Å ; (d) RMS dist = 6 Å. 98

99 Lors de la simulation en solvant explicite, le dépliement commence par un mouvement de grande amplitude des boucles et dans des directions opposées. En fin de simulation (à partir de RMS dist = 4 Å), l hélice α1 commence à se plier au niveau de son extrémité N-terminale. Dans la simulation en solvant implicite, le dépliement débute par un déplacement de la boucle flexible constituée des résidus 45 à 53, jusqu'à une valeur de RMS dist égale à 2 Å, entraînant une scission de l'hélice α1 en deux parties. Le second évènement majeur observé consiste en un éloignement de deux blocs : l'un constitué de la boucle et de l'hélice α1, l'autre comprenant les résidus situés séquentiellement entre les hélices α2 et α3. Enfin, à partir de RMS dist = 6 Å, l'hélice C-terminale α3 commence à se débobiner par son extrémité C- terminale. On observe donc finalement des différences notables entre les deux simulations de dépliement partiel en solvant implicite et explicite. Diverses raisons pourraient expliquer ce résultat. Tout d abord, la présence des molécules de solvant dans l une des simulations peut induire des «contraintes» de mouvement par «friction», ce qui n a pas lieu dans la simulation utilisant le modèle GB. Les molécules d eau explicites peuvent également s insérer dans la structure protéique lors de son dépliement pour stabiliser des structures intermédiaires [Daggett & Levitt; 1992, Sundaralingam & Sekharudu; 1989]. D autre part, les différences structurales entre les structures de départ et de référence des deux simulations peuvent être la cause de modifications de la flexibilité de certaines parties de la protéine, entraînant un dépliement différent. On peut aussi penser que ces différences entre les deux chemins de dépliement sont la conséquence d une surface d énergie dite en entonnoir. Cette hypothèse considère qu au cours du dépliement, les états iso-énergétiques (possédant des structures différentes) accessibles à la protéine sont de plus en plus nombreux, conduisant à de nombreux chemins possibles équivalents du point de vue de l énergie que la protéine emprunterait suivant les conditions initiales dans lesquelles elle se trouve (voir Chapitre 3). Les structures issues de ces deux dynamiques moléculaires forment une base de données pour une étude du dépliement de SNase. On peut ainsi effectuer une étude des différents états 99

100 obtenus. Cette étude peut se faire grâce à des contraintes locales afin d étudier les propriétés mécaniques des états le long de la trajectoire de dépliement. XIII.3 Contraintes locales Nous allons présenter dans cette section la contrainte locale que nous avons utilisée pour étudier les propriétés mécaniques de la nucléase du Staphylocoque (voir l article présenté au Chapitre 7). Les autres contraintes locales que nous avons programmées et étudiées sont décrites dans l annexe 1. XIII.3.1 Contrainte sur la valeur moyenne des distances Le carbone α d un résidu i est déplacé globalement par rapport aux autres carbones α de la protéine en augmentant ou diminuant la valeur moyenne des distances entre cet atome et tous les autres carbones α de la molécule. La contrainte s exprime de la manière suivante : E pen d = k N j i 1, i, i * 3 1,, 1 ij dij + D N j i i i+ La force dérivant de ce potentiel s écrit pour la composante x i de l atome i : F( xi) = de dxi pen = 2k j i 1, i, i+ 1 dij N 3 j i 1, i, i+ 1 N 3 d 0 ij N 3 + D * j i x x i d ij j d ij est la distance entre l atome C αi et l atome C αj et N est le nombre de carbones α de la protéine, d 0 ij étant sa valeur dans la structure de référence. D * est la valeur souhaitée de la différence entre la distance moyenne calculée avec la structure de référence et la distance moyenne calculée avec la structure étudiée. La moyenne des distances se fait en éliminant les résidus adjacents au carbone α étudié. En effet, ces distances varient peu puisqu elles résultent de la liaison peptidique, d une liaison C-C et d une liaison N-C. Leurs valeurs se trouvent entre 3,73 et 3,87Å. La somme s effectue donc sur N-3 distances entre le carbone α du résidu i et les N-3 autres carbones α n étant pas adjacent à ce dernier. 100

101 XIII.3.2 Pourquoi cette contrainte? L idée est de pouvoir sonder la résistance mécanique de chacun des N résidus. Pour cela, il faut pouvoir les pousser ou tirer par rapport à quelque chose. Une première approche serait de tester toutes les paires de résidus (i,j) en prenant comme points d attache (par analogie aux expériences sur molécules uniques) les résidus i et j. Le désavantage de cette approche est que le nombre d expérience à réaliser pour tester toutes les paires d atomes est de l ordre de N 2 et que l analyse des résultats pour en déduire une propriété locale de déformation d un des résidus serait difficile. Plusieurs façons de déplacer un résidu par rapport au reste de la protéine ont été envisagées : le déplacer par rapport au centre de masse, par rapport aux axes principaux de la protéine ou par rapport à des axes définis localement (ces contraintes sont décrites dans l annexe 1). L ordre de grandeur du nombre d expérience est alors de l ordre de N. Cependant, les résultats obtenus sont difficilement interprétables en terme de résistance locale. En effet, la contrainte qui consiste à étirer la distance centre de masse-résidu sondé est satisfaite en bougeant le résidu mais aussi en bougeant le centre de masse. La réponse d une protéine dont une région est très flexible (comme une extrémité ou une boucle flexible) est alors systématiquement un mouvement de la région flexible. Nous avons observé la même sensibilité des axes principaux aux petits déplacements des extrémités. Les axes définis localement ont l avantage d être plus stables par rapport au mouvement d une extrémité mais l expérience n est plus la même pour tous les résidus. La contrainte sur la moyenne des distances d un résidu par rapport aux autres permet N expériences similaires donnant des informations sur la facilité ou la difficulté à déformer la structure et sur la direction offrant le moins de résistance à ce type de contrainte. XIII.3.3 Calcul des constantes de force de déplacement par résidu Lorsqu on applique une contrainte locale sur un résidu, on contraint une fonction X à la valeur X *. Le système s adapte de manière à satisfaire cette contrainte. On peut donc obtenir un graphe E=f(X) où E représente la différence d énergie potentielle du système sous la contrainte moins celle du système à l équilibre et X la valeur de la fonction atteinte. Si les valeurs X * ne sont pas trop grandes, la courbe f(x) peut être modélisée par une fonction quadratique de type E = k X 2 + bx + c. À chaque résidu correspond donc une constante de 101

102 force k caractérisant la difficulté (k grand) ou la facilité (k petit) du système à réagir à la contrainte. Dans le cas de la contrainte sur la moyenne des distances D, D est égal à D-D 0 où D 0 est la valeur de la moyenne des distances de la structure au repos. On a alors E = k D 2 + b D + c avec b et c très petits devant k D et k D 2. La figure 37 donne un exemple de la modélisation des variations d énergie en fonction de D par une fonction polynomiale d ordre 2 dans le cas de l étude du résidu 4 d une hélice α constituée de 13 alanines. De ce graphe, on en déduit la valeur de la constante de force k en nn.å -1 qu on peut reporter sur un histogramme (figure 38). (N.B. 0,07 nn.å -1 1 kcal.mol -1.Å -2 ) E (kcal.mol -1 ) D (Å) figure 37 : Modélisation quadratique de la courbe E=f( D) pour le résidu 4 d'une hélice α de 13 alanines. Les points sont les valeurs obtenues par l application des contraintes sur D. figure 38 : Diagramme des constantes de forces en fonction du numéro du résidu pour une hélice α de 13 alanines. 102

103 L histogramme des constantes de forces en fonction des résidus pour une hélice α de 13 alanines est reporté sur la figure 38. Les constantes de force sont plus importantes au centre de l'hélice que sur les bords. On retrouve ainsi que la rigidité d une hélice est supérieure en son milieu. a b figure 39 : Déplacements des atomes dans une hélice α de 13 alanines lors d'une contrainte sur un des résidus. Le résidu sondé est indiqué par une flèche. Les flèches sur les résidus représentent les déplacements des Cα pour un D de 0,2 Å amplifiés d un facteur 10 afin d être visibles. Les vecteurs r i j représentés dans la figure 39 correspondent aux vecteurs déplacement du carbone α j de la structure obtenue pour une valeur de contrainte donnée D* par rapport à la structure initiale après avoir superposé les deux structures lors d un sondage de l atome i. Pour les hélices isolées, quel que soit l'atome i sondé, ce sont les résidus situés aux extrémités de l'hélice qui se déplacent le plus pour satisfaire la contrainte. Cependant, la direction et l'amplitude des déplacements sont différentes selon l'atome sondé : lorsque la contrainte est appliquée à un des résidus extrêmes, la déformation induite correspond à une légère élongation de l'hélice (figure 39 a); en revanche, lors de la sollicitation d'un résidu central, la déformation aboutit à la formation d'un coude (figure 39 b) avec formation d'un tour d'hélice

104 XIV Domaines structuraux et mécaniques Une autre approche de l étude des propriétés mécaniques des protéines est de partitionner la protéine étudiée en domaines, et notamment d identifier des domaines rigides qui bougent les uns par rapport aux autres. Ainsi, la connaissance de tels domaines permet de comprendre certaines relations entre structure et fonction, de déterminer les charnières liant deux domaines pivotant l un par rapport à l autre ou glissant l un sur l autre. Nous avons déjà vu dans le chapitre sur le repliement des protéines que certains domaines comme le cœur hydrophobe des protéines avaient une importance dans le processus de repliement. La division en domaines est aussi utile lors de l étude expérimentale ou théorique du repliement de très grosses protéines. En effet, les différents domaines de ces dernières sont alors étudiés séparément. Il y a un grand nombre de façon de définir un domaine dans une protéine : en se basant sur des alignement de séquence, sur les études de repliements, sur des alignements de structure Ainsi, un domaine est défini comme une unité compacte et semi-indépendante [Richardson; 1981] ou bien une unité stable de la structure qui peut se replier indépendamment du reste de la protéine [Wetlaufer; 1973], ou encore une unité conservée au cours de l évolution [Bork; 1992]. Nous avons développé deux programmes définissant des domaines. L un est basé sur l étude des matrices de différences de distance calculées à partir de la comparaison de la structure 3D de différentes conformation d une protéine. L autre utilise les données obtenues lors d expériences de mécanique moléculaire sous contrainte. Certains auteurs [Hinsen, et al.;1999] font la différence entre domaines structuraux, les domaines compactes reliés par peu d éléments structuraux, et domaines dynamiques, ceux issus de la comparaison entre plusieurs structures à des états dynamiques différents. Nous ne ferons pas cette différence de vocabulaire dans cette thèse et appèleront domaines structuraux les domaines issus de la comparaison entre structures et domaines mécaniques, ceux issus d une étude mécanique. Avant de rentrer plus en détail sur la méthodologie que nous avons mise au point, nous allons présenter les principales méthodes de regroupement et de classification automatique (pour une présentation plus détaillée voir [Diday, et al.; 1982]). 104

105 XIV.1 Classification automatique Classifier, c est regrouper entre eux des objets similaires selon un critère déterminé. Le critère peut être simple ou multiple, numérique ou catégoriel, brut ou transformé, etc les choix possibles sont pratiquement illimités. Par construction, les objets ainsi réunis tendent à former des classes homogènes [Chandon & Pinson; 1981]. Les diverses techniques statistiques de classification (ou d «analyse typologique», de «taxonomie» ou «taximonie», de «clusterisation» ou encore d «analyse en clusters» (amas)) visent à répartir n individus caractérisés par p caractères (ou variables) en m sousgroupes. Pour cela, il faut tout d abord définir un indice de dissimilarité (ou, inversement de proximité) entre les paires d individus puis convenir d une règle permettant de décider si deux individus appartiennent au même groupe. On distingue deux grandes familles de classification : la classification non hiérarchique, ou partition, décomposant l ensemble en m sous-ensembles disjoints (ou classes d équivalence) et la classification hiérarchique où l appartenance de deux individus au même groupe dépend du seuil discriminant (ou niveau de précision regardé). Cette dernière famille peut se représenter par une architecture de type arbres de classification ou dendrogramme. La figure 40 donne des illustrations des différentes définitions de structures classificatoires. distance a b c d e f a b c d e f partition hiérarchie arbre a b c d e f figure 40 : Types de structure classificatoire pour un ensemble I={a,b,c,d,e,f} et représentation en arbre de classification de la hiérarchie basée sur la distance euclidienne. 105

106 XIV.1.1 Indice de dissimilarité L indice de dissimilarité (ou score de dissimilarité) δ ij entre toutes les paires (i,j) d individus doit satisfaire les conditions suivantes : positivité : δ ij 0, symétrie : δ ij =δ ji et δ ii = 0. Si en plus, pour tout i,j,k δ ij δ ik +δ kj (on dit alors qu il satisfait l inégalité triangulaire), l indice est une distance ou distance métrique. Pour des variables quantitatives, un grand nombre de distances peuvent êtres calculées : distance euclidienne (racine carré de la somme des carrés des différences), distance de Chebychev (maximum des différences), XIV.1.2 Constitution des groupes Etant donné un ensemble d ij de distances entre individus, il s agit de construire une partition dont les m classes ou groupes sont aussi homogènes que possible. La classification hiérarchique ascendante est la plus utilisée en pratique car elle est relativement simple à programmer. Elle consiste à regrouper les deux individus les plus proches, et à réitérer le processus jusqu au regroupement complet. L algorithme aboutit à un arbre de classification. L échelle verticale est la distance D(A,B) à laquelle les groupes A et B sont réunis. Différentes distances peuvent être utilisées : La méthode de saut minimal consiste à prendre D(A,B) = min(d ij, (i,j) AxB), celle de saut maximal consiste à prendre D(A,B) = max(d ij, (i,j) AxB). A partir d un nuage étiré de n points, l algorithme du saut minimal tend à ajouter les individus un à un au «cluster» déjà formé (chaînage), tandis que l algorithme du saut maximal tendra à grouper des sous-clusters de taille similaire. D autres méthodes forment des compromis comme la moyenne des distances entre les deux amas, la distance entre les centres de masse des deux amas ou la méthode de Ward [Ward; 1963] qui est basée sur la minimisation de la perte d information due au regroupement L indice d agrégation D(A,B) induit une distance D ij entre individus, qui est définie comme le niveau d agrégation minimal où i et j ont été réunis dans un même groupe. Une fois l arbre de classification construit, on choisit un nombre final m de groupes ou une hauteur de coupe dans le dendrogramme pour obtenir une classification en différents sousgroupes. 106

107 La classification hiérarchique est une analyse de données à caractère hautement heuristique. C est pourquoi le choix des options (choix des seuils, des distances, des critères) sera différent suivant les informations que l on veut faire apparaître et les classifications obtenues ne sont pas uniques. Des méthodes non hiérarchiques sont aussi utilisées. L algorithme de Jarvis-Patrick [Jarvis & Patrick; 1973] regroupe les individus avec une approche de «plus proche voisin». La méthode détermine les P plus proches voisins pour chaque individu selon une distance métrique. Deux individus appartiennent au même groupe s ils ont en commun au moins N plus proches voisins. Cette méthode a l avantage de pouvoir être utilisée pour un grand nombre d individus. Le nombre de sous-groupes produits dépend du choix des valeurs de P et N. De grandes valeurs de P rallongent les temps de calcul mais permettent la formation de peu de groupes de taille importante. De petites valeurs de N donnent des groupes plus compacts et de grandes valeurs des groupes plus dispersés. L algorithme de type «Nuées Dynamiques» (K-Means) [Diday, et al.; 1982] impose le nombre m de groupes formés. m individus (noyaux) sont choisis (en général aléatoirement) et les autres individus sont regroupés avec le noyau le plus proche de façon à construire m groupes initiaux. Les centres des groupes sont alors déterminés et les individus sont regroupés avec le plus proche des centres. De nouveaux centres sont alors déterminés et le processus continue jusqu à ce que plus aucun individu ne change de groupe. Les résultats issus d un algorithme des Nuées Dynamiques dépend du choix initial des noyaux et il peut être préférable de sélectionner les individus les plus représentatifs plutôt qu un choix aléatoire. Un grand nombre d autres algorithmes existent pour partitionner un groupe [Diday, et al.; 1982] et le choix d un algorithme se fait en général de façon empirique afin d obtenir des résultats qui répondent aux attentes de l analyse souhaitée. Maintenant que nous avons donné les définitions mathématiques relatives aux classifications, nous allons présenter des algorithmes utilisés pour comparer deux structures entre elles, pour classer les protéines et définir des domaines. Nous ne ferons pas de liste exhaustive mais nous donnerons juste quelques exemples pour situer les algorithmes que nous avons mis au point et montrer l originalité de notre détermination de domaines mécaniques. 107

108 XIV.2 Comparer deux structures La détermination de différents domaines au sein d une protéine peut se faire soit en effectuant une comparaison avec d autres structures protéiques ou séquences, soit en étudiant les propriétés intrinsèques de cette protéine. La comparaison entre structures permet de classer les structures entre elles et d identifier les domaines structuraux. XIV.2.1 Comparaison de deux structures L approche la plus directe pour comparer deux structures est d effectuer une superposition de type corps rigide sur un certain nombre de points caractérisant une structure sur ceux caractérisant l autre. Ceci n a de sens que pour des structures similaires et ne permet pas de détecter des similarités locales pour des structures ne partageant que des sous-structures. Dans ce cas-là, il faut tout d abord couper les structures en fragments que l on compare séparément. De plus, cette approche nécessite de définir au préalable une série de positions équivalentes entre les deux structures (avec, par exemple, un alignement séquentiel). Une fois les structures superposées, il faut pouvoir évaluer la superposition. On reporte en général la valeur du RMSD (root mean square deviation) comme mesure de la similarité entre les structures. C est la norme euclidienne des vecteurs distance entre les deux séries : RMSD= N 2 1 r r A( i) B( i) N i= 1 r Dans cette équation, N est le nombre de sites comparés et A (i) r site i dans la structure A ( B (i) respectivement pour la structure B). est le vecteur coordonnées du Afin de pouvoir comparer des structures suffisamment éloignées, d autres critères ont été proposés donnant plus de poids aux sites les mieux alignés [Levitt & Gerstein; 1998] ou en utilisant une norme infinie L [Lesk; 1998]. Un autre calcul de déviation quadratique moyenne peut être effectué, ne nécessitant pas de superposition préalable : la moyenne euclidienne de la différence entre les distances issues des matrices de distance des structures (que l on peut noter drmsd). 108

109 drmsd= N ( d ( i, j) d ( i, j ) 2 1 ( 2 N N ) N 1) A B i= 1 j= i+ 1 où d A (i,j) est la distance entre les sites i et j dans la structure A et N le nombre de sites comparés. La matrice des d A (i,j) est appelée matrice de distances et regroupe les distances entre les sites i et j d une même structure A. Tout comme les calculs de RMSD, les méthodes de comparaison de matrices de distance posent des problèmes de choix d indice (ou score) de similarités. Lors de la comparaison de deux paires d atomes, les scores de similarité peuvent être définis comme S1 [Taylor & Orengo; 1989] ou S2 [Holm & Sander; 1993] donnés par les formules suivantes : S 1 et ( ) ( < 2 2= exp D> ) = D a + b S a < D D > avec D la différence entre les deux distances intramoléculaires, <D> sa valeur moyenne sur l ensemble des paires, a et b des constantes prises arbitrairement. (Une revue de Koehl donne d autres références de définitions de scores [Koehl; 2001]). Le problème du choix de la méthode de comparaison et de la façon d évaluer les similarités entre plusieurs structures est important surtout lorsqu on veut comparer une structure de façon systématique aux structures d une banque de données. On pourra aussi se reporter à la revue de Godzik [Godzik; 1996] qui discute des différentes méthodes de comparaison. XIV.2.2 Classification des protéines par comparaison Il existe plusieurs projets de classification hiérarchique des structures de la Protein Data Bank [Berman, et al.; 2000]. On peut citer, parmi les projets les plus couramment utilisés : FSSP (Fold Classification based on Structure-Structure Assignments, [Holm & Sander; 1997], CATH protein structure classification (Class Architecture Topology Homologous superfamily, [Pearl, et al.; 2003], SCOP (Structural Classification of Proteins, [Hubbard, et al.; 1997] et 3Dee ( [Siddiqui, et al.; 2001]. Ces classifications sont construites avec différentes méthodes. Alors que CATH et 3Dee sont validés et que b 109

110 SCOP est basé en grande partie sur le jugement d experts humains, FSSP utilise un algorithme de comparaison entièrement automatique : DALI. L algorithme DALI DALI utilise la comparaison des matrices de distances entre carbones α pour aligner deux structures tridimensionnelles [Holm & Sander; 1993]. Ces matrices sont des représentations 2D de la structure 3D et contiennent tout l information nécessaire pour pouvoir reconstruire la structure 3D, à l exception du choix entre deux molécules énantiomères. Holm et Sander ont ainsi défini un algorithme permettant de superposer au mieux les différents domaines des deux protéines comparées. L algorithme permet par exemple de superposer deux structures de feuillets β n'ayant pas la même connectivité en réordonnant les matrices de façon à faire apparaître les sous-domaines superposables. Cette méthode est automatisée et permet d identifier les ressemblances structurales et les cœurs structuraux communs à différentes protéines. En 1993 une classification des structures est établie suite à la comparaison de 200 protéines représentatives. Depuis, on peut comparer une structure avec une autre ou avec les structures issues de la PDB sur le site Il est à noter que cet algorithme ne nécessite pas d alignement séquentiel préalable des deux structures. Des méthodes originales pour classer les différentes structures Quelques autres méthodes ne nécessitant pas d alignement préalable de la séquence primaire, ni d approche classique de RMSD ou d étude de matrices de distance, permettent de classer les structures des protéines. PRIDE (Probability of Identity) est un programme qui compare deux structures et définit une distance notée PRIDE basée sur la moyenne des probabilités d identité entre les distributions statistiques des distances locales [Carugo & Pongor; 2002]. Pour chacune des structures comparées, 28 histogrammes sont construits donnant le pourcentage des longueurs représentées entre deux carbones Cα séparés de n acides aminés (n valant 3 à 30). Une probabilité d identité est calculée pour chacune des 28 paires d histogrammes et le score PRIDE est la moyenne des probabilités d identité. Ainsi, PRIDE=1 correspond à une ressemblance totale et les petites valeurs de PRIDE correspondent à la comparaison de structures très différentes. Le programme PRIDE classe les structures qui se ressemblent dans le même ordre que les valeurs de RMSD et il permet de retrouver de façon très satisfaisante 110

111 les classes de CATH (même pour des structures très éloignées) sans avoir recours à un alignement structural ou à une détermination de structures secondaires. Le programme MINAREA (Minimal Area : Minimal surface metric) est basé sur la minimisation de la surface délimitée par les deux courbes (affines par morceaux) reliant les carbones Cα des protéines comparées [Falicov & Cohen; 1996]. Cette surface est constituée de petits triangles ayant pour sommets deux carbones α d une des structures comparées et un carbone α de l autre structure. Les triangles consécutifs forment une surface qui est minimisée par translation et rotation des deux structures l une par rapport à l autre. Le choix des triangles est optimisé pour que la surface formée soit la plus petite possible. Le score de similarité est donné par la valeur de la surface divisée par la longueur moyenne des deux courbes et est ainsi très faible lorsque les structures sont similaires et plus grand lorsque les structures sont différentes. Il n y a pas besoin d aligner la séquence primaire les protéines et ces dernières n ont pas besoin d avoir le même nombre de résidus. Au contraire, cette méthode permet de proposer un alignement et de montrer des ajouts ou délétions de séquences. SGM (Scaled Gauss metric) est une mesure topologique qui permet de classifier les structures des protéines [Rogen & Fain; 2003]. La topologie d une protéine est décrite par 30 nombres et permet de regrouper les structures dans un espace à 30 dimensions. Cet algorithme rapide permet de retrouver plus de 96% des domaines de CATH et n utilise qu un seul paramètre ajustable. Il permet ainsi de s affranchir des inconvénients des méthodes nécessitant un calcul de RMSD : exigence d un alignement de séquence, introduction de plusieurs paramètres (paramètres de pénalité, poids de similarité ) et violation de l inégalité triangulaire. XIV.3 Identifier des domaines rigides à partir de deux structures distinctes Nous venons de voir comment les structures étaient classées entre elles. Nous allons maintenant aborder la question de l identification de domaines grâce à la comparaison de structures. 111

112 XIV.3.1 Utilisation de superposition entre structures Un exemple d algorithme déterminant des domaines par superposition de structure est l algorithme de Wriggers et Schulten [Wriggers & Schulten; 1997]. Cet algorithme «Hingefind», disponible sur la page ftp://ftp.ks.uiuc.edu/pub/hingefind/hingefind.html, permet d identifier et de visualiser les mouvements des domaines rigides autour des charnières. Hingefind exige que les deux structures soient alignées et que seuls les sites communs soient gardés. Seuls les carbones α sont pris en compte pour décrire les résidus. L approche utilisée consiste à superposer un sous-ensemble de Cα avec le méthode «Kabsch N r r r least-squares» qui minimise la somme si ( A' ( i) B( i)) 2 où A '( i) désigne la coordonnée i= 1 r du résidu i après une transformation de type corps rigide sur la structure A et B (i) la coordonnée du résidu i dans la structure B. s i est égal à 1 si le carbone α du résidu i appartient au sous-ensemble et nul sinon. Pour la première étape, le sous-ensemble choisi est tel que r r ( i) ( i) A B < ρ avec ρ=15å. Ce sous-ensemble est superposé entre les deux structures, et la norme δ r '( i) r ( i) calculée pour tous les résidus. Sont alors retirés du sous-ensemble tous les résidus tels que δ i > ε et sont ajoutés au sous-ensemble tous les résidus tels que δ i < ε. ε est une fraction du RMSD initial entre les deux structures. Sa valeur est typiquement fixée entre 60% et 80% du RMSD initial. Une superposition est de nouveau effectuée avec ce nouveau sous-ensemble. Lorsque le processus converge, on estime que le domaine obtenu est un domaine rigide. On réitère alors l algorithme en ne tenant plus compte des résidus composant ce domaine. i = r A r B est XIV.3.2 Utilisation de matrice de distances Les matrices de distances sont une bonne alternative aux superpositions pour la comparaison de deux structures et l identification de domaines structuraux. Leur construction nécessite que les séquences des deux structures comparées soient au préalable séquentiellement alignées pour avoir le même nombre de carbones α à comparer. 112

113 La première étape consiste à construire la matrice de distance des valeurs absolues des différences (entre deux structures) des distances entre les carbones α des résidus i et j. Les éléments ij de cette matrice sont définis de la façon suivante : ij = da(i,j)-db(i,j) avec da(i,j) la distance entre les résidus i et j dans la structure A et db(i,j) la distance entre ces mêmes résidus dans la structure B (voir figure 41). A B i da(i,j) j i db(i,j) j figure 41 : Définition des distances da(i,j) et db(i,j). Les résidus i et j sont les mêmes dans les deux structures A et B. On peut alors construire une matrice D (de dimension NxN pour une protéine de N résidus), dont les éléments D ij sont égaux à 1 si la différence ij est inférieure à une valeur choisie r d et nuls dans le cas contraire. D ij = h(r d - ij ) où h est la fonction d Heaviside (h(x)=1 si x 0 et h(x)=0 si x<0) Ainsi, D ij =1 correspond aux résidus i et j qui ne bougent pas l un par rapport à l autre lorsqu on passe d une structure à l autre et D ij =0 correspond à deux résidus i et j dont la distance n est pas la même (d après le critère r d ) dans les deux structures. 113

114 Le but final est de définir des domaines (ou blocs) de résidus bougeant ensemble. Les matrices obtenues sont alors analysées pour définir de tels domaines. Avant de décrire le critère que nous avons choisi, nous allons présenter d autres algorithmes utilisant les matrices de distances. XIV.3.3 Exemple d algorithme utilisant la comparaison de matrices de distances Nichols et al. décrivent un algorithme permettant d identifier les domaines rigides des protéines par la comparaison de matrices de distances [Nichols, et al.; 1995]. Les auteurs construisent une matrice de différences de distance D comme expliqué ci-dessus. Les domaines sont construits avec des résidus afin que la distance entre n importe quelle paire (i,j) des carbones α des résidus i et j d un domaine diffère de moins de r d dans les deux structures. Malheureusement, cet algorithme demande un stockage important. Une recherche exhaustive de tous les domaines satisfaisant le critère r d est impossible pour des protéines comprenant plus de 50 résidus. Ils proposent aussi une autre approche non exhaustive qui permet de construire des familles de domaines qui se recouvrent. XIV.3.4 Le problème du bruit Dans la plupart des algorithmes définissant des matrices de différences de distance, les incertitudes sur les coordonnées atomiques ne sont pas prises en compte directement. Elles le sont indirectement par le choix du seuil r d. Schneider a soulevé ce problème et propose de prendre en compte dans les matrices de différences de distance les erreurs dues à ces incertitudes [Schneider; 2000]. En effet, il souligne que les éléments des matrices de différences de distance représentant de petites différences entre de grandes distances, le problème du bruit n est pas négligeable a priori. Après avoir présenté notre approche, nous allons discuter dans notre cas ce problème de bruit. XIV.4 Définition des blocs structuraux Nous avons déterminé des blocs (ou domaines) structuraux après avoir construit une matrice D de comparaison de distances entre deux structures d une même protéine. L alignement est donc trivial puisque les séquences des deux structures sont les mêmes. 114

115 L algorithme que nous avons utilisé est très simple et explicité ci-dessous. On part du résidu numéro 1 et on considère comme appartenant au premier bloc tous les résidus consécutifs j tant que D(1,j) est égal à 1. Soit i le premier résidu tel que D(1,i) est nul, on commence alors un nouveau bloc dont le critère est D(i,j)=1 pour tous les résidus j suivants et ainsi de suite. On crée ainsi des blocs «diagonaux» en regardant les informations proches de la diagonale. Afin de regrouper les blocs qui seraient constitués de résidus non consécutifs, on regarde la valeur des éléments D(i A,i B ) où i A et i B sont des résidus centraux des blocs diagonaux A et B. Si D(i A,i B ) est égal à 1, les deux blocs A et B sont regroupés en un bloc final. On construit donc une matrice D f telle que D f (i,j)=1 si i et j appartiennent à un même bloc et D f (i,j)=0 dans le cas contraire. Un exemple de matrices D et D f est montré figure 42. figure 42 : Matrices D et D f pour la comparaison de deux structures de myosine avec un critère r d de 0,1Å. À gauche : D avant l algorithme de création des blocs, à droite : D f après l algorithme. Une valeur D(i,j) ou D f (i,j) égale à 1 est représentée en noir et une valeur D(i,j) ou D f (i,j) égale à 0 en blanc. Par rapport à l approche de Nichols et al., nous nous contentons de ne regarder que les paires entre le premier résidu du domaine et les autres. Notre méthode très simplificatrice est justifiée a posteriori par une validation visuelle, notre volonté étant d avoir une approche qualitative rapide donnant une partition satisfaisante. 115

116 Dans les études que nous avons menées, nous n avons pas tenu compte du raffinement prenant en compte les erreurs sur les coordonnées, comme le suggère Schneider, pour deux raisons. D une part, les structures, réalisées par les mêmes auteurs (Houdusse et al.), ont été déterminées à plutôt basse résolution (4,20 Å et 2,50 Å) [Houdusse, et al.; 1999, Houdusse, et al.; 2000]. D autre part, les résultats montrent qu une analyse très simplifiée permet d obtenir des résultats très cohérents à partir des données expérimentales. La méthode décrite ici est donc limitée à la comparaison de structures d une même protéine, cristallisée dans des conditions similaires et nous verrons son application dans le cas de la myosine dans l article présenté au Chapitre 6. XIV.5 Identification de domaines sans comparaison Nous venons de décrire des algorithmes qui permettent de déterminer des domaines d une structure par comparaison avec d autres structures. Nous nous intéressons maintenant à l identification de domaines intrinsèques à une structure. Nous avons vu dans le chapitre XII.5 des applications du modèle granulaire qu on pouvait déduire des facteurs de température ou de l étude des modes normaux des régions plus rigides et des régions plus flexibles. On peut ainsi déterminer des domaines dit «dynamiques» constitués de régions rigides qui bougent les unes par rapport aux autres issu de l étude des modes normaux de grande amplitude [Hinsen; 1998, Hinsen, et al.; 1999]. Hinsen et al. ont ainsi montré que l on pouvait obtenir des domaines similaires par l étude des modes normaux et par la comparaison de deux structures d une même protéine dans des conformations différentes [Hinsen, et al.; 1999]. D autres algorithmes permettent de déterminer des domaines, basés notamment sur le fait que les domaines ont un minimum d interaction entre eux et qu il y a un maximum d interaction à l intérieur de chaque domaine. C est le cas de l algorithme Puu («arbre» en finlandais, «parser for protein unfolding units») qui construit une matrice de contact et la réordonne pour déterminer les domaines comme les régions de plus grande densité de contacts [Holm & Sander; 1994]. L algorithme STRUDL (STRUctural Domain Limits) [Wernisch, et al.; 1999] ainsi que Puu permettent d identifier des domaines constitués de plusieurs morceaux de chaîne sans imposer au préalable un nombre de coupures de la chaîne. STRUDL partitionne la structure en régions afin de minimiser la surface d interaction entre les domaines (cette surface est calculée à partir des surfaces de Voronoï). Ces programmes permettent de définir 116

117 des domaines (éventuellement constitués de plusieurs segments de chaînes) pour des protéines constituées de plusieurs chaînes, ce qui n est pas le cas de l algorithme DOMAK (Domain Maker) qui détermine des domaines en ne cherchant que le point de coupure d une seule chaîne tel que les interactions entre domaines soient maximisées [Siddiqui & Barton; 1995]. D autres approches comme le regroupement de petits segments [Crippen; 1978], le regroupement de structures secondaires (algorithme DIAL) [Sowdhamini & Blundell; 1995, Vinayagam, et al.; 2003] en définissant une notion de distance entres les unités regroupées permettent de définir des domaines structuraux. Le programme Protein Domain Parser [Xu, et al.; 2000] utilise une approche de la théorie des graphes pour partitionner la structure étudiée. Chaque résidu représente un nœud d un réseau dont les liens dépendent de la nature du contact entre les résidus. Le réseau est découpé en deux de façon à minimiser la coupure. La décomposition en plusieurs domaines se fait en itérant le découpage en deux des domaines obtenus. Dans la plupart des programmes que nous venons de présenter, les domaines obtenus sont des domaines structuraux, obtenus uniquement par l analyse de la structure de la protéine étudiée (on pourra aussi lire la revue de Janin et Chothia qui discute des différentes méthodes de localisation des domaines [Janin & Chothia; 1985]). Dans le prochain paragraphe, nous présentons une approche originale de détermination de domaines protéiques fondé sur la réponse mécanique d une structure à une contrainte. XIV.6 Domaines mécaniques Lors de l application d une contrainte locale de valeur donnée D* sur la moyenne des distances entre le carbone α d un résidu i et les autres carbones α, la structure se déforme. Il est alors possible de calculer un ensemble de vecteurs r ij correspondant aux déplacement relatif du Cα j par rapport au Cα i sondé. On peut ainsi construire une matrice des normes r ij de ces vecteurs (ces normes correspondent donc à la valeur absolue de la variation de la distance d ij ). Chaque ligne i provient d une expérience dans laquelle on sonde le résidu i. En général, r ij est différent de r ji. De petites valeurs de r ij correspondent à des résidus i et j qui sont couplés et bougent ensemble sous l action de la contrainte. On définit un domaine mécanique comme un ensemble de résidus qui bougent comme un bloc sous l influence des contraintes imposées. 117

118 L algorithme que nous avons mis au point permet de regrouper ensemble les résidus i et j dont les valeurs r sont plus petites qu un seuil T. La première étape consiste à rechercher la plus petite valeur de r ij tel que r ij et r ji sont plus petits que T. Les résidus i et j forment ainsi le noyau du premier domaine et r ij et r ji sont enlevés de l analyse. Puis la plus petite valeur r ik de la ligne i est recherchée et le résidu k est ajouté au domaine si r lk et r kl sont inférieurs à T pour tous les résidus l appartenant déjà au domaine. Le processus est réitéré jusqu à ce que tous les résidus aient été testés. Lorsque tous les résidus k satisfaisant la condition «r kl et r lk plus petits que T pour tous l du domaine» sont trouvés, l algorithme élimine les valeurs correspondant aux résidus du domaine et construit un nouveau domaine en recherchant dans la nouvelle matrice la plus petite valeur r ij. Une fois que tous les domaines sont définis, on teste chaque résidu en regardant s il peut appartenir à un autre domaine que celui auquel il a été assigné. Le résidu i est déplacé du domaine A vers le domaine B s il satisfait le critère d appartenance dans le domaine B (c està-dire pour tout l de B, r il et r li sont plus petit que T) et si r il < r, où l B il l A est la moyenne des déplacements des résidus l du domaine B par rapport au résidu i. r il l B r il l B n = ( ril + r n li) 2 1 où n est le nombre de résidus l dans le domaine B. l= 1 Tous les résidus sont testés de façon cyclique jusqu à que les domaines soient stables. Afin d éviter une partition en domaines qui n auraient pas de signification structurale, une distance δ entre deux domaines A et B est définie comme la valeur maximale de l ensemble { r lk, r kl / (l,k) AxB}. Si cette distance δ entre A et B est plus petite que pxt (avec p un pourcentage plus grand que 1) alors les deux domaines sont regroupés en un seul. Le processus itératif permettant de changer des résidus de domaine décrit précédemment est de nouveau appliqué avec un nouveau seuil T défini comme : T = max(t, δ). Tout ce processus est réitéré jusqu à impossibilité de regrouper deux domaines. On peut alors construire un arbre de classification hiérarchique. La distance entre les branches de l arbre est alors plus grande que pxt. 118

119 Les valeurs de T=0,35 Å et p=1,3 donnent des résultats satisfaisant pour une valeur de D* de 0,2 Å présentés dans l article du Chapitre 7 de cette thèse. On obtient ainsi quatre domaines pour la nucléase du staphylocoque (figure 43). δ 2,477 _ 1,711 _ 1,377 _ vert jaune bleu rouge figure 43 : Domaines dynamiques pour la nucléase du staphylocoque (4 domaines : bleu, rouge, jaune et vert) pour D*=0,2Å, T=0,35 et p=1,3 et arbre de classification des domaines. 119

120 120

121 Chapitre 6 Article : Flexibilité de la myosine : domaines structuraux et vibrations collectives. 121

122 XV Introduction XV.1 La myosine : une protéine moteur XV.1.1 Différents types de myosines Trois types de moteurs cytoplasmiques sont connus : les myosines qui s associent aux microfilaments d actine, les kinésines et les dynéines qui se déplacent le long des microtubules (voir la revue de Schliwa et Woehlke [Schliwa & Woehlke; 2003]). Les myosines constituent une large superfamille de protéines. Elles présentent un domaine commun, situé en général dans leur région N-terminale, dont les propriétés mécano-chimiques sont d hydrolyser des molécules d ATP et d interagir avec l actine afin de produire un mouvement le long des microfilaments d actine. Les approches génétiques et phylogéniques ont permis d identifier de nombreux membres de cette famille et de les classer en sousfamilles (numérotées avec des chiffres romains). Un site internet regroupe les recherches actuelles sur ces familles et l avancée des connaissances sur les myosines : Avant de présenter plus en détail la famille des myosines II, dont l un des membres fait l objet de l article commenté dans ce chapitre, nous allons présenter la structure générale des myosines et les différentes familles jusqu alors identifiées. Description de la structure Les myosines sont constituées de trois domaines : la tête (en général la partie N-terminale), qui constitue le domaine moteur, le cou (domaine régulateur), et la queue (partie C-terminale). La structure quaternaire de ces protéines se compose de plusieurs chaînes : la chaîne principale ou chaîne lourde et des chaînes légères situées au niveau du cou. Chacun des domaines peut être divisé en plusieurs sous-domaines, spécialisés pour remplir des fonctions spécifiques aux différentes familles. La tête ou domaine moteur : Le domaine moteur est le seul domaine qui soit présent dans toutes les chaînes lourdes des myosines. C est ce domaine qui interagit avec 122

123 l actine et lie l ATP. Le domaine moteur est une région globulaire relativement conservée : seules quelques boucles en surface et l extrémité N-terminale varient parfois selon les myosines. Le cou ou domaine de régulation : Pratiquement toutes les myosines ont un cou ou domaine de régulation. C est une région constituée d une longue hélice α stabilisée par des chaînes légères. Les sites de fixation des chaînes légères sont des motifs IQ (IQXXXRGXXXR) répétés de 0 à 7 fois. Comme l indique le nom de ce domaine, celui-ci est considéré comme ayant un rôle de régulation dans certaines myosines mais sa fonction est encore mal connue. Lorsque ce domaine est assez long, il est supposé avoir un rôle de bras de levier amplifiant les changements conformationnels de la tête de la myosine. Si certains défendent ce modèle [Volkmann & Hanein; 2000], d autres proposent que le changement conformationnel du cou régule le temps d attachement de la myosine sur l actine [Yanagida & Iwane; 2000c]. Deux caractéristiques diffèrent suivant les familles : la longueur du domaine et le type de chaînes légères fixées. Beaucoup de myosines fixent des chaînes légères ressemblant à la calmoduline, d autres fixent de petites molécules pouvant se lier à des ions calcium. L activité motrice des myosines est alors régulée soit par la fixation d ions calcium, soit par une phosphorylation de la chaîne légère ou de la chaîne lourde. La queue : La queue sert d ancre spécifique et positionne le domaine moteur afin qu il puisse interagir avec l actine. La queue varie beaucoup d une myosine à l autre, en taille et en séquence. Plusieurs domaines fonctionnels impliqués dans des interactions protéine-protéine ou protéine-phospholipide y ont été identifiés, par analogie avec d autres protéines. En outre, les queues de certaines myosines contiennent une structure en hélice qui permet leur homodimérisation (α-helical coiled-coil) : on obtient, dans ce cas, des moteurs à deux têtes, similaires aux moteurs associés aux microtubules. Dans le cas des myosines II, cela permet aussi aux myosines de former des filaments. Les extensions N-terminales : Certaines myosines possèdent également une extension N-terminale (aussi appelée nez). Les sous-familles Les différentes familles des myosines sont déterminées par la comparaison des séquences et par une reconstruction de l évolution entre les différentes branches d un arbre phylogénique. À l heure actuelle, 18 classes de myosines ont été déterminées par la comparaison des têtes de myosines [Berg, et al.; 2001, Hodge & Cope; 2000] (figure 44) qui sont globalement 123

124 retrouvées lorsqu on compare les domaines du cou et de la queue. Ceci suggère que pour chaque type de myosine, la tête et la queue ont évoluées ensemble [Korn; 2000]. figure 44 : Arbre phylogénique de la famille des myosines, extrait de l article de Hodge et Cope [Hodge & Cope; 2000]. Rôle des myosines À côté du rôle des myosines II qui est bien caractérisé dans la contraction musculaire (voir plus loin), les membres de la familles des myosines sont impliqués dans un grand nombre de fonctions cellulaires dont la motilité cellulaire, le trafic intracellulaire d ARN ou d organelles, la cytocinèse (ou fission cellulaire) et la transduction de signaux [Baker & Titus; 1998]. On caractérise les propriétés des myosines par les critères suivants : 124

125 - La direction de déplacement : La plupart des myosines se déplacent le long du microfilament d actine en direction de l extrémité barbée de ce dernier mais certaines (les myosines VI) se déplacent dans le sens inverse (vers le côté pointé, côté à croissance lente). - Le pas élémentaire : Bien que ce fait soit encore controversé, les différentes myosines semblent avoir des déplacements unitaires différents. Un pas élémentaire correspond à l avancement dans la direction de l actine du à un changement de conformation de la tête amplifiée par le cou. Par exemple, la myosine II du squelette du lapin a un déplacement élémentaire de 50 Å alors que certaines myosines I ont un déplacement de 110 Å. - La vitesse de glissement : Sous certaines conditions, une myosine a une certaine vitesse de glissement déterminée par la combinaison des différents paramètres cinétiques et le déplacement produit par la myosine. Celle-ci peut aller de 0,015 µm.s -1 (dans le cas de la myosine IX) à 70 µm.s -1 (pour la myosine Chara XI). - La processivité : Une myosine est dite processive si elle est capable d effectuer plusieurs pas le long de du filament d actine avant de s en détacher. Les myosines V sont des myosines processives : le fait que les deux têtes de myosines enlacées sont coordonnées, il y a toujours une tête liée à l actine. Les myosines II, elles, ne sont pas processives : le temps pendant lequel elles restent attachées fortement à l actine est relativement faible. Propriété enzymatique des myosines Les myosines hydrolysent les molécules d ATP (adénosine triphosphate), en ADP (adénosine diphosphate) et phosphate inorganique par la réaction suivante : ATP ADP + P i Les formules chimiques des nucléotides cités ci-dessus sont données dans la figure

126 Adénosine figure 45 : Formule chimique de l'adénosine triphosphate (ATP). Sont aussi indiquées les formules de l adénosine diphosphate (ADP) et monophosphate (AMP). Le site d hydrolyse de l ATP se situe dans la tête de la myosine, à l opposé du site d interaction avec le filament d actine (figure 47). Afin d obtenir des structures cristallographique correspondant à des conformations différentes de la tête de la myosine, ces dernières ont été déterminées avec des nucléotides qui miment l ATP, l ADP.Pi ou l ADP. Ainsi, MgADP.BeF x mime l ATP juste avant hydrolyse, et MgADP.VO 4 et MgADP.AlF 4 miment l état de transition ADP.P i [Rayment; 1996]. La myosine II Nous nous intéressons plus particulièrement à la myosine II ou myosine conventionnelle. Elle tient ce nom du fait que ce fut la seule myosine étudiée pendant des années. Les myosines II ont toutes une tête se terminant par les trois acides aminés FFK ou FFR, un cou constitué des 71 (ou 72) acides aminés suivants et une queue commençant par un résidu proline. Leur longue queue en hélice permet leur homodimérisation et, pour les myosines II musculaires, la formation de filaments épais qui «glissent» sur les filaments fins d actine. Ainsi la contraction des muscles résulte du déplacement des filaments épais de myosine par rapport aux filaments fins d actine (figure 46). 126

127 figure 46 : Structure du squelette musculaire. La figure 47 permet de visualiser les différents domaines couramment utilisés dans la description des myosines. La molécule est constituée de poches et fentes, qui séparent les différents domaines, déterminées visuellement. Le site du fixation du nucléotide se trouve dans la poche située à l interface entre le domaine N-terminal de 25 kda (gris sombre) et le fragment central de 50 kda (bleu et gris clair). La fente «50 kda cleft» divise le domaine de 50 kda en deux : «upper» (au dessus, bleu) et «lower» (en dessous, gris clair). Une région entre la tête et le cou (hélice cyan) est désignée de «converter» car elle transmet le 127

128 mouvement de la tête au cou (ou bras de levier). Les chaînes légères sont représentées en violet. Essential light chain Regulatory light chain figure 47 : Différents domaines d'une myosine II, dessin issu de [Houdusse & Sweeney; 2001 ] : Le domaine N-terminal (gris sombre), le domaine 50kDa (bleu et gris), le «converter» (vert), le bras de levier (bleu clair) et les chaînes légères (violet). Les boucles reliant les différents domaines sont coloriées en orange (Switch II) et rouge (SH1 helix). Les sites de fixation de l ATP et de l actine sont indiqués ainsi que la région pliante située à la base du cou. XV.1.2 Cycles actine-myosine Nous venons de voir que, lors de la contraction musculaire, les myosines II musculaires, organisées en filaments épais, utilisent leurs propriétés mécano-enzymatiques pour «glisser» sur des faisceaux d actine. Afin de comprendre le mécanisme de déplacement des myosines sur l actine, plusieurs groupes ont entrepris l analyse structurale de ces moteurs. Depuis la première structure cristallographique de la tête motrice de myosines II du poulet (fragment S1), qui est composée de la tête et du cou, par Rayment et al. [Rayment, et al.; 1993b], plusieurs autres structures de fragments S1 de myosines II complexés à différent nucléotides ont été déterminées. On peut citer entre autres, différentes structures du domaine S1 de la myosine II du Dictyostelium discoideum par le groupe de Rayment [Gulick, et al.; 2000], du muscle strié du poulet par Dominguez et al. [Dominguez, et al.; 1998] et de la coquille Saint Jacques par Houdusse et al. [Houdusse, et al.; 2000] et Himmel et al. [Himmel, et al.; 2002] 128

129 (pour les références, voir les structures accessibles sur la Protein Data Bank [Berman, et al.; 2000]). Cependant aucune structure cristallographique du complexe actine-myosine n a été déterminée et seules des constructions visuelles ou théoriques du complexe acto-myosine, basées sur les structures des protéines isolées et les données de microscopie électronique, ont été proposées [Mendelson & Morris; 1997, Rayment, et al.; 1993a]. Les données cristallographiques et les études des propriétés cinétiques du déplacement le long de l actine et de l hydrolyse de l ATP ont permis de proposer différents modèles. Modèle du bras de levier et d instabilité conformationnelle Dans le modèle du bras de levier, la force est générée par de petits changements de conformation du site de fixation du nucléotide dus à l hydrolyse de l ATP [Block; 1996, Geeves; 1991, Holmes & Geeves; 2000, Uyeda, et al.; 1996]. Ces changements sont transmis au cou via un domaine appelé «converter» et amplifiés par le cou qui fonctionne comme un bras de levier. Le cycle proposé par le modèle du bras de levier est schématisé dans la figure 48. En l absence de nucléotide, la myosine est liée avec une forte affinité à un monomère du microfilament d actine (a). Cette conformation est appelée «rigor» (parce qu elle est responsable de la rigidité cadavérique ou rigor mortis). L ATP se lie alors à la myosine et modifie ainsi la conformation de l enzyme, diminuant son affinité pour l actine (b). Le site du nucléotide se referme alors que la myosine se détache de l actine. Avec l hydrolyse de l ATP en ADP.P i, la tête de la myosine peut alors pivoter sur son cou flexible jusqu à obtenir une conformation lui permettant de se lier faiblement à un autre monomère du microfilament d actine (c). Le relargage du phosphate s accompagne d un changement conformationnel de la tête de la myosine qui augmente l affinité de la liaison entre la myosine et l actine (d). La libération de la molécule d ADP entraîne alors le repositionnement de la tête de la myosine, toujours étroitement liée au microfilament d actine, par rapport à la queue. La myosine retrouve sa structure initiale un pas plus loin pour redémarrer un nouveau cycle (e). 129

130 a b c d e Un grand nombre d études récentes justifient directement ou indirectement le modèle du bras de levier. Mais ce modèle ne permet pas d expliquer l ensemble des observations expérimentales. C est pourquoi Volkmann et Hanein proposent que le mouvement de la myosine est provoquer par un mécanisme de bras de levier mais que le changement de conformation de la myosine responsable du déplacement est dépendant de la forte liaison de la myosine à l actine et non pas de l hydrolyse de l ATP. Avant de se lier à l actine, la molécule de myosine présente de multiples conformations qui sont réduites à une seule conformation, induisant un déplacement le long du filament d actine [Volkmann & Hanein; 2000]. figure 48 : Modèle du bras de levier. Schéma tiré de «Molecular Biology of the Cell» [Alberts, et al.; 1994]. Modèle de cliquet brownien biaisé La micromanipulation de molécules uniques collées à la pointe d une aiguille et l observation simultanée du cycle d hydrolyse de l ATP ont, quant à elles, incité les auteurs de cette étude à proposer un second modèle [Yanagida, et al.; 2000a, Yanagida, et al.; 2000b]. Pour ces auteurs, la force produite par la myosine n est pas couplée à la libération de la molécule d ADP. Une tête de myosine peut subir, pendant un même cycle d hydrolyse d ATP, une 130

131 succession de plusieurs déplacements élémentaires de 53 Å, longueur qui correspond à peu près à la distance entre deux monomères d actine dans un microfilament [Kitamura, et al.; 1999]. Ce résultat suggère que l énergie chimique produite lors de ce cycle est emmagasinée dans la tête de la myosine ou dans le microfilament d actine et libérée en plusieurs fois pour permettre ces déplacements successifs. Le changement de conformation interprété comme un mouvement de bras de levier dans le premier modèle n est pas ici directement impliqué dans le déplacement du moteur, mais agit en régulateur du temps d attachement de la myosine au microfilament, et donc de sa vitesse. En outre, au cours d un même cycle d hydrolyse d une molécule d ATP, les déplacements élémentaires peuvent se produire dans les deux sens sur le microfilament d actine, alors que le mouvement global de la myosine n a lieu que dans un sens (figure 49). Yanagida et al. opposent ainsi un modèle stochastique, «le modèle de cliquet brownien biaisé» (Biaised Brownian Ratchet Model) au modèle classique du bras de levier. Au cours d un cycle, la myosine effectue une succession de sauts le long du microfilament d actine au gré de son mouvement brownien. Le cou, région régulatrice, biaise ces sauts aléatoires pour favoriser un sens de déplacement de la myosine (le sens du côté barbé pour les myosines II). Modèle du bras de levier Modèle de cliquet brownien biaisé figure 49 : Le modèle de cliquet browien biaisé comparé au modèle du bras de levier (tiré de Yanagida et al. [Yanagida & Iwane; 2000c]). Modèles intermédiaires Les deux modèles que nous venons de décrire (le modèle du bras de levier et le modèle d encliquetage brownien biaisé) semblent en contradiction puisque le premier prévoit un déplacement d un pas par cycle d hydrolyse d ATP alors que le deuxième propose un 131

132 mouvement en plusieurs étapes. Pourtant, le déplacement brownien de la myosine n est pas incompatible avec une instabilité conformationnelle de la protéine. Irving et Goldman proposent ainsi un modèle qui réunit ces deux approches [Irving & Goldman; 1999]. Ils suggèrent que les divergences entre les modèles proposés pour expliquer le déplacement des myosines II le long des filaments d actine viennent surtout des différences techniques utilisées pour étudier ce système. L augmentation de l affinité du moteur pour l actine lors de l hydrolyse de l ATP en ADP+P peut correspondre à la fois à une rigidification de la conformation de la protéine et à la régulation de son temps d attachement au microfilament d actine. A partir de la détermination de trois états conformationnels d un fragment S1 de la myosine II du muscle strié de la coquille Saint Jacques et de données cinétiques, Houdusse et al. proposent une interprétation compatible avec les deux modèles [Houdusse & Sweeney; 2001]. En l absence de force extérieure appliquée sur la molécule, la myosine agit essentiellement comme un cliquet brownien biaisé par le cou et dont les pas sont compatibles avec la périodicité de l actine. En présence de force extérieure empéchant le glissement, elle agit comme le modèle du bras de levier présenté ci-dessus. Les auteurs proposent un cycle incluant toutes les données cinétiques alors accessibles (figure 50). Le cycle central de la figure 50 correspond à un cycle sans contrainte imposée sur le système et celui du bas au cycle postulé lors de l application d une contrainte sur le système. Le petit cycle indépendant (en haut) montre que l état détaché est en équilibre avec l état ATP (structure proche du rigor) et suggère que celui-ci correspond à une multitude de conformations, augmentant le temps de vie de l état avant hydrolyse de l ATP. L état de transition de l hydrolyse, qui précède la production de force, est stabilisé en absence d actine et correspond à une conformation dans laquelle le bras de levier forme un angle d environ 90 avec le filament d actine. Les trois structures déterminées par Houdusse et al. en l absence d actine correspondent dans ce cycle à l état détaché, à l état ATP et à l état de transition [Houdusse, et al.; 1999, Houdusse & Sweeney; 2001, Houdusse, et al.; 2000]. Ce sont ces trois structures que nous avons utilisées dans notre étude sur la myosine. 132

133 figure 50 : Cycle proposé par Houdusse et al. [Houdusse & Sweeney; 2001]. Les lettres oranges correspondent aux états cinétiques : A = actine, M = myosine, T = ATP, D = ADP et Pi = phosphate inorganic. 133

134 XV.2 Blocs structuraux et étude des modes normaux Nous avons profité de la disponibilité de la structure cristallographique de trois états différentes (état détaché, état de transition et état «near rigor») du fragment S1 d une même protéine, la myosine du muscle strié de la coquille Saint Jacques, pour comparer ces structures entre elles. Une première étape a consisté à appliquer la méthode ANM (Anisotropic Normal Mode) aux trois structures. Seule une des structures, celles de l état détaché est de suffisamment bonne résolution pour que les facteurs de température soient accessibles. La méthode a été validée sur ces données et les facteurs de température théoriques des deux autres structures ont été déterminés. La comparaison des structures deux à deux nous a permis de définir des domaines qui sont d une part compatibles avec les résultats de l étude des modes normaux mais qui renseignent aussi sur une partition plus fine des structures que celle couramment faite à partir d une étude visuelle. Ces deux méthodes permettent de comparer les propriétés mécaniques des trois structures. Nous avons ainsi observé que la myosine garde, au cours du cycle acto-myosine, des caractéristiques globales tout en possédant des spécificités dépendant du nucléotide lié au niveau du site enzymatique. 134

135 XVI Myosin Flexibility : Structural Domains and Collective Vibrations Isabelle Navizet, Richard Lavery and Robert L. Jernigan Proteins: Structure, Function and Genetics (2004), 54, pages Abstract The movement of the myosin motor along an actin filament involves a directed conformational change within the cross-bridge formed between the protein and the filament. Despite the structural data which has been obtained on this system, little is known of the mechanics of this conformational change. We have used existing crystallographic structures of three conformations of the myosin head, containing the motor domain and the lever arm, for structural comparisons and mechanical studies with a coarse-grained elastic network model. The results enable us to define structurally conserved domains within the protein and to better understand myosin flexibility. Notably they point to the role of the light chains in rigidifying the lever arm and to changes in flexibility as a consequence of nucleotide binding. Key words: Motor proteins, Gaussian Network Model, Structural Blocks, B-factors. 135

136 Introduction Myosin is an enzyme that converts the chemical energy resulting from the hydrolysis of ATP into directed mechanical movement along an actin filament. The actomyosin system is involved in numerous cell processes including vesicle trafficking, determinant partitioning, cell motility, neurosensory function and muscle contraction [Baker & Titus; 1998]. Although considerable crystallographic data have been gathered on this system [Dominguez, et al.; 1998, Gulick, et al.; 2000, Houdusse, et al.; 1999, Houdusse, et al.; 2000, Rayment, et al.; 1993b], many questions concerning the molecular mechanisms underlying myosin mobility remain unanswered. Myosin II, so-called conventional myosin, forms filaments and constitutes large assemblies of non-cooperative motors within muscular tissues. It is an important member of a diverse family of myosin motor proteins [Hodge & Cope; 2000]. Different mechanisms have been proposed for myosin movement. The majority of biophysicists explain muscle contraction by the movement of the myosin lever arm [Spudich; 2001], but other evidence has pointed to a biased Brownian ratchet mechanism and to the possibility of multiple myosin steps per ATPdriven cycle [Yanagida, et al.; 2000b]. It may however be possible to reconcile these apparently conflicting viewpoints [Houdusse & Sweeney; 2001]. A part of the mechanism proposed by Houdusse et al. [Houdusse & Sweeney; 2001] based on insights from X-ray structures, cryo-electron microscopy and kinetic studies is presented in figure 51. The strong binding of myosin to actin (rigor state) weakens with ATP-binding. This conformation is termed the near rigor state. The detached state, where myosin releases the actin filament may prevent a reverse powerstroke and increase the lifetime of the prehydrolysis state. After hydrolysis of ATP in the myosin motor, phosphate binding stabilizes the so-called transition state until actin binding. This is followed by force generation and ADP-release returning the system to its rigor state. 136

137 figure 51 : Schematic view of the myosin cycle showing the DS, NR and TS states (adapted from Houdusse and Sweeney [Houdusse & Sweeney; 2001]). Note that this cycle corresponds to the thermal ratchet interpretation of myosin action. The main steps of the cycle are as follows: in the absence of nucleotide, myosin binds tightly to actin. This is termed the rigor state. The binding of ATP induces weakening of the binding via the so-called near-rigor state (NR). The near-rigor state is in equilibrium with a completely detached state (DS). As a result of ATP hydrolysis, myosin moves one step along the actin filament, leading to the so-called transition state (TS). Phosphate release puts myosin in the weakly binding NR state and the release of ADP to a returns it to the rigor state. For more details see reference [Houdusse & Sweeney; 2001]. In the present paper, we use theoretical methods to study myosin II, in an attempt to better understand the mechanics of its conformational changes. Since the myosin head is a large system (1147 amino acids, 130 kd) and, moreover, undergoes large conformational changes, it is not easy to use conventional all-atom molecular mechanics or dynamics methods. We have thus chosen to study the problem with an anisotropic network model [Atilgan, et al.; 2001, Doruker, et al.; 2000] and also via a rigid block decomposition method. Both of these 137

138 methods are coarse-grained and only use a single point, Cα, to represent each amino acid residue. The anisotropic network model provides data on the large-scale collective modes of vibration by converting the protein structure into a set of coupled springs between neighboring residues and carrying out a normal mode style analysis. It has been shown to provide data in very good agreement with more refined all-atom approaches and with crystallographic temperature factors [Atilgan, et al.; 2001, Bahar, et al.; 1998, Doruker, et al.; 2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.; 2002b]. The rigid block decomposition method is based on a comparison of inter-cα distances between two structures of the same protein and the identification of blocks based on virtually constant inter-residue distances. Together, these methods enable us to identify the rigid and flexible domains within the myosin structure and highlight the respective roles of the light chains and of nucleotide binding. Materials and Methods 1. Structures Three structures of different states of the scallop myosin S1 head form the basis for our calculations. These structures have been determined by X-ray crystallography and are available in the Protein Data Bank (PDB) [Berman, et al.; 2000] with the codes 1DFK, 1DFL and 1B7T. 1DFK corresponds to scallop myosin S1 without an adenosine nucleotide and is believed to be the near rigor state (NR). 1DFL is the myosin head structure in the presence of ADP.VO 4, corresponding to the transition state (TS). Finally, 1B7T is scallop myosin S1 complexed with ADP, which has been interpreted as a detached ATP state (DS). Hereafter, we refer to these three structures using the functional codes NR, TS, and DS (see figure 51 ). Each of these structures is composed of three polypeptide chains: the main chain (835 residues), divided into the N-terminal motor domain and the α-helical C-terminal lever arm; the essential light chain (ELC, 156 residues), and the regulatory light chain (RLC, 156 residues). Two of the three available structures of myosin, NR and TS, are rather poorly resolved (4.20 Å) and some residues are missing, limiting the head domain to 1019 and 1059 α-carbons respectively. DS, is better resolved (2.50 Å) and the structure is constituted of 1057 residues. These data are summarized in Table I. 138

139 Table I. Summary of the crystal structures used in the current study Code NR TS DS Supposed position in the cycle [Houdusse & Sweeney; 2001] ( figure 51) Near rigor state Transition state Detached state PDB entry 1DFK 1DFL 1B7T Resolution 4.20 Å 4.20 Å 2.50 Å Nucleotide None MgADP-VO 4 MgADP Experimental B-factors Not available Not available Available Number of residues Number of atoms Anisotropic Network Model (ANM) This coarse-grained elastic model begins by reducing a protein to a set of α-carbons and takes no account of amino acid side chains or other peptide backbone atoms. The protein structure is taken into account by creating springs between spatially neighboring residues (whether or not these residues are sequential within the peptide chain). The vibrations of such a system can be analyzed either by assuming that all fluctuations are isotropic, as in the so-called Gaussian Network Model (GNM) [Bahar, et al.; 1997, Bahar, et al.; 1999, Demirel, et al.; 1998, Haliloglu & Bahar; 1999, Keskin, et al.; 2000], or by taking into account anisotropy via the directions of movement of each residue, in the so-called Anisotropic Network Model (ANM) [Atilgan, et al.; 2001]. We have used the latter approach since it yields the structural changes associated with collective vibrational modes, rather than simply their overall 139

140 140 magnitudes. The potential energy V of a structure with N residues is expressed within the ANM as a Gaussian form, V = (γ / 2) R T Η R where γ is the spring constant, R is a 3N-dimensional vector of the fluctuations R i in the position vectors R i of all sites (1 i N), R T is its transpose, and Η the Hessian matrix composed of the second derivatives of the potential energy. Thus, V can also be written, V = (1/2) Σ i Σ j h(r c R ij ) (R ij R ij ) 2 The summations are performed over all interaction sites. h(x) is the Heaviside step function (h(x) = 1 if x 0, and zero otherwise), R ij is the distance between sites i and j in the protein structure, R ij is the same distance after fluctuation, and r c is the cutoff distance defining the interacting residue pairs for which Gaussian springs are created. Η is expressed as a function of N 2 submatrices H ij of the form, = H j i j i j i j i j i j i j i j i j i ij Z Z V Y Z V X Z V Z Y V Y Y V X Y V Z X V Y X V X X V with X i, Y i and Z i being the components of R i. Note that, 2 ) )( ( ij i j i j i j j i R Y Y X X Y X V Y X V = = γ for i j, and = j ij i j i j i i R Y Y X X Y X V 2 ) )( ( γ The correlations between the fluctuations at sites i and j are,

141 < R i R j > = (1/Z) ( R i Rj ) exp{-v/kt}d{ R} = k B T tr [Η-1] ij where k B is the Boltzmann constant, Z is the configurational partition function, and tr[η-1] ij is the trace of the ij th submatrix [Η-1] ij of H -1. < R i. R j > can be expressed as a sum over the contributions [ R i R j ] k of the 3N-6 individual internal fluctuation modes as < R i R j > = Σ k [ R i R j ] k. The contribution of the k th mode is explicitly given by, [ R i R j ] k = kt tr [λ k -1 u k u k T] ij where λ k is the k th non-zero eigenvalue of Η and u k is the corresponding eigenvector. The eigenvalues are related to the frequencies of individual modes, and the eigenvectors describe the effect of each mode on the positions of the N residues constituting the structure. The eigenvalues are usually organized in ascending order (after removing the six zero eigenvalues corresponding to overall translation and rotation), so that λ 1 denotes the lowest frequency and [ R i R j ] 1 is the correlation for this mode of motion separately. Likewise, [( R i ) 2 ] 1 is the mean-square fluctuation in the position of site i for mode 1. The slowest vibrational modes usually dominate the collective dynamics of the structure and are particularly relevant to biological function. 3. Determination of rigid blocks Blocks of residues which move together in a coupled manner can be determined by the comparison of two structures of the same protein. This analysis requires the construction of a symmetric matrix termed D whose elements D ij are equal to 1 if the difference ij of the distances between two residues i and j in the two protein structures studied is below a specified cutoff and is otherwise set to zero. ij = da(i,j)-db(i,j) and D ij = h(r d - ij ) 141

142 where da(i,j) is the distance between residues i and j in structure A, db(i,j) is the distance between residues i and j in structure B and h(x) is the Heaviside step function (h(x)=1 if x 0, and zero otherwise). D has dimensions NxN for an N residue protein. The value of the cutoff, r d, is adjusted so that the analysis yields a reasonable number of blocks (see below). As the resulting matrix is still complicated, it has to be refined in order to clearly delimit the underlying blocks. This procedure involves starting with the first residue and constituting a block with all consecutive residues j, as long as D(1,j) is equal to 1. If D(1,i) is equal to 0, a new block is started with the criteria D(i,j)=1. Diagonal blocks are created this way. Two diagonal blocks A and B then become part of a single block if the matrix element D(i A,i B ) is equal to 1, where i A and i B are the central residues within blocks A and B respectively (see figure 57). The final matrix D is again a binary matrix, with D(i,j)=1 if i and j belong to the same block. Result and Discussion Flexible regions within the myosin head Starting from our ANM analysis of the three available structures of the myosin head, it is possible to calculate the overall fluctuations of each amino acid residue in the form of the B- factors commonly used in analyzing crystallographic structures, B i = 8π 2 < R 3 i R i > figure 52 shows plots of these fluctuations for the DS, NR and TS structures. All calculation of R i were performed with r c = 11 Å following the study of Atilgan et al. [Atilgan, et al.; 2001]. It is remarked that excellent agreement between such B-factors and crystallographic data has already been demonstrated for other proteins [Atilgan, et al.; 2001, Bahar, et al.; 1998, Doruker, et al.; 2002a, Doruker, et al.; 2002b, Keskin, et al.; 2002a, Keskin, et al.; 142

143 2002b]. We can only make such comparisons in the case of the better resolved DS structure, where the experimental values are available. The comparison with the theoretical results is presented in figure 52 and shows a good overall agreement, with the exception of residues belonging to the lever arm ( ) and the RLC. These exceptions are most probably due to the interactions which exist between the myosin lever arms within the crystal lattice, but are naturally absent in our calculations. Since the spring constant γ is the only remaining parameter of our calculations, its value can be determined by matching the areas under the experimental and theoretical B-factor curves. This has been done for the residues in the zone and leads to a value of 1.3 kcal/(å 2.mol). This value is comparable to the values found for other proteins [Atilgan, et al.; 2001]. We can now compare the DS, NR and TS states of myosin. All three structures show rather similar overall fluctuations. Each indicates a significant difference between the motor domain (residues 1 to 775), which is rigid, and the lever arm (residues 820 to 835), which is flexible. The regulatory light chain, which is located at the end of the lever arm structure, is also very flexible, in contrast to the essential light chain. It should be recalled that these results refer to an isolated myosin head, truncated at residue 835, and do not take into account the effects of interactions with the actin filament or between neighboring myosin motors. It is also recalled that myosin head structures we use are incomplete and the absence of residues in some domains are the cause of significant local differences between the three states which can be seen in figure 52. This is notably the case for the peaks observed near residue 410 in the DS and TS structures and near residue 320 in the NR structure. There are however some mechanically significant differences between the three states, most notably for the contact region between the lever arm and the motor domain which are different in DS compared to either the NR or TS structures. This change shows up in figure 52 as the peak in fluctuations of residues which is only seen for NR and TS, while only the DS structure shows a peak for residues The first peak can be easily explained by the fact that the residues 48-56, belonging to the SH3 β-barrel, are distant from the lever arm in the NR and TS structures, but close in DS. The second peak is coupled to the fact that the distance separating the β-strand and α-helix elements of the so-called "relay" structure are more distant from one another in DS than in either NR or TS (the elements of the relay are visible of the left-hand side of the detailed views in the lower part of figure 53). 143

144 figure 52 : Calculated B-factors (solid curves) as a function of the residue numbers for three structures of the myosin head composed of the main chain and the RLC and ELC light chains. Calculations used a spring constant g of 1.3 kcal/(å2.mol). Experimental B-factors are shown for DS structure (dashed curves). The curves are interrupted at points where residues are missing in the experimental structures. The scale chosen leads to overlap of the curves for the particularly flexible RLC domain, but makes the details more visible for the remainder of the structure. In order to link these results more easily to the 3-dimensional structure of myosin, we use color-coded ribbon models (where increasing fluctuations are indicated with a blue to red gradation). The results shown in the upper part of figure 53 again stress the overall similarity of the fluctuations for the three myosin structures. They also emphasize the flexibility of the loops which compose the actin binding domain at the top of the S1 domain and the, probably artefactual, flexibility of the end of the lever arm, compared to the stiffer region near the essential light chain. Fluctuations are also seen to be more important at the surface of the motor domain and in the lever arm, whereas the buried ATP site is a relatively rigid zone. Since it is not easy to see the changes occurring with the motor domain in the full structure, we have added detailed views in the lower part of figure 53. In addition to the changes in the 144

145 relay discussed above, these views show that the most rigid region corresponds to switch II (the strand linking the central β-sheet to the α-helix of the relay) in NR and TS, but rather to the ATP binding site in DS. This is in agreement with the remarks of Houdusse et al. indicating that there is a stronger interaction between the elements linked by switch II in the former structures [Houdusse, et al.; 2000]. The RLC and ELC light chains are known to play an important role biologically, and they can be expected to modify the flexibility of the long α-helices which constitute the lever arm. Their effect can be tested theoretically by comparing ANM calculations on the full myosin head with calculations on structures where the light chains have been removed. The results of these calculations are shown in figure 54 and figure 55. Removing the light chains is seen to have a dramatic effect. As might be expected, in the absence of these proteins, there is a significant increase in the fluctuations within the lever arm. However, it is also interesting to note that although the more flexible parts of the motor domain (colored in orange in figure 55) are still located on the surface of the structure, they do not occur in the same zones. Notably, in the absence of the light chains, the loops near the actin-binding site become less flexible, although the reason for this long range coupling is not obvious. Overall, maintaining the value for the spring constant γ, the structure without RLC and ELC becomes four times more flexible. 145

146 figure 53 : Upper part: Ribbon diagrams of the DS, NR and TS myosin head structures, colorcoded on the basis of the calculated B-factors (the color range from blue to red corresponds to increasing fluctuations). Lower part: Detailed view of the part of the motor domain showing the relay structure on the left and the nucleotide binding site on the right. Note that the color scale has been adapted to show up changes within this fragment of the overall myosin structure. 146

147 figure 54 : Calculated B-factors for the DS main chain as a function of residue number either with (solid curves) or without the RLC and ELC light chains (dashed curves). The inset shows an expanded view of the results for the lever arm (residues 775 to 835). The curves are normalized to yield equal areas for the residues figure 55 : Ribbon diagram of the DS myosin head, color-coded on the basis of the calculated B-factors (the color range from blue to red corresponds to increasing fluctuations). On the left - in the presence of the RLC and ELC light chains. On the right - in the absence of the light chains. 147

148 Structurally coherent blocks of residues The crystallographic data available for the DS, NR and TS structures of the myosin head enables us to study flexibility from another point of view, by asking which blocks of residues move in a coherent, coupled manner as myosin undergoes the conformational changes linked to its motor cycle. We have carried out the rigid block analysis described in the methodology section for the three possible pairs of structures: DS-TS, DS-NR and TS-NR. The limit distance r d, which determines whether two residues are considered as part of the same block was chosen as 0.1 Å following the preliminary studies illustrated in figure 56. These show three representations of the matrix, where i,j = da(i,j)-db(i,j). The data shown refers to the case A = TS and B = DS. The color of a point within the matrix is red if i,j > r d and graduated from red to blue in terms of decreasing distance if i,j < r d. If r d = 10 Å (figure 56a), we obtain only two blocks which correspond, not surprisingly, to the myosin motor domain and the lever arm. By decreasing r d (figure 56b and figure 56c), a finer distinction of movement is obtained and more blocks appear. The selected limit of r d = 0.1 Å leads to roughly 20 structural blocks after the refinement procedure described in the methodology section and is reasonable limit given the limited resolution of the experimental data. figure 56 : Representation of the matrix ij for the DS-TS structure comparison: (a) the values of dts(i,j)-dds(i,j) from 0-10 Å are colored from blue to red. All values beyond 10 Å are shown in red. (b) all values of dts(i,j)-dds(i,j) beyond 1 Å are shown in red. (c) all values of dts(i,j)-dds(i,j) beyond 0.1 Å are shown in red. figure 57 shows the D matrix with r d = 0.1 Å before and after refinement for the DS-TS, DS- NR and TS-NR pairs. The resulting blocks can be linked to the 3-dimensional structure of 148

149 myosin, again using color-coded ribbon models (figure 58). Note that isolated residues and two-residue blocks have been colored gray. These results are in agreement with the division into four sub-domains connected by flexible regions suggested by Houdusse et al. 6, although the subdivisions shown in figure 58 are somewhat finer. The results for the three pairs of structures analyzed show overall similarity. There are however some notable differences. In particular, the helix at the top of the motor domain (colored tan in figure 58a, residues ) belongs to a single block for the TS-DS pair of structures, but is divided into three blocks (colored tan-yellow-orange in figure 58b and figure 58c) when the structure NR is involved in the comparison. Given the position of these residues, this change may well be related to the fact that the nucleotide binding pocket is occupied in the structures DS and TS, but empty in NR. 149

150 figure 57 : Binary representation of the matrix D ij where 1's are colored in black and 0's in white. Figures (a), (c) and (e) show the comparisons DS-TS, DS-NR and NR-TS before refinement of the structural blocks (see methodology), while figures (b), (d) and (f) show the same comparisons after refinement. In fact, the presence of a nucleotide in the binding pocket seems to lead to larger structural blocks in several regions. Thus, the zone formed by residues (shown as ice blue in figure 58a) forms a single block only when the nucleotide pocket is occupied and a similar result is found for the residues and (shown in orange in figure 58a). A 150

151 similar distinction is found within the lever arm and light chains, where the three blocks observed in the presence of a bound nucleotide (figure 58a), become four blocks when the comparison involves an empty nucleotide pocket. It is also important to note that this analysis clearly shows the "pliant point" within the region (indicated by an arrow between the yellow and red blocks in figure 58c) reported by Houdusse et al. [Houdusse & Sweeney; 2001]. figure 58 : Ribbon diagram of the DS myosin head structure, color-coded on the basis of the calculated structural blocks (the color range from blue to red corresponds to increasing fluctuations). Figures a, b and c show the blocks obtained from the DS-TS, DS-NR and NR- TS comparisons respectively. Residues belonging to blocks of less than three residues are shown in gray. The arrow in figure c indicates the so-called pliant point. Links between collective vibrations and structural blocks In order to test whether the results obtained by our rigid block analysis are related to the ANM collective vibration analysis, we have repeated the B-factor calculations using a modified spring model of myosin. The modification involves using two different spring constants to 151

152 mimic the existence of structural blocks. While maintaining the usual spring constant between residues belonging to different blocks, we increase the spring constant by a factor of 100 for residue pairs within a single block. If the block analysis can be related to rigidity within blocks and flexibility between blocks, the modified spring constants would not be expected to significantly change the calculated B-factors. As a control, we have also carried out B-factor calculations with modified spring constants based on artificially constructed blocks which cross the block boundaries we have actually determined. Note that the cutoff distance for forming inter-residue springs is kept at 11 Å for all these studies. figure 59 : Calculated B-factors for the DS structure using two spring constants which take into account the rigid blocks obtained from the DS-TS comparison (solid curve) or using a single spring constant (dashed curve). figure 59 displays the modified B-factors calculated with two spring constants for the DS structure, taking into account the structural blocks obtained from the DS-TS comparison. The B-factors calculated with the standard spring constant of 1.3 kcal/(å 2.mol) are shown for comparison. Note that the total area under the two curves have been made equal. It can be seen that the modified B-factors are nearly identical to those calculated with a single spring 152

153 constant. Minor differences occur for residues and residues which do not belong to structural blocks and are found to be a little more flexible than with the previous calculation. We have repeated this analysis for the three available myosin structures, using either of the rigid block definitions involving the structure in question. This leads to a total of six different B-factor curves which can be compared with the single spring constant result. In all cases, the minor changes observed support the compatibility of the rigid block and the ANM analyses. In contrast, if we use artificially constructed blocks bridging the principal boundaries between the true rigid blocks, much more significant changes in the B-factor curves are found. Compared to the reference B-factor curve, the mean relative error found with the artificial blocks is 22%, compared to only 5% with the correctly formed blocks. We can therefore conclude that there is indeed a close relation between the ANM calculations and the rigid block analysis. Conclusions By combining coarse-grained methods with available crystallographic data, we have been able to study the flexibility of myosin motor protein, a system involving almost 1000 amino acid residues. We have used two approaches to obtain information, first, calculating residue fluctuations using the ANM elastic model and, second, defining rigid structural blocks by an analysis of conformational changes. Good agreement is found with available experimental data. These two approaches, which have been shown to yield compatible results, enable us to distinguish and to quantify the rigid and flexible domains within the myosin structure. Although, the basic mechanics of myosin seems to be preserved amongst its various known conformations, changes have been detected in the flexibility at the motor domain-lever arm interface and also linked to the presence or absence of a ligand within the nucleotide binding pocket. We have also been able to show that the regulatory and essential light chains play a significant role in determining the rigidity of the myosin lever arm. Acknowledgment I.N. acknowledges support from Foundation for Advanced Education in the Sciences and from the National Institutes of Health. 153

154 XVII Conclusion Cette étude comparative de trois structures de myosine II à différents moments du cycle actomyosine permet d apporter quelques indices utiles à la compréhension du mécanisme de ce moteur moléculaire. D une part, l étude des modes normaux de la représentation granulaire des structures montrent que le bras de levier est beaucoup plus mobile que le cœur de la tête, et en particulier que le site de fixation de l ATP. Cette remarque est vraie pour des structures du fragment S1 isolées (en opposition à des fragments dans un réseau cristallographique où les cous sont en interaction avec les autres structures ou reliés à la queue de la myosine). De même les boucles situées en surface et particulièrement celles proches du site de fixation de l actine (absente dans toutes les structures) sont plutôt mobiles. Des différences sont toutefois observées pour l état détaché dont le bras de levier est proche d un motif SH3 de la tête et dans lequel la distance séparant l hélice constituant le bras de levier du brin β dans la région dite «relay» est plus grande que dans les autres structures. De plus, dans cette même structure, la région la plus rigide se situe au niveau du site de fixation du nucléotide au lieu de se trouver au niveau du lien dit «switch II» liant la région «relay» au site de fixation du nucléotide comme dans les autres structures. Cela confirme le fait que les éléments structuraux constitutifs de l état détaché sont plus découplés que des autres états. Le rôle des chaînes légères modifiant la flexibilité du bras de levier est confirmé par une comparaison des facteurs de température du bras de levier calculés en présence ou absence des chaînes légères. De même, les zones de la tête présentant une mobilité élevée sont différents suivant que l on considère ou non les chaînes légères dans le calcul. D autre part, la détermination de domaines structuraux par comparaison des matrices de distance entre structures est compatible avec l étude des modes normaux. La prise en compte de ces domaines dans le calcul d AMN donne en effet des résultats similaires à ceux présentés précédemment. Les domaines définis dans notre étude sont plus fins que ceux couramment employés pour décrire les têtes de myosines mais compatibles avec ces derniers. Ils permettent de mettre en évidence des points de charnières comme la région dite «pliant point» ou «kink» [Houdusse & Sweeney; 2001, Xiao, et al.; 2003] du bras de levier. En 154

155 regardant plus en détail la région de fixation du nucléotide, on remarque que l hélice α constituée des résidus 416 à 446 est divisée en deux blocs lorsqu on compare la structure non complexée aux autres structures dans lesquelles un nucléotide est lié au site enzymatique. Ceci montre que cette hélice n est pas rigide et se plie en son centre suivant l absence ou la présence d un nucléotide. L étude présentée dans ce premier article montre une approche des propriétés mécaniques des protéines par la comparaison de structures et le calculs de modes normaux. Nous allons décrire dans la suite une autre approche des problèmes mécaniques des protéines. 155

156 156

157 Chapitre 7 Article : Propriétés mécaniques des protéines à l échelle du résidu et leur utilisation pour définir des structurations en domaines 157

158 XVIII Introduction Dans cet article, nous présentons une méthode théorique pour tester les propriétés mécaniques des protéines à l échelle du résidu et son utilisation afin de définir des domaines structuraux basés sur ces propriétés. Les résidus d une protéine sont sondés les uns après les autres en augmentant ou diminuant la longueur moyenne reliant le carbone α du résidu sondé aux autres carbones α. La forme de la surface énergétique le long de cette coordonnée autour de la position d équilibre initiale est quadratique (voir paragraphe XIII.3 page 100). On définit donc une constante de force qui rend compte de la résistance du système à une telle contrainte (plus la constante est grande, plus le système est résistant). L ordre de grandeur de cette constante de force est le nn.å -1 mais ses valeurs peuvent varier d un facteur 50 suivant le résidu sondé. La réponse de la protéine à la contrainte nous permet aussi de définir des domaines mécaniques en nous basant sur le déplacement relatif des carbones α par rapport au carbone α testé (voir paragraphe XIV.6 page 117). Une étude plus systématique de la position des résidus possédant une grande constante de force nous a par ailleurs révélé que ceux-ci étaient situés aux interfaces entre les domaines précedemment définis. Deux modèles de représentation de protéines ont été testés : un modèle représentant tous les atomes dans un champ de force défini par les paramètres parm99 d AMBER en travaillant avec les variables internes (voir la description du programme LIGAND paragraphe XI page 73 ) et un modèle granulaire modélisant les protéines sous la forme d un réseau de ressorts gaussiens entre les carbones α (voir la description du programme GNMlig paragraphe XII.7 page 90 ). Le modèle granulaire a l avantage d être très rapide et permet une étude systématique ainsi que l étude de système de taille importante. L exemple de la nucléase du staphylocoque est étudié avec ces deux approches et six autres protéines, possédant entre 140 et 750 résidus, ont été étudiées avec la représentation granulaire. 158

159 XIX Probing protein mechanics: Residue-level properties and their use in defining domain structures Isabelle Navizet, Fabien Cailliez and Richard Lavery Soumis en février 2004 à Biophysical Journal Abstract It is becoming clear that, in addition to structural properties, the mechanical properties of proteins can play an important role in their biological activity. It nevertheless remains difficult to probe these properties experimentally. While single molecule experiments give access to overall mechanical behavior, notably the impact of end-to-end stretching, it is currently impossible to directly obtain data on more local properties. We propose a theoretical method for probing the mechanical properties of protein structures at the single amino acid level. This approach can be applied to both all-atom and simplified protein representations. The probing leads to force constants for local deformations and to deformation vectors indicating the paths of least mechanical resistance and also defining the mechanical coupling which exists between residues. Results obtained for a variety of proteins show that the calculated force constants vary over a wide range. An analysis of the induced deformations provides information which is distinct from that obtained with measures of atomic fluctuations and is more easily linked to residue-level properties than normal mode analyses or dynamic trajectories. It is also shown that the data obtained from residue-level probing makes it possible to define domains using this mechanical information. Keywords: Molecular modeling, molecular dynamics, protein deformation, coarse-grained models, dynamical domains Introduction 159

160 AVERTISSEMENT La version de cette thèse n est pas la version complète de la thèse soutenue le 5 mars J y ai enlevé l article du chapitre 7 qui n a pas encore été publié.

161 AVERTISSEMENT La version de cette thèse n est pas la version complète de la thèse soutenue le 5 mars J y ai enlevé l article du chapitre 7 qui n a pas encore été publié.

162 XX Conclusion Cet article décrit une méthode que nous avons mise au point afin de tester les propriétés mécaniques des structures protéiques à l échelle du résidu. En appliquant une contrainte sur la distance moyenne séparant un résidu i donné des autres résidus, la structure se déforme donnant une information scalaire et une information vectorielle. L information scalaire est une constante de force informant sur la facilité avec laquelle le résidu i répond à une telle contrainte. L information vectorielle est la direction préférentielle de déplacement que choisit le résidu i correspondant à la direction de plus faible résistance. La donnée des variations des distances entre les carbones α pour satisfaire les contraintes permet de définir des domaines structuraux. La combinaison de ces deux informations nous a de plus permis de remarquer que les résidus les plus résistants sont situés à l interface des domaines. Nous avons utilisé cette méthode pour définir les domaines mécaniques de la nucléase du staphylocoque avec une représentation tenant compte de tous les atomes et ceux de six autres protéines en utilisant une représentation simplifiée ne tenant compte que des carbones α. Il serait intéressant de regarder plus en détails les différents domaines obtenus. Ils peuvent en effet sûrement expliquer des propriétés mécaniques liées aux informations structurelles et aux mécanismes chimiques. De même, la comparaison de leur évolution le long d un dépliement et la comparaison de leur emplacement avec l enchaînement du dépliement peut constituer une étude intéressante en vue de mieux comprendre le dépliement et le repliement des protéines. 182

163 Chapitre 8 Conclusion générale Le travail de thèse qui vient d être présenté a été effectué au sein de deux laboratoires : l étude des modes normaux et la détermination des domaines structuraux de la myosine ont été développées au Laboratory of Experimental and Computational Biology, au National Cancer Institute des NIH de Bethesda dans le Maryland (Etats-Unis) avec Robert L. Jernigan et le développement des contraintes mécaniques et leur utilisation pour déterminer des domaines mécaniques ont été effectués au Laboratoire de Biochimie Théorique à l Institut de Biologie Physico-Chimique à Paris (France) sous la direction de Richard Lavery. L étude des propriétés mécaniques des protéines a été abordée à différents niveaux de représentation (atomiques ou granulaires) et sous plusieurs aspects. Nous avons montré qu une représentation très simplifié de la protéine comme appliquée dans les programmes GNM et GNMlig permettait d obtenir des résultats très intéressants avec des calculs rapides et applicables sur de gros systèmes. L analyse des résultats des études utilisant cette représentation doit toutefois se limiter à des informations rudimentaires des propriétés. En effet, le modèle granulaire gomme les informations sur les interactions chimiques entre résidus et contraint l étude de la structure autour de son état d équilibre. Ainsi, l étude du dépliement d une protéine sur un tel modèle se limite aux conformations proches de l état natif puisqu elle ne permet pas à la structure de franchir des barrières d énergie. Par contre, ce modèle permet d avoir accès aux facteurs de température par une étude des modes normaux 183

164 car ce sont les modes normaux les plus globaux qui contribuent majoritairement à leur calcul théorique. Les facteurs de température, qu on peut aussi obtenir expérimentalement si la résolution de l étude cristallographique est suffisamment bonne, sont liés à la compaction locale autour des résidus étudiés. Pour aborder une étude plus fine des liens entre structure et mécanique, nous avons défini un indice permettant de caractériser l élasticité d un brin polypeptidique résidu par résidu. De telles informations ne sont pas faciles à obtenir par l analyse des trajectoires de dynamique moléculaire ou par les calculs des modes normaux. La réponse d une structure protéique à une contrainte sur la moyenne des distances séparant un carbone C α,i aux autres carbones α de la structure permet de calculer une constante de force et révèle la direction de déplacement montrant la plus faible résistance. La localisation des résidus les plus résistants et l analyse des déformations favorables sont des caractéristiques de la chaîne protéique étudiée. Il serait intéressant de poursuivre cette recherche dans le cadre des études sur le rôle biologique des résidus en question. Une autre approche du problème mécanique que nous avons abordée est la délimitation de domaines au sein des structures biologiques. La première méthode présentée est issue de la comparaison entre structures d une même protéine. Elle s applique de façon naturelle dans le cadre de notre étude de la myosine dont nous possédons plusieurs structures. Cette approche simpliste est toutefois limitée à des études de structures très proches. Elle peut être utilisée par exemple sur l étude de structures obtenues par dynamique moléculaire, par l étude des modes normaux ou par des expériences de dépliement sous contrainte. La deuxième méthode découle de la réponse aux contraintes mécaniques locales. La démarche originale de détermination de domaines mécaniques est intéressante car, d une part, elle est intrinsèque à une structure donnée et ne nécessite pas de comparaison ni de superposition de structures et, d autre part, elle est liée à une information plus riche qu une simple observation de la structure. Il serait intéressant de comparer les domaines ainsi obtenus avec d autres méthodes. De même, un certain nombre de questions pourraient être abordées : Retrouve-t-on les mêmes domaines mécaniques si on analyse deux structures différentes d une même protéine? Les domaines mécaniques permettent-ils de prédire les réponses à une contrainte mécanique globale dans l étude du dépliement des protéines? L analyse de leur évolution lors d un dépliement ainsi que celle des constantes de force relatives à leur obtention donne-t-elle des informations sur les parties les plus sensibles et les plus résistantes? 184

165 Ainsi, les algorithmes que nous avons développés et dont nous avons présenté les premières applications pourront dans l avenir peut-être amener des éléments de réponses sur quelques questions fondamentales comme le mécanisme de repliement des protéines. Mais on espère aussi qu ils permettront de donner des indications sur les caractéristiques mécaniques des sites enzymatiques (notamment en comparant des enzymes dont le rôle des sites catalytiques a divergé au cours de l évolution tout en conservant la même localisation dans la structure [Hasson, et al.; 1998]) et les surfaces d interaction des protéines (observe-t-on des différences de propriétés mécaniques au niveau des sites d interaction? Comment les propriétés mécaniques d une protéine au sein d un complexe sont modifiées par rapport à celles de la même protéine hors du complexe?) ou les raisons mécaniques de la thermostabilité (quelle différence observe-t-on entre les propriétés mécaniques des protéines thermophiles et de leurs homologues mésophiles?). Le travail de recherche présenté dans ce mémoire de thèse correspond essentiellement au développement des méthodes présentées. Seules quelques applications de ces méthodes originales ont été abordées. Le champ d application de ces méthodes est vaste car la compréhension du comportement des protéines est encore très partielle et nous avons montré que la modélisation moléculaire permet d aller là où l expérience ne peut pas encore fournir les informations nécessaires. 185

166 186

167 BIBLIOGRAPHIE Alberts B., Bray D., Lewis J., Raff M., Roberts K. & Watson J. (1994) Molecular biology of the cell. Garland Science, New York. Allemand J. F., Bensimon D., Lavery R. & Croquette V. (1998) Stretched and overwound DNA forms a Pauling-like structure with exposed bases. Proc Natl Acad Sci U S A. 95(24): Allen M. & Tildesley D. (1987) Computer simulations of liquids. Clarendon Press., Oxford. Alonso D. O. & Daggett V. (1995) Molecular dynamics simulations of protein unfolding and limited refolding: characterization of partially unfolded states of ubiquitin in 60% methanol and in water. J Mol Biol. 247(3): Anfinsen C. B. & Scheraga H. A. (1975) Experimental and theoretical aspects of protein folding. Adv Protein Chem. 29: Atilgan A. R., Durell S. R., Jernigan R. L., Demirel M. C., Keskin O. & Bahar I. (2001) Anisotropy of fluctuation dynamics of proteins with an elastic network model. Biophys J. 80(1): Bahar I., Atilgan A. R., Demirel M. C. & Burack E. (1998) Vibrational Dynamics of Folded Proteins: Significance of Slow and Fast Motions in Relation to Function and Stability. Phys Rev Lett. 80: Bahar I., Atilgan A. R. & Erman B. (1997) Direct evaluation of thermal fluctuations in proteins using a single-parameter harmonic potential. Fold Des. 2(3): Bahar I., Erman B., Jernigan R. L., Atilgan A. R. & Covell D. G. (1999) Collective motions in HIV-1 reverse transcriptase: examination of flexibility and enzyme function. J Mol Biol. 285(3): Bahar I. & Jernigan R. L. (1998) Vibrational dynamics of transfer RNAs: comparison of the free and synthetase-bound forms. J Mol Biol. 281(5): Bahar I. & Jernigan R. L. (1999) Cooperative fluctuations and subunit communication in tryptophan synthase. Biochemistry. 38(12): Baker J. P. & Titus M. A. (1998) Myosins: matching functions with motors. Curr Opin Cell Biol. 10(1): Baldwin R. L. (1996) Why is protein folding so fast? Proc Natl Acad Sci U S A. 93(7): Bashford D. & Case D. (2000) Generalized Born models of macromolecular solvation effects. Annu Rev Phys Chem. 51: Bastard K., Thureau A., Lavery R. & Prevost C. (2003) Docking macromolecules with flexible segments. J Comput Chem. 24(15): Bensimon D. (1996) Force: a new structural control parameter? Structure. 4(8): Berendsen H. J. C., Postma J. P. M., van Gunsteren W. F., DiNola A. & Haak J. R. (1984) Molecular dynamics with coupling to an external bath. J. Chem. Phys. 81: Berg J. S., Powell B. C. & Cheney R. E. (2001) A millennial myosin census. Mol Biol Cell. 12(4): Berman H. M., Battistuz T., Bhat T. N., Bluhm W. F., Bourne P. E., Burkhardt K., Feng Z., Gilliland G. L., Iype L., Jain S., Fagan P., Marvin J., Padilla D., Ravichandran V., Schneider B., Thanki N., Weissig H., Westbrook J. D. & Zardecki C. (2002) The Protein Data Bank. Acta Crystallogr D Biol Crystallogr. 58(Pt 6 No 1): Berman H. M., Westbrook J., Feng Z., Gilliland G., Bhat T. N., Weissig H., Shindyalov I. N. & Bourne P. E. (2000) The Protein Data Bank. Nucleic Acids Res. 28(1):

168 Bertucat G., Lavery R. & Prevost C. (1999) A molecular model for RecA-promoted strand exchange via parallel triple-stranded helices. Biophys J 77: Bjorkman A. J. & Mowbray S. L. (1998) Multiple open forms of ribose-binding protein trace the path of its conformational change. J Mol Biol. 279(3): Block S. M. (1996) Fifty ways to love your lever: myosin motors. Cell. 87(2): Bond C. J., Wong K. B., Clarke J., Fersht A. R. & Daggett V. (1997) Characterization of residual structure in the thermally denatured state of barnase by simulation and experiment: description of the folding pathway. Proc Natl Acad Sci U S A. 94(25): Bork P. (1992) Mobile modules and motifs. Curr Opin Struct Biol. 2: Brockwell D. J., Beddard G. S., Clarkson J., Zinober R. C., Blake A. W., Trinick J., Olmsted P. D., Smith D. A. & Radford S. E. (2002) The effect of core destabilization on the mechanical resistance of I27. Biophys J. 83(1): Brockwell D. J., Paci E., Zinober R. C., Beddard G. S., Olmsted P. D., Smith D. A., Perham R. N. & Radford S. E. (2003) Pulling geometry defines the mechanical resistance of a beta- sheet protein. Nature Structural Biology. 10(9): Bryant Z., Pande V. S. & Rokhsar D. S. (2000) Mechanical unfolding of a beta-hairpin using molecular dynamics. Biophysical Journal. 78(2): Bryant Z., Stone M. D., Gore J., Smith S. B., Cozzarelli N. R. & Bustamante C. (2003) Structural transitions and elasticity from torque measurements on DNA. Nature. 424(6946): Bustamante C., Bryant Z. & Smith S. B. (2003) Ten years of tension: single-molecule DNA mechanics. Nature. 421(6921): Carrion-Vazquez M., Li H., Lu H., Marszalek P. E., Oberhauser A. F. & Fernandez J. M. (2003) The mechanical stability of ubiquitin is linkage dependent. Nat Struct Biol. 10(9): Carrion-Vazquez M., Oberhauser A. F., Fowler S. B., Marszalek P. E., Broedel S. E., Clarke J. & Fernandez J. M. (1999) Mechanical and chemical unfolding of a single protein: a comparison. Proc Natl Acad Sci U S A. 96(7): Carugo O. & Pongor S. (2002) Protein fold similarity estimated by a probabilistic approach based on C(alpha)-C(alpha) distance comparison. J Mol Biol. 315(4): Case D. A., Pearlman D. A., Caldwell J. W., Cheatham III T. E., Wang J., Ross W. S., Simmerling C. L., Darden T. A., Mer K. M., Stanton R. V., Cheng A. L., Vincent J. J., Crowley M., Tsui V., Gohlke H., Radmer R. J., Duan Y., Pitera J., Massova I., Seibel G. L., Singh U. C., Weimer P. K. & Kollman P. A. (2002) AMBER7. Chakravarty S. & Varadarajan R. (2002) Elucidation of factors responsible for enhanced thermal stability of proteins: a structural genomics based study. Biochemistry. 41(25): Chan H. S. & Dill K. A. (1998) Protein folding in the landscape perspective: chevron plots and non-arrhenius kinetics. Proteins: Struct. Funct. Genet. 30(1): Chandon J. L. & Pinson S. (1981) Analyse typologique : théories et applications. Masson, Paris New York. Chattopadhyaya R., Meador W. E., Means A. R. & Quiocho F. A. (1992) Calmodulin structure refined at 1.7 A resolution. J Mol Biol. 228(4): Cheatham III T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular Dynamics Simulation on Solvated Biomolecular Systems: The Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, RNA and Proteins. J. Am. Chem. Soc. 117(14):

169 Cheatham T. E., Miller J. L., Fox T., Darden T. A. & Kollman P. A. (1995) Molecular- Dynamics Simulations on Solvated Biomolecular Systems - the Particle Mesh Ewald Method Leads to Stable Trajectories of DNA, Rna, and Proteins. Journal of the American Chemical Society. 117(14): Chen J., Lu Z., Sakon J. & Stites W. E. (2000) Increasing the thermostability of staphylococcal nuclease: implications for the origin of protein thermostability. J Mol Biol. 303(2): Chen J. & Stites W. E. (2001) Packing is a key selection factor in the evolution of protein hydrophobic cores. Biochemistry. 40(50): Chothia C. (1976) The nature of the accessible and buried surfaces in proteins. J Mol Biol. 105(1): Cluzel P., Lebrun A., Heller C., Lavery R., Viovy J. L., Chatenay D. & Caron F. (1996) DNA: an extensible molecule. Science. 271(5250): Cooper J. B., Khan G., Taylor G., Tickle I. J. & Blundell T. L. (1990) X-ray analyses of aspartic proteinases. II. Three-dimensional structure of the hexagonal crystal form of porcine pepsin at 2.3 A resolution. J Mol Biol. 214(1): Corey R. B. & Pauling L. (1953) Fundamental dimensions of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902): Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1995) A second generation force field for the simulation of proteins and nucleic acids. J. Am. Chem. Soc. 117(19): Cornell W. D., Cieplak P., Bayly C. I., Gould I. R., Merz K. M. J., Ferguson D. M., Spellmeyer D. C., Fox T., W. C. J. & Kollman P. A. (1996) A second generation force field for the simulation of proteins and nucleic acids, Additions & Correction. J. Am. Chem. Soc. 118(9): Crippen G. M. (1978) The tree structural organization of proteins. J Mol Biol. 126(3): Daggett V. (2000) Long timescale simulations. Curr Opin Struct Biol. 10(2): Daggett V. (2001) Molecular dynamics simulations of protein unfolding/folding. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa. Daggett V. & Fersht A. (2003a) The present view of the mechanism of protein folding. Nat Rev Mol Cell Biol. 4(6): Daggett V. & Fersht A. R. (2003b) Is there a unifying mechanism for protein folding? Trends Biochem Sci. 28(1): Daggett V. & Levitt M. (1992) Molecular dynamics simulations of helix denaturation. J Mol Biol. 223(4): Daggett V., Li A., Itzhaki L. S., Otzen D. E. & Fersht A. R. (1996) Structure of the transition state for folding of a protein derived from experiment and simulation. J Mol Biol. 257(2): Darden T., York D. & Pedersen L. (1993) Particle Mesh Ewald - an N.Log(N) Method for Ewald Sums in Large Systems. Journal of Chemical Physics. 98(12): Demirel M. C., Atilgan A. R., Jernigan R. L., Erman B. & Bahar I. (1998) Identification of kinetically hot residues in proteins. Protein Sci. 7(12): Diday E., Lemaire J., Pouget J. & Testu F. (1982) Eléments d'analyse de données. Dunod, Paris. Dill K. A. (1990) Dominant forces in protein folding. Biochemistry. 29(31): Dill K. A., Fiebig K. M. & Chan H. S. (1993) Cooperativity in protein-folding kinetics. Proc Natl Acad Sci U S A. 90(5):

170 Dohoney K. M. & Gelles J. (2001) Chi-sequence recognition and DNA translocation by single RecBCD helicase/nuclease molecules. Nature. 409(6818): Dominguez R., Freyzon Y., Trybus K. M. & Cohen C. (1998) Crystal structure of a vertebrate smooth muscle myosin motor domain and its complex with the essential light chain: visualization of the pre-power stroke state. Cell. 94(5): Doruker P., Atilgan A. R. & Bahar I. (2000) Dynamics of proteins predicted by molecular dynamics simulations and analytical approaches: application to alpha-amylase inhibitor. Proteins. 40(3): Doruker P., Jernigan R. L. & Bahar I. (2002a) Dynamics of large proteins through hierarchical levels of coarse-grained structures. J Comput Chem. 23(1): Doruker P., Jernigan R. L., Navizet I. & Hernandez R. (2002b) Important fluctuation dynamics of large protein structures are preserved upon coarse-grained renormalization. Int J of Quantum Chem. 90(2): Duan Y. & Kollman P. A. (1998) Pathways to a protein folding intermediate observed in a 1- microsecond simulation in aqueous solution. Science. 282(5389): Eisenberg D. & McLachlan A. D. (1986) Solvation energy in protein folding and binding. Nature. 319(6050): Essevaz-Roulet B., Bockelmann U. & Heslot F. (1997) Mechanical separation of the complementary strands of DNA. Proc Natl Acad Sci U S A. 94(22): Evans E. & Ritchie K. (1997) Dynamic strength of molecular adhesion bonds. Biophys J. 72(4): Falicov A. & Cohen F. E. (1996) A surface of minimum area metric for the structural comparison of proteins. J Mol Biol. 258(5): Fersht A. R. & Daggett V. (2002) Protein folding and unfolding at atomic resolution. Cell. 108(4): Finkelstein A. V. (1997) Can protein unfolding simulate protein folding? Protein Eng. 10(8): Fisher T. E., Marszalek P. E. & Fernandez J. M. (2000) Stretching single molecules into novel conformations using the atomic force microscope. Nat Struct Biol. 7(9): Florin E. L., Moy V. T. & Gaub H. E. (1994) Adhesion forces between individual ligandreceptor pairs. Science. 264(5157): Flory P. J. (1969) Statistical mechanics of chain molecules. Interscience-Wiley Publishers, New York. Freire E. (2001) The thermodynamic linkage between protein structure, stability and function. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa. Frenkel D. & Smit B. (2002) Understanding molecular simulation, from algorithms to applications. Academic press, Frye K. J. & Royer C. A. (1998) Probing the contribution of internal cavities to the volume change of protein unfolding under pressure. Protein Sci. 7(10): Gao M., Lu H. & Schulten K. (2001) Simulated refolding of stretched titin immunoglobulin domains. Biophys J. 81(4): Gao M., Lu H. & Schulten K. (2002) Unfolding of titin domains studied by molecular dynamics simulations. J Muscle Res Cell Motil. 23(5-6): Geeves M. A. (1991) The dynamics of actin and myosin association and the crossbridge model of muscle contraction. Biochem J. 274 ( Pt 1): Gerstein M., Lesk A. M. & Chothia C. (1994) Structural mechanisms for domain movements in proteins. Biochemistry. 33(22):

171 Gilquin B., Guilbert C. & Perahia D. (2000) Unfolding of hen egg lysozyme by molecular dynamics simulations at 300K: insight into the role of the interdomain interface. Proteins. 41(1): Godzik A. (1996) The structural alignment between two proteins: is there a unique answer? Protein Sci. 5(7): Grottesi A., Ceruso M. A., Colosimo A. & Di Nola A. (2002) Molecular dynamics study of a hyperthermophilic and a mesophilic rubredoxin. Proteins. 46(3): Gulick A. M., Bauer C. B., Thoden J. B., Pate E., Yount R. G. & Rayment I. (2000) X-ray structures of the Dictyostelium discoideum myosin motor domain with six nonnucleotide analogs. J Biol Chem. 275(1): Ha Duong T. & Zakrzewska K. (1997) Calculation and analysis of low frequency normal modes for DNA, Lab. de Biochimie Theor. Inst. de Biol. Physico-Chimique Paris France. Haliloglu T. & Bahar I. (1999) Structure-based analysis of protein dynamics: comparison of theoretical results for hen lysozyme with X-ray diffraction and NMR relaxation data. Proteins. 37(4): Haliloglu T., Bahar I. & Erman B. (1997) Gaussian Dynamics of Folded Proteins. Phys Rev Lett. 79(16): Halle B. (2002) Flexibility and packing in proteins. Proc Natl Acad Sci U S A. 99(3): Harrison S. C. & Durbin R. (1985) Is there a single pathway for the folding of a polypeptide chain? Proc Natl Acad Sci U S A. 82(12): Hasson M. S., Schlichting I., Moulai J., Taylor K., Barrett W., Kenyon G. L., Babbitt P. C., Gerlt J. A., Petsko G. A. & Ringe D. (1998) Evolution of an enzyme active site: the structure of a new crystal form of muconate lactonizing enzyme compared with mandelate racemase and enolase. Proc Natl Acad Sci U S A. 95(18): Hawkins G. D., Cramer C. J. & Truhlar D. G. (1995) Pairwise solute screening of solute charges from a dielectric medium. Chem. Phys. Lett. 246: Hawkins G. D., Cramer C. J. & Truhlar D. G. (1996) Parameterized models of aqueous free energies of solvation based on pairwise descreening of solute atomic charges from a dielectric medium. J. Phys. Chem. 100: Hayward S., Kitao A. & Berendsen H. J. (1997) Model-free methods of analyzing domain motions in proteins from simulation: a comparison of normal mode analysis and molecular dynamics simulation of lysozyme. Proteins. 27(3): Himmel D. M., Gourinath S., Reshetnikova L., Shen Y., Szent-Gyorgyi A. G. & Cohen C. (2002) Crystallographic findings on the internally uncoupled and near-rigor states of myosin: further insights into the mechanics of the motor. Proc Natl Acad Sci U S A. 99(20): Hinsen K. (1998) Analysis of domain motions by approximate normal mode calculations. Proteins. 33(3): Hinsen K., Thomas A. & Field M. J. (1999) Analysis of domain motions in large proteins. Proteins. 34(3): Hirakawa H., Muta S. & Kuhara S. (1999) The hydrophobic cores of proteins predicted by wavelet analysis. Bioinformatics. 15(2): Hirano S., Mihara K., Yamazaki Y., Kamikubo H., Imamoto Y. & Kataoka M. (2002) Role of C-terminal region of Staphylococcal nuclease for foldability, stability, and activity. Proteins. 49(2): Hodge T. & Cope M. J. (2000) A myosin family tree. J Cell Sci. 113 Pt 19: Holm L. & Sander C. (1993) Protein structure comparison by alignment of distance matrices. J Mol Biol. 233(1):

172 Holm L. & Sander C. (1994) Parser for protein folding units. Proteins. 19(3): Holm L. & Sander C. (1997) Dali/FSSP classification of three-dimensional protein folds. Nucleic Acids Res. 25(1): Holmes K. C. & Geeves M. A. (2000) The structural basis of muscle contraction. Philos Trans R Soc Lond B Biol Sci. 355(1396): Honig B. (1999) Protein folding: from the levinthal paradox to structure prediction. J Mol Biol. 293(2): Houdusse A., Kalabokis V. N., Himmel D., Szent-Gyorgyi A. G. & Cohen C. (1999) Atomic structure of scallop myosin subfragment S1 complexed with MgADP: a novel conformation of the myosin head. Cell. 97(4): Houdusse A. & Sweeney H. L. (2001) Myosin motors: missing structures and hidden springs. Curr Opin Struct Biol. 11(2): Houdusse A., Szent-Gyorgyi A. G. & Cohen C. (2000) Three conformational states of scallop myosin S1. Proc Natl Acad Sci U S A. 97(21): Hubbard T. J., Murzin A. G., Brenner S. E. & Chothia C. (1997) SCOP: a structural classification of proteins database. Nucleic Acids Res. 25(1): Humphrey W., Dalke A. & Schulten K. (1996) VMD: visual molecular dynamics. J Mol Graph. 14(1): 33-8, Hunenberger P. H., Mark A. E. & van Gunsteren W. F. (1995) Computational approaches to study protein unfolding: hen egg white lysozyme as a case study. Proteins. 21(3): Idiris A., Alam M. T. & Ikai A. (2000) Spring mechanics of alpha-helical polypeptide. Protein Eng. 13(11): Ikura T., Tsurupa G. P. & Kuwajima K. (1997) Kinetic folding and cis/trans prolyl isomerization of staphylococcal nuclease. A study by stopped-flow absorption, stopped-flow circular dichroism, and molecular dynamics simulations. Biochemistry. 36(21): Irving M. & Goldman Y. E. (1999) Motor proteins. Another step ahead for myosin. Nature. 398(6727): 463, 465. Isin B., Doruker P. & Bahar I. (2002) Functional motions of influenza virus hemagglutinin: a structure-based analytical approach. Biophys J. 82(2): Itzhaki L. S., Neira J. L., Ruiz-Sanz J., de Prat Gay G. & Fersht A. R. (1995a) Search for nucleation sites in smaller fragments of chymotrypsin inhibitor 2. J Mol Biol. 254(2): Itzhaki L. S., Otzen D. E. & Fersht A. R. (1995b) The structure of the transition state for folding of chymotrypsin inhibitor 2 analysed by protein engineering methods: evidence for a nucleation-condensation mechanism for protein folding. J Mol Biol. 254(2): Izrailev S., Stepaniants S., Balsera M., Oono Y. & Schulten K. (1997) Molecular dynamics study of unbinding of the avidin-biotin complex. Biophys J. 72(4): Janin J. & Chothia C. (1985) Domains in proteins: definitions, location, and structural principles. Methods Enzymol. 115: Jarvis R. A. & Patrick E. A. (1973) Clustering using a similarity measure based on shared near neighbours. IEEE Transactions in Computers. C-22: Jorgensen W. L., Chandrasekhar J., Madura J. D., Impey R. W. & Klein M. L. (1983) Comparison of Simple Potential Functions for Simulating Liquid Water. Journal of Chemical Physics. 79(2): Karplus M. & Weaver D. L. (1994) Protein folding dynamics: the diffusion-collision model and experimental data. Protein Sci. 3(4):

173 Karplus P. A. (1996) Experimentally observed conformation-dependent geometry and hidden strain in proteins. Protein Sci. 5(7): Kazmirski S. L. & Daggett V. (1998) Simulations of the structural and dynamical properties of denatured proteins: the "molten coil" state of bovine pancreatic trypsin inhibitor. J Mol Biol. 277(2): Kellermayer M. S., Smith S. B., Granzier H. L. & Bustamante C. (1997) Folding-unfolding transitions in single titin molecules characterized with laser tweezers. Science. 276(5315): Keskin O., Bahar I., Flatow D., Covell D. G. & Jernigan R. L. (2002a) Molecular mechanisms of chaperonin GroEL-GroES function. Biochemistry. 41(2): Keskin O., Durell S. R., Bahar I., Jernigan R. L. & Covell D. G. (2002b) Relating molecular flexibility to function: a case study of tubulin. Biophys J. 83(2): Keskin O., Jernigan R. L. & Bahar I. (2000) Proteins with similar architecture exhibit similar large-scale dynamic behavior. Biophys J. 78(4): Kitamura K., Tokunaga M., Iwane A. H. & Yanagida T. (1999) A single myosin head moves along an actin filament with regular steps of 5.3 nanometres. Nature. 397(6715): Koehl P. (2001) Protein structure similarities. Curr Opin Struct Biol. 11(3): Korn E. D. (2000) Coevolution of head, neck, and tail domains of myosin heavy chains. Proc Natl Acad Sci U S A. 97(23): Kundu S., Melton J. S., Sorensen D. C. & Phillips G. N., Jr. (2002) Dynamics of proteins in crystals: comparison of experiment with simple models. Biophys J. 83(2): Ladoux B., Quivy J. P., Doyle P. S., Almouzni G. & Viovy J. L. (2001) Direct imaging of single-molecules: from dynamics of a single DNA chain to the study of complex DNA-protein interactions. Sci Prog. 84(Pt 4): Lavery R. & Lebrun A. (1999) Modelling DNA stretching for physics and biology. Genetica. 106(1-2): Lavery R., Lebrun A., Allemand J.-F., Bensimon D. & Croquette V. (2002) Structure and mechanics of single biomolecules: experiment and simulation. Journal of Physics- Condensed Matter 14: R383-R414. Lavery R., Parker I. & Kendrick J. (1986a) A general approach to the optimization of the conformation of ring molecules with an application to valinomycin. J Biomol Struct Dyn. 4(3): Lavery R., Sklenar H., Zakrzewska K. & Pullman B. (1986b) The flexibility of the nucleic acids: (II). The calculation of internal energy and applications to mononucleotide repeat DNA. J Biomol Struct Dyn. 3(5): Lavery R., Zakrzewska K. & Sklenar H. (1995) JUMNA: Junction Minimisation of Nucleic Acids. Computer Physics Communications. 91: Leach A. (2001) Molecular modelling principles and applications. Prentice hall., Lebrun A. & Lavery R. (1996) Modelling extreme stretching of DNA. Nucleic Acids Res. 24(12): Lebrun A. & Lavery R. (1998) Modeling the mechanics of a DNA oligomer. J Biomol Struct Dyn. 16(3): Lebrun A. & Lavery R. (1999) Modeling DNA deformations induced by minor groove binding proteins. Biopolymers. 49(5): Lebrun A., Shakked Z. & Lavery R. (1997) Local DNA stretching mimics the distortion caused by the TATA box-binding protein. Proc Natl Acad Sci U S A. 94(7): Lesk A. M. (1998) Extraction of geometrically similar substructures: least-squares and Chebyshev fitting and the difference distance matrix. Proteins. 33(3):

174 Lesk A. M. & Chothia C. (1984) Mechanisms of domain closure in proteins. J Mol Biol. 174(1): Levinthal C. (1968) Are there pathways for protein folding? J. Chem. Phys. 65: Levitt M. & Gerstein M. (1998) A unified statistical framework for sequence comparison and structure comparison. Proc Natl Acad Sci U S A. 95(11): Liphardt J., Onoa B., Smith S. B., Tinoco I. J. & Bustamante C. (2001) Reversible unfolding of single RNA molecules by mechanical force. Science. 292(5517): Lu H. & Schulten K. (2000) The key event in force-induced unfolding of Titin's immunoglobulin domains. Biophys J. 79(1): Marsh R. E. & Donohue J. (1967) Crystal structure studies of amino acids and peptides. Adv Protein Chem. 22: Masugata K., Ikai A. & Okazaki S. (2002) Molecular dynamics study of mechanical extension of polyalanine by AFM cantilever. Applied Surface Science. 188(3-4): Matouschek A. & Bustamante C. (2003) Finding a protein's Achilles heel. Nat Struct Biol. 10(9): Mayor U., Guydosh N. R., Johnson C. M., Grossmann J. G., Sato S., Jas G. S., Freund S. M., Alonso D. O., Daggett V. & Fersht A. R. (2003) The complete folding pathway of a protein from nanoseconds to microseconds. Nature. 421(6925): Mayor U., Johnson C. M., Daggett V. & Fersht A. R. (2000) Protein folding and unfolding in microseconds to nanoseconds by experiment and simulation. Proc Natl Acad Sci U S A. 97(25): Mendelson R. & Morris E. P. (1997) The structure of the acto-myosin subfragment 1 complex: results of searches using data from electron microscopy and x-ray crystallography. Proc Natl Acad Sci U S A. 94(16): Meyer E., Cole G., Radhakrishnan R. & Epp O. (1988) Structure of native porcine pancreatic elastase at 1.65 A resolutions. Acta Crystallogr B. 44 ( Pt 1): Milner-White E. J. (1997) The partial charge of the nitrogen atom in peptide bonds. Protein Sci. 6(11): Murphy K. (2001) Stabilization of protein structure. dans Protein Structure, Stability, and Folding. ed. K. Murphy dans la série, Methods in molecular biology par J. Walker, Humana Press, 168, Totowa. Myers J. K., Pace C. N. & Scholtz J. M. (1995) Denaturant m values and heat capacity changes: relation to changes in accessible surface areas of protein unfolding. Protein Sci. 4(10): Navizet I., Lavery R. & Jernigan R. L. (2004) Myosin flexibility: Structural domains and collective vibrations. Proteins: Structure, Function and Bioinformatics 54: Nichols W. L., Rose G. D., Ten Eyck L. F. & Zimm B. H. (1995) Rigid domains in proteins: an algorithmic approach to their identification. Proteins. 23(1): Orengo C. A., Pearl F. M. & Thornton J. M. (2003) The CATH domain structure database. Methods Biochem Anal. 44: Paci E. & Karplus M. (1999) Forced unfolding of fibronectin type 3 modules: an analysis by biased molecular dynamics simulations. J Mol Biol. 288(3): Paci E., Smith L. J., Dobson C. M. & Karplus M. (2001) Exploration of partially unfolded states of human alpha-lactalbumin by molecular dynamics simulation. J Mol Biol. 306(2): Pande V. S., Grosberg A., Tanaka T. & Rokhsar D. S. (1998) Pathways for protein folding: is a new view needed? Curr Opin Struct Biol. 8(1): Pauling L. & Corey R. B. (1953) Stable configurations of polypeptide chains. Proc R Soc Lond B Biol Sci. 141(902):

175 Pearl F. M., Bennett C. F., Bray J. E., Harrison A. P., Martin N., Shepherd A., Sillitoe I., Thornton J. & Orengo C. A. (2003) The CATH database: an extended protein family resource for structural and functional genomics. Nucleic Acids Res. 31(1): Pearlman D. A., Case D. A., Caldwell J. W., Ross W. S., Cheatham III T. E., DeBolt S., Ferguson D., Seibel G. L. & Kollman P. A. (1995) AMBER, a package of computer programs for applying molecular mechanics, normal mode analysis, molecular dynamics and free energy calculations to simulate the structural and energetic properties of molecules. Comp. Phys. Commun. 91: Perrett S. & Zhou J. M. (2002) Expanding the pressure technique: insights into protein folding from combined use of pressure and chemical denaturants. Biochim Biophys Acta. 1595(1-2): Phelan P., Gorfe A. A., Jelesarov I., Marti D. N., Warwicker J. & Bosshard H. R. (2002) Salt bridges destabilize a leucine zipper designed for maximized ion pairing between helices. Biochemistry. 41(9): Plaxco K. W. & Dobson C. M. (1996) Time-resolved biophysical methods in the study of protein folding. Curr Opin Struct Biol. 6(5): Ptitsyn O. B. (1991) How does protein synthesis give rise to the 3D-structure? FEBS Lett. 285(2): Radford S. E. (2000) Protein folding: progress made and promises ahead. Trends Biochem Sci. 25(12): Ramachandran G. N. & Ramakrishnan C. (1963) Stereochemistry of polypeptide chain configurations. J Mol Biol. 7: Ramachandran G. N. & Sasisekharan V. (1968) Conformation of polypeptides and proteins. Adv Protein Chem. 23: Ramakrishnan C. (2001) In memoriam: Professor G.N. Ramachandran ( ). Protein Sci. 10(8): Rayment I. (1996) The structural basis of the myosin ATPase activity. J Biol Chem. 271(27): Rayment I., Holden H. M., Whittaker M., Yohn C. B., Lorenz M., Holmes K. C. & Milligan R. A. (1993a) Structure of the actin-myosin complex and its implications for muscle contraction. Science. 261(5117): Rayment I., Rypniewski W. R., Schmidt-Base K., Smith R., Tomchick D. R., Benning M. M., Winkelmann D. A., Wesenberg G. & Holden H. M. (1993b) Three-dimensional structure of myosin subfragment-1: a molecular motor. Science. 261(5117): Richardson J. S. (1981) The anatomy and taxonomy of protein structure. Adv Protein Chem. 34: Rief M., Gautel M., Oesterhelt F., Fernandez J. M. & Gaub H. E. (1997a) Reversible unfolding of individual titin immunoglobulin domains by AFM. Science. 276(5315): Rief M., Oesterhelt F., Heymann B. & Gaub H. E. (1997b) Single molecule force spectroscopy on polysaccharides by atomic force microscopy. Science. 275(5304): Robbins A. H. & Stout C. D. (1989) Structure of activated aconitase: formation of the [4Fe- 4S] cluster in the crystal. Proc Natl Acad Sci U S A. 86(10): Rogen P. & Fain B. (2003) Automatic classification of protein structure by using Gauss integrals. Proc Natl Acad Sci U S A. 100(1): Rohs R., Etchebest C. & Lavery R. (1999) Unraveling proteins: a molecular mechanics study. Biophys J. 76(5):

176 Ryckaert J. P., Ciccotti G. & Berendsen H. J. C. (1977) Numerical Integration of the Cartesian equations of motion of a system with constraints: Molecular dynamics of n- alkanes. J. Comp. Phys. 23: Schliwa M. & Woehlke G. (2003) Molecular motors. Nature. 422(6933): Schneider T. R. (2000) Objective comparison of protein structures: error-scaled difference distance matrices. Acta Crystallogr D Biol Crystallogr. 56 ( Pt 6): Siddiqui A. S. & Barton G. J. (1995) Continuous and discontinuous domains: an algorithm for the automatic generation of reliable protein domain definitions. Protein Sci. 4(5): Siddiqui A. S., Dengler U. & Barton G. J. (2001) 3Dee: a database of protein structural domains. Bioinformatics. 17(2): Smith D. A., Brockwell D. J., Zinober R. C., Blake A. W., Beddard G. S., Olmsted P. D. & Radford S. E. (2003) Unfolding dynamics of proteins under applied force. Philos Transact Ser A Math Phys Eng Sci. 361(1805): ; discussion Smith S. B., Cui Y. & Bustamante C. (1996) Overstretching B-DNA: the elastic response of individual double-stranded and single-stranded DNA molecules. Science. 271(5250): Socci N. D., Onuchic J. N. & Wolynes P. G. (1998) Protein folding mechanisms and the multidimensional folding funnel. Proteins Struct. Funct. Genet. 32(2): Sowdhamini R. & Blundell T. L. (1995) An automatic method involving cluster analysis of secondary structures for the identification of domains in proteins. Protein Sci. 4(3): Spudich J. A. (2001) The myosin swinging cross-bridge model. Nat Rev Mol Cell Biol. 2(5): Sundaralingam M. & Sekharudu Y. C. (1989) Water-inserted alpha-helical segments implicate reverse turns as folding intermediates. Science. 244(4910): Swindells M. B. (1995) A procedure for the automatic determination of hydrophobic cores in protein structures. Protein Sci. 4(1): Tajkhorshid E., Aksimentiev A., Balabin I., Gao M., Isralewitz B., Phillips J. C., Zhu F. & Schulten K. (2003) Large scale simulation of protein mechanics and function. Adv Protein Chem. 66: Tama F., Gadea F. X., Marques O. & Sanejouand Y. H. (2000) Building-block approach for determining low-frequency normal modes of macromolecules. Proteins. 41(1): 1-7. Tama F. & Sanejouand Y. H. (2001) Conformational change of proteins arising from normal mode calculations. Protein Eng. 14(1): 1-6. Taylor W. R. & Orengo C. A. (1989) Protein structure alignment. J Mol Biol. 208(1): Thomas A., Hinsen K., Field M. J. & Perahia D. (1999) Tertiary and quaternary conformational changes in aspartate transcarbamylase: a normal mode study. Proteins. 34(1): Tirion M. M. (1996) Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters. 77(9): Tirion M. M. & ben-avraham D. (1993) Normal mode analysis of G-actin. J Mol Biol. 230(1): Tskhovrebova L., Trinick J., Sleep J. A. & Simmons R. M. (1997) Elasticity and unfolding of single molecules of the giant muscle protein titin. Nature. 387(6630): Tsui V. & Case D. A. (2000) Theory and applications of the generalized Born solvation model in macromolecular Simulations. Biopolymers. 56(4):

177 Uyeda T. Q., Abramson P. D. & Spudich J. A. (1996) The neck region of the myosin motor domain acts as a lever arm to generate movement. Proc Natl Acad Sci U S A. 93(9): van Meerssche M. & Feneau-Dupont J. (1984) Introduction à la cristallographie et à la chimie structurale. Peeters, Paris. Verlet L. (1967) Computer experiments on classical fluids. I. Thermodynamical properties of Lennard-Jones molecules. Phys. Rev. 159: Vinayagam A., Shi J., Pugalenthi G., Meenakshi B., Blundell T. L. & Sowdhamini R. (2003) DDBASE2.0: updated domain database with improved identification of structural domains. Bioinformatics. 19(14): Volkmann N. & Hanein D. (2000) Actomyosin: law and order in motility. Curr Opin Cell Biol. 12(1): Wang J., Cieplak P. & Kollman P. A. (2000) How well does a restrained electrostatic potential (RESP) model perform in calculating conformational energies of organic and biological molecules? J. Comput. Chem. 21(12): Wang J., Truckses D. M., Abildgaard F., Dzakula Z., Zolnai Z. & Markley J. L. (1997) Solution structures of staphylococcal nuclease from multidimensional, multinuclear NMR: nuclease-h124l and its ternary complex with Ca2+ and thymidine-3',5'- bisphosphate. J Biomol NMR. 10(2): Ward J. H. (1963) Hierarchical grouping to optimise an objective function. American Statistical Association Journal Washizu M. (1990) Manipulation of DNA in Microfabricated Structures. IEEE Transactions on Industry Applications. 26: Wernisch L., Hunting M. & Wodak S. J. (1999) Identification of structural domains in proteins by a graph heuristic. Proteins. 35(3): Wetlaufer D. B. (1973) Nucleation, rapid folding, and globular intrachain regions in proteins. Proc Natl Acad Sci U S A. 70(3): Williams P. M., Fowler S. B., Best R. B., Toca-Herrera J. L., Scott K. A., Steward A. & Clarke J. (2003) Hidden complexity in the mechanical properties of titin. Nature. 422(6930): Wolynes P. G., Onuchic J. N. & Thirumalai D. (1995) Navigating the folding routes. Science. 267(5204): Wriggers W. & Schulten K. (1997) Protein domain movements: detection of rigid domains and visualization of hinges in comparisons of atomic coordinates. Proteins. 29(1): Xia B., Tsui V., Case D. A., Dyson H. J. & Wright P. E. (2002) Comparison of protein solution structures refined by molecular dynamics simulation in vacuum, with a generalized Born model, and with explicit water. J Biomol NMR. 22(4): Xiao M., Reifenberger J. G., Wells A. L., Baldacchino C., Chen L. Q., Ge P., Sweeney H. L. & Selvin P. R. (2003) An actin-dependent conformational change in myosin. Nat Struct Biol. 10(5): Xu C., Tobi D. & Bahar I. (2003) Allosteric changes in protein structure computed by a simple mechanical model: hemoglobin T<-->R2 transition. J Mol Biol. 333(1): Xu Y., Xu D. & Gabow H. N. (2000) Protein domain decomposition using a graph-theoretic approach. Bioinformatics. 16(12): Yanagida T., Esaki S., Iwane A. H., Inoue Y., Ishijima A., Kitamura K., Tanaka H. & Tokunaga M. (2000a) Single-motor mechanics and models of the myosin motor. Philos Trans R Soc Lond B Biol Sci. 355(1396):

178 Yanagida T., Kitamura K., Tanaka H., Hikikoshi Iwane A. & Esaki S. (2000b) Single molecule analysis of the actomyosin motor. Curr Opin Cell Biol. 12(1): Yanagida T. & Iwane A. H. (2000c) A large step for myosin. Proc Natl Acad Sci U S A. 97(17): Yang J., Dokurno P., Tonks N. K. & Barford D. (2001) Crystal structure of the M-fragment of alpha-catenin: implications for modulation of cell adhesion. Embo J. 20(14):

179 ANNEXE 1 : Contraintes mécaniques I Contraintes globales Nous avons programmé d autres contraintes que celle sur la RMS de distance décrite dans le chapitre XIII.2 page 93. Nous ne présentons dans cette annexe que les équations qui ont été utilisées dans les programmes. LIGAND et GNMlig Rayon de giration Le rayon de giration est défini de la manière suivante : rg= 2 ij i, j 2 d N d La somme se fait sur les N d couples (i,j) où i et j sont les carbones α de la protéine. L'énergie de contrainte associée est Epen = k ( rg rg*) 2 avec rg * la valeur du rayon de giration que l on veut atteindre. La force exercée le long d une coordonnée x i du carbone C α,j due à la contrainte est l opposé de la dérivée de cette énergie par rapport à cette coordonnée et est donnée par la formule suivante : 2 k ( rg rg* ) N F( x j) = ( x j xi) 2 Nd rg i j 199

180 RMS angulaire Au lieu de contraindre les distances, on peut contraindre les angles de torsion. Ce genre de contrainte est logique pour une description en coordonnées internes des structures comme celle utilisée dans LIGAND. On définit la RMS de torsion de la manière suivante : rms N i= 1 = f(τ i) N avec N le nombre de torsions et la fonction f égale au carré de la différence (comprise entre -180 et 180 ) entre l angle de torsion τ i et sa valeur τ 0 i dans la structure de référence. Travailler sur les angles exige de faire attention à deux choses. D une part, les angles sont définis modulo 360, les différences d angles doivent donc toutes êtres comprises dans l intervalle [-180,180 ] (Nous avons choisi de prendre les valeurs angulaires entre -180 et 180.). D autre part, les énergies de contrainte doivent être continues et de dérivées continues, notamment lorsque les valeurs des angles passent de 180 à 180. La fonction f est donc définie par morceaux de manière à ce qu elle soit continue et que sa dérivée soit continue : f(τ i )=d(τ i ) 2 si d(τ i ) [-dlim,dlim] f(τ i )=a d(τ i ) 2 + b d(τ i ) + c si d(τ i ) [dlim,180] f(τ i )= a d(τ i ) 2 - b d(τ i ) + c si d(τ i ) [-180,-dlim] On prend pour d(τ i ) la valeur de l angle différence τ i - τ 0 i comprise entre 180 et 180. a= d 180 lim, dlim b= 360 dlim 180, d lim 180 dlim2 c= avec dlim, une valeur d angle limite proche de 180 dlim 180 (par exemple 179 ) (au delà de laquelle f n est plus égale au carré de la différence d angle). L'énergie de contrainte associée est Ep = k ( rms rms*) 2 avec rms * la valeur de la fonction RMS angulaire souhaitée. 200

181 L opposé de la dérivée de cette énergie par rapport à un angle τ j donne la force exercée sur cet angle due à la contrainte en torsion et est donnée par la formule suivante : k ( rms rms* ) F( τ j) = f '( τ j) N rms On passe à la force sur chaque atome grâce à un sous-programme (subroutine deltor) inclus dans LIGAND. Nous avons également programmé une autre contrainte de torsion ne tenant compte que des carbones α. On définit alors des angles de torsion entre carbones α comme les angles formés par les deux plans ABC et BCD des carbones α des résidus consécutifs A, B, C et D. τ i est alors l angle de torsion entre quatre carbones α. Cette contrainte permet de faire des comparaisons entre les programmes LIGAND et GNMlig. II Contraintes locales Contrainte locale «tirer-pousser» par rapport au centre de masse On oblige le carbone C α,i d un résidu i particulier à se déplacer sur la droite le reliant au centre de masse de tous les carbones α de la protéine. L énergie de contrainte appliquée s exprime alors suivant l équation : Ep = k ( r *) 2 i r i où r i est la distance entre le centre de masse et C α,i et r * i est la valeur de cette distance que l on veut atteindre. La force dérivant de ce potentiel s écrit pour la composante x j du carbone C α,j de la façon suivante : 201

182 2 k ( ri r* ) F( x j) = i ( xi xcm) si j i N ri et pour C α,i : 2 k ( ri r* ) F( xi) = i (1 N) ( xi x N ri N est le nombre de résidus de la protéine et x cm est la composante cartésienne du centre de masse. Contrainte locale «tirer-pousser» le long des axes principaux de la protéine Définition des axes principaux Les axes principaux sont les directions dont les vecteurs directeurs sont les vecteurs propres du tenseur central d inertie I G : Ixx Ixy Ixz I G = Ixy I yy I yz avec I xx = mi ( yi + z2 i ) Ixz I yz I i zz cm ) 2 et I xy = Les sommes sont calculées sur les atomes pris en compte (ici les C α ) de masse m i (m i peut être mis en facteur dans le cas d atomes identiques) et de coordonnées (x i, y i, z i ) dans un repère cartésien de centre G, le centre de masse de ces atomes. On peut donc définir pour n importe quel ensemble de points trois axes principaux passant par le centre de masse et de vecteurs directeurs définis comme ci-dessus. Contrainte La variable contrainte est la longueur de la projection du vecteur reliant le centre de masse au carbone α du résidu i sur l axe principal j. Pour chaque résidu, on peut imposer des contraintes le long de trois directions privilégiées de la protéine. Les notations sont explicités dans le schéma suivant (figure 67) : i m x i i y i 202

183 u 1 C α,i r i l CM u 2 u 3 figure 67 : Définition de la contrainte suivant les axes principaux : u1, u2 et u3 sont les trois axes principaux, CM est le centre de masse, C α,i est le carbone α du résidu i et l est la longueur de la projection du vecteur CM-C α sur l axe principal 1., i L énergie de pénalité pour une contrainte suivant l axe principal j est donnée par la formule suivante : Ep = k ( l *i ) 2 i l avec l i la longueur de la projection du vecteur CM-C α, i sur l axe principal j étudié et l * i la longueur imposée. l i r r u j. i = r u j La dérivée de l énergie de pénalité doit donc prendre en compte la dérivée du vecteur unitaire de l axe j ainsi que celle de la position du centre de masse. Contrainte locale «tirer-pousser» le long des axes structuraux Définition des axes structuraux On définit les axes dits structuraux pour chacun des résidus (figure 68). L'axe 1 du résidu i est l'axe passant par le centre de masse de vecteur directeur le vecteur normé reliant le carbone α du résidu (i-1) et le carbone α du résidu (i+1). Le vecteur directeur de l'axe 2 est le vecteur 203

184 perpendiculaire à celui de l'axe 1 dans le plan des carbones (C αi, C αi+1, C αi-1 ). Le troisième axe possède comme vecteur directeur le produit vectoriel des deux premiers de façon à former une base orthonormée. D après cette définition, les axes structuraux des résidus qui sont aux extrémités de la chaîne ne sont pas définis car il n ont pas deux voisins. On ne peut donc pas appliquer cette contrainte sur les deux extrémités de la protéine. i i-1 r i+1 r i u 2 u 1 u 3 CM figure 68 : Définition des axes structuraux u 1, u 2 et u 3 associés au C α,i. r est la projection du vecteur reliant le centre de masse des C α (CM) au carbone C αi sur le vecteur structural u 2. Contrainte La norme r de la projection du vecteur reliant le centre de masse des carbones α et le centre du carbone α du résidu i étudié sur un des vecteurs structuraux de i (ou sur une combinaison des trois vecteurs structuraux de i) est contrainte à une valeur r *. L énergie correspondante est donnée par l équation : Epen = k ( r r*) 2 A chaque cycle de la minimisation, les vecteurs structuraux et la norme de la projection du vecteur CM-C α sont recalculés. La dérivée par rapport à une coordonnée d un carbone α est, i déterminée en calculant les dérivés de la position du centre de masse et des vecteurs structuraux. 204

185 ANNEXE 2 : Important Fluctuation Dynamics of Large Protein Structures are Preserved upon Coarse-Grained Renormalization Introduction L article ci-dessous présente deux alternatives au programme ANM. La première est basée sur le regroupement des carbones α consécutifs afin d avoir une représentation granulaire plus grossière que dans le programme ANM classique. Contrairement à l approche ANM classique dont chaque nœud du réseau représente un carbone α, chaque nœud représente alors le groupement de n carbones α consécutifs en «segment». Le seuil de coupure pour déterminer l emplacement des ressorts doit être plus grand que le rayon de giration de chaque segment. Par analogie avec ANM, le seuil r c doit être pris égal à deux fois le rayon moyen de giration d un segment plus une distance de contacte invariante R 0 typiquement prise égale à 13 Å. En étudiant trois très grosses protéines (la β-galactosidase, la xanthine hydrogénase et l hémagglutinine), nous montrons que le comportement du rayon de giration moyen en fonction de n est similaire jusqu à des segments de 40 résidus et que le rayon de giration des segments dans les protéines globulaires est nettement plus petit que celui d un modèle de polypeptide de n résidus. La comparaison des courbes donnant les facteurs de température obtenus avec des nœuds tous les résidus ou tous les 10 résidus le long de la chaîne montre que plus le modèle est simplifié, plus la courbe est lissée mais que l allure de la courbe reste similaire. Il en est de même pour les modes normaux de plus grande amplitude qui sont retrouvés avec des segment de 10 résidus. 205

186 L autre approche est une approche fondée sur le regroupement des carbones α en domaines structuraux déterminés par la comparaison de deux structures comme présentée dans le premier article page 135. Un premier résultat sur la myosine est présenté. Alors que la plupart des études des protéines se focalisent sur les sites fonctionnels en ignorant le reste de la protéine, nous montrons que les mouvements fonctionnels impliquent l ensemble de la structure protéique et qu il n y a pas besoin d avoir des données cristallographiques de très haute résolution pour obtenir les mouvements globaux les plus importants. 206

187 Important Fluctuation Dynamics of Large Protein Structures Are Preserved upon Coarse-Grained Renormalization PEMRA DORUKER, 1,2 ROBERT L. JERNIGAN, 2 ISABELLE NAVIZET, 2,3 RIGOBERTO HERNANDEZ 4 1 Chemical Engineering Department and Polymer Research Center, Bogazici University, Bebek 80815, Istanbul, Turkey 2 Molecular Structure Section, Laboratory of Experimental and Computational Biology, Center for Cancer Research, National Cancer Institute, National Institutes of Health, Bethesda, Maryland Institut de Biologie Physico-Chimique, Paris, France 4 Center for Computational Molecular Science and Technology, School of Chemistry and Biochemistry, Georgia Institute of Technology, Atlanta, Georgia Received 2 October 2001; revised 14 January 2002; accepted 25 January 2002 DOI /qua.955 ABSTRACT: The fluctuations and important motions of three large proteins hemaglutinin, xanthine dehydrogenase, and β-galactosidase have been considered with a range of models having various levels of detail to represent the structures. Because the slowest modes of motion are the largest contributors to the total motions, and because these motions depend mainly on the shapes of the structures rather than their details, it is possible to replace the real structures with significantly fewer points and still retain the essential features of the structure for these modes of motion. We obtain excellent results, both for the magnitudes of the individual motions as well as for the molecular changes occurring during these motions. Similar results are obtained with another completely different approach where the coarse graining is based on invariant regions of structure found by comparing two structures of the same protein, given as an example here for myosin. Results confirm the important coupling of local functional motions with the large-scale motions, implying important functional roles for the entire protein structure Wiley Periodicals, Inc. Int J Quantum Chem 90: , 2002 Key words: Gaussian network model; anisotropic fluctuations; vibration dynamics; collective motions; hemagglutinin; xanthine dehyrogenase; β-galactosidase; myosin Dedicated to the memory of Per-Olov Löwdin. Correspondence to: R. L. Jernigan; jernigan@lmmb. nci.nih.gov. Contract grant sponsor: National Science Foundation. Contract grant number: NSF International Journal of Quantum Chemistry, Vol. 90, (2002) 2002 Wiley Periodicals, Inc. 207

188 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES Introduction Recently we and others have developed a mechanics approach for studying the motions of proteins [1 14] to obtain the equilibrium fluctuations near an initial structure. The initial structure has usually been determined by crystallography, but other experimental methods, or even modeled structures, could be utilized instead. The underlying assumption in the method is that the starting structure is the minimum energy structure in a local if not global minimum. All fluctuations about this form are presumed to be higher in energy, proportional to their mean-square displacements, i.e., the energy form is Gaussian. Within the structure, all close-lying residues (as defined by a cutoff radius) are restrained by an effective spring with a universal force constant and are said to be in contact. Residues nearest in sequence are not distinguished because they necessarily fall within the cutoff radius. The close-lying residue pairs are utilized to form a contact matrix that makes explicit reference to these restraining springs. Because of the simple Gaussian form of the energy, the dynamics can be integrated directly to obtain the mean-square fluctuations of positions, as well as the correlations of the displacements of residue pairs. The required computation is simply the inversion of the contact matrix. This method was initially developed to obtain scalar displacements, but it was readily apparent that the directions of displacement are also important. Recently a three-dimensional version [11] of this approach was developed, and it yields the correlations in the directions of the displacements, with the attendant computational cost from tripling each dimension of the contact matrix. When structures are coarse-grained at the level of one point per residue, excellent agreement of this approach with experiments has been demonstrated for several proteins with respect to the crystallographic temperature factors [3, 4, 6, 8, 10, 13], as well as with nuclear magnetic resonance (NMR) order parameters [5] and hydrogen exchange data [1]. The computed results reveal that the most important motions are those typically involving large domains such as hinge motions. In addition many other large-scale motions are typically observed, e.g., rotation, stretching, shear, disintegration, and flap motions. Individual residue displacements are observed primarily as components of the motions of these subdomains. Moreover, the relative contributions of the modes involving the largest-scale motions to the observables are significantly larger than that of those modes at the other end of the spectrum, which involve only extremely local motions. Interestingly, relatively few short-range contacts give rise to the large displacements of other residues by acting as the foci of the motions, such as the hinge foci. These largest-scale motions primarily reflect the shape of the protein rather than details of its internal structure. Some examples we have observed are: thin regions of structure that act as hinge sites, large interior cavities that undergo compression, and small numbers of contacts at subunit interfaces that support interfacial motions such as wobble and counterrotation of two subunits. Since these small numbers of residues involved in the most important motions do not involve the internal structure of the peptide chain, it suggests that coarse graining of the protein structures may readily be performed. We have recently applied this coarse graining, by retaining only 1 of every 40 residues, to haemagglutinin [12], where we have shown that it is possible to reproduce about 73% of the total protein motions. This initial coarse-grained application has raised many issues regarding this procedure. What is the optimal way to perform the coarse graining? In the model, there are only two adjustable parameters, a spring constant and a cutoff distance. How should these be modified or scaled for the coarsegraining renormalization? It is also important to understand how the distance cutoff, determining the spring contacts, scales with the coarse graining, as well as how the spring constant itself ought to be scaled. This work represents a first attempt at answering these questions. PROTEINS We have chosen three large proteins to consider in this study, namely β-galactosidase [15] (GAL), xanthine dehyrogenase [16] (XDH), and hemagglutinin [17, 18] (HA), with corresponding pdb file names 1DPO, 1FO4, and 2HMG. The number of residues and number of atoms in the crystal structures in each monomer are, respectively, 1011, 8125; 1299, 10077; and 503, See Figure 1 for views of these structures. The structural and functional details of these proteins are summarized below, although in this study we will not discuss INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

189 DORUKER ET AL. FIGURE 1. Ribbon diagrams of β-galactosidase (right), xanthine dehydrogenase (middle), and influenza virus hemagglutinin (left). the structure function relationships of these proteins. The X-ray structure of Escherichia coli β-galactosidase determined by Juers and co-workers [15] at 1.7 Å resolution is shown in the left part of Figure 1. This enzyme hydrolyzes lactose and other β-galactosides into monosaccharides. The functional form is a tetramer having 4 identical subunits, with each monomer comprising 1023 residues. The subunits are assembled into a prolate ellipsoidal structure with approximate dimensions of 175 Å 135 Å 90 Å. The crystal structure of the dimeric bovine milk xanthine dehyrogenase, displayed in the middle part of Figure 1, has been determined to 2.1 Å resolution [16]. The enzyme catalyzes the hydroxyl addition of hypoxanthine and xanthine, which are the two last steps in the formation of urate. Each monomer has 1332 residues conformed into a butterfly-shaped dimeric enzyme with overall dimensions of approximately 155 Å 90 Å 70 Å. The influenza virus hemagglutinin is an integral membrane glycoprotein, which is involved in the binding of virus to target cells and in the fusion of viral and endosomal membranes at low ph. TheX-raystructureoftheneutralpHformofHA has been determined [17] and refined [18] by Wiley and co-workers to a resolution of 3 Å and is shown in the right part of Figure 1. HA, comprising 1509 residues, is a cylindrically shaped homo-trimer about 135 Å long, varying between 35 and 70 Å in the radial directions. Each monomer consists of 2 polypeptides chains: HA1 (328 residues) and HA2 (175 residues) that are linked by 2 disulfide bonds. The 3 monomers are assembled into a central coiled coil that forms the stemlike domain, and the 3 globular heads containing the receptor binding sites. Each globular head folds into a jelly-roll motif of 8 antiparallel β-strands. Methods The coarse graining of structure involves replacing groups of individual points with single points to yield a less detailed structure. This operation resembles the development of an equivalent chain model for polymers, where multiple repeat units of a polymer are coarse-grained into a single unit so as to imitate the behavior of one link of a model chain. 824 VOL. 90, NO

190 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES For example, several real bonds of polyethylene, because of their additive flexibility, are equivalent to the enhanced flexibility of a single link in the freely jointed chain model [19]. Such equivalent representations have often been utilized in polymer studies [19]. Applying this concept to the single fixed configurations of segments of a protein is not quite the same physical situation as in a polymeric random coil, since the conformations of the individual segments vary from one to another and cannot uniformly benefit from averaging over conformations, as is the case with polymer models. This is why it is important to see how variable these segments conformations actually are. In what follows, we first outline the anisotropic network model developed earlier to capture the essential dynamics about the initial (equilibrium) structure and subsequently analyze the degree to which it is invariant to various coarse-graining strategies. ANISOTROPIC NETWORK MODEL (ANM) This is a model for protein motions developed as a three-dimensional extension of the Gaussian network model (GNM). It incorporates the anisotropy of fluctuations and yields the directions of each mode of motion; whereas the GNM assumes all fluctuations to be isotropic and gives only the magnitudes of the modes of motion. The potential energy of a structure having N interaction sites is expressed with ANM as a Gaussian form: V = γ 2 RT H R, (1) where R is a 3N-dimensional vector of the fluctuations R i in the position vectors R i of all sites (1 i N), R T being its transpose, and H the Hessian matrix composed based upon the second derivatives of the potential: V = γ h(r c R ij )( R j R i ) 2. (2) 2 i j The summations will be performed over all interaction sites, h(x) is the Heaviside step function [h(x) = 1ifx 0, and zero otherwise], R ij is the distance between sites i and j, andr c is the cutoff distance defining the interactions; H is expressed as afunctionofn 2 submatrices H ij in the form 2 V/ X i X j 2 V/ X i Y j 2 V/ X i Z j H ij = 2 V/ Y i X j 2 V/ Y i Y j 2 V/ Y i Z j, 2 V/ Z i X j 2 V/ Z i Y j 2 V/ Z i Z j (3) with X i, Y i,andz i being the components of R i. Note that 2 V/ X i Y j = 2 V/ X j Y i = γ (X j X i )(Y j Y i )/R 2 ij for i j, and 2 V/ X i Y i = γ j (X j X i )(Y j Y i )/R 2 ij. In general the correlations between the fluctuations at sites i and j are given by R i R j = 1 ( R i R j )exp{ V/kT} d{ R} Z = 3k BT γ tr [ H 1] ij, (4) where k is the Boltzmann constant, Z is the configurational partition function, and tr [H 1 ] ij is the trace of the ijth submatrix [H 1 ] ij of H 1 ; R i R j can be expressed as a sum over the contributions [ R i R j ] k of the 3N 6 individual internal fluctuation modes, as R i R j = k [ R i R j ] k.the contribution of the kth mode is explicitly given by [ R i R j ] k = 3kT γ tr [ λ 1 k u k u T ] k ij, (5) where λ k is the kth nonzero eigenvalue of H and u k is the corresponding eigenvector. The eigenvalues are related to the frequencies of individual modes, and the eigenvectors describe its effect on the positions of the N points of the structure. The eigenvalues are usually organized in ascending order (after removing the six zero eigenvalues), so that λ 1 denotes the lowest frequency, also called the global, mode of motion, and [ R i R j ] 1 is the correlation for this mode of motion separately. Actually here we use only the individual residue mean-square (ms) fluctuations for the position at site i for mode k, [( R i ) 2 ] k. Note that zero values can arise either from being uncorrelated or being perpendicular. The slowest modes usually dominate the collective dynamics of the structure and would be the only surviving modes at long times, thus they are particularly relevant to biological function, unless other effects such as anharmonicity interfere. COARSE GRAINING OF THE ANM Here we take N to be the number of residues in thetotalstructure(protein),s the number of coarsegrained segments, and n the number of residues in one coarse-grained segment, so that N = sn. (6) The cutoff distance r c defining interactions (springs) needs to be sufficiently large to include the s INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

191 DORUKER ET AL. residues in each of the n segments. For this purpose we compute R G the radius of gyration for each of the segments in the three proteins. See Figure 2(a) for segments up to 140 residues in length. Because of the finite size of the proteins, the values converge to a clear limit. This behavior is reminiscent of the behavior of flexible polymer chains of different lengths. Despite the heterogeneity in each of the segments (or links), the three proteins behave similarly up to the coarse-graining level of 40 residues. RADIUS OF GYRATION OF FOLDED CHAIN SEGMENTS A point of comparison for the R G values of the protein segment size is found in the R G values of the random coil model for homopolymers consisting of N peptide units [20, 21]. The average dimension, expressed as the characteristic ratio, from an average of several experiments, for several different polypeptides having β carbons, is r 2 / NL 2 = 9, (7) where r is the end-to-end distance, and L is the virtual bond length. For a long Gaussian chain, the radius of gyration is related to the mean square of the end-to-end distance by R 2 G = 1 6 r 2. (8) Thus R G / NL 2 = 1.225, (9) FIGURE 2. (a) Radius of gyration of chain segments in the folded proteins GAL, XDH, and HA. (b) comparison of the radius of gyration of chain segments in random coil polypeptides and folded proteins, where values given on the lower curve are average values for the three proteins, with the bars showing the standard deviations. where, as before, N is the number of residues and L is the virtual bond length. In Figure 2(b), the random coil limit for R G appears as the smooth upper curve. As might be expected, all of the protein segments are more compact than the random coil peptide. The bars show the range of individual values for segments of different sizes, all of which are significantly more compact than the random polypeptide case. It would be interesting to learn the origin of the variations in the R G values for a fixed size segment. Are the locally compact segments determined by their own sequences or by more global considerations? Do the segments with the lowest R G values include glycines, which could facilitate turns, or do they have more hydrophobic residues on average, which could contribute to collapsed forms? Or are there other composition effects? In order to further coarse-grain folded proteins, it is helpful to know how the overall dimensions of the chain segments in folded proteins change as a function of segment length. This will indicate how the cutoff radius in the ANM calculations should be 826 VOL. 90, NO

192 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES adjusted for further coarse graining along the backbone of the protein. For the three proteins that are considered in this study, we calculate the mean-square radius of gyration, R 2 G, for segments of various lengths. This calculation is carried out separately for the 6, 2, and 4 chains that make up HA, XDH, and GAL, respectively. And the average is calculated by moving the starting point of each segment along the chain backbone one by one toward the end of the chain. Therefore, for a single chain composed of N c residues, the radius of gyration is averaged over (N c n + 1) frames for a segment of length n. In Figure 2(a), the radius of gyration, R G,isplotted as a function of segment length for the three proteins. The behavior is similar up to n = 40, presumably reflecting the average behavior of peptides. For n > 40, differences begin to be manifested which occur because of the differences in the overall sizes and shapes of proteins. For n < 40, the data can be fit with the form R G = an b. (10) These parameter values are found to be a = and b = from a fit to the average over the three log log plots of R G vs. n for HA, XDH, and GAL. The n = 1 limit of Eq. (10) corresponds to a single monomer whose radius of gyration must be a, suggesting that the average bond length is approximately equal to 2a (= Å), which is in close consistency with the virtual bond length between sequential α-carbon atoms of 3.8 Å. In Figure 2(b), the lower curve gives the radius of gyration averaged over all segments of a given size in the three folded proteins (HA, XDH, and GAL), and the error bars are shown for some representative values of n. Here, the standard deviation for aspecificvalueofn has been calculated over the frames of all possible segments in the three proteins. The dashed curve in the same figure gives the R G of unfolded segments of length n, aspredicted by the model for polyalanine developed by Flory [21]. In earlier work, a cutoff radius of 13 Å was found to be suitable for ANM calculations, in which all α-carbon atoms in the protein structure were retained [11]. In the current study, as we further coarse-grain the structures, we recognize that the renormalized sites are interacting at longer ranges because their effective sizes have grown. The cutoff TABLE I Details of coarse graining. Segment Cutoff radius a s, Number of segments length n r c (Å) GAL XDH HA a Cutoff radius is calculated according to r c = 2R G + 13 Å, where R G is found from Eq. (10). radius should thus equal the sum of the renormalized radii of each site plus the invariant contact distance R 0 between the sites, i.e., r c = 2R G + R 0, (11) where R G is obtained according to Eq. (10) with the parameters found above. To be consistent with our earlier work, R 0 should be set to a value of (13 Å 2a), but for simplicity, in what follows we have used the value of 13 Å instead. This choice leads to little change in the results since they are only modestly dependent on R 0, while being strongly dependent on the growth of R G with N.Results for the three illustrative proteins of this study are shown in Table I. Results and Discussion X-RAY CRYSTALLOGRAPHIC TEMPERATURE FACTORS The relationship between an individual residue s fluctuations and its temperature factor is B i = ( 8π 2 /3 ) R 2 i. (12) In Figure 3, these experimental temperature factors measured by X-ray crystallography (solid curves) are compared to those predicted by the ANM (dashed curves). For each of the three proteins, each monomer exhibits practically the same behavior both in experiment and calculation. Therefore, the fluctuations of residues are presented as averages over all monomers. The overall agreement is excellent as has often been observed with this model. INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

193 DORUKER ET AL. FIGURE 3. Comparison of temperature factors from X-ray crystallography and those calculated with ANM calculations for (a) β-galactosidase, (b) xanthine dehydrogenase, and (c) hemagglutinin. 828 VOL. 90, NO

194 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES TABLE II Force constants γ for coarse-grained ANM calculations. n GAL XDH HA Once the cutoff radius for the interactions is fixed, the force constant γ is the only remaining parameterinthecalculations.inturnitsvalueis fixed by requiring a match between the average values of the mean-square fluctuations predicted by ANM and the experimental B factors. In Figure 3, such adjustments were made in order to compare the experimental and theoretical results. The experimental B factor, B n of a coarse-grained segment composed of n residues is calculated as the average of the B factors of its n constituent residues. And the force constant is extracted by a comparison of the coarse-grained B factors with the mean-square fluctuations calculated with ANM. Table II gives the force constant values. As our previous experience with a large number of proteins has indicated, γ varies among proteins by no more than a factor of 2. However, as the coarse graining is applied, the force constants become stronger monotonically, upon passing from the scaling at n = 2ton = 30. Parenthetically, it should be noted that in the case of β-galactosidase [Fig. 3(a)], only an N/2 calculation was carried out instead of an all-residue calculation because of the large size of this protein (4044 residues in total). Although an n = 1 calculation is feasible, this has not been executed here. And the experimental B factors, for comparison, were averaged over neighboring pairs of residues. COMPARISON OF ANM RESULTS AT DIFFERENT LEVELS OF COARSE GRAINING B Factors Figure 4(a) compares the temperature factors from coarse-grained calculations N/2 and N/10 for GAL. Higher levels of coarse graining lead to smoother curves, but the basic structure of the peaks is readily apparent at the level of N/10 calculations. Figure 4(b) shows the calculated B factors at the same N/10 level for xanthine dehydrogenase. From these results it is clear that the essential structure of fluctuations is retained after the coarse graining. First Mode The slowest mode shapes obtained with N/2 and N/10 calculations are displayed in Figure 5(a) for GAL. There is a remarkable match between the curves, which have been normalized to match the scales. Figure 5(b) shows a comparison of the N and N/10 calculations for hemagglutinin. Clearly, the general features of the first mode shape are obtained. As a result of these comparisons, it is evident that the functionally important collective mode shapes can still be reproduced quite well at higher levels of coarse-graining. Eigenvalues Figure 6 compares the weighted contribution of each mode to the mean-square fluctuations at the different levels of coarse graining employed for GAL, XDH, and HA. The modes are sorted and indexed starting from the slowest mode having the largest contribution and running up to higher frequencies. In order to capture the same collective modes at higher levels of coarse graining, the fractional contributions at the low-frequency end of the spectrum need to be similar. And thisis exactly what we observe in these logarithmic plots. In Table III, the cumulative contributions of the first three modes are listed. As the level of coarse graining increases, the cumulative contribution of slowest modes increases because there are fewer modes at the high-frequency end of the distribution. Yet the fractional contributions of the collective modes appear to be comparable after renormalization. Mechanisms of Motion In Figure 7the two extreme positions for the first two slowest modes of β-galactosidase are shown at two different levels of coarse graining, N/2 and N/10. It is amply clear from these figures that the same motions occur, despite the coarse graining. The first mode is for bending at the waist of the protein, and the second is a stretching compression type of motion that we INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

195 DORUKER ET AL. FIGURE 4. Comparison of temperature factors predicted by ANM at different levels of coarse graining for (a) β-galactosidase and (b) xanthine dehydrogenase. have often observed in asymmetric elongated protein structures. The correlations computed between the motions with the coarser-grained models and with the single residue single point results are high. For hemagglutinin (see Table IV) it can be seen that, whereas the total motions are not so well represented (at the 49% level for the 1 out of every 40 models), the representations of the first, slowest mode remain above 90% for even the 1 out of every 40-residue model. Thus the coarse-grained results are most viable for motions having the largest displacements. Structure-Based Coarse Graining Finally we consider a completely structure-based approach, which requires multiple structures to specify which parts of the structure are to be coarsegrained. The parts of the two structures having the smallest differences are identified directly to deter- 830 VOL. 90, NO

196 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES FIGURE 5. Slowest mode shapes predicted by ANM at different levels of coarse graining for (a) β-galactosidase and (b) hemagglutinin. mine the blocks to be coarse-grained. Then, within these most constant blocks, the spring constants are increased to prevent intrablock motions. Another way of implementing this approach would be to treat these fixed blocks as fat rigid elements including many more than usual contacts with the other individual residues. This approach is applied here for demonstration purposes to two structures of myosin (pdb names 1B7T [22] and 1DFL [23]). The blocks defined by this approach are shown in Figure 8 within which the changes in distances have been limited to a maximum of 0.1 Å. The invariant regions are identified in different colors in Figure 8, with the few remaining residues not included within the rigid blocks are shown in gray. Importantly this approach yields nearly identical computed temperature factors, to those computed with the individual one point per residue model (see INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

197 DORUKER ET AL. FIGURE 6. Contributions of the modes at different levels of coarse graining for (a) β-galactosidase, (b) xanthine dehydrogenase, and (c) hemagglutinin. All plots log log plots to emphasize that only the lowest indexed modes are significant contributors to the overall motions. Also notable is the extent agreement in the dominant mode contributions between the models, regardless of the level of coarse graining. 832 VOL. 90, NO

198 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES TABLE III Total fractional contribution of the slowest three modes to the mean-square fluctuations. n GAL XDH HA Fig. 9). Consequently, this model represents an alternative coarse-grained model that has its basis in two different structures. It is noteworthy that the most rigid regions of the structure are clearly clustered within these local domains. Discussion One of the most important findings from these types of computations is the occurrence of functional local motions not independently but within one of the slowest most important motions. Examples that we have previously observed include flaps opening and closing over small molecule bind- FIGURE 7. First (a), (b) and second (c), (d) modes of motion for β-galactosidase at N/2 (a), (c) and N/10 (b), (d) levels of coarse graining. Note that in parts (a) and (c) only half of the α-carbon positions are shown (and used) and in parts (b) and (d) only 1 out of every 10 residue is shown (and used in the computations). The first mode is a bending of the molecule along its activating interface, and the second mode is a stretching compression type of motion. Loops often are opened and closed during these large-scale motions. This can be seen most clearly at the top and bottom of the structure in the stretching compression mode of motion. (a) INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

199 DORUKER ET AL. FIGURE 7. (Continued.) 834 VOL. 90, NO

200 FLUCTUATION DYNAMICS OF LARGE PROTEIN STRUCTURES (d) FIGURE 7. (Continued.) ing sites. These motions do not occur locally and independently but rather together with a highly coordinated motion of the entire protein. This type of motion can be clearly seen in Figure 7(b) where the flaps at the top and bottom of the structure open upon compression and close upon stretching, whereas opposite behavior can be observed for surface flaps in the center of the structure. TABLE IV Correlations at different levels of coarse graining. All modes (HA) First mode (HA) N/ N/ N/ N/ Two alternative approaches for coarse graining have been presented, one based on scaling the size of the cutoff distance based on the average dimensions of protein segments and the other more empirically based on actual changes between two experimental structures. In many protein studies there has been a focus on functional sites while the remainder of the protein structure has been substantially ignored. The present work emphasizes that there is a truly important role for the entire protein in controlling these critical functional motions. In our view, the raison d être for protein structure is that a fold pattern leads to its shape, which in turn controls the important functional motions of the protein. It is furthermore important that it be possible to substantially ignore the details of the structure in extracting these largest-scale motions. A secondary implication is that high-resolution structures may not be required in order to infer the important motions of proteins. INTERNATIONAL JOURNAL OF QUANTUM CHEMISTRY

201 DORUKER ET AL. ACKNOWLEDGMENTS R.H. is supported through the National Science Foundation (Grant No. NSF ) and is presently an Alfred P. Sloan Fellow and Research Corporation Cottrell Scholar. P.D. is partially supported by the Bogazici Research Fund (project 01HA501), and she thanks O.T. Turget for helpful occasions. References FIGURE 8. Ribbondiagramofthemyosinhead structure [22] 1B7T. Residues in the same block are shown in the same color. The few residues in gray are those not included in any blocks. 1. Bahar, I.; Wallqvist, A.; Covell, D. G.; Jernigan, R. L. Biochemistry 1998, 37, Demirel,M.C.;Atilgan,A.R.;Jernigan,R.L.;Erman,B.; Bahar, I. Protein Sci 1998, 7, Bahar, I.; Jernigan, R. L. J Mol Biol 1998, 281, ; Bahar, I.; Atilgan, A. R.; Erman, B. Folding Des 1997, 2, Bahar, I.; Erman, B.; Jernigan, R. L.; Covell, D. G. J Mol Biol 1999, 285, Haliloglu, T.; Bahar, I. Proteins 1999, 37, Bahar, I.; Jernigan, R. L. Biochemistry 1999, 38, Jernigan, R. L.; Demirel, M. C.; Bahar, I. Int J Quantum Chem (B. Pullman Memorial Volume) 1999, 75, Keskin, O.; Jernigan, R. L.; Bahar, I. Biophys J 2000, 78, Jernigan,R.L.;Bahar,I.;Covell,D.G.;Atilgan,A.R.;Erman, B.; Flatow, D. T. J Biomol Struct Dyn, Conversation 11, Issue 1, 2000, Keskin, O.; Bahar, I.; Jernigan, R. L. Biochemistry, to appear. 11. Atilgan, A. R.; Durell, S. R.; Jernigan, R. L.; Demirel, M. C.; Keskin, O.; Bahar, I. Biophys J 2001, 80, Doruker, P.; Jernigan, R. L.; Bahar, I. J Comput Chem 2002, 23, FIGURE 9. Comparison of temperature factors of myosin predicted from calculations taking into account the blocks (solid) and the full non-coarse-grained single-residue calculations (dashed). 836 VOL. 90, NO

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006 La reconnaissance moléculaire: la base du design rationnel En 1890 Emil Fisher a proposé le modèle "serrure et clé" pour expliquer la façon de fonctionner des systèmes biologiques. Un substrat rentre et

Plus en détail

ACIDES BASES. Chap.5 SPIESS

ACIDES BASES. Chap.5 SPIESS ACIDES BASES «Je ne crois pas que l on me conteste que l acide n ait des pointes Il ne faut que le goûter pour tomber dans ce sentiment car il fait des picotements sur la langue.» Notion d activité et

Plus en détail

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB...

Formavie 2010. 2 Différentes versions du format PDB...3. 3 Les champs dans les fichiers PDB...4. 4 Le champ «ATOM»...5. 6 Limites du format PDB... Formavie 2010 Les fichiers PDB Les fichiers PDB contiennent les informations qui vont permettre à des logiciels de visualisation moléculaire (ex : RasTop ou Jmol) d afficher les molécules. Un fichier au

Plus en détail

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence. Règle de l octet : tendance qu on les atomes à s entourer de 8 électrons dans l édifice moléculaire. Ce n est pas une règle générale. Composés respectant la règle de l octet Composés ne respectant pas

Plus en détail

Effets électroniques-acidité/basicité

Effets électroniques-acidité/basicité Université du Maine Faculté des Sciences Retour Révisions de cours Effets électroniquesacidité/basicité Il est très important dans un cours de himie organique de connaitre ces notions qui vont intervenir

Plus en détail

INTRODUCTION À L'ENZYMOLOGIE

INTRODUCTION À L'ENZYMOLOGIE INTRODUCTION À L'ENZYMOLOGIE Les enzymes sont des macromolécules spécialisées qui - catalysent les réactions biologiques - transforment différentes formes d'énergie. Les enzymes diffèrent des catalyseurs

Plus en détail

Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés

Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés Molécules et matériaux organiques Partie 1. Addition nucléophile suivie d élimination (A N + E) 1.1. Réactivité électrophile des acides carboxyliques et groupes dérivés bjectifs du chapitre Notions à connaître

Plus en détail

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN Objectifs : Exploiter un spectre infrarouge pour déterminer des groupes caractéristiques Relier un spectre

Plus en détail

Molécules et Liaison chimique

Molécules et Liaison chimique Molécules et liaison chimique Molécules et Liaison chimique La liaison dans La liaison dans Le point de vue classique: l approche l de deux atomes d hydrogd hydrogènes R -0,9-1 0 0,5 1 1,5,5 3 3,5 4 R

Plus en détail

CHAPITRE 2 : Structure électronique des molécules

CHAPITRE 2 : Structure électronique des molécules CHAPITRE 2 : Structure électronique des molécules I. La liaison covalente 1) Formation d une liaison covalente Les molécules sont des assemblages d atomes liés par des liaisons chimiques résultant d interactions

Plus en détail

Résonance Magnétique Nucléaire : RMN

Résonance Magnétique Nucléaire : RMN 21 Résonance Magnétique Nucléaire : RMN Salle de TP de Génie Analytique Ce document résume les principaux aspects de la RMN nécessaires à la réalisation des TP de Génie Analytique de 2ème année d IUT de

Plus en détail

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» Master In silico Drug Design Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments» 30NU01IS INITIATION A LA PROGRAMMATION (6 ECTS) Responsables : D. MESTIVIER,

Plus en détail

LES SUBSTITUTIONS NUCLÉOPHILES EN SÉRIE ALIPHATIQUE S N 1 ET S N 2

LES SUBSTITUTIONS NUCLÉOPHILES EN SÉRIE ALIPHATIQUE S N 1 ET S N 2 Pr atem BEN ROMDANE LES SUBSTITUTIONS NUCLÉOPILES EN SÉRIE ALIPATIQUE S N 1 ET S N 2 3 - LE MÉCANISME S N 2 a - Constatations expérimentales Cinétique : l'étude des réactions de substitution nucléophile

Plus en détail

UE6 - Cycle de vie du médicament : Conception rationnelle

UE6 - Cycle de vie du médicament : Conception rationnelle UE6 - Cycle de vie du médicament : Conception rationnelle Dr. Raphaël Terreux Faculté de Pharmacie (ISPB) Département pédagogique des Sciences Physico-Chimiques et Pharmacie Galénique 8 avenue Rockefeller,

Plus en détail

EXERCICE II. SYNTHÈSE D UN ANESTHÉSIQUE : LA BENZOCAÏNE (9 points)

EXERCICE II. SYNTHÈSE D UN ANESTHÉSIQUE : LA BENZOCAÏNE (9 points) Bac S 2015 Antilles Guyane http://labolycee.org EXERCICE II. SYNTHÈSE D UN ANESTHÉSIQUE : LA BENZOCAÏNE (9 points) La benzocaïne (4-aminobenzoate d éthyle) est utilisée en médecine comme anesthésique local

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière

Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière Algèbre 1 : (Volume horaire total : 63 heures) UE1 : Analyse et algèbre

Plus en détail

ANALYSE SPECTRALE. monochromateur

ANALYSE SPECTRALE. monochromateur ht ANALYSE SPECTRALE Une espèce chimique est susceptible d interagir avec un rayonnement électromagnétique. L étude de l intensité du rayonnement (absorbé ou réémis) en fonction des longueurs d ode s appelle

Plus en détail

Les composites thermoplastiques

Les composites thermoplastiques Les composites thermoplastiques Définition Par définition, un thermoplastique (anglais :thermoplast) est un matériau à base de polymère (composé de macromolécules) qui peut être mis en forme, à l état

Plus en détail

Conception de Médicament

Conception de Médicament Conception de Médicament Approche classique HTS Chimie combinatoire Rational Drug Design Ligand based (QSAR) Structure based (ligand et ou macromolec.) 3DQSAR Docking Virtual screening Needle in a Haystack

Plus en détail

Enseignement secondaire

Enseignement secondaire Enseignement secondaire Classe de IIIe Chimie 3e classique F - Musique Nombre de leçons: 1.5 Nombre minimal de devoirs: 4 devoirs par an Langue véhiculaire: Français I. Objectifs généraux Le cours de chimie

Plus en détail

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION Le candidat est tenu d avoir complété tous les cours préalables à la date limite prévue, soit le 15 septembre pour le trimestre d automne et le 1 er février pour le trimestre d hiver. L Université peut

Plus en détail

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca

Plus en détail

K W = [H 3 O + ] [OH - ] = 10-14 = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide

K W = [H 3 O + ] [OH - ] = 10-14 = K a K b à 25 C. [H 3 O + ] = [OH - ] = 10-7 M Solution neutre. [H 3 O + ] > [OH - ] Solution acide La constante d autoprotolyse de l eau, K W, est égale au produit de K a par K b pour un couple acide/base donné : En passant en échelle logarithmique, on voit donc que la somme du pk a et du pk b d un

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

- pellicule de fruits qui a un rôle de prévention contre l'évaporation, le développement de moisissures et l'infection par des parasites

- pellicule de fruits qui a un rôle de prévention contre l'évaporation, le développement de moisissures et l'infection par des parasites LES LIPIDES Quelles Sont les Idées Clés? Les lipides sont les huiles et les graisses de la vie courante. Ils sont insolubles dans l eau. Pour les synthétiser, une réaction : l Estérification. Pour les

Plus en détail

Chapitre n 6 MASSE ET ÉNERGIE DES NOYAUX

Chapitre n 6 MASSE ET ÉNERGIE DES NOYAUX Chapitre n 6 MASSE ET ÉNERGIE DES NOYAUX T ale S Introduction : Une réaction nucléaire est Une réaction nucléaire provoquée est L'unité de masse atomique est une unité permettant de manipuler aisément

Plus en détail

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale V E R S I O N A V R I L 2 0 1 2 C E N T R E D E R E C H E R C H E C L I N I Q U E É T I E N N E - L E B E L D U C H U S Guide de rédaction d un protocole de recherche clinique à l intention des chercheurs

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

DYNAMIQUE DE FORMATION DES ÉTOILES

DYNAMIQUE DE FORMATION DES ÉTOILES A 99 PHYS. II ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES, ÉCOLES NATIONALES SUPÉRIEURES DE L'AÉRONAUTIQUE ET DE L'ESPACE, DE TECHNIQUES AVANCÉES, DES TÉLÉCOMMUNICATIONS, DES MINES DE PARIS, DES MINES DE SAINT-ÉTIENNE,

Plus en détail

Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique

Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique Kokouvi Edem N TSOUKPOE 1, Nolwenn LE PIERRÈS 1*, Lingai LUO 1 1 LOCIE, CNRS FRE3220-Université

Plus en détail

AIDE-MÉMOIRE LA THERMOCHIMIE TABLE DES MATIERES

AIDE-MÉMOIRE LA THERMOCHIMIE TABLE DES MATIERES Collège Voltaire, 2014-2015 AIDE-MÉMOIRE LA THERMOCHIMIE http://dcpe.net/poii/sites/default/files/cours%20et%20ex/cours-ch2-thermo.pdf TABLE DES MATIERES 3.A. Introduction...2 3.B. Chaleur...3 3.C. Variation

Plus en détail

1 ère partie : tous CAP sauf hôtellerie et alimentation CHIMIE ETRE CAPABLE DE. PROGRAMME - Atomes : structure, étude de quelques exemples.

1 ère partie : tous CAP sauf hôtellerie et alimentation CHIMIE ETRE CAPABLE DE. PROGRAMME - Atomes : structure, étude de quelques exemples. Référentiel CAP Sciences Physiques Page 1/9 SCIENCES PHYSIQUES CERTIFICATS D APTITUDES PROFESSIONNELLES Le référentiel de sciences donne pour les différentes parties du programme de formation la liste

Plus en détail

2 C est quoi la chimie?

2 C est quoi la chimie? PARTIE 1 AVANT LA CHIMIE VERTE... 2 C est quoi la chimie? L inconnu étant source d angoisse, nous allons essayer de définir les grands domaines de la chimie pour mieux la connaître, l appréhender et donc

Plus en détail

TD 9 Problème à deux corps

TD 9 Problème à deux corps PH1ME2-C Université Paris 7 - Denis Diderot 2012-2013 TD 9 Problème à deux corps 1. Systèmes de deux particules : centre de masse et particule relative. Application à l étude des étoiles doubles Une étoile

Plus en détail

Insulinothérapie et diabète de type 1

Insulinothérapie et diabète de type 1 Insulinothérapie et diabète de type 1 Introduction: la molécule d insuline L instauration de l insulinothérapie Dispositif d administration de l insuline Les propriétés de l insuline Insuline et schémas

Plus en détail

CHAPITRE VI : HYBRIDATION GEOMETRIE DES MOLECULES

CHAPITRE VI : HYBRIDATION GEOMETRIE DES MOLECULES CAPITRE VI : YBRIDATION GEOMETRIE DES MOLECULES VI.1 : YBRIDATION DES ORBITALES ATOMIQUES. VI.1.1 : Introduction. La théorie d hybridation a été développée au cours des années 1930, notamment par le chimiste

Plus en détail

Le Test d effort. A partir d un certain âge il est conseillé de faire un test tous les 3 ou quatre ans.

Le Test d effort. A partir d un certain âge il est conseillé de faire un test tous les 3 ou quatre ans. Le Test d effort L'épreuve du test d'effort est un examen effectué en général par un cardiologue ou un médecin du sport. Le test d'effort permet de mesurer le rythme cardiaque, la pression artérielle,

Plus en détail

TS1 TS2 02/02/2010 Enseignement obligatoire. DST N 4 - Durée 3h30 - Calculatrice autorisée

TS1 TS2 02/02/2010 Enseignement obligatoire. DST N 4 - Durée 3h30 - Calculatrice autorisée TS1 TS2 02/02/2010 Enseignement obligatoire DST N 4 - Durée 3h30 - Calculatrice autorisée EXERCICE I : PRINCIPE D UNE MINUTERIE (5,5 points) A. ÉTUDE THÉORIQUE D'UN DIPÔLE RC SOUMIS À UN ÉCHELON DE TENSION.

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Une conférence-débat proposée par l Institut National de la Recherche Agronomique

Une conférence-débat proposée par l Institut National de la Recherche Agronomique Economies d'énergies dans les procédés agro-alimentaires : l'optimisation coût/qualité, un équilibre pas si facile à maîtriser Une conférence-débat proposée par l Institut National de la Recherche Agronomique

Plus en détail

Interactions des rayonnements avec la matière

Interactions des rayonnements avec la matière UE3-1 : Biophysique Chapitre 2 : Interactions des rayonnements avec la matière Professeur Jean-Philippe VUILLEZ Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur www.matthieuamiguet.

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur www.matthieuamiguet. : Espoirs et menaces Matthieu Amiguet 2005 2006 Objectifs 2 Obtenir une compréhension de base des principes régissant le calcul quantique et la cryptographie quantique Comprendre les implications sur la

Plus en détail

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un fichier restrt de AMBER? Comment charger une trajectoire

Plus en détail

FUSION PAR CONFINEMENT MAGNÉTIQUE

FUSION PAR CONFINEMENT MAGNÉTIQUE FUSION PAR CONFINEMENT MAGNÉTIQUE Séminaire de Xavier GARBET pour le FIP 06/01/2009 Anthony Perret Michel Woné «La production d'énergie par fusion thermonucléaire contrôlée est un des grands défis scientifiques

Plus en détail

Physique Chimie. Utiliser les langages scientifiques à l écrit et à l oral pour interpréter les formules chimiques

Physique Chimie. Utiliser les langages scientifiques à l écrit et à l oral pour interpréter les formules chimiques C est Niveau la représentation 4 ème 2. Document du professeur 1/6 Physique Chimie LES ATOMES POUR COMPRENDRE LA TRANSFORMATION CHIMIQUE Programme Cette séance expérimentale illustre la partie de programme

Plus en détail

LE VDSL 2 EN FRANCE. Source : www.ant.developpement-durable.gouv.fr

LE VDSL 2 EN FRANCE. Source : www.ant.developpement-durable.gouv.fr LE VDSL 2 EN FRANCE Par Jean-Marc Do Livramento Consultant télécom fixe et mobile Mai 2013 Des offres d accès Internet Très Haut Débit par VDSL 2 bientôt disponibles en France? Le 26 avril dernier, le

Plus en détail

Prédiction de la structure d une

Prédiction de la structure d une Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun TABLE DES MATIÈRES Table des matières 1 Les structures protéiques

Plus en détail

Plan du chapitre «Milieux diélectriques»

Plan du chapitre «Milieux diélectriques» Plan du chapitre «Milieux diélectriques» 1. Sources microscopiques de la polarisation en régime statique 2. Etude macroscopique de la polarisation en régime statique 3. Susceptibilité diélectrique 4. Polarisation

Plus en détail

Des molécules hydrophobes dans l eau

Des molécules hydrophobes dans l eau Des molécules hydrophobes dans l eau B. Cabane PMMH, ESPCI, Paris bcabane@pmmh.espci.fr Je remercie pour leurs contributions: D. Durand, B. Guillot, H. Lannibois-Drean, C. Pascal, C. Poncet-Legrand, A.

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Production des Services d Assurance non-vie selon le SCN 2008

Production des Services d Assurance non-vie selon le SCN 2008 REPUBLIQUE DU CAMEROUN Paix - Travail Patrie ---------- INSTITUT NATIONAL DE LA STATISTIQUE ---------- REPUBLIC OF CAMEROON Peace - Work Fatherland ---------- NATIONAL INSTITUTE OF STATISTICS ----------

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

A retenir : A Z m n. m noyau MASSE ET ÉNERGIE RÉACTIONS NUCLÉAIRES I) EQUIVALENCE MASSE-ÉNERGIE

A retenir : A Z m n. m noyau MASSE ET ÉNERGIE RÉACTIONS NUCLÉAIRES I) EQUIVALENCE MASSE-ÉNERGIE CP7 MASSE ET ÉNERGIE RÉACTIONS NUCLÉAIRES I) EQUIVALENCE MASSE-ÉNERGIE 1 ) Relation d'équivalence entre la masse et l'énergie -énergie de liaison 2 ) Une unité d énergie mieux adaptée 3 ) application 4

Plus en détail

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr Programmation avec R Polycopié d exercices Leslie REGAD ; Gaëlle LELANDAIS leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr Ce polycopié rassemble différents exercices vous

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Transport des gaz dans le sang

Transport des gaz dans le sang UE3-2 - Physiologie Physiologie Respiratoire Chapitre 9 : Transport des gaz dans le sang Docteur Sandrine LAUNOIS-ROLLINAT Année universitaire 2011/2012 Université Joseph Fourier de Grenoble - Tous droits

Plus en détail

Chapitre 4 - Spectroscopie rotationnelle

Chapitre 4 - Spectroscopie rotationnelle Chapitre 4 - Spectroscopie rotationnelle 5.1 Classification Déterminer à quelle catégorie (sphérique, symétrique, asymétrique) appartiennent ces molécules : a) CH 4, b) CH 3 F, c) CH 3 D, d) SF 6, e) HCN,

Plus en détail

Le turbo met les gaz. Les turbines en équation

Le turbo met les gaz. Les turbines en équation Le turbo met les gaz Les turbines en équation KWOK-KAI SO, BENT PHILLIPSEN, MAGNUS FISCHER La mécanique des fluides numérique CFD (Computational Fluid Dynamics) est aujourd hui un outil abouti de conception

Plus en détail

Chapitre XIV BASES PHYSIQUES QUANTITATIVES DES LOIS DE COMPORTEMENT MÉCANIQUE. par S. CANTOURNET 1 ELASTICITÉ

Chapitre XIV BASES PHYSIQUES QUANTITATIVES DES LOIS DE COMPORTEMENT MÉCANIQUE. par S. CANTOURNET 1 ELASTICITÉ Chapitre XIV BASES PHYSIQUES QUANTITATIVES DES LOIS DE COMPORTEMENT MÉCANIQUE par S. CANTOURNET 1 ELASTICITÉ Les propriétés mécaniques des métaux et alliages sont d un grand intérêt puisqu elles conditionnent

Plus en détail

ELEC2753 Electrotechnique examen du 11/06/2012

ELEC2753 Electrotechnique examen du 11/06/2012 ELEC2753 Electrotechnique examen du 11/06/2012 Pour faciliter la correction et la surveillance, merci de répondre aux 3 questions sur des feuilles différentes et d'écrire immédiatement votre nom sur toutes

Plus en détail

Les isomères des molécules organiques

Les isomères des molécules organiques Les isomères des molécules organiques René CAHAY, Jacques FURNÉMONT I.- INTRODUCTION Le terme isomérie tire son origine du grec ίσος (isos = identique) et µερος (meros = partie). Le phénomène d isomérie

Plus en détail

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre)

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre) Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre) 1. A la découverte de la radioactivité. Un noyau père radioactif est un noyau INSTABLE. Il se transforme en un noyau fils STABLE

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

TRAVAUX PRATIQUESDE BIOCHIMIE L1

TRAVAUX PRATIQUESDE BIOCHIMIE L1 TRAVAUX PRATIQUESDE BICHIMIE L1 PRINTEMPS 2011 Les acides aminés : chromatographie sur couche mince courbe de titrage Etude d une enzyme : la phosphatase alcaline QUELQUES RECMMANDATINS IMPRTANTES Le port

Plus en détail

PHYSIQUE Discipline fondamentale

PHYSIQUE Discipline fondamentale Examen suisse de maturité Directives 2003-2006 DS.11 Physique DF PHYSIQUE Discipline fondamentale Par l'étude de la physique en discipline fondamentale, le candidat comprend des phénomènes naturels et

Plus en détail

www.gbo.com/bioscience 1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

www.gbo.com/bioscience 1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage 2 HTS 3 Immunologie / Immunologie Informations Techniques 3 I 2 ELISA 96 Puits 3 I 4 ELISA 96 Puits en Barrettes 3 I 6 en Barrettes de 8 Puits 3 I 7 en Barrettes de 12 Puits 3 I 8 en Barrettes de 16 Puits

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Transport des gaz dans le sang

Transport des gaz dans le sang UE3-2 - Physiologie Physiologie Respiratoire Chapitre 9 : Transport des gaz dans le sang Docteur Sandrine LAUNOIS-ROLLINAT Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits

Plus en détail

Les nombres entiers. Durée suggérée: 3 semaines

Les nombres entiers. Durée suggérée: 3 semaines Les nombres entiers Durée suggérée: 3 semaines Aperçu du module Orientation et contexte Pourquoi est-ce important? Dans le présent module, les élèves multiplieront et diviseront des nombres entiers concrètement,

Plus en détail

Utilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par

Plus en détail

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE 562 ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE 563 TABLE DES MATIÈRES ANNEXE J... 562 POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS

Plus en détail

Chapitre 02. La lumière des étoiles. Exercices :

Chapitre 02. La lumière des étoiles. Exercices : Chapitre 02 La lumière des étoiles. I- Lumière monochromatique et lumière polychromatique. )- Expérience de Newton (642 727). 2)- Expérience avec la lumière émise par un Laser. 3)- Radiation et longueur

Plus en détail

Suivi d une réaction lente par chromatographie

Suivi d une réaction lente par chromatographie TS Activité Chapitre 8 Cinétique chimique Suivi d une réaction lente par chromatographie Objectifs : Analyser un protocole expérimental de synthèse chimique Analyser un chromatogramme pour mettre en évidence

Plus en détail

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE

THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE THEME 2. LE SPORT CHAP 1. MESURER LA MATIERE: LA MOLE 1. RAPPEL: L ATOME CONSTITUANT DE LA MATIERE Toute la matière de l univers, toute substance, vivante ou inerte, est constituée à partir de particules

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

TP N 3 La composition chimique du vivant

TP N 3 La composition chimique du vivant Thème 1 : La Terre dans l'univers, la vie et l'évolution du vivant : une planète habitée Chapitre II : La nature du vivant TP N 3 La composition chimique du vivant Les conditions qui règnent sur terre

Plus en détail

Chapitre 5 : Noyaux, masse et énergie

Chapitre 5 : Noyaux, masse et énergie Chapitre 5 : Noyaux, masse et énergie Connaissances et savoir-faire exigibles : () () (3) () (5) (6) (7) (8) Définir et calculer un défaut de masse et une énergie de liaison. Définir et calculer l énergie

Plus en détail

Compléments - Chapitre 5 Spectroscopie

Compléments - Chapitre 5 Spectroscopie ompléments - hapitre 5 Spectroscopie Spectroscopie par résonance magnétique nucléaire (RMN 13 ) Tandis que la spectroscopie RMN 1 H fournit des données sur la disposition des atomes d'hydrogène dans une

Plus en détail

Métiers d études, recherche & développement dans l industrie

Métiers d études, recherche & développement dans l industrie Les fiches Métiers de l Observatoire du Travail Temporaire Emploi, compétences et trajectoires d intérimaires cadres Métiers d études, recherche & développement dans l industrie R&D Production Ingénieur

Plus en détail

TD DOSAGE DE PROTEINES ET ELECTROPHORESE : PARTIE THÉORIQUE BST1 SVT

TD DOSAGE DE PROTEINES ET ELECTROPHORESE : PARTIE THÉORIQUE BST1 SVT TD DOSAGE DE PROTEINES ET ELECTROPHORESE : PARTIE THÉORIQUE BST1 SVT Daniela LENER IBMC Texte conseillé pour consultation : Biochimie, Voet & Voet, ed. De Boeck. Dosage des protéines Pendant une purification

Plus en détail

Sommaire Table des matières

Sommaire Table des matières Notice de montage 1 Sommaire Table des matières I. Mise en garde... 3 II. Avant de commencer... 4 1. Préparer vos outils... 4 2. Pièces nécessaires pour le montage de votre porte Keritek... 5 III. Étape

Plus en détail

Premiers Pas avec OneNote 2013

Premiers Pas avec OneNote 2013 Premiers Pas avec OneNote 2 Présentation de OneNote 3 Ouverture du logiciel OneNote 4 Sous Windows 8 4 Sous Windows 7 4 Création de l espace de travail OneNote 5 Introduction 5 Présentation des différentes

Plus en détail

Chapitre 6. Réactions nucléaires. 6.1 Généralités. 6.1.1 Définitions. 6.1.2 Lois de conservation

Chapitre 6. Réactions nucléaires. 6.1 Généralités. 6.1.1 Définitions. 6.1.2 Lois de conservation Chapitre 6 Réactions nucléaires 6.1 Généralités 6.1.1 Définitions Un atome est constitué d électrons et d un noyau, lui-même constitué de nucléons (protons et neutrons). Le nombre de masse, noté, est le

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Rapport d évaluation du master

Rapport d évaluation du master Section des Formations et des diplômes Rapport d évaluation du master Informatique de l Université Paris 7 Denis Diderot Vague D 2014-2018 Campagne d évaluation 2012-2013 Section des Formations et des

Plus en détail

Compétence 3-1 S EXPRIMER A L ECRIT Fiche professeur

Compétence 3-1 S EXPRIMER A L ECRIT Fiche professeur Compétence 3-1 S EXPRIMER A L ECRIT Fiche professeur Nature de l activité : Réaliser 3 types de productions écrites (réécriture de notes, production d une synthèse de documents, production d une argumentation)

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Centre Universitaire LA CITADELLE 220, avenue de l Université B.P 5526 59379 DUNKERQUE CEDEX 1 GUIDE DES ETUDES LICENCE PROFESSIONNELLE

Centre Universitaire LA CITADELLE 220, avenue de l Université B.P 5526 59379 DUNKERQUE CEDEX 1 GUIDE DES ETUDES LICENCE PROFESSIONNELLE Centre Universitaire LA CITADELLE 220, avenue de l Université B.P 5526 59379 DUNKERQUE CEDEX 1 GUIDE DES ETUDES LICENCE PROFESSIONNELLE Chimie Industrielle (anciennement : Industries chimiques et pharmaceutiques)

Plus en détail

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP COURS PROGRAMMATION INITIATION AU LANGAGE C SUR MICROCONTROLEUR PIC page 1 / 7 INITIATION AU LANGAGE C SUR PIC DE MICROSHIP I. Historique du langage C 1972 : naissance du C dans les laboratoires BELL par

Plus en détail

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent vvigne@iup.univ-evry.fr STIC Traitement du signal et des images

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent vvigne@iup.univ-evry.fr STIC Traitement du signal et des images Sujets de thèse Ecole Doctorale "Sciences et Ingénierie" 2012-2013 Sujet de thèse Unité de recherche Nom de l'encadrant Discipline principale Discipline secondaire Navigation topologique basée sur des

Plus en détail

TP : Suivi d'une réaction par spectrophotométrie

TP : Suivi d'une réaction par spectrophotométrie Nom : Prénom: n groupe: TP : Suivi d'une réaction par spectrophotométrie Consignes de sécurité de base: Porter une blouse en coton, pas de nu-pieds Porter des lunettes, des gants (en fonction des espèces

Plus en détail

ÉJECTEURS. CanmetÉNERGIE Juillet 2009

ÉJECTEURS. CanmetÉNERGIE Juillet 2009 ÉJECTEURS CanmetÉNERGIE Juillet 2009 ÉJECTEURS 1 ÉJECTEURS INTRODUCTION Les éjecteurs sont activés par la chaleur perdue ou la chaleur provenant de sources renouvelables. Ils sont actionnés directement

Plus en détail

Qu est-ce qu une problématique?

Qu est-ce qu une problématique? Fiche méthodologique préparée par Cécile Vigour octobre 2006 1 Qu est-ce qu une problématique? Trois étapes : 1. Définition de la problématique 2. Qu est-ce qu une bonne problématique? 3. Comment problématiser?

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Eteindre. les. lumières MATH EN JEAN 2013-2014. Mme BACHOC. Elèves de seconde, première et terminale scientifiques : MTH EN JEN 2013-2014 Elèves de seconde, première et terminale scientifiques : Lycée Michel Montaigne : HERITEL ôme T S POLLOZE Hélène 1 S SOK Sophie 1 S Eteindre Lycée Sud Médoc : ROSIO Gauthier 2 nd PELGE

Plus en détail