Introduction à la Biologie Moléculaire. Corinne ABBADIE

Introduction à la Biologie Moléculaire Corinne ABBADIE corinne.abbadie@ibl.fr

Introduction Le vivant est complexe: - 30 millions de types d organismes - 100 000 protéines différentes chez l homme Place de la bioinformatique dans la biologie moléculaire: - stocker les données - éditer les données - analyser les données (computational biology) - rechercher et extraire un élément dans la masse - comparer des données : ex comparer des génomes - créer de la connaissance : - modéliser une structure 3D - identifier des gènes potentiels dans un génome (- appui de l instrumentation utilisée en biologie)

1- Les molécules constitutives du vivant 1-1 Les êtres vivants sont constitués de cellules Organismes unicellulaires Organismes pluricellulaires cellule Cellules procaryotes (toujours unicellulaire) Cellules eucaryotes (unicellulaire ou pluricellulaire)

1-2 Les cellules sont constituées d assemblage de molécules Chaque diagramme représente une image grossie d un facteur 10 de la précédente: -Un doigt -La peau -Les cellules de la peau -La structure de ces cellules -La structure d une mitochondrie -- la structure d un ribosome -La structure de deux protéines -Ces protéines sont constituées d atomes

1-3 Les différentes catégories d ions et de molécules constituant les êtres vivants Gaz dissous: O2, CO2, NO Ca++, oligoéléments organiques

Toute matière vivante est composée d eau, d ions, de petites molécules organiques et de macromolécules. Les pourcentages (en poids) indiqués correspondent à ceux mesurés dans la bactérie Escherichia coli. (a) Structures chimiques de l eau, de quelques ions et de quelques petites molécules courants dans les structures biologiques. (b) Modèles 3D d une molécule d ADN et d une protéine. Chaque atome est représenté par une boule colorée (blanc = H, rouge = O, gris = C, jaune = P, bleu = N, vert = S).

Liaisons chimiques intra et intermoléculaires FORCE (kcal/mole) TYPE DE LIAISON LONGUEUR (nm) Dans le vide Dans l eau Covalente 0.15 90 90 Non covalente: ionique 0.25 80 3 hydrogène 0.30 4 1 Attraction de van der Waals 0.35 0.1 0.1

1-4 Les protéines: leur composition et leur structure 3D déterminent leur fonction Protéines : macromolécules essentielles - constituent la majeure partie de notre matière (le reste=lipides) - assurent la plupart de nos fonctions L information pour fabriquer ces protéines est contenue dans le génome.

1-3-1 Les protéines sont des polymères d acides aminés. La séquence en acide aminés détermine la structure primaire de la protéine Les protéines sont des polymères d acides aminés. Les acides aminés ont une structure commune. L atome de carbone (vert) lié aux trois groupes chimiques H, NH2 et COOH sont communs à tous les acides aminés. Le groupe latéral, appelé résidu ou R (rouge), est spécifique à chaque acide aminé.

Détail de la liaison peptidique, la liaison chimique entre deux acides aminés. (a) Réaction de condensation entre deux acides aminés pour former la liaison peptidique. (b) Une protéine est donc formée d un squelette monotone d où émergent les résidus (R). La chaine protéique est polarisée avec une extrémité N-terminale et une extrémité C-terminale. Par convention, on donne toujours la séquence en acides aminés de N vers C.

Structure des 20 acides aminés communs, classés en 3 groupes: hydrophiles, hydrophobes, et autres. C est le résidu R (en rouge) qui détermine les propriétés chimiques de chaque acide aminé. Sont indiqués en parenthèse les codes à 3 lettres et à une lettre pour chaque acide aminé.

Séquence en acides aminés = structure primaire La diversité des protéines résulte des différentes combinaisons linéaires des 20 acides aminés existants. La très petite protéine (=peptide) présentée en exemple est composée de 4 acides aminés. Il en existe 20 4, ou 160 000, différentes possibles. Les protéines, appelées également polypeptides, sont généralement constituées de 50 à 2000 acides aminés. Leur diversité possible est donc théoriquement infinie. Chaque protéine est donc caractérisée par une séquence unique (=structure primaire), ce qui n empêche pas que des fragments de séquence (=motif) soit commun à plusieurs protéines. Le nombre et la nature de ses acides aminés confèrent à une protéine une masse précise, mesurée en Dalton (masse d un atome d hydrogène). Une acide aminé fait en moyenne 110 Da. Une protéine fait donc en moyenne entre 5 et 200 kda. La masse d une protéine peut être mesurée -Approximativement par la technique d électrophorèse -très précisément par la technique de spectrométrie de masse. Cette masse très précise est un critère d identification. Il existe des banques de données de masses de protéines.

1-3-2 Les propriétés chimiques des acides aminés conditionnent un repliement 3D des protéines 1-3-2-1 Structure secondaire Propriétés chimiques des R Interactions entre acides aminés 1 er degré de repliement=structure secondaire 3 types de structure secondaire: - Tour - Hélice alpha - Feuillet beta

Structure d un tour. L atome d oxygène (en rose), légèrement chargé négativement, du groupe CO du résidu i de la chaîne polypeptide établit une liaison dite «hydrogène» (tiré vert) avec l atome d hydrogène (en blanc), légèrement chargé positivement, du groupe NH du résidu i + 3. Cela permet l établissement d un tour dans la chaîne polypeptidique.

Structure d une hélice alpha. Le squelette polypeptidique s enroule en une spirale stabilisée par des liaisons hydrogène (pointillés noirs) qui s établissent entre des atomes d oxygène (légèrement chargés négativement) et des atomes d hydrogène (légèrement chargés positivement). Les résidus R émergent en surface de l hélice. Typiquement, les hélices alpha sont hydrophobes et rencontrées dans les parties transmembranaires des protéines membranaires.

Structure d un brin beta. La chaine polypeptidique s organise de façon à alterner les résidus R (vert). Cela permet une meilleure occupation de l espace et évite l encombrement stérique.

C N N C Structure d un feuillet beta antiparallèle. Deux brins beta adjacents s alignent en direction opposée. Des liaisons hydrogène entre groupes NH et CO connectent chaque acide aminé d un brin à l acide aminé situé en face sur l autre brin, stabilisant ainsi la structure en feuillet. N C N C Structure d un feuillet beta parallèle. Deux brins beta adjacents s alignent dans la même direction. Des liaisons hydrogène entre groupes NH et CO connectent chaque acide aminé d un brin à deux acides aminés situés en face sur l autre brin, stabilisant ainsi la structure en feuillet.

Présence relative des acides aminés dans les différentes structures secondaires Acide aminé Hélice alpha Feuillet beta Tour Ala 1.29 0.90 0.78 Cys 1.11 0.74 0.80 Leu 1.30 1.02 0.59 Met 1.47 0.97 0.39 Glu 1.44 0.75 1.00 Gln 1.27 0.80 0.97 His 1.22 1.08 0.69 Lys 1.23 0.77 0.96 Val 0.91 1.49 0.47 Ile 0.97 1.45 0.51 Phe 1.07 1.32 0.58 Tyr 0.72 1.25 1.05 Trp 0.99 1.14 0.75 Thr 0.82 1.21 1.03 Gly 0.56 0.92 1.64 Ser 0.82 0.95 1.33 Asp 1.04 0.72 1.41 Asn 0.90 0.76 1.28 Pro 0.52 0.64 1.91 Arg 0.96 0.99 0.88 La connaissance de ces fréquences permet de faire de la prédiction de structure secondaire à partir de la séquence

1-3-2-2 Organisation en motifs et domaines Le motif hélice-tour-hélice (en bleu). Ce motif permet l emboitement de la protéine (un facteur de transcription) dans le grand sillon de la double hélice d ADN. Protéine et ADN interagissent ensuite grâce à des liaisons faibles qui s établissent entre acides aminés et bases des nucléotides Le doigt de zinc. Ce motif est constitué d une hélice alpha, d un feuillet beta antiparallèle et d un atome de zinc retenu par les résidus (en vert) de deux cystéines du feuillet beta et deux histidines de l hélice alpha. Ce motif peut aussi s emboiter dans le grand sillon de l ADN et interagir avec les bases. Quelques motifs rencontrés dans les facteurs de transcription. Un motif est une combinaison de quelques éléments de structure secondaire. Ils ont une séquence et une structure caractéristique.

Trois exemples de domaines. Un domaine est un ensemble de structures secondaires, plus gros qu un motif. (A) Domaine composé uniquement d hélices alpha séparées par des boucles de longueur variable. (B) Domaine composé d un assemblage d hélices alpha et de brins beta. (C) Domaine composé d un sandwich de deux feuillets beta. Dans les trois exemples, les boucles font surface. Elles constituent souvent les régions d interaction avec d autres molécules.

1-3-2-3 Structure tertiaire Une protéine est constituée de 1 ou plusieurs domaines, identiques ou différents. Cela représente sa structure tertiaire Exemple d une protéine (CD4) constituée de 4 domaines identiques

Exemple d une protéine (Src) constituée de 4 domaines différents. Chaque domaine a une fonction propre: les domaines SH2 et SH3 en bleu et vert sont des domaines d interaction avec d autres protéines. Les domaines kinases en jaune et orange ont une activité enzymatique qui nécessite la présence d ATP (en rouge). (A) Modèle en ruban (B) Modèle en boule.

Représentation schématique de quelques protéines mettant en valeur leur nature modulaire. L EGF (Epidermal Growth Factor) est constitué d un seul domaine, appelé domaine EGF (orange). Il est généré par clivage d un précurseur qui contient ce domaine EGF en multiples exemplaires. Le domaine EGF est également présent dans les protéines Neu et TPA, associé à d autres domaines. Ainsi, les protéines sont des combinatoires de domaines.

(C) (C ) (A) (B) (C) Modèle en boule et bâton. Montre tous les atomes, sauf d hydrogène, et les liaisons covalentes et non covalentes. Modèle en ruban. Met en évidence de façon schématique les structures secondaires et les éventuelles molécules associées (ici le groupement hème avec son atome de fer en violet). Modèle en boule représentant chaque atome, mais aucune liaison. Les atomes de chaque acide aminé sont colorés en fonction d une propriété que l on choisit. Ici, les acides aminés hydrophobes sont représentés en jaune, les acides aminés hydrophiles en bleu. On constate que la surface de la molécule est préférentiellement hydrophile. (C ) Représentation en boule d une coupe à l intérieur de la protéine. L intérieur de la molécule est préférentiellement constituée d acides aminés hydrophobes. Différents types de représentation de la structure tertiaire des protéines (ex de la myoglobine)

1-3-2-3 Structure quaternaire Certaines protéines sont constituées de plusieurs chaines polypeptidiques associées par des interactions faibles ou quelques liaisons covalentes. On dit que ces protéines présentent une structure quaternaire. Chaque chaine polypeptidique d une protéine à structure quaternaire est appelée «sous-unité». La protéine Cro du bactériophage λ est un dimère de deux sousunités identiques. L hémoglobine est composée de deux sous-unités α et deux sous-unités β

Structure quaternaire de l aspartate transcarbamoylase

1-3-3 Techniques d étude des protéines 1-3-3-1 Séparation par électrophorèse -Échantillon biologique (cellules en culture, biopsie ) -Broyage -Séparation des différentes protéines par migration dans un gel réticulé sous l influence d un champ électrique: la migration dépend de la taille de la protéine et de sa charge Appareil d électrophorèse. Chaque échantillon est déposé dans un puits ménagé dans un gel de polyacrylamide. Un champ électique est appliqué pendant quelques. Plus les protéines sont petites et chargées, plus elles migreront loin dans le gel. La position des protéines est ensuite révélée par une coloration (au bleu de Coomassie).

1-3-3-1-1 Electrophorèse native Les protéines ne subissent aucune modification avant d être séparées par électrophorèse. Séparation assez mauvaise Electrophorèse des protéines du sérum. Cinq échantillons de sérum ont été analysés par électrophorèse. Le gel a été coloré puis scanné en densitométrie. On peut distinguer au plus 5 bandes, alors que le sérum contient plusieurs centaines de protéines différentes.

1-3-3-1-2 Electrophorèse dénaturante SDS-polyacrylamide gel electrophoresis (SDS-PAGE) Les protéines sont dénaturées par -chauffage, qui casse les laisons hydrogène -SDS, un détergent chargé négativement, qui casse les liaisons ioniques -mercaptoéthanol qui casse les ponts disulfures Les protéines migreront alors grâce à leur forte charge négative apportée par le détergent et de façon proportionnelle à leur masse. La résolution est fortement améliorée

SDS-PAGE d échantillons de cerveau de patients atteints de sclérose en plaque A: Marqueurs de masse moléculaire en kilodaltons (S). Substance blanche contrôle (WM). B: Echantillons de différentes régions de plaques d un malade chronique. C: Echantillons de différentes régions de plaques d un malade aigü. Echantillons P: centre de la plaque, IPP: zone périplaque proximale, OPP: zone périplaque distale, NAWM: substance blanche normale à proximité d une plaque. Protéines PLP: protéolipide, MBP: myelin basic protein, GFAP: glial fibrillary acidic protein, ALB: serum albumin

1-3-3-1-3 Electrophorèse bidimensionnelle -Première séparation en fonction de la charge (point isoélectrique) -Deuxième séparation en fonction de la masse

Analyse d électrophorégrammes bidimensionnels des protéines du cerveau et du foie. L analyse permet de dégager les protéines communes aux deux tissus (en rouge) de celles spécifiques à chaque tissu (en bleu). On peut aussi observer pour les protéines communes des différences quantitatives.

1-3-3-1-4 Analyse par spectrométrie de masse (protéomique) Etude protéomique par électrophorèse bidimensionnelle et spectrométrie de masse. (A) Electrophorèse bidimensionnelle. Découpage d un spot. Digestion par une protéase (ex trypsine) qui coupe la chaine polypeptidique après les arginines et les lysines. Cela clive la protéine en peptides. (B) Dans le spectromètre de masse, les peptides sont ionisés par un laser puis accélérés dans une colonne jusqu à un détecteur. Le temps de trajet de chaque peptide dépend du rapport entre sa masse et sa charge. Les résultats sont confrontés à une banque de données qui contient toutes les masses théoriques de tous les peptides de toutes les protéines telles que l on peut les prédire à partir des données du séquençage humain.

1-3-3-2 Séquençage des protéines Détermination chimique de la séquence d une protéine par la méthode de la dégradation d Edman. Dans une première étape, on fait réagir l extrémité N- terminale de la protéine avec du phenylisothiocyanate (PITC), un composé fluorescent. L extrémité COOH ne peut pas réagir avec ce composé. Dans une deuxième étape, on fait subir à la protéine marquée une hydrolyse acide légère. Dans cette condition, Le PITC a tendance à se cycliser et ainsi à se cliver du reste de la protéine. Le produit cyclisé s appelle le phenylthiohydantoin (PTH). L hydrolyse acide génère donc un PTH associé à l acide aminé N-terminal et une protéine raccourcie de son acide aminé N-terminal et présentant une nouvelle extrémité N-terminale. L acide aminé fixé au PTH est ensuite identifié par chromatographie liquide, sur la base de ses propriétés chimiques. Le restant de la protéine est soumise de nouveau aux deux étapes précédentes. Ainsi les acides aminés N-terminaux sont identifiés successivement générant la séquence de la protéine.

1-3-3-3 Détermination de la structure des protéines Cristallographie aux rayons X. (A) Des rayons X sont bombardés sur (B) un cristal de protéine purifiée. (C) Les rayons X sont diffractés par les atomes du cristal. Le patron de diffraction est récolté sur un film photo. (D) Le patron de diffraction est ensuite analysé de façon à reconstituer la structure tridimensionnelle. L analyse repose sur le fait que chaque atome diffracte les rayons X en fonction du nombre d électrons qui le constitue et que la position des atomes les uns par rapport aux autres modifie la diffraction. http://www.rcsb.org/pdb

10 000 protéines cristallographiées http://www.rcsb.org/pdb Possibilité de prédire des structures à partir de la séquence, par analogie avec des structures connues de séquences homologues