Prédiction de la structure d une

Transcription

1 Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume [email protected] Copyright c 2004 Guillaume Chakroun

2 TABLE DES MATIÈRES Table des matières 1 Les structures protéiques La structure primaire La structure secondaire La structure tertiaire La structure quaternaire Figure récapitulative Les banques de données de structures protéiques Les méthodes expérimentales de détermination des structures protéiques La cristallographie rayon X La spectroscopie RMN Les banques de structures protéiques Les différentes classes de structures protéiques La banque de structures protéiques PDB Les autres banques de structures protéiques Prédiction de la structure secondaire à partir de la séquence Critère d efficacité des méthodes présentées Les méthodes statistiques Chou-Fasman Garnier, Osguthorbe et Robson (méthode GOR) Amélioration des méthodes Les méthodes tenant compte des propriétés physico-chimiques des acides aminés La méthode du plus proche voisin Les chaînes de Markov cachées Les réseaux de neurones Programmes de prédiction de structure secondaire Méthodologie Prédiction de la structure tertiaire à partir de la structure primaire Méthodes de prédiction par modèle d homologie Méthode de prédiction par reconnaissance de repliement Méthode de prédiction ab initio Outils de prédiction de la structure tertiaire Méthodologie Copyright c 2004 Guillaume Chakroun 2

3 TABLE DES FIGURES Table des figures 1.1 Exemple d une représentation en structure primaire d une protéine Exemple d une hélice alpha Exemple d un feuillet béta Exemple d une représentation en structure tertiaire d une protéine Exemple d une représentation en structure quaternaire d une protéine Relation entre les différentes catégories de structures Exemple d un HMM simple à 4 états et 2 symboles Exemple d un HMMprofil Modèle de structure α-plex Exemple d un réseau de neurones Propagation d un signal dans un réseau de neurones trois couches Illustration de la back propagation calibrant les paramètres du réseau Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine 31 Copyright c 2004 Guillaume Chakroun 3

4 LISTE DES TABLEAUX Liste des tableaux 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Liste des principaux programmes utilisés pour la prédiction de structures secondaires 28 Copyright c 2004 Guillaume Chakroun 4

5 Chapitre 1 Les structures protéiques La structure tertiaire de la protéine est centrale à la génomique, car plus encore que la séquence, c est elle qui détermine sa fonction. La structure va déterminer les sites actifs ou les épitopes d antigénicité (partie d un antigène reconnu par un anticorps). Prédire la structure 3D d une protéine, c est donc approcher la fonction potentielle qu elle assure dans la cellule. Outre leur importance fonctionnelle, les structures secondaires et tertiaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l évolution. La structure des protéines comporte quatre niveaux différents : 1.1 La structure primaire C est la séquence proprement dite des acides aminés enchaînés les uns aux autres par des liaisons covalentes et éventuellement par des ponts disulfures. Un exemple de la représentation en structure primaire d une protéine est illustrée sur la figure 1.1. Fig. 1.1 Exemple d une représentation en structure primaire d une protéine 1.2 La structure secondaire Elle correspond aux formations périodiques qu adoptent des portions partielles d une protéine donnée. Ces repliements sont : L hélice alpha (voir figure 1.2) Le feuillet bêta (voir figure 1.3) Une boucle ou coude, structure instable enroulée aléatoirement ( random coil en anglais) Copyright c 2004 Guillaume Chakroun 5

6 Fig. 1.2 Exemple d une hélice alpha Fig. 1.3 Exemple d un feuillet béta Copyright c 2004 Guillaume Chakroun 6

7 1.3 La structure tertiaire C est la conformation tridimensionnelle thermodynamiquement stable (due à un ensemble de liaisons non covalentes, comme les liaisons hydrogènes ou les ponts salins, ainsi qu à des ponts disulfures qui sont des liaisons covalentes) qu adoptent les différents éléments de la structure secondaire entre eux pour former la protéine ou une des sous-unités d une protéine plus complexe (voir figure 1.4). La conformation native d une protéine dépend à la fois de sa séquence et du milieu dans lequel elle est solubilisée. Le repliement 3D ( fold en anglais) représente le meilleur compromis entre l enfouissement des résidus d acides aminés hydrophobes (alanine, leucine, isoleucine, proline et valine), puisque la plupart des milieux organiques sont aqueux, et les possibibités de rotation autour des liaisons chimiques. Fig. 1.4 Exemple d une représentation en structure tertiaire d une protéine Les hélices α sont représentées en rose, les feuillets β en jaune et les coudes en gris 1.4 La structure quaternaire Certaines protéines, complexes, sont constituées de plusieurs sous-unités : les monomères. La structure 4D est l arrangement spatial de ces différentes unités ; leur rassemblement est un oligomère (voir figure 1.5). Il existe bien sûr des méthodes physiques expérimentales pour déterminer la structure (voir partie 2.1) mais elles sont lourdes et coûteuses, et ne peuvent s appliquer à toutes les protéines (inutilisables pour les protéines non solubles, comme les protéines membrannaires, d où l importance, là encore, de la prédiction in silico). 1.5 Figure récapitulative Copyright c 2004 Guillaume Chakroun 7

8 Fig. 1.5 Exemple d une représentation en structure quaternaire d une protéine Deux monomères (l un en vert, l autre en bleu) forme un oligomère Fig. 1.6 Relation entre les différentes catégories de structures Copyright c 2004 Guillaume Chakroun 8

9 Chapitre 2 Les banques de données de structures protéiques Il est difficile de déterminer la structure des protéines expérimentalement. Les banques de séquences ne cessent de croître à l instar des banques de structures protéiques : actuellement, plus de dix millions de gènes sont présents dans GenBank alors que seulement vingt milles structures protéiques sont répertoriées dans PDB (Protein Data Bank). Les chercheurs estiment qu un millier de modèles de structures suffiraient à modéliser l ensemble des protéines existantes. 2.1 Les méthodes expérimentales de détermination des structures protéiques Ces méthodes expérimentales permettent d alimenter les banques de structures utilisées par les méthodes de prédiction présentées dans la partie La cristallographie rayon X Le principe de la détermination d une protéine par cristallographie au rayon X est de déterminer la position de ses atomes afin d en déduire un modèle structural. La position précise de chaque atome d une molécule peut être déterminée seulement si la molécule est cristallisée (l organisation des atomes forme des cristaux). Lorsque les rayons X frappent une molécule cristallisée, les électrons entourant chaque atome courbent ou diffractent le faisceau rayon X ; ce phénomène permet de déduire un modèle de diffraction par rayon X par analyse de la densité des électrons. Un ordinateur interprète alors mathématiquement ce modèle et reconstruit la position des atomes pour finalement donner un modèle quasi exact de la structure de la molécule La spectroscopie RMN La spectroscopie par résonnance magnétique nucléaire (RMN) repose sur l analyse des noyaux atomiques de la molécule. Chaque noyau porte une charge. Lorsque les spins des protons et des neutrons d un noyau sont impairs, le spin total du noyau crée un dipùle magnétique le long de l axe spinal ; la magnitude intrinsèque de ce dipùle est une propriété nucléaire fondamentale appellée le moment magnétique nucléaire. Depuis cette propriété est établie une corrélation entre la symétrie de la distribution de charge du noyau et sa structure interne. Par la suite, les distances entre certains atomes de la molécule sont connues. La connaissance de ces distances permet alors Copyright c 2004 Guillaume Chakroun 9

10 de déterminer un modèle de la molécule satisfaisant toutes les contraintes stéréochimiques liées à la structure. La structure de la molécule est finalement déduite. 2.2 Les banques de structures protéiques Les différentes classes de structures protéiques Quatre principales classes de structure protéique, basées sur les types et les arrangements des structures secondaires, ont été établies par Levitt et Chlothia en 1976 : 1. Classe α : regroupe les hélices α connectées en boucle à la surface des protéines. 2. Classe β : regroupe les feuillets β antiparallèles, généralement deux feuillets en contact formant un sandwich. 3. Classe α/β : regroupe principalement les feuillets β parallèles joints avec des hélices α, mais peut également regrouper des feuillets β mixtes. 4. Classe α + β : regroupe principalement les hélices α isolées joints à des feuillets β antiparallèles. Deux sous-classes s ajoutent aux classes précédentes : Classe des protéines multidomaines regroupant les domaines représentant plus d une des quatre principales classes. Classe des protéines membranaires et de surface cellulaire, protéines du système immunitaire mis à part La banque de structures protéiques PDB Protein Data Bank est la banque de référence des structures protéiques obtenues expérimentalement par cristallographie rayon X ou spectroscopie RMN. Jusqu en mai 2003, structures protéiques ont été entrées dans la banque ; de 50 à 100 nouvelles structures sont déposées chaque semaine. Les coordonnées des atomes formant la structure d une protéine, le détail de la séquence, les conditions de cristallisation sont les principales informations disponibles pour chaque structure de la banque PDB. C est à partir de cette banque que sont détectés les homologues structuraux. La majorité des séquences ont une homologie structurale inférieure à 20% ; on évalue à environ 1000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues Les autres banques de structures protéiques SCOP (Structural Classification of Proteins) : Banque de données regroupant les protéines de la PDB présentant une relation de similarité structurale et d évolution. Le classement dans la banque se fait selon trois principaux niveaux hiérarchiques : 1. Famille : relation d évolution commune clairement établie. Le degré de similarité de séquence entre pairs de résidus est supérieur à 30%. 2. Superfamille : origine d évolution commune probable. Le degré de similarité de séquence est faible ; néanmoins, les dispositifs structuraux et fonctionnels des protéines suggèrent une évolution d origine commune. Copyright c 2004 Guillaume Chakroun 10

11 3. Repliement : similarité structurale majeure. Les protéines partagent ici une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Les régions en coude et périphériques aux autres structures secondaires diffèrent souvent en taille et en conformation. Les protéines ayant des repliements communs ne semblent pas avoir une origine d évolution commune ; seules les propriétés physiques et chimiques leur donnent un arrangement similaire. CATH (Class Architecture Topology and Homology) : Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de détermination des structures par cristallographie rayon X est supérieure à 3 angstroms sont répertoriés dans cette banque. La hiérarchie de classification de CATH est composée de quatre principaux niveaux : 1. Niveau C (Classe) : sont répertoriées les structures protéiques appartenant aux classes α et β de la classification de Lewitt et Chothia (voir partie ). Une troisième classe α β regroupe à la fois les structures des classes α/β et α + β. Une quatrième classe contient les domaines protéiques avec peu de structures secondaires. 2. Niveau A (Architecture) : classe les protéines en fonction de l architecture de leurs structures secondaires sans tenir compte de leurs connectivités. Ce niveau regroupe principalement les protéines adoptant les architectures en baril ou en sandwich trois couches. 3. Niveau T (Topologie) : les protéines sont classées par familles de repliement, tenant compte de l architecture des structures secondaires mais également de leurs connectivités. 4. Niveau H (superfamilles homologues) : regroupe les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d abord identifiées par comparaison de séquences puis par comparaison de structure. FSSP (Fold classification based on Structure-Structure alignement of Proteins) : regroupe les structures représentatives de la PDB. La banque PDB admet un nombre de structures redondantes de protéines dont les séquences et les structures ont plus de 25% d identité. L ensemble de structures représentatives sans structures redondantes de la banque PDB a été obtenu par alignement structural à l aide du programme DALI. MMDB (Molecular Modeling DataBase) : sous-ensemble des structures tridimensionnelles de la banque PDB, modèles théoriques exclus. Cette banque, hébergée par le site Entrez de NCBI, permet d archiver les données structures conventionnelles de manière flexible afin de pouvoir y ajouter d autres structures reconnues par des technologies telles que la microscopie électronique. SARF (Spacial ARrangement of backbone Fragments) : basée sur la détection d éléments de structures secondaires compatibles pour trouver les structures 3D similaires. Le site web de SARF propose un arbre construit à partir de la similarité des structures 3D. Copyright c 2004 Guillaume Chakroun 11

12 Chapitre 3 Prédiction de la structure secondaire à partir de la séquence A partir de la séquence d acides aminés, on cherche à déterminer la structure secondaire qui est codifiée en une succession d états grâce à un alphabet de trois lettres : portions en hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Pour cela, les programmes de prédiction ont recourt à plusieurs méthodes : Méthodes statistiques : les premières datent de A partir de la connaissance des structures tertiaires d un échantillon de protéines modèles, on établit une table d occurrences comptabilisant les proportions observées de chacun des vingt acides aminés dans un état structural donné. La prédiction est établit à partir de cette table. Méthodes tenant compte des propriétés physico-chimiques des acides aminés : telles que la charge, l hydrophobicité et l hydrophilie. Celles-ci influent en effet directement sur les relations de proximité et donc sur la position des acides aminés à l intérieur (coeur hydrophobe : les structures hélice α et feuillet β dominent) ou à la surface de la protéine (boucles). Méthode des plus proches voisins : utilise la similarité entre sous-séquences de protéines dont la structure est connue pour prédire la structure de la protéine recherchée. Chaînes de Markov : des chaînes de Markov cachées modélisent chaque type de structure secondaire par entraînement sur des séquences appartenant à la même famille structurale. Une fois les paramètres de ces modèles calibrés, un score est associé à chaque chaîne de Markov cachée pour une séquence donnée. Le modèle donnant le meilleur score pour une portion de la séquence prédit alors la structure secondaire associée à cette portion. Méthode d apprentissage par réseaux de neurones : analogue à la méthode utilisant les chaînes de Markov cachées. Des réseaux de neurones modélisent les structures secondaires existantes par entraînement sur des séquences dont les structures sont connues. L influence de la structure tertiaire sur la structure secondaire n est toutefois pas prise en compte par ces méthodes. La prédiction est plus efficace encore quand l analyse est appliquée sur un alignement multiple, c est à dire sur un jeu de séquences homologues alignées. La structure étant plus conservée (sous la pression de sélection) que la séquence, les régions conservées (régions similaires rencontrées entre plusieurs séquences) donnent plus de poids à la prédiction. 3.1 Critère d efficacité des méthodes présentées Afin de connaitre l efficacité de chaque méthode de prédiction de la structure secondaire d une protéine, le critère 3-state est introduit (noté Q 3 ). Il représente le taux de résidus correspondant Copyright c 2004 Guillaume Chakroun 12

13 à l une des trois configurations réelles (hélice α, feuillet β ou coude) dans laquelle se trouve un acide aminé donné de la protéine. Par exemple, si la structure secondaire correcte d une protéine est HHCE et que la structure prédite est HEEE, alors le critère d exactitude 3-state vaut 33%. 3.2 Les méthodes statistiques Les méthodes statistiques prédisent les structures secondaires d une protéine à l aide de tableaux de valeurs expérimentales calculées à partir de structures cristallines connues Chou-Fasman Cette méthode, connue en 1974, se base sur les propriétés physico-chimiques définissant la stabilité de la protéine, telles que l hydrophobicité. Les auteurs ont donc calculé les valeurs des paramètres de conformation d un aminoacide de se trouver dans une structure d hélice α, de feuillet β ou de coude à partir de la structure cristalline de 29 protéines déterminée par cristallographie rayon X. Le tableau 3.1 regroupent les probabilités d un aminoacide i de se trouver dans une structure d hélice α (P α (i)), de feuillet β (P β (i)) ou de coude (P t (i)) ainsi que les fréquences f i de courbures des quatre aminoacides consécutives participant à la structure de coude. Ce tableau sous classe les aminoacides suivant leur score de conformation ; on distingue six degrés d affinité pour chaque structure secondaire s : H s : strong s former forte tendance à se trouver en structure s. h s : s former bonne tendance à se trouver en structure s. I s : weak s former tendance faible à se trouver en structure s. i s : s indifferent pas de tendance particulière. b s : s breaker tendance à empêcher la structure s. B s : strong s breaker forte tendance à empêcher la structure s. Principe : La séquence pour laquelle on veux prédire les structures secondaires est parcourue par une fenêtre glissante de quatre aminoacides. Le score Sc s (i) pour la structure s de la première aminoacide i de cette fenêtre est calculé comme suit, en tenant compte des trois acides aminés suivants (i + 1, i + 2 et i + 3) : i+3 Sc s (i) = P s (j) De même, la probabilité de courbure au niveau du résidu i positionné au début de la fenêtre de quatre aminoacides est : j=i i+3 p t (i) = f(j) L ensemble des règles définissant l algorithme de Chou-Fasman permet ensuite de prédire la structure secondaire de chaque aminoacide de la séquence : Règle 1 : Un ensemble de quatre acides aminés d affinité H α ou h α (Sc α > Sc β et Sc coude ) sur six consécutifs initie une hélice. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation d hélice α, c est à dire si Sc α < Les deux conditions suivantes confirment la structure en hélice α de ce segment étendu : j=i Copyright c 2004 Guillaume Chakroun 13

14 Tab. 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Les probabilités en rouge représente un degré d affinité strong former, un degré former en orange, un degré weak former en jaune, un degré indifferent en maginta, un degré breaker en vert foncé et un degré strong breaker en vert clair La proline ne peut être ni à l intérieure de l hélice, ni du côté C-terminal de l hélice ; elle peut cependant apparaître pour l un des trois résidus du côté N-terminal. La longueur du segment étendu est au moins de six aminoacides avec Ŝc α > 1.03 et Ŝc α > Ŝc β (Ŝc est la moyenne arithmétique des scores sur les six aminoacides) Règle 2 : Un ensemble de trois acides aminés d affinité H β ou h β (Sc α > Sc β et Sc coude )sur cinq consécutifs initie un feuillet β. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation de feuillet β, c est à dire si Sc β < Si Ŝc β > 1.05 et Ŝc β > Ŝc α pour le segment étendu, alors le segment représente une structure de feuillet β. Règle 3 : Si, pour le résidu i : p t (i) > Ŝc t > 1.00 Ŝc t > Ŝc α Ŝc t > Ŝc β (avec Ŝc : moyenne arithmétique des scores sur les quatre aminoacides de la fenêtre initiée par i), alors le segment de quatre aminoacides représente une structure de coude. Règle 4 : Tout segment recouvrant les régions α et β est une hélice α si ˆP α > Ŝc β ou un feuillet β si Ŝc β > Ŝc α. La méthode de Chou-Fasman présente une efficacité de l ordre de 50 à 60 %. Copyright c 2004 Guillaume Chakroun 14

15 3.2.2 Garnier, Osguthorbe et Robson (méthode GOR) A l instar de la méthode de Chou-Fasman qui considère qu un aminoacide influence directement la structure secondaire dans une fenêtre de quatre résidus, la méthode GOR (con ue en 1978) tient compte du fait que la probabilité d un aminoacide d appartenir à un type de structure secondaire dépend de la nature et de la position de ses voisins. Principe général Le calcul de la propension d un aminoacide à se trouver dans un type de structure secondaire se fait dans une fenêtre de 17 résidus. Un score associé à la fenêtre est calculé grâce à une matrice 20x17 prédisant un type de structure secondaire. On compte une matrice de prédiction d hélice α, une de feuillet β, une de coude β et une dernière de structure chaînes aléatoires (ces deux dernières structures sont des structures de boucle). Le type de matrice pour lequel la fenêtre a obtenu le meilleur score donne la structure prédite pour les 17 résidus de la fenêtre. Les lignes d une de ces matrices correspondent aux 20 acides aminés, les 17 colonnes aux positions des aminoacides dans la fenêtre. L élément (i, j) d une matrice prédisant la structure S donne la probabilité que l aminoacide i soit en conformation S à la position j de la fenêtre. Pour calculer cet évenement, les auteurs de la méthode utilisent la théorie de l information. Soient deux événements S et a ; P (S a) est la probabilité que S advienne sachant que a est advenu. On appelle I(S; a) l information associée à l événement S contraint par a ; définie par l équation : I(S; a) = log ( ) P (S a) P (S) En considèrant que l événement S prend les états H pour hélice α et H pour non hélice α, la méthode GOR maximise l information I(S; a) en calculant la différence d information I( S(H); a) : (3.1) I( S(H); a) = I(S = H; a) I(S = H a) = log ( ) ( ) P (S = H a) P (S = H a) log P (S = H) P (S = H) (3.2) Les différences d information associées à un feuillet β, un coude β ou une chaîne aléatoire s obtiennent de manière analogue en considérant pour chaque cas que l événement S prend l état de la structure ou non. En décomposant l événement a en n événements a 1,..., a n représentant chacun une position dans la séquence de n résidus, on montre que : I(S; a) = I(S; a 1,..., a n ) = I(S; a 1 ) + I(S; a 2 a 1 ) + I(S; a 3 a 1, a 2 ) I(S; a n a 1,..., a n 1 ) (3.3) L influence des aminoacides voisins sera limité à une fenêtre centrée de longueur 17 ; ceci mène à approximer l équation (1) comme suit : I( S j (H); a 1,..., a n ) I( S j (H); a j 8,..., a j+8 ) (3.4) où j est la position de l acide aminé centrale de la fenêtre. En développant l équation (4) à l aide de (3), on obtient : Copyright c 2004 Guillaume Chakroun 15

16 I( S j (H); a j 8,..., a j+8 ) = I( S j (H); a j )+I( S j (H); a j 1 a j )+I( S j (H); a j+1 a j, a j 1 )+...+I( S j (H); (3.5) Il y a deux manières d interpréter l information de l équation (5) ; la méthode de GOR débouche alors sur GORII et GORIII : GORII : information directionnelle L équation (5) devient : I( S j (H); a j 8,..., a j+8 ) 8 k= 8 I( S j (H); a j+k ) (3.6) Les tableaux de références donnent les valeurs I( S j (H); a j+k ), calculées à l aide de la structure cristalline de 75 protéines en déterminant les fréquences P (S a) et P (S) (voir équation (2)). GORIII,GORIV : information vectorielle Ici, on considère l équation (5) comme suit : I( S j (H); a j 8,..., a j+8 ) I( S j (H); a j ) + 8 k= 8,k 0 I( S j (H); a j+k a j ) (3.7) GOR IV calcule l information I( S j (H); a j ) depuis les fréquences P (S a) et P (S) déterminées grâce à une banque de 256 protéines cristallisée, alors que GORIII s appuie sur la banque de 75 protéines utilisée par GORII. L efficacité de GORII est de 56% et celle de GORIV est de l ordre de 71% Amélioration des méthodes L exactitude des méthodes statistiques s est considérablement améliorée pendant l année 1993 lorsque Rost et Sander ont inclu l alignement multiple de séquences dans les programmes de prédiction existant jusque là. Ces nouveaux algorithmes partent du principe que les séquences protéiques ayant subit la même évolution ont au moins en commun quelques sites conservant la structure secondaire. La gamme des aminoacides adaptés à une position donnée pour un profil donné de séquences similaires est également pris en compte. Le programme PSI-BLAST, qui peut identifier des relations d évolution lointaines entre séquences protéiques, a été employé pour élargir la recherche de séquences consensus ; le facteur d exactitude de la prédiction de la structure secondaire a ainsi augmenté. Deux programmes utilisent ce procédé : GORV va prochainement permettre d utiliser le programme PSI-BLAST pour accroître l efficacité de 71% à 74%. DSC, pour Discrimination of secondary Structure Class, utilise le principe de la méthode GOR et de l alignement multiple pour une efficacité de 70,1% ; c est un programme simple et très accessible. D autres méthode utilisent plusieurs méthodes de prédiction statistiques pour augmenter l exactitude de prédiction. Par exemple, DPM (Double Prediction Method) combine la méthode de GOR ainsi qu une méthode de prédiction de la classe de la protéine (α, β, α + β ou α/β) basée sur un tableau statistique dont les paramètres ont été déterminés depuis 135 protéines structuralement connues. L efficacité de cette méthode combinée peut atteindre 72% d exactitude. Copyright c 2004 Guillaume Chakroun 16

17 3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés Méthode : Lim Programmes prédiction de protéines membranaires : TMHMM, PHDhtm, DAS & TopPred2, PHDacc, ASC 3.4 La méthode du plus proche voisin Un nouveau type de prédiction de structure secondaire basé sur des méthodes du plus proche voisin ont vu le jour suite à la découverte d un grand nombre de structure tertiaire durant les années Les séquences protéiques de ces structures tertiaires sont identifiées à la séquence dont on veut prédire la structure secondaire. Procédé général : 1. Une liste de fragments de taille n (en général, n=16) est constituée depuis 100 à 400 séquences de structure connue (appelées également séquences d entraînement). 2. Une fenêtre de la même taille est extraite de la séquence en entrée pour être comparée à chacun des fragments de la liste. Les 50 fragments les plus similaires sont identifiés. 3. Les fréquences de structure secondaire de l aminoacide située au milieu des 50 fragments retenus (f α, f β et f coude ) sont utilisés afin de prédire la structure secondaire de l aminoacide située au milieu de la fenêtre de la séquence en entrée. 4. La fenêtre courante glisse d une position pour prédire la conformation d un nouvel aminoacide ; les étapes 2 et 3 sont répétées et le procédé est réitéré jusqu à ce que tous les résidus-milieu de la séquence aient leur structure secondaire prédite. Actuellement, deux principaux programmes utilisent la méthode du plus proche voisin : NNSSP : l exactitude de ce programme s élève à 73.5% PREDATOR : pour ce programme, l algorithme de l étape 3 de la méthode du plus proche voisin assigne sept des huit éléments de structure secondaire à chaque aminoacide (au lieu de trois pour les méthodes statistiques). L efficatié du programme atteint 75%. 3.5 Les chaînes de Markov cachées Le modèle de chaînes de Markov cachées (de l anglais HMM pour Hidden Markov Model) est un modèle stochastique. Les hélices α, feuillets β et les autres structures issues de séquences connues de la banque PDB sont apprises pour former différents modèles sous forme de chaînes de Markov. Chaque modèle représente une généralisation de la fa on dont les aminoacides sont distribuées dans un groupe de séquence (classe). Par la suite, les structures secondaires d une séquence sont prédites par comparaison avec ces différents modèles. Un score est associé à chaque fragment de la séquence comparé à un modèle donné ; le modèle donnant le plus haut score à un fragment prédit alors la structure secondaire de la portion de séquence. Principe : La prédiction de structures secondaires par la méthode des chaînes cachées de Markov suit le procédé suivant : 1. Alignement multiple des fragments similaires de séquences protéiques dont la structure est connue 2. Génération de modèles de familles structurales (HMM-profil) sous forme de chaînes cachées de Markov Copyright c 2004 Guillaume Chakroun 17

18 3. Prédiction de la structure secondaire de séquences à partir des modèles Présentation des HMMs : Le modèle de Markov cachés est fortement apparenté aux automates probabilistes. Un tel automate est une structure composé d états et de transitions entre états auxquelles sont jointes une probabilité (probabilté de transition). A chaque transition est associé un symbole d un alphabet fini, généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions ; à chaque état est associé une probabilité d émission d un symbole. Les HMMs définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l état actuel et non des états rencontrés précédemment Caché : on observe les lettres générées par le modèle mais pas la séquence des états qui génèrent ces lettres Voici les éléments définissant un HMM : S : ensemble de L états. S contient les états muets start et end, respectivement état d entrée dans le HMM et état de sortie. Σ : alphabet de M symboles. A = (a i,j ) : matrice des probabiltés a i,j de transitions de l état i à l état j. On note : a ij = P [q t+1 = S j q t = S i ] avec q t : état courant de l automate au temps t ; 1 i, j L. Les contraintes stochastiques sont : 1. a ij 0 2. j a i,j = 1 pour i fixé ɛ = (e j (k)) : matrice des probabilités e j (k) d émission du symbole k associés à l état j. On note : e j (k) = P [v k à t q t = S j ] avec 1 j N et 1 k M. Un exemple simple de HMM est illustré sur la figure 3.1. a1,1 a2,2 START astart,1 1 2 END a1,2 a2,end e1(a) e1(b) e2(a) e2(b) Fig. 3.1 Exemple d un HMM simple à 4 états et 2 symboles e 1 (a) et e 1 (b) : probabilités d émission des symboles a et b Copyright c 2004 Guillaume Chakroun 18

19 a i,j : probabilité de transition de l état i à l état j Ici, a ST ART,1 = 1, a 1,1 + a 1,2 = 1, a 2,2 + a 2,END = 1 (respect des contraintes stochastiques) La procédure de génération d une séquence de symboles à l aide d un HMM est la suivante : 1. Départ à l état initial start 2. Déplacement d état en état suivant les probabilités de transitions 3. Génération d un symbole sur chaque état rencontré en utilisant sa probabilté d émission associé à l état 4. Après émission d un symbole, choix d une transition sortante suivant la probabilité de transition associé à l état 5. Itération de la procédure jusqu à atteindre l état final end Le nombre de chemins possibles est fini et la probabilité de génération d une séquence O = O 1... O L par le modèle M(S, Σ, A) est : P (O M) = a start,i L i=1 e i (O i )a i,i + 1 (3.8) Les HMM-profils Ce sont les mieux adaptés pour modéliser les alignements multiples. A partir d une famille de protéines, un HMM-profil peut-être réalisé pour chercher d autres membres de cette famille. La figure 3.2 représente un HMM-profil. Fig. 3.2 Exemple d un HMMprofil 4 états match (en rouge), 3 états insert (en jaune) et 2 états delete (en vert) Avec : M j : état match j représentant l identité du résidu lors de l alignement multiple I j : état insert j illustrant une insertion de résidus (la transition-boucle signifie que plusieurs insertions peuvent subvenir) D j : état delete permettant l apparition de gaps entre deux résidus : cet état n émet pas de résidus Score d appartenance à une classe de protéine L enjeux d obtenir des modèles de structures secondaires des protéines est de pouvoir classifier les séquences en famille structurale. Un HMM doit donc permettre d évaluer si une séquence donnée appartient ou non à la famille qu il modélise ; il faut calculer la probabilité que la séquence soit créée par un HMM élaboré à partir d une famille. Copyright c 2004 Guillaume Chakroun 19

20 Soit x = x 1 x 2... x n la séquence de n résidus pour laquelle le score d appartenance à une classe modélisée par un HMM est calculé. La probabilité que x soit créée par le HMM est la somme des probabilités d émission de la séquence sur tous les chemins du HMM qui permettent de la générer : P (x) = π P (x π) (3.9) avec π : ensemble des chemins possibles du HMM générant x. Dans la pratique, il y a trop de chemins possibles et le calcul est trop lourd. L algorithme forward permet de calculer rapidement cette probabilté. Algorithme Forward Suivant le principe de la programmation dynamique, cet algorithme calcule pour chaque état du HMM et pour chaque sous-séquence x 1 x 2... x i la probabilité qu elle est été générée par le sous-hmm finissant par cet état. Les variables employées sont : M j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état M j. I j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état I j. D j (i) : probabilité d être dans l état D j alors que les i premiers symboles ont été émis. Soit L le nombre d états match du HMM, on montre que : [ ] M j (i) = e Mj (x i ) a Mj 1 M j M j 1 (i 1) + a Ij 1 M j I j 1 (i 1) + a Dj 1 M j D j 1 (i 1) [ ] I j (i) = e Ij (x i ) a Mj I j M j (i 1) + a Ij I j I j (i 1) + a Dj I j D j (i 1) D j (i) = a Mj 1 D j M j 1 (i) + a Ij 1 D j I j 1 (i) + a Dj 1 D j D j 1 (i) Avec les conditions initiales suivantes : M 0 (0) = 1 M j (0) = 0 j > 0 I j (0) = 0 j 0 M 0 (i) = 0 i > 0 D 0 (i) = 0 i 0 D où la probabilité P (x) que la séquence x soit créée par le HMM : P (x) = a ML M L+1 M L (n) + a IL M L+1 I L (n) + a DL M L+1 D L (n) Cette probabilité n est pas significative car elle dépend de la longueur de la séquence. Il faut pour cela comparer P (x) à la probabilité qu a la séquence d être engendrée selon un modèle aléatoire, dit modèle nul noté P 0. Expérimentalement, le modèle fonctionnant le mieux est la moyenne normalisée de la distribution des acides aminés de la séquence dans un état match. Le score à proprement dit de la séquence x pour le HMM est le log-odds ratio suivant : log z (P (x)/p 0 (x)) (3.10) Une fois ce score calculé, la séquence x appartient à la famille modélisée par le HMM si son score dépasse un certain seuil. Ce seuil est déterminé en examinant les scores des séquences constituant la famille. Apprentissage d un HMM depuis un alignement multiple Copyright c 2004 Guillaume Chakroun 20

21 Les chaînes de Markov modélisant les structures secondaires des protéines sont des HMMprofils. L alignement multiple des fragments de séquences dont la structure est connue va permettre d entraîner le HMM-profil associé afin d estimer ses paramètres numériques, à savoir les probabilités de transition A et les probabilités d émission ɛ ; ces paramètres du HMM doivent maximiser la probabilité de génération des séquences d apprentissage (les séquences alignées). Soit O = O 1, O 2,..., O K l ensemble des séquences d apprentissage. Il faut trouver les paramètres A et ɛ maximisant : P (O ɛ) = K P (O k λ) (3.11) k=1 Il existe deux algorithmes permettant de calculer itérativement les paramètres du HMMprofil : L algorithme de Baum-Welch L algorithme de Viterbi Au préalable, définissons l algorithme forward pour un HMM-profil ainsi que l algorithme backward, utilisé de manière analogue, mais à l envers. Algorithme forward pour les HMM-profils : Initialisation : f M0 (0) = 1 Récurrence : ] f Mk (i) = e Mk (O i ) [f Mk 1 (i 1)a Mk 1 M k + f Ik 1 (i 1)a Ik 1 M k + f Dk 1 (i 1)a Dk 1 M k f Ik (i) = e Ik (O i ) [f Mk (i 1)a Mk I k + f Ik (i 1)a Ik I k + f Dk (i 1)a Dk I k ] f Dk (i) = f Mk 1 (O i )a Mk 1 D k + f Ik 1 (i)a Ik 1 D k + f Dk 1 (i)a Dk 1 D k Fin : f MM+1 (L + 1) = f MM (L)a MM M M+1 + f IM (L)a IM M M+1 + f DM (L)a DM M M+1 Algorithme backward pour les HMM-profils : Initialisation : b MM+1 (L + 1) = 1 Récurrence : b MM (L) = a MM M M+1 b IM (L) = a IM M M+1 b DM (L) = a DM M M+1 Fin : b Mk (i) = b Mk+1 (i + 1)a Mk M k+1 e Mk+1 (O i+1 ) + b Ik (i + 1)a Mk I k e Ik (O i+1 ) + b Dk+1 (i)a Mk D k+1 b Ik (i) = b Mk+1 (i + 1)a Ik M k+1 e Mk+1 (O i+1 ) + b Ik (i + 1)a Ik I k e Ik (O i+1 ) + b Dk+1 (i)a Ik D k+1 b Dk (i) = b Mk+1 (i + 1)a Dk M k+1 e Mk+1 (O i+1 ) + b Ik (i + 1)a Dk I k e Ik (O i+1 ) + b Dk+1 (i)a Dk D k+1 Entraînement de Baum-Welch Il s agit de réestimation itérative pour maximiser les probabilités de génération des séquences d apprentissage. Il faut associer aux états, aux transitions et aux symboles le nombre de fois où ils sont utilisés pour toutes les séquences et tous les chemins succeptibles de les générer, pondéré par la probabilité du chemin. Soient : Copyright c 2004 Guillaume Chakroun 21

22 O = O 1... O T une séquence d apprentissage A Xk X l le nombre de fois où la transition de l état X k à l état X l est utilisée (X représente l état match M, l état insert I ou l état delete D) E Xk (s) le nombre de fois où le symbole s est émis La probabilité que a Xk X l soit utilisée à la position i dans la séquence O est : P (π i = X k, π i+1 = X l O, λ) = f X k (i)a Xk X l e Xl (O i+1 )b Xl (i + 1) P (O) avec π i : séquence partielle de i états consécutifs f Xk : variable de l algorithme forward b Xk : variable de l algorithme backward ax k X l : probabilité de transition de l état X k à l état X l ex l (O i+1 ) : probabilité d émission du symbole Oi + 1 à l état X l P (O) : probabilité d émission de O calculé selon l algorithme forward En sommant sur toutes les positions et sur toutes les séquences d entraînement, on obtient : E Mk (S) = 1 P (O) E Ik (S) = 1 P (O) i x i =S i x i =S f Mk (i)b Mk (i) f Ik (i)b Ik (i) et A Xk M k+1 = 1 P (O) i A Xk I k+1 = 1 P (O) A Xk D k+1 = 1 P (O) i i f Xk (i)a Xk M k+1 e Mk+1 (O i+1 )b Mk+1 (i + 1) f Xk (i)a Xk I k e Ik (O i+1 )b Ik (i + 1) f Xk (i)a Xk I k e Ik (O i+1 )b Ik (i + 1) Les probabilités de transitions et d émission sont alors définies selon le principe de maximum de vraisemblance : a Xk X l = A Xk X l e Xk (S) = X A X l k X l E X k (S) S E Xk (S ) Algorithme de Baum-Welch Initialisation : choisir les paramètres arbitraires pour le modèle Récurrence : Placer toutes les variables A et E à leurs valeurs de pseudocomptes (ou à zéro) Pour tout j = 1... k : Calculer f Xk (i) pour la séquence O j en utilisant l algorithme forward Calculer b Xk (i) pour la séquence O j en utilisant l algorithme backward Ajouter la contribution de la séquence O j à A et E Calculer les nouveaux paramètres du modèle en utilisant les équations a Xk X l et e Xk (S) Calculer la nouvelle log-vraisemblance du modèle Fin : arrêter si le changement de la log-vraisemblance est inférieur à un certain seuil prédéfini ou si le nombre maximum d itérations est dépassé. Procédé de prédiction Une fois chaque paramètre des modèles déterminés par entraînement de Baum-Welch, on dispose d un ensemble de HMM-profil prédisant chaque type de structure secondaire. Copyright c 2004 Guillaume Chakroun 22

23 Chaque structure secondaire sert de macro-état à d autres HMMs modélisant une structure protéique plus globale, tel que le α-plex illustré sur la figure 3.3. Ces HMMs sont entraînés de la même manière que les HMM-profils modélisant un type de structure secondaire ; à partir d un ensemble de protéines issues de la PDB, les probabilités de transitions P H, P t/ et P t sont déterminés. Fig. 3.3 Modèle de structure α-plex Pour une séquence dont les structures secondaires sont inconnues, la méthode générale de prédiction se fait suivant deux étapes : 1. Evaluation du score d appartenance à une famille de protéines pour chaque HMM (algorithme forward) 2. Le modèle pour lequel le score de la séquence est le plus élevé donne la structure secondaire de chaque aminoacide de la séquence Les méthodes de prédiction utilisant les chaînes de Markov cachées ont une efficacité de l ordre de 74,3%. 3.6 Les réseaux de neurones La méthode des réseaux de neurones permet de simuler l activité du cerveau. Lorsqu un signal est transmis au cerveau, trois types de neurones agissent : Ceux qui collectent l information Ceux qui traitent l information Ceux qui donnent une réponse au signal Un réseau de neurone se base sur ces trois types de transmetteurs, appelés couches du réseaux de neurones (voir figure 3.4) ; le signal est analysé par transition de ces trois couches. Appliquée à la bioinformatique, une analogie est faite pour la prédiction de structures secondaires ; l information est une fenêtre de 13 à 17 aminoacides de la séquence dont on veut prédire la structure secondaire, l analyse du signal à travers le réseau donne alors le type de structure secondaire de l aminoacide centrale de la fenêtre. Comme pour les méthodes utilisant les chaînes cachées de Markov, les réseaux de neurones modélisant un type de structure secondaire sont entraînées par des séquences dont la structure est connue. Principe Copyright c 2004 Guillaume Chakroun 23

24 Fig. 3.4 Exemple d un réseau de neurones Une fois l ensemble des modèles de réseaux de neurones entraînés, la structure secondaire d une séquence sera déterminée comme suit : 1. Choix d une fenêtre de 13 à 17 aminoacides de la séquence en entrée 2. Prédiction de la structure secondaire de l aminoacide centrale de la fenêtre en utilisant différents réseaux de neurones 3. Vérification de la concordance de cette prédiction (ie, si l aminoacide est en conformation d hélice α, il faut qu elle appartienne à un groupe d au moins quatre aminoacides consécutifs en hélice α pour que la prédiction soit réalisable) 4. Glissement de la fenêtre sur la séquence puis prédiction de la structure de l aminoacide centrale de cette nouvelle fenêtre (réitération des étapes 2 et 3) jusqu à ce que la totalité de la séquence soit traitée Description d un réseau de neurones Un réseau de neurones est constitué de trois couches de traitement par lesquelles transite un signal (voir figure 3.5) : 1. La couche d entrée : couche stockant l information. A chaque aminoacide de la fenêtre en entrée correspond 21 positions d entrées : 20 pour chaque aminoacide existant et une lorsque la fin de la fenêtre est atteinte (plus d acide aminée en entrée). Sur l exemple de la figure 3.5, toutes ces positions sont à 0, sauf celle correspondant à l aminoacide courante (ou la fin de la fenêtre) qui est à La couche cachée : couche de traitement de l information. Constituée de 2 à 40 unités (voire 60), toutes les positions de la couche d entrée transmettent un signal pondéré vers chaque unité de la couche cachée. Par la suite, chaque unité j de la couche cachée somme les signaux en entrée (s j,in ) qui, à leur tour, transmette un signal vers les unités de sortie (s j = 1 1+e k.s j,in avec k : constante et 0 s j 1). 3. La couche de sortie : couche de réponse. Constituée de trois unités, chacune re oit le signal pondéré s j,out de chaque unité j de la couche cachée (poids w i,j entre l unité j de la couche cachée et de l unité i de la couche en sortie ; s j,out = s j w i,j ). Chaque unité i de la couche Copyright c 2004 Guillaume Chakroun 24

25 de sotie produit alors un signal s i entre 0 et 1 permettant de prédire un type de structure (hélice α, feuille β ou coude). Plus le score obtenu est proche de 1, plus l aminoacide centrale de la fenêtre traitée a de chance de se trouver dans la conformation associée à l unité de sortie générant ce score. Fig. 3.5 Propagation d un signal dans un réseau de neurones trois couches Entraînement d un réseau de neurones Deux paramètres sont significatifs du score généré par chaque unité de sortie : 1. Les pondérations entre la couche d entrée et les unités de la couche cachée 2. Les pondérations w i,j entre les unités j de la couche cachée et les unités i de sortie Ce sont ces paramètres qu il est nécessaire de calibrer afin qu ils puissent modéliser un type de structure secondaire. Pour cela, un entraînement avec des séquences dont la structure est connue est réalisé. Le calibrage doit permettre de prédire correctement la conformation de chaque aminoacide des séquences d entraînement représentant une famille donnée. Voici le procédé d optimisation des paramètres d un réseau de neurones par entraînement d une famille de séquences : 1. Initialisation des poids par une valeur comprise entre -0.1 et 0.1 ; cette valeur est posée ou choisit aléatoirement 2. Choix d une fenêtre glissante dans une séquence d entraînement 3. Prédiction de l aminoacide centrale de la séquence par le réseau de neurones à optimiser 4. Réajustement des poids afin de réduire l erreur entre le score prédit (donnant la conformation du résidu central) et le score attendu Copyright c 2004 Guillaume Chakroun 25

26 5. Répétition des étapes 2 à 4 pour la séquence courante entière (glissement de la fenêtre), puis pour toutes les autres séquences constituant la famille L étape 4 de réajustement des paramètres du réseau de neurones nécessite l utilisation d un algorithme spécial nommé back-propagation ( retour de propagation en fran ais) : Algorithme de back-propagation Cet algorithme porte le nom de retour de propagation car, lorsqu un réseau de neurones est entraîné, le signal se propage dans le réseau de gauche à droite alors que le procédé de réajustement des paramètres doit propager le signal dans l autre sens (voir figure 3.6). Fig. 3.6 Illustration de la back propagation calibrant les paramètres du réseau Soit F (S) la fenêtre courante de la séquence dont la structure de chaque aminoacide est connue. Rappelons que s j est le signal en sortie d une unité j de la couche cachée. Ce signal est pondéré par w i,j lorsqu il arrive dans l unité i de la couche de sortie, noté s j,out = s j w i,j. Le signal de réponse de l unité i est s i. Soit d i le score associé à la structure secondaire réelle de l aminoacide centrale de la fenêtre F (S) (si ce résidu est en hélice α, d i = 1 pour i correspondant à l unité de sortie associée à l hélice α). L algorithme de back-propagation permet d ajuster le poids w i,j de manière à minimiser l erreur entre d i et s i ; il utilise la méthode des gradients de descente. L ajustement de w i,j est fait selon la formule suivante : w i,j = w i,j n E w i,j + m avec n est le taux d entraînement (fixé à 0,03), m est le facteur de lissage autorisant le transfert d une fraction de la précédente valeur de w i,j (fixé à 0,2) et E w i,j est la dérivée partielle de l erreur E définie par : E w i,j = (s i d i )s i (1 s i )s j Copyright c 2004 Guillaume Chakroun 26

27 L ajustement du poids entre la couche d entrée et les unités de la couche cachée est plus complexe. En effet, la formule tient compte des effets du signal envoyé depuis la couche d entrée vers la couche cachée mais également de celui transmis aux unités de sortie. Efficacité des méthodes de réseaux de neurones Les méthodes actuelles utilisant les réseaux de neurones ont une efficacité dépassant les 70% : Programme PhD : développé par Rost et Sander, ce programme a pour particularité d entraîner les réseaux de neurones sur un ensemble de séquences obtenues par alignements multiples. La première version de ce programme a une efficacité de 72,2 %. L efficacité a augmenté jusqu à 75% lorsque l alignement multiple donnant l ensemble des séquences d entraînement a été obtenue par PSI-BLAST. Le programme est disponible sur le web depuis le serveur PredictProtein. Programme Pred2Ary : pour ce programme, l ensemble d entraînement des réseaux de neurones est obtenu par un procédé de cross validation de 681 séquences protéiques non homologues. Ce programme obtient une efficacité de 74,9%. Programme PSI-Pred : utilise un procédé analogue à PhD associé à PSI-BLAST. L efficacité du programme s élève à 77%. 3.7 Programmes de prédiction de structure secondaire 3.8 Méthodologie Il n existe pas d outils permettant de prédire les structures secondaires d une séquence de manière exacte. Par conséquent, une stratégie a adopter pour augmenter les chances de prévision est la suivante : 1. Obtenir des alignements de la séquence avec autant d homologues que possibles 2. Utiliser un maximum de méthodes de prédiction de structures secondaires utilisant l alignement multiple 3. Vérifier les motifs conservés des résidus 4. Construire une séquence struturale consensus avec l ensemble des résultats des méthodes de prédiction utilisées Des programmes sur le Web, tel que jpred, sont des métaserveurs utilisant différents programmes sur la séquence afin de donner un résultat consensus. Copyright c 2004 Guillaume Chakroun 27

28 Nom du programme Date de création Auteurs Méthode sous-jacente Score Q3 GOR Garnier, Osguthrope, Robson GORII Garnier, Osguthrope, Robson GORIII Garnier, Osguthrope, Robson GORIV 1996 Modifié par S. Pheiffer Méthode statistique 64,4% GORV Garnier, Osguthrope, Robson zpred 1987 Zvelebil Méthode statistique 66.7% MULPRED Barton Méthode statistique 67% PROF(DSC) 2000 Mohammed OUALI Méthode statistique 70,1% ANTHEPROT(DPM) 1987 Deléage et Roux Méthode statistique 63,3% NNSSP 1995 Salamov, Solovyev Plus proche voisin 72.4% PREDATOR 1996 Frishman, Argos Plus proche voisin 70% SSPAL 2001 Salamov, Solovyev Plus proche voisin 75% jnet 1999 J. Cuff, B. Barton Réseau de neurones MacMatch 1993 Presnell Réseau de neurones MemSat D. Jones 93% HMMSTR 1997 Bystroff, Thorsson, Baker Chaînes cachées de Markov TMHMM 2001 Krogh, Larsson, von Heijne, Chaînes cachées de Markov 78% Sonhammer Glimmer 1999 A. Delcher, S. Salzberg Chaînes cachées de Markov 98% GeneMark 1993 M. Borodovsky, J. McIninch Chaînes cachées de Markov GenScan 1997 C. Burge, S. Karlin Chaînes cachées de Markov SAM-T K. Karplus, R. Hughey Chaînes cachées de Markov HMMER 1998 S. Eddy Chaînes cachées de Markov PSA 1998 J. White Chaînes cachées de Markov jpred 2 Cuff, Barton Réseau de neurone, statistique, 72,9% plus proche voisin SOPMA/PHD 1995 Geourjon, Deleage Plus proche voisin, réseau de neurones 82,2% Tab. 3.2 Liste des principaux programmes utilisés pour la prédiction de structures secondaires Copyright c 2004 Guillaume Chakroun 28

29 Chapitre 4 Prédiction de la structure tertiaire à partir de la structure primaire Les méthodes expérimentales telles que la cristallographie par rayon X ou la spectroscopie RMN sont techniquement très difficiles à mettre en place et elles sont très coûteuses. De plus, le fossé entre le nombre de protéines séquencées et les structures tertiaires connues se creuse. Par conséquent, les modèles structuraux des protéines sont très importants pour prédire la structure tertiaire des protéines. Des études sur l alignement structural des protéines de la banque PDB ont révélé : qu il y a plus de 500 repliements structuraux en commun parmi les structures tertiaires connues ; que différentes séquences adoptent le mâme repliement Ces études garantissent une forte probabilité pour qu une séquence protéique ait déja des types de repliement connus. Trois méthodes de prédiction de la structure tertiaire des protéines existent : 1. Par modèle d homologie (comparative modelling ou homology modelling) : la séquence protéique cible est alignée sur toutes les séquences des protéines de la PDB. Si le degré d homologie est significatif, un modèle est construit sur les bases de la protéine homologue afin d en déduire la structure tertiaire de la protéine cible. C est la méthode la plus utilisée actuellement. 2. Par reconnaissance des repliements (fold recognition ou Threading) : toujours basée sur la connaissance de la structure tertiaire de protéines, cette méthode est employée lorsque la méthode de prédiction par modèle d homologie a échouée (le degré de similitude est trop faible). Ici, les propriétés hydrophobes des aminoacides du noyau des protéines connues permettent un alignement fonctionnel de la séquence cible sur des modèles de repliements. Cette seconde méthode est moyennement utilisée. 3. Par des méthodes ab initio : ces méthodes consistent à modéliser toutes les energies mises en jeu dans le processus de repliement pour trouver le modèle de plus faible energie. La difficulté de ce genre de méthode rend leur utilisation peu courante. Différentes méthodes : bouquin Comparaison à des bases de données Sinon : Threading : lorsque l homologie n est pas significative ( 30%) - étude des contacts de noyau (partie hydrophobique) par comparaison de ces élts avec des bd de noyau. Si Copyright c 2004 Guillaume Chakroun 29

30 compatibilité avec certains, la portion de protéine adopte le mâme repliement. Modèle environnementaux pour détecter les noyau Méthode du potentiel de contact InfobioGen (idem) Si oui : Méthodes subsstitutives : Méthodes géométriques : Sinon : Threading : cf noyau (=unités de repliement) 4.1 Méthodes de prédiction par modèle d homologie L homologie de la séquence de la protéine cible à l une des séquences de protéines dont la structure tertiaire est connue garantit une origine d évolution commune aux deux protéines. Si cette similarité est supérieure à 30% après alignement, alors la struture tertiaire de la protéine cible est prédite par construction d un modèle d homologie : c est la méthode dite d homologie de modèle (homology modelling) ou de comparaison de modèle (comparative modelling). Plus la similarité sera grande, plus la modélisation sera performante. Procédé 1. Choix de la séquence modèle : un BLAST de la séquence cible est réalisé sur la banque PDB afin de déterminer la protéine modélisant la structure tertiaire de la séquence. 2. Alignement de la séquence cible et du modèle : la recherche BLAST suggèrent des régions de haute similarité entre les séquences cible et du modèle. Il faut qu au moins 30% des acides aminés des deux séquences soient alignés à l identique. Il faut réaliser un alignement multiple sur les séquences de la même famille que la séquence modèle. 3. Recopie de l épine dorsale de la chaîne peptidique : les aminoacides constituant la chaîne principale de la séquence modèle donne la structure du noyau de la configuration spatiale prédite. 4. Ajout de boucles : par l intermédiaire de banques de données spécialisées ou par des méthodes ab initio, des boucles sont ajoutées au noyau de la représentation 3D. 5. Ajout de chaînes latérales : les chaînes latérales de la protéines sont ajoutées pour donner la configuration spatiale finale de la protéine. Si la similarité entre la séquence cible et le modèle est supérieur à 50%, la prédiction donne des résultats tangibles. Outils : WhatIf, Modeller 4.2 Méthode de prédiction par reconnaissance de repliement Contrairement aux méthodes de prédiction par modèles d homologie, ces méthodes ne tiennent pas compte de la relation d évolution des séquences homologues. La structure est plus conservée que la séquence 4.3 Méthode de prédiction ab initio Outils : Rosetta/HMMSTR, I-Sites Copyright c 2004 Guillaume Chakroun 30

31 4.4 Outils de prédiction de la structure tertiaire Fold recognition : UCLA-DOE, 3D-PSSM, 123D+, FFAS, GenTHREADER, UnderTaker(2002,Karplus) Modeller : Swiss-Model, What-If, FAM, 3D-JIGSAW, SDSC1 tableau Frost 4.5 Méthodologie La figure 4.1 illustre le diagramme méthodologique de la prédiction de la structure tertiaire d une protéine. Fig. 4.1 Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine Copyright c 2004 Guillaume Chakroun 31

Montrer encore