Prédiction de la structure d une



Documents pareils
Coup de Projecteur sur les Réseaux de Neurones

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

INF6304 Interfaces Intelligentes

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Apprentissage Automatique

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Identification de nouveaux membres dans des familles d'interleukines

Traitement bas-niveau

Résonance Magnétique Nucléaire : RMN

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

TSTI 2D CH X : Exemples de lois à densité 1

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction au Data-Mining

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Probabilités Loi binomiale Exercices corrigés

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Introduction au datamining

Texte Agrégation limitée par diffusion interne

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Atelier : L énergie nucléaire en Astrophysique

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Programmation linéaire

Correction du baccalauréat STMG Polynésie 17 juin 2014

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre)

1.2 Coordinence. Notion de liaison de coordinence : Cas de NH 3. et NH 4+ , 3 liaisons covalentes + 1 liaison de coordinence.

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

La classification automatique de données quantitatives

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Résolution d équations non linéaires

données en connaissance et en actions?

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Entrepôt de données 1. Introduction

GUIDE Excel (version débutante) Version 2013

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Comprendre l Univers grâce aux messages de la lumière

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Mesures et incertitudes

Agrégation des portefeuilles de contrats d assurance vie

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

ANALYSE SPECTRALE. monochromateur

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 02. La lumière des étoiles. Exercices :

Plus courts chemins, programmation dynamique

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER

A.3 Les méthodes : L applicabilité

4.2 Unités d enseignement du M1

Chapitre 4 - Spectroscopie rotationnelle

Annexe commune aux séries ES, L et S : boîtes et quantiles

Modélisation du comportement habituel de la personne en smarthome

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Modélisation multi-agents - Agents réactifs

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

FUSION PAR CONFINEMENT MAGNÉTIQUE

Arbres binaires de décision

Le concept cellulaire

Enseignement secondaire

Dérivées d ordres supérieurs. Application à l étude d extrema.

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

I - Quelques propriétés des étoiles à neutrons

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Probabilités sur un univers fini

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Infolettre #18 : Les graphiques avec Excel 2010

CHAPITRE 2 : Structure électronique des molécules

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

UE6 - Cycle de vie du médicament : Conception rationnelle

Cours n 12. Technologies WAN 2nd partie

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Spécificités, Applications et Outils

TABLE DES MATIÈRES CHAPITRE I. Les quanta s invitent

Créer le schéma relationnel d une base de données ACCESS

Les algorithmes de fouille de données

A retenir : A Z m n. m noyau MASSE ET ÉNERGIE RÉACTIONS NUCLÉAIRES I) EQUIVALENCE MASSE-ÉNERGIE

Les algorithmes de base du graphisme

MABioVis. Bio-informatique et la

Système immunitaire artificiel

Les Conditions aux limites

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

L apprentissage automatique

Les réseaux cellulaires

Transcription:

Prédiction de la structure d une protéine Soluscience Guillaume Chakroun guillaume chakroun@hotmail.com Copyright c 2004 Guillaume Chakroun

TABLE DES MATIÈRES Table des matières 1 Les structures protéiques 5 1.1 La structure primaire.................................. 5 1.2 La structure secondaire................................ 5 1.3 La structure tertiaire.................................. 7 1.4 La structure quaternaire................................ 7 1.5 Figure récapitulative.................................. 7 2 Les banques de données de structures protéiques 9 2.1 Les méthodes expérimentales de détermination des structures protéiques..... 9 2.1.1 La cristallographie rayon X.......................... 9 2.1.2 La spectroscopie RMN............................. 9 2.2 Les banques de structures protéiques......................... 10 2.2.1 Les différentes classes de structures protéiques............... 10 2.2.2 La banque de structures protéiques PDB.................. 10 2.2.3 Les autres banques de structures protéiques................. 10 3 Prédiction de la structure secondaire à partir de la séquence 12 3.1 Critère d efficacité des méthodes présentées..................... 12 3.2 Les méthodes statistiques............................... 13 3.2.1 Chou-Fasman.................................. 13 3.2.2 Garnier, Osguthorbe et Robson (méthode GOR).............. 15 3.2.3 Amélioration des méthodes.......................... 16 3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés 17 3.4 La méthode du plus proche voisin........................... 17 3.5 Les chaînes de Markov cachées............................ 17 3.6 Les réseaux de neurones................................ 23 3.7 Programmes de prédiction de structure secondaire................. 27 3.8 Méthodologie...................................... 27 4 Prédiction de la structure tertiaire à partir de la structure primaire 29 4.1 Méthodes de prédiction par modèle d homologie................... 30 4.2 Méthode de prédiction par reconnaissance de repliement.............. 30 4.3 Méthode de prédiction ab initio............................ 30 4.4 Outils de prédiction de la structure tertiaire..................... 31 4.5 Méthodologie...................................... 31 Copyright c 2004 Guillaume Chakroun 2

TABLE DES FIGURES Table des figures 1.1 Exemple d une représentation en structure primaire d une protéine........ 5 1.2 Exemple d une hélice alpha.............................. 6 1.3 Exemple d un feuillet béta............................... 6 1.4 Exemple d une représentation en structure tertiaire d une protéine........ 7 1.5 Exemple d une représentation en structure quaternaire d une protéine...... 8 1.6 Relation entre les différentes catégories de structures................ 8 3.1 Exemple d un HMM simple à 4 états et 2 symboles................. 18 3.2 Exemple d un HMMprofil............................... 19 3.3 Modèle de structure α-plex.............................. 23 3.4 Exemple d un réseau de neurones........................... 24 3.5 Propagation d un signal dans un réseau de neurones trois couches......... 25 3.6 Illustration de la back propagation calibrant les paramètres du réseau....... 26 4.1 Diagramme méthodologique de la prédiction de la structure tertiaire d une protéine 31 Copyright c 2004 Guillaume Chakroun 3

LISTE DES TABLEAUX Liste des tableaux 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman.... 14 3.2 Liste des principaux programmes utilisés pour la prédiction de structures secondaires 28 Copyright c 2004 Guillaume Chakroun 4

Chapitre 1 Les structures protéiques La structure tertiaire de la protéine est centrale à la génomique, car plus encore que la séquence, c est elle qui détermine sa fonction. La structure va déterminer les sites actifs ou les épitopes d antigénicité (partie d un antigène reconnu par un anticorps). Prédire la structure 3D d une protéine, c est donc approcher la fonction potentielle qu elle assure dans la cellule. Outre leur importance fonctionnelle, les structures secondaires et tertiaires présentent un intérêt cognitif majeur car elles sont mieux conservées que les séquences au cours de l évolution. La structure des protéines comporte quatre niveaux différents : 1.1 La structure primaire C est la séquence proprement dite des acides aminés enchaînés les uns aux autres par des liaisons covalentes et éventuellement par des ponts disulfures. Un exemple de la représentation en structure primaire d une protéine est illustrée sur la figure 1.1. Fig. 1.1 Exemple d une représentation en structure primaire d une protéine 1.2 La structure secondaire Elle correspond aux formations périodiques qu adoptent des portions partielles d une protéine donnée. Ces repliements sont : L hélice alpha (voir figure 1.2) Le feuillet bêta (voir figure 1.3) Une boucle ou coude, structure instable enroulée aléatoirement ( random coil en anglais) Copyright c 2004 Guillaume Chakroun 5

Fig. 1.2 Exemple d une hélice alpha Fig. 1.3 Exemple d un feuillet béta Copyright c 2004 Guillaume Chakroun 6

1.3 La structure tertiaire C est la conformation tridimensionnelle thermodynamiquement stable (due à un ensemble de liaisons non covalentes, comme les liaisons hydrogènes ou les ponts salins, ainsi qu à des ponts disulfures qui sont des liaisons covalentes) qu adoptent les différents éléments de la structure secondaire entre eux pour former la protéine ou une des sous-unités d une protéine plus complexe (voir figure 1.4). La conformation native d une protéine dépend à la fois de sa séquence et du milieu dans lequel elle est solubilisée. Le repliement 3D ( fold en anglais) représente le meilleur compromis entre l enfouissement des résidus d acides aminés hydrophobes (alanine, leucine, isoleucine, proline et valine), puisque la plupart des milieux organiques sont aqueux, et les possibibités de rotation autour des liaisons chimiques. Fig. 1.4 Exemple d une représentation en structure tertiaire d une protéine Les hélices α sont représentées en rose, les feuillets β en jaune et les coudes en gris 1.4 La structure quaternaire Certaines protéines, complexes, sont constituées de plusieurs sous-unités : les monomères. La structure 4D est l arrangement spatial de ces différentes unités ; leur rassemblement est un oligomère (voir figure 1.5). Il existe bien sûr des méthodes physiques expérimentales pour déterminer la structure (voir partie 2.1) mais elles sont lourdes et coûteuses, et ne peuvent s appliquer à toutes les protéines (inutilisables pour les protéines non solubles, comme les protéines membrannaires, d où l importance, là encore, de la prédiction in silico). 1.5 Figure récapitulative Copyright c 2004 Guillaume Chakroun 7

Fig. 1.5 Exemple d une représentation en structure quaternaire d une protéine Deux monomères (l un en vert, l autre en bleu) forme un oligomère Fig. 1.6 Relation entre les différentes catégories de structures Copyright c 2004 Guillaume Chakroun 8

Chapitre 2 Les banques de données de structures protéiques Il est difficile de déterminer la structure des protéines expérimentalement. Les banques de séquences ne cessent de croître à l instar des banques de structures protéiques : actuellement, plus de dix millions de gènes sont présents dans GenBank alors que seulement vingt milles structures protéiques sont répertoriées dans PDB (Protein Data Bank). Les chercheurs estiment qu un millier de modèles de structures suffiraient à modéliser l ensemble des protéines existantes. 2.1 Les méthodes expérimentales de détermination des structures protéiques Ces méthodes expérimentales permettent d alimenter les banques de structures utilisées par les méthodes de prédiction présentées dans la partie 3. 2.1.1 La cristallographie rayon X Le principe de la détermination d une protéine par cristallographie au rayon X est de déterminer la position de ses atomes afin d en déduire un modèle structural. La position précise de chaque atome d une molécule peut être déterminée seulement si la molécule est cristallisée (l organisation des atomes forme des cristaux). Lorsque les rayons X frappent une molécule cristallisée, les électrons entourant chaque atome courbent ou diffractent le faisceau rayon X ; ce phénomène permet de déduire un modèle de diffraction par rayon X par analyse de la densité des électrons. Un ordinateur interprète alors mathématiquement ce modèle et reconstruit la position des atomes pour finalement donner un modèle quasi exact de la structure de la molécule. 2.1.2 La spectroscopie RMN La spectroscopie par résonnance magnétique nucléaire (RMN) repose sur l analyse des noyaux atomiques de la molécule. Chaque noyau porte une charge. Lorsque les spins des protons et des neutrons d un noyau sont impairs, le spin total du noyau crée un dipùle magnétique le long de l axe spinal ; la magnitude intrinsèque de ce dipùle est une propriété nucléaire fondamentale appellée le moment magnétique nucléaire. Depuis cette propriété est établie une corrélation entre la symétrie de la distribution de charge du noyau et sa structure interne. Par la suite, les distances entre certains atomes de la molécule sont connues. La connaissance de ces distances permet alors Copyright c 2004 Guillaume Chakroun 9

de déterminer un modèle de la molécule satisfaisant toutes les contraintes stéréochimiques liées à la structure. La structure de la molécule est finalement déduite. 2.2 Les banques de structures protéiques 2.2.1 Les différentes classes de structures protéiques Quatre principales classes de structure protéique, basées sur les types et les arrangements des structures secondaires, ont été établies par Levitt et Chlothia en 1976 : 1. Classe α : regroupe les hélices α connectées en boucle à la surface des protéines. 2. Classe β : regroupe les feuillets β antiparallèles, généralement deux feuillets en contact formant un sandwich. 3. Classe α/β : regroupe principalement les feuillets β parallèles joints avec des hélices α, mais peut également regrouper des feuillets β mixtes. 4. Classe α + β : regroupe principalement les hélices α isolées joints à des feuillets β antiparallèles. Deux sous-classes s ajoutent aux classes précédentes : Classe des protéines multidomaines regroupant les domaines représentant plus d une des quatre principales classes. Classe des protéines membranaires et de surface cellulaire, protéines du système immunitaire mis à part. 2.2.2 La banque de structures protéiques PDB Protein Data Bank est la banque de référence des structures protéiques obtenues expérimentalement par cristallographie rayon X ou spectroscopie RMN. Jusqu en mai 2003, 21000 structures protéiques ont été entrées dans la banque ; de 50 à 100 nouvelles structures sont déposées chaque semaine. Les coordonnées des atomes formant la structure d une protéine, le détail de la séquence, les conditions de cristallisation sont les principales informations disponibles pour chaque structure de la banque PDB. C est à partir de cette banque que sont détectés les homologues structuraux. La majorité des séquences ont une homologie structurale inférieure à 20% ; on évalue à environ 1000 le nombre total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des protéines connues. 2.2.3 Les autres banques de structures protéiques SCOP (Structural Classification of Proteins) : Banque de données regroupant les protéines de la PDB présentant une relation de similarité structurale et d évolution. Le classement dans la banque se fait selon trois principaux niveaux hiérarchiques : 1. Famille : relation d évolution commune clairement établie. Le degré de similarité de séquence entre pairs de résidus est supérieur à 30%. 2. Superfamille : origine d évolution commune probable. Le degré de similarité de séquence est faible ; néanmoins, les dispositifs structuraux et fonctionnels des protéines suggèrent une évolution d origine commune. Copyright c 2004 Guillaume Chakroun 10

3. Repliement : similarité structurale majeure. Les protéines partagent ici une majorité de structures secondaires dans le même arrangement et avec les mêmes connexions topologiques. Les régions en coude et périphériques aux autres structures secondaires diffèrent souvent en taille et en conformation. Les protéines ayant des repliements communs ne semblent pas avoir une origine d évolution commune ; seules les propriétés physiques et chimiques leur donnent un arrangement similaire. CATH (Class Architecture Topology and Homology) : Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de détermination des structures par cristallographie rayon X est supérieure à 3 angstroms sont répertoriés dans cette banque. La hiérarchie de classification de CATH est composée de quatre principaux niveaux : 1. Niveau C (Classe) : sont répertoriées les structures protéiques appartenant aux classes α et β de la classification de Lewitt et Chothia (voir partie 2.2.1.). Une troisième classe α β regroupe à la fois les structures des classes α/β et α + β. Une quatrième classe contient les domaines protéiques avec peu de structures secondaires. 2. Niveau A (Architecture) : classe les protéines en fonction de l architecture de leurs structures secondaires sans tenir compte de leurs connectivités. Ce niveau regroupe principalement les protéines adoptant les architectures en baril ou en sandwich trois couches. 3. Niveau T (Topologie) : les protéines sont classées par familles de repliement, tenant compte de l architecture des structures secondaires mais également de leurs connectivités. 4. Niveau H (superfamilles homologues) : regroupe les domaines protéiques considérés comme partageant un ancêtre commun et pouvant ainsi être décrites comme homologues. Les similarités sont d abord identifiées par comparaison de séquences puis par comparaison de structure. FSSP (Fold classification based on Structure-Structure alignement of Proteins) : regroupe les structures représentatives de la PDB. La banque PDB admet un nombre de structures redondantes de protéines dont les séquences et les structures ont plus de 25% d identité. L ensemble de structures représentatives sans structures redondantes de la banque PDB a été obtenu par alignement structural à l aide du programme DALI. MMDB (Molecular Modeling DataBase) : sous-ensemble des structures tridimensionnelles de la banque PDB, modèles théoriques exclus. Cette banque, hébergée par le site Entrez de NCBI, permet d archiver les données structures conventionnelles de manière flexible afin de pouvoir y ajouter d autres structures reconnues par des technologies telles que la microscopie électronique. SARF (Spacial ARrangement of backbone Fragments) : basée sur la détection d éléments de structures secondaires compatibles pour trouver les structures 3D similaires. Le site web de SARF propose un arbre construit à partir de la similarité des structures 3D. Copyright c 2004 Guillaume Chakroun 11

Chapitre 3 Prédiction de la structure secondaire à partir de la séquence A partir de la séquence d acides aminés, on cherche à déterminer la structure secondaire qui est codifiée en une succession d états grâce à un alphabet de trois lettres : portions en hélice alpha (H), feuillet beta (E : brin étendu) et en coude (C). Pour cela, les programmes de prédiction ont recourt à plusieurs méthodes : Méthodes statistiques : les premières datent de 1974. A partir de la connaissance des structures tertiaires d un échantillon de protéines modèles, on établit une table d occurrences comptabilisant les proportions observées de chacun des vingt acides aminés dans un état structural donné. La prédiction est établit à partir de cette table. Méthodes tenant compte des propriétés physico-chimiques des acides aminés : telles que la charge, l hydrophobicité et l hydrophilie. Celles-ci influent en effet directement sur les relations de proximité et donc sur la position des acides aminés à l intérieur (coeur hydrophobe : les structures hélice α et feuillet β dominent) ou à la surface de la protéine (boucles). Méthode des plus proches voisins : utilise la similarité entre sous-séquences de protéines dont la structure est connue pour prédire la structure de la protéine recherchée. Chaînes de Markov : des chaînes de Markov cachées modélisent chaque type de structure secondaire par entraînement sur des séquences appartenant à la même famille structurale. Une fois les paramètres de ces modèles calibrés, un score est associé à chaque chaîne de Markov cachée pour une séquence donnée. Le modèle donnant le meilleur score pour une portion de la séquence prédit alors la structure secondaire associée à cette portion. Méthode d apprentissage par réseaux de neurones : analogue à la méthode utilisant les chaînes de Markov cachées. Des réseaux de neurones modélisent les structures secondaires existantes par entraînement sur des séquences dont les structures sont connues. L influence de la structure tertiaire sur la structure secondaire n est toutefois pas prise en compte par ces méthodes. La prédiction est plus efficace encore quand l analyse est appliquée sur un alignement multiple, c est à dire sur un jeu de séquences homologues alignées. La structure étant plus conservée (sous la pression de sélection) que la séquence, les régions conservées (régions similaires rencontrées entre plusieurs séquences) donnent plus de poids à la prédiction. 3.1 Critère d efficacité des méthodes présentées Afin de connaitre l efficacité de chaque méthode de prédiction de la structure secondaire d une protéine, le critère 3-state est introduit (noté Q 3 ). Il représente le taux de résidus correspondant Copyright c 2004 Guillaume Chakroun 12

à l une des trois configurations réelles (hélice α, feuillet β ou coude) dans laquelle se trouve un acide aminé donné de la protéine. Par exemple, si la structure secondaire correcte d une protéine est HHCE et que la structure prédite est HEEE, alors le critère d exactitude 3-state vaut 33%. 3.2 Les méthodes statistiques Les méthodes statistiques prédisent les structures secondaires d une protéine à l aide de tableaux de valeurs expérimentales calculées à partir de structures cristallines connues. 3.2.1 Chou-Fasman Cette méthode, connue en 1974, se base sur les propriétés physico-chimiques définissant la stabilité de la protéine, telles que l hydrophobicité. Les auteurs ont donc calculé les valeurs des paramètres de conformation d un aminoacide de se trouver dans une structure d hélice α, de feuillet β ou de coude à partir de la structure cristalline de 29 protéines déterminée par cristallographie rayon X. Le tableau 3.1 regroupent les probabilités d un aminoacide i de se trouver dans une structure d hélice α (P α (i)), de feuillet β (P β (i)) ou de coude (P t (i)) ainsi que les fréquences f i de courbures des quatre aminoacides consécutives participant à la structure de coude. Ce tableau sous classe les aminoacides suivant leur score de conformation ; on distingue six degrés d affinité pour chaque structure secondaire s : H s : strong s former forte tendance à se trouver en structure s. h s : s former bonne tendance à se trouver en structure s. I s : weak s former tendance faible à se trouver en structure s. i s : s indifferent pas de tendance particulière. b s : s breaker tendance à empêcher la structure s. B s : strong s breaker forte tendance à empêcher la structure s. Principe : La séquence pour laquelle on veux prédire les structures secondaires est parcourue par une fenêtre glissante de quatre aminoacides. Le score Sc s (i) pour la structure s de la première aminoacide i de cette fenêtre est calculé comme suit, en tenant compte des trois acides aminés suivants (i + 1, i + 2 et i + 3) : i+3 Sc s (i) = P s (j) De même, la probabilité de courbure au niveau du résidu i positionné au début de la fenêtre de quatre aminoacides est : j=i i+3 p t (i) = f(j) L ensemble des règles définissant l algorithme de Chou-Fasman permet ensuite de prédire la structure secondaire de chaque aminoacide de la séquence : Règle 1 : Un ensemble de quatre acides aminés d affinité H α ou h α (Sc α > Sc β et Sc coude ) sur six consécutifs initie une hélice. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation d hélice α, c est à dire si Sc α < 1.00. Les deux conditions suivantes confirment la structure en hélice α de ce segment étendu : j=i Copyright c 2004 Guillaume Chakroun 13

Tab. 3.1 Tableau des paramètres de conformation de la méthode de Chou-Fasman Les probabilités en rouge représente un degré d affinité strong former, un degré former en orange, un degré weak former en jaune, un degré indifferent en maginta, un degré breaker en vert foncé et un degré strong breaker en vert clair La proline ne peut être ni à l intérieure de l hélice, ni du côté C-terminal de l hélice ; elle peut cependant apparaître pour l un des trois résidus du côté N-terminal. La longueur du segment étendu est au moins de six aminoacides avec Ŝc α > 1.03 et Ŝc α > Ŝc β (Ŝc est la moyenne arithmétique des scores sur les six aminoacides) Règle 2 : Un ensemble de trois acides aminés d affinité H β ou h β (Sc α > Sc β et Sc coude )sur cinq consécutifs initie un feuillet β. Le segment est étendu dans les deux sens jusqu à la rencontre d acides aminés empêchant la formation de feuillet β, c est à dire si Sc β < 1.00. Si Ŝc β > 1.05 et Ŝc β > Ŝc α pour le segment étendu, alors le segment représente une structure de feuillet β. Règle 3 : Si, pour le résidu i : p t (i) > 0.75 10 4 Ŝc t > 1.00 Ŝc t > Ŝc α Ŝc t > Ŝc β (avec Ŝc : moyenne arithmétique des scores sur les quatre aminoacides de la fenêtre initiée par i), alors le segment de quatre aminoacides représente une structure de coude. Règle 4 : Tout segment recouvrant les régions α et β est une hélice α si ˆP α > Ŝc β ou un feuillet β si Ŝc β > Ŝc α. La méthode de Chou-Fasman présente une efficacité de l ordre de 50 à 60 %. Copyright c 2004 Guillaume Chakroun 14

3.2.2 Garnier, Osguthorbe et Robson (méthode GOR) A l instar de la méthode de Chou-Fasman qui considère qu un aminoacide influence directement la structure secondaire dans une fenêtre de quatre résidus, la méthode GOR (con ue en 1978) tient compte du fait que la probabilité d un aminoacide d appartenir à un type de structure secondaire dépend de la nature et de la position de ses voisins. Principe général Le calcul de la propension d un aminoacide à se trouver dans un type de structure secondaire se fait dans une fenêtre de 17 résidus. Un score associé à la fenêtre est calculé grâce à une matrice 20x17 prédisant un type de structure secondaire. On compte une matrice de prédiction d hélice α, une de feuillet β, une de coude β et une dernière de structure chaînes aléatoires (ces deux dernières structures sont des structures de boucle). Le type de matrice pour lequel la fenêtre a obtenu le meilleur score donne la structure prédite pour les 17 résidus de la fenêtre. Les lignes d une de ces matrices correspondent aux 20 acides aminés, les 17 colonnes aux positions des aminoacides dans la fenêtre. L élément (i, j) d une matrice prédisant la structure S donne la probabilité que l aminoacide i soit en conformation S à la position j de la fenêtre. Pour calculer cet évenement, les auteurs de la méthode utilisent la théorie de l information. Soient deux événements S et a ; P (S a) est la probabilité que S advienne sachant que a est advenu. On appelle I(S; a) l information associée à l événement S contraint par a ; définie par l équation : I(S; a) = log ( ) P (S a) P (S) En considèrant que l événement S prend les états H pour hélice α et H pour non hélice α, la méthode GOR maximise l information I(S; a) en calculant la différence d information I( S(H); a) : (3.1) I( S(H); a) = I(S = H; a) I(S = H a) = log ( ) ( ) P (S = H a) P (S = H a) log P (S = H) P (S = H) (3.2) Les différences d information associées à un feuillet β, un coude β ou une chaîne aléatoire s obtiennent de manière analogue en considérant pour chaque cas que l événement S prend l état de la structure ou non. En décomposant l événement a en n événements a 1,..., a n représentant chacun une position dans la séquence de n résidus, on montre que : I(S; a) = I(S; a 1,..., a n ) = I(S; a 1 ) + I(S; a 2 a 1 ) + I(S; a 3 a 1, a 2 ) +... + I(S; a n a 1,..., a n 1 ) (3.3) L influence des aminoacides voisins sera limité à une fenêtre centrée de longueur 17 ; ceci mène à approximer l équation (1) comme suit : I( S j (H); a 1,..., a n ) I( S j (H); a j 8,..., a j+8 ) (3.4) où j est la position de l acide aminé centrale de la fenêtre. En développant l équation (4) à l aide de (3), on obtient : Copyright c 2004 Guillaume Chakroun 15

I( S j (H); a j 8,..., a j+8 ) = I( S j (H); a j )+I( S j (H); a j 1 a j )+I( S j (H); a j+1 a j, a j 1 )+...+I( S j (H); (3.5) Il y a deux manières d interpréter l information de l équation (5) ; la méthode de GOR débouche alors sur GORII et GORIII : GORII : information directionnelle L équation (5) devient : I( S j (H); a j 8,..., a j+8 ) 8 k= 8 I( S j (H); a j+k ) (3.6) Les tableaux de références donnent les valeurs I( S j (H); a j+k ), calculées à l aide de la structure cristalline de 75 protéines en déterminant les fréquences P (S a) et P (S) (voir équation (2)). GORIII,GORIV : information vectorielle Ici, on considère l équation (5) comme suit : I( S j (H); a j 8,..., a j+8 ) I( S j (H); a j ) + 8 k= 8,k 0 I( S j (H); a j+k a j ) (3.7) GOR IV calcule l information I( S j (H); a j ) depuis les fréquences P (S a) et P (S) déterminées grâce à une banque de 256 protéines cristallisée, alors que GORIII s appuie sur la banque de 75 protéines utilisée par GORII. L efficacité de GORII est de 56% et celle de GORIV est de l ordre de 71%. 3.2.3 Amélioration des méthodes L exactitude des méthodes statistiques s est considérablement améliorée pendant l année 1993 lorsque Rost et Sander ont inclu l alignement multiple de séquences dans les programmes de prédiction existant jusque là. Ces nouveaux algorithmes partent du principe que les séquences protéiques ayant subit la même évolution ont au moins en commun quelques sites conservant la structure secondaire. La gamme des aminoacides adaptés à une position donnée pour un profil donné de séquences similaires est également pris en compte. Le programme PSI-BLAST, qui peut identifier des relations d évolution lointaines entre séquences protéiques, a été employé pour élargir la recherche de séquences consensus ; le facteur d exactitude de la prédiction de la structure secondaire a ainsi augmenté. Deux programmes utilisent ce procédé : GORV va prochainement permettre d utiliser le programme PSI-BLAST pour accroître l efficacité de 71% à 74%. DSC, pour Discrimination of secondary Structure Class, utilise le principe de la méthode GOR et de l alignement multiple pour une efficacité de 70,1% ; c est un programme simple et très accessible. D autres méthode utilisent plusieurs méthodes de prédiction statistiques pour augmenter l exactitude de prédiction. Par exemple, DPM (Double Prediction Method) combine la méthode de GOR ainsi qu une méthode de prédiction de la classe de la protéine (α, β, α + β ou α/β) basée sur un tableau statistique dont les paramètres ont été déterminés depuis 135 protéines structuralement connues. L efficacité de cette méthode combinée peut atteindre 72% d exactitude. Copyright c 2004 Guillaume Chakroun 16

3.3 Les méthodes tenant compte des propriétés physico-chimiques des acides aminés Méthode : Lim Programmes prédiction de protéines membranaires : TMHMM, PHDhtm, DAS & TopPred2, PHDacc, ASC 3.4 La méthode du plus proche voisin Un nouveau type de prédiction de structure secondaire basé sur des méthodes du plus proche voisin ont vu le jour suite à la découverte d un grand nombre de structure tertiaire durant les années 1980. Les séquences protéiques de ces structures tertiaires sont identifiées à la séquence dont on veut prédire la structure secondaire. Procédé général : 1. Une liste de fragments de taille n (en général, n=16) est constituée depuis 100 à 400 séquences de structure connue (appelées également séquences d entraînement). 2. Une fenêtre de la même taille est extraite de la séquence en entrée pour être comparée à chacun des fragments de la liste. Les 50 fragments les plus similaires sont identifiés. 3. Les fréquences de structure secondaire de l aminoacide située au milieu des 50 fragments retenus (f α, f β et f coude ) sont utilisés afin de prédire la structure secondaire de l aminoacide située au milieu de la fenêtre de la séquence en entrée. 4. La fenêtre courante glisse d une position pour prédire la conformation d un nouvel aminoacide ; les étapes 2 et 3 sont répétées et le procédé est réitéré jusqu à ce que tous les résidus-milieu de la séquence aient leur structure secondaire prédite. Actuellement, deux principaux programmes utilisent la méthode du plus proche voisin : NNSSP : l exactitude de ce programme s élève à 73.5% PREDATOR : pour ce programme, l algorithme de l étape 3 de la méthode du plus proche voisin assigne sept des huit éléments de structure secondaire à chaque aminoacide (au lieu de trois pour les méthodes statistiques). L efficatié du programme atteint 75%. 3.5 Les chaînes de Markov cachées Le modèle de chaînes de Markov cachées (de l anglais HMM pour Hidden Markov Model) est un modèle stochastique. Les hélices α, feuillets β et les autres structures issues de séquences connues de la banque PDB sont apprises pour former différents modèles sous forme de chaînes de Markov. Chaque modèle représente une généralisation de la fa on dont les aminoacides sont distribuées dans un groupe de séquence (classe). Par la suite, les structures secondaires d une séquence sont prédites par comparaison avec ces différents modèles. Un score est associé à chaque fragment de la séquence comparé à un modèle donné ; le modèle donnant le plus haut score à un fragment prédit alors la structure secondaire de la portion de séquence. Principe : La prédiction de structures secondaires par la méthode des chaînes cachées de Markov suit le procédé suivant : 1. Alignement multiple des fragments similaires de séquences protéiques dont la structure est connue 2. Génération de modèles de familles structurales (HMM-profil) sous forme de chaînes cachées de Markov Copyright c 2004 Guillaume Chakroun 17

3. Prédiction de la structure secondaire de séquences à partir des modèles Présentation des HMMs : Le modèle de Markov cachés est fortement apparenté aux automates probabilistes. Un tel automate est une structure composé d états et de transitions entre états auxquelles sont jointes une probabilité (probabilté de transition). A chaque transition est associé un symbole d un alphabet fini, généré à chaque fois que la transition est empruntée. Contrairement aux automates probabilistes, un HMM génère un symbole au niveau des états et non des transitions ; à chaque état est associé une probabilité d émission d un symbole. Les HMMs définissent donc un processus stochastique : Non déterministe : une même séquence de symboles peut être générée de plusieurs manières différentes Markovien : la séquence des états (le chemin) constitue une chaîne de Markov simple puisque la probabilité de transition vers un état ne dépend que de l état actuel et non des états rencontrés précédemment Caché : on observe les lettres générées par le modèle mais pas la séquence des états qui génèrent ces lettres Voici les éléments définissant un HMM : S : ensemble de L états. S contient les états muets start et end, respectivement état d entrée dans le HMM et état de sortie. Σ : alphabet de M symboles. A = (a i,j ) : matrice des probabiltés a i,j de transitions de l état i à l état j. On note : a ij = P [q t+1 = S j q t = S i ] avec q t : état courant de l automate au temps t ; 1 i, j L. Les contraintes stochastiques sont : 1. a ij 0 2. j a i,j = 1 pour i fixé ɛ = (e j (k)) : matrice des probabilités e j (k) d émission du symbole k associés à l état j. On note : e j (k) = P [v k à t q t = S j ] avec 1 j N et 1 k M. Un exemple simple de HMM est illustré sur la figure 3.1. a1,1 a2,2 START astart,1 1 2 END a1,2 a2,end e1(a) e1(b) e2(a) e2(b) Fig. 3.1 Exemple d un HMM simple à 4 états et 2 symboles e 1 (a) et e 1 (b) : probabilités d émission des symboles a et b Copyright c 2004 Guillaume Chakroun 18

a i,j : probabilité de transition de l état i à l état j Ici, a ST ART,1 = 1, a 1,1 + a 1,2 = 1, a 2,2 + a 2,END = 1 (respect des contraintes stochastiques) La procédure de génération d une séquence de symboles à l aide d un HMM est la suivante : 1. Départ à l état initial start 2. Déplacement d état en état suivant les probabilités de transitions 3. Génération d un symbole sur chaque état rencontré en utilisant sa probabilté d émission associé à l état 4. Après émission d un symbole, choix d une transition sortante suivant la probabilité de transition associé à l état 5. Itération de la procédure jusqu à atteindre l état final end Le nombre de chemins possibles est fini et la probabilité de génération d une séquence O = O 1... O L par le modèle M(S, Σ, A) est : P (O M) = a start,i L i=1 e i (O i )a i,i + 1 (3.8) Les HMM-profils Ce sont les mieux adaptés pour modéliser les alignements multiples. A partir d une famille de protéines, un HMM-profil peut-être réalisé pour chercher d autres membres de cette famille. La figure 3.2 représente un HMM-profil. Fig. 3.2 Exemple d un HMMprofil 4 états match (en rouge), 3 états insert (en jaune) et 2 états delete (en vert) Avec : M j : état match j représentant l identité du résidu lors de l alignement multiple I j : état insert j illustrant une insertion de résidus (la transition-boucle signifie que plusieurs insertions peuvent subvenir) D j : état delete permettant l apparition de gaps entre deux résidus : cet état n émet pas de résidus Score d appartenance à une classe de protéine L enjeux d obtenir des modèles de structures secondaires des protéines est de pouvoir classifier les séquences en famille structurale. Un HMM doit donc permettre d évaluer si une séquence donnée appartient ou non à la famille qu il modélise ; il faut calculer la probabilité que la séquence soit créée par un HMM élaboré à partir d une famille. Copyright c 2004 Guillaume Chakroun 19

Soit x = x 1 x 2... x n la séquence de n résidus pour laquelle le score d appartenance à une classe modélisée par un HMM est calculé. La probabilité que x soit créée par le HMM est la somme des probabilités d émission de la séquence sur tous les chemins du HMM qui permettent de la générer : P (x) = π P (x π) (3.9) avec π : ensemble des chemins possibles du HMM générant x. Dans la pratique, il y a trop de chemins possibles et le calcul est trop lourd. L algorithme forward permet de calculer rapidement cette probabilté. Algorithme Forward Suivant le principe de la programmation dynamique, cet algorithme calcule pour chaque état du HMM et pour chaque sous-séquence x 1 x 2... x i la probabilité qu elle est été générée par le sous-hmm finissant par cet état. Les variables employées sont : M j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état M j. I j (i) : probabilité que les i premiers symboles soient émis par le HMM et que le ième soit émis par l état I j. D j (i) : probabilité d être dans l état D j alors que les i premiers symboles ont été émis. Soit L le nombre d états match du HMM, on montre que : [ ] M j (i) = e Mj (x i ) a Mj 1 M j M j 1 (i 1) + a Ij 1 M j I j 1 (i 1) + a Dj 1 M j D j 1 (i 1) [ ] I j (i) = e Ij (x i ) a Mj I j M j (i 1) + a Ij I j I j (i 1) + a Dj I j D j (i 1) D j (i) = a Mj 1 D j M j 1 (i) + a Ij 1 D j I j 1 (i) + a Dj 1 D j D j 1 (i) Avec les conditions initiales suivantes : M 0 (0) = 1 M j (0) = 0 j > 0 I j (0) = 0 j 0 M 0 (i) = 0 i > 0 D 0 (i) = 0 i 0 D où la probabilité P (x) que la séquence x soit créée par le HMM : P (x) = a ML M L+1 M L (n) + a IL M L+1 I L (n) + a DL M L+1 D L (n) Cette probabilité n est pas significative car elle dépend de la longueur de la séquence. Il faut pour cela comparer P (x) à la probabilité qu a la séquence d être engendrée selon un modèle aléatoire, dit modèle nul noté P 0. Expérimentalement, le modèle fonctionnant le mieux est la moyenne normalisée de la distribution des acides aminés de la séquence dans un état match. Le score à proprement dit de la séquence x pour le HMM est le log-odds ratio suivant : log z (P (x)/p 0 (x)) (3.10) Une fois ce score calculé, la séquence x appartient à la famille modélisée par le HMM si son score dépasse un certain seuil. Ce seuil est déterminé en examinant les scores des séquences constituant la famille. Apprentissage d un HMM depuis un alignement multiple Copyright c 2004 Guillaume Chakroun 20