COUTURIER Olivier LETOMBE Florian RN s et prédiction de la structure secondaire des protéines Rapport du projet d apprentissage automatique Année universitaire 200/2002
SOMMAIRE I Introduction Page 2 II Aspects biologiques Page 3 III La méthode MLP Page 5 IV Présentation d autres méthodes Page 9 V Conclusion Page 3 VI Bibliographie Page 4 2
Introduction Le connexionnisme, par opposition au cognitivisme, est la démarche d apprentissage automatique par laquelle le neurone humain est dupliqué de manière formelle. Cette méthode est née du fait que le programmeur a cherché à reproduire un simulacre de raisonnement et de pensée s' assimilant à celui du cerveau. Les réseaux de neurones permettent entre autres de classifier des données à partir d un grand nombre d éléments. C est pourquoi il est naturel de penser à appliquer cette méthode à la prédiction de la structure secondaire des protéines. La connaissance de cette structure de la protéine est essentielle car elle permet de deviner son fonctionnement ce qui constitue une avancée intéressante, notamment dans le domaine de la pharmaceutique et du Drug Design. «Les algorithmes de prédiction fournissent des informations sur la structure secondaire à partir de la structure primaire sans aucun travail biochimique supplémentaire». La méthode par réseaux de neurones est donc peu coûteuse, contrairement à la Résonance Magnétique Nucléaire (RMN). D autres méthodes existent telles que Chou-Fasman qui est une approche statistique, le repliement inverse, une approche plus algorithmique ou encore les HMM et la méthode des «plus proches voisins». Mais nous n allons pas nous attarder plus longuement sur ces dernières. Dans un premier temps, nous allons présenter ce qu est une protéine ainsi que les autres aspects biologiques du problème. Nous nous intéresserons ensuite aux réseaux de neurones appliqués à la prédiction de la structure secondaire après avoir étudié plus en détails leurs principes. Plus précisément, cette seconde partie sera consacrée à l une des méthodes pionnières proposée par Qian et Sejnowski. Enfin, les autres méthodes et leurs résultats obtenus feront l objet du dernier chapitre. 3
Aspects biologiques Nous allons exposer dans un premier temps à quoi correspondent les différents niveaux de la structure d une protéine ; mais penchons-nous tout d abord sur ce qu est une protéine. On distingue 20 acides aminés (AA) : A Ala alanine C Cys cystéine D Asp aspartate E Glu glutamine F Phe phénylalanine G Gly glycine H His histidine I Ile isoleucine K Lys lysine L Leu leucine M Met méthionine N Asn asparagine P Pro proline Q Gin glutamine R Arg arginine S Ser serine T Thr thréonine V Val valine W Trp tryptophane X Tyr tyrosine Une protéine est une séquence - parfois plus - d AA. La structure primaire tout d abord correspond à la séquence d AA elle-même. C est le niveau le plus bas de description d une protéine. Elle se présente de la manière suivante : n NH 2 -A-G-T-F-H-N.-I-K-N-M-D-A-COOH Toujours à gauche = Toujours à droite = Extrémité N-terminal Extrémité C-terminal 4
Apprentissage Automatique Attardons-nous à présent à la structure qui nous intéresse, la secondaire. Elle représente les interactions entre les AA dues à la formation de liaisons hydrogènes entre O (Oxygène) d un groupe carboné et H (Hydrogène) attaché à l azote du groupe aminé d un autre résidu. On distingue trois types de structures secondaires : L hélice Les boucles (parties résiduelles, structure irrégulière) parmi lesquelles : Les random coils ou chaînes aléatoires : - "!# %$'&() : Restent la structure tertiaire et la structure quaternaire qui sont respectivement le repliement d une séquence, sa configuration spatiale et l organisation des différentes séquences. C est cette dernière qui définit le fonctionnement de la protéine. Cette organisation ne se produit que chez certaines protéines. Toute modification de la structure tertiaire ou quaternaire d une protéine conduit à son inactivation. 5
Apprentissage Automatique La méthode MLP Ou Multi-Layer Perceptron Le perceptron Le perceptron fut créé par Frank Rosenblatt en 958. Il s agit d un modèle de réseau de neurones avec algorithme d apprentissage. La définition qui suit est tirée des notes de cours de F. Denis et R. Gilleron intitulé «Apprentissage à partir d exemples» [DG]. Définition : Un perceptron linéaire à seuil prend en entrée n valeurs x,, x n et calcule une sortie o. Un perceptron est défini par la donnée de n+ constantes : les coefficients synaptiques w,, w n et le seuil (ou le biais) ée par la formule : o = n si i= 0 sinon w i x i > Les entrées x,, x n peuvent être à valeurs dans {0, } ou réelles, les poids peuvent être entiers ou réels. Une variante très utilisée de ce modèle est de considérer une fonction de sortie prenant ses valeurs dans {-, } plutôt que dans {0, }. x w x 2 w 2 "!#%$ &..n w i x i > ' o = 0 sinon w n x n 6
Notons que les coefficients synaptiques sont déterminés par apprentissage sur un ensemble appelé ensemble d entraînement. Cette notion est très importante et sera donc toujours en vigueur au cours de la section suivante. 7
Le MLP L idée du MLP ou perceptron multi-couches est partie de l observation suivante : en ajoutant des couches cachées au perceptron, sa puissance de calcul est augmentée. Une définition en est donnée dans l article cité précédemment [DG]. Définition : Un réseau de neurones à couches cachées est défini par une architecture vérifiant les propriétés suivantes : les cellules sont réparties de façon exclusive dans des couches C 0, C,, C q, la première couche C 0 est la rétine composée des cellules d entrée qui correspondent aux n variables d entrée ; les couches C,, C q- sont les couches cachées ; la couche C q est composée de la (ou les) cellule(s) de décision, les entrées d une cellule d une couche C i avec i couche C i- et aucune autre cellule. La dynamique du réseau est synchrone. Grâce à ce type d architectures, de nombreux calculs par réseau de neurones sont devenus réalisables. Ainsi, la fonction booléenne du ou exclusif (ou XOR) est devenue facilement réalisable, alors qu elle ne l était pas avec un simple perceptron : x 0 = -.5-0.5 x -2 x XOR x 2 x 2 8
Cette partie est inspirée d une libre traduction du chapitre 6.2. de [BB]. Les premières applications du MLP à la prédiction de la structure secondaire des protéines ont été réalisées par Qian et Sejnowski. L architecture de base utilisée est un MLP totalement connecté comprenant une seule couche cachée. Nos chercheurs ont déterminé que la couche d entrée avait une taille optimale de 3 AA pour un alphabet de taille 2 : 20 représentant les 20 différents AA et un symbole terminal pour encoder le N ou C-terminal. Ils ont donc obtenu une couche d entrée de 273 unités. A cela, ils ont ajouté une unique couche cachée de 40 unités sigmoïdes et enfin une couche de sortie qui en est composée de 3. Chacune de ces 3 dernières correspond aux types de structures secondaires décrits "!#!$&%'(% )! *%,+-./ précédemment : l hélice éterminée par l unité de sortie ayant la plus grande activité selon le principe du «winner-takes-all» ou de décision majoritaire. Penchons-nous à présent sur la manière dont a été construit ce réseau de neurones. Il a été initialisé avec des poids tirés au hasard dans l intervalle [-0.3, 0.3]. L apprentissage s est fait à partir d un ensemble d entraînement de 20 000 résidus extraits du Brookhaven PDB (Protein Data Bank) par rétropropagation à l aide de la fonction d erreur du LMS (Least Mean Square) ou la méthode des moindres carrés. Cette méthode nous permet de passer de 33% à précisément 62.7% de prédiction correcte, avec des coefficients de corrélation C0 = 0.35, C = 0.29 et C c = 0.38. Ces derniers, meilleurs indicateurs de la performance de prédiction qu un simple pourcentage de prédiction correcte, se calculent de la manière suivante : f f (Px N x ) - (N xpx ) C x = f f f f (N x + N x ) (N x + Px ) (Px + N x ) (Px + Px ) où x = hélice, feuillet, boucle ou 2 ou 3 de ces catégories ; réalisées et P x et N x sont respectivement les prédictions positives ou négatives correctement f P x et f N x sont au contraire les prédictions positives ou négatives incorrectes. Une prédiction parfaite donne C x = alors qu une prédiction totalement incorrecte donne C x = -. La principale amélioration est obtenue en ajoutant à l architecture décrite précédemment un nouveau réseau ayant pour entrée 3 neurones (les mêmes que pour la première architecture) pour chaque sortie du précédent, soit 3*3 = 39 unités. La couche cachée et la sortie seraient de la même forme que pour le précédent réseau, donc respectivement 40 et 3 unités. Une telle architecture en cascade atteint une performance de Q 3 = 64.3%, avec les corrélations C2 = 0.4, C3 = 0.3 et C c = 0.4. 9
En 988, cette architecture apparaît comme la plus performante de toutes les précédentes méthodes, y compris la méthode Chou-Fasman pourtant la plus renommée à l époque. 0
Présentation d autres méthodes De nouvelles méthodes basées sur les anciennes sont apparues au cours des années. Parmi celles-ci, nous pouvons citer la combinaison qui a été faite entre les Réseaux de Neurones (RN) et la méthode de Chou-Fasman. Ainsi, on a utilisé les règles de Chou-Fasman comme initialisation d un RN auquel on a ajouté quelques connexions. La méthode Qian- Sejnowski a été légèrement battue mais les règles de Chou-Fasman ont été largement dépassées. On a également comparé le MLP et la méthode Bayésienne. L hypothèse qui a été faite est que la probabilité des occurrences d AA dans une protéine était indépendante de celle des AA ailleurs. On s est rendu compte que l exactitude des RN n était que légèrement supérieure à celle de la méthode Bayésienne. Cette observation a conduit à un formalisme neuronal nouveau : la sortie représente directement les probabilités conditionnelles des classes structurelles. Une nouvelle fonction objectif est donc définie, basée sur l information mutuelle. Cette nouvelle mesure, finalement assez proche des anciennes puisque utilisant l erreur des moindres carrée, produit pourtant un ensemble d entraînement obtenant de meilleurs résultats bien que le nombre de paramètres ajustables reste le même. Il a été conclu que cette méthode mesurant l information mutuelle prédisait mieux les hélices et les feuillets que la méthode des moindres carrés, au détriment des boucles. Il est essentiel à présent de citer la méthode ayant obtenu les meilleurs résultats achevés jusqu ici. Il s agit du serveur de prédiction PHD proposé par Rost et Sander. En 996, cette méthode a remporté la compétition CASP2 (Critical Assessment of Protein Structure Prediction) qui a eu lieu à Asilomar (Californie). Il s agit là de l unique expérimentation de la méthode ce qui permet de jauger la prédiction de la structure secondaire comme «prédiction aveugle» [BB]. Les performances de la méthode PHD ont atteint 74% d exactitude sur un ensemble contenant des prédictions de simulations de contacts, de structures secondaires et moléculaires. Cette dernière est la catégorie la plus prestigieuse car la plus difficile : le seul prior pris en compte ici est la structure primaire de la séquence d AA. Notons que les trois catégories de prédiction citées ci-dessus sont regroupées dans ce que l on appelle la classification trois états (three-state).
Cette classification semblait être limitée à 65-67% de précision mais au milieu de années 80, nous n étions qu à 50-55% et 65% ont été atteints (en 988) ce qui constitue un point de vue optimiste concernant la prédiction. L information évolutionnaire a atteint plus de 72% d exactitude avec des coefficients de corrélation de 0.64 C pour et 0.53 pour C. La méthode d utilisation de l information évolutionnaire est la suivante :. une base de données de séquences connues est examinée par des méthodes d alignement pour des séquences similaires, 2. la liste des séquences est filtrée par un seuil (dépendant de la taille) pour une identité de séquence significative, 3. un profile d échanges d AA est compilé, 4. utilisation du profile pour la prédiction. La première méthode soutenant plus de 72% de validation sur une classification trois états est le système de RN qu est le PHD. Les profiles de cette méthode, dont le supplément d information est dérivé des alignements multiples des séquences et de la teneur en AA de la protéine, sont pris comme entrée dans un RN. L entrée est basée sur un profile réalisé à partir des occurrences d AA dans les colonnes d un alignement multiple de séquences avec beaucoup de similarités avec la séquence recherchée. Le réseau complet pour la prédiction de la structure secondaire des protéines consiste en trois couches : deux couches de réseaux et une couche faisant une moyenne à travers les réseaux indépendamment entraînés. Les profiles en question ont été tirés de la base de données HSSP qui mélange l information structurelle et séquentielle. L entraînement par rétropropagation des réseaux peut être équilibré ou non. En général, les bases de données de protéines ont grossièrement 30% d hélices de 50% de boucles. En version déséquilibrée, c est cette fréquence qui est utilisée pour les profiles présentés. Avec l approche équilibrée, tous les types sont présentés aussi souvent ce qui entraîne de meilleurs résultats. Le principal danger des architectures de Qian-Sejnowski est la surspécialisation. Rost et Sander se sont basés sur la même architecture mais utilisent deux méthodes pour éviter ce genre de problèmes : arrêt rapide, moyennes d ensembles sur différents réseaux indépendants, utilisant différentes informations d entrée et procédures d apprentissage. 2
La principale nouveauté de leur méthode reste quand même l alignement multiple : des profiles en entrée sont préférés aux séquences brutes d AA. L idée vient du fait qu un alignement multiple fournit plus d informations que les séquences uniques. 3
Conclusion Nous avons exposé ce qu était une protéine et surtout qu il en existait différentes structures dont la secondaire. Les trois principaux types de cette dernière sont les hélices "!$#&%(' édiction de ces différents types appartient au domaine de l apprentissage automatique et plus particulièrement de la classification supervisée à l aide des réseaux de neurones. Le MLP en constitue une approche dont la première implantation appliquée à la prédiction de la structure secondaire des protéines fût réalisée en 988 par Qian et Sejnowski. Les résultats très probants de cette méthode ont donné lieu à d autres travaux basés sur cette même technique dont la meilleure approche fut proposée par Rost et Sander en 996. Les performances obtenues sont bien supérieures à celles escomptées mais restent insatisfaisantes, bien que les progrès de ces quinze dernières années dans ce domaine permettent d afficher un certain optimisme quant à une prédiction un peu moins «aveugle». La méthode la plus récente de prédiction par RN a été proposée par Riis et Krogh qui tente de pallier le problème de surspécialisation en jouant sur l architecture du RN. Ils ont atteint un précision d environ 70%, ce qui semble une limite pour les méthodes de prédiction ne se fondant que sur des informations locales. Comme nous l avons déjà remarqué, les autres méthodes telles que Chou-Fasman ou les chaînes de Markov cachées ont été dépassées pour la première ou insatisfaisantes pour la seconde. Seule la méthode des plus proches voisins semble approcher sans jamais les égaler les performances des RN. Les méthodes exactes de prédiction de structure secondaire des protéines sont actuellement beaucoup trop coûteuses. C est pourquoi il est de l avis de beaucoup que les RN constituent un avenir certain dans ce domaine. 4
Bibliographie [BB] P. Baldi et S. Brunak. Bioinformatics, the machine learning approach. [DG] François Denis et Rémi Gilleron. Apprentissage à partir d exemples, notes de cours. Université Charles de Gaule, Lille 3, 4 avril 2000. [HT] Hélène Touzet. Fonction et Structure des Protéines, notes de cours. LIFL, Lille. 5