RN s et prédiction de la structure secondaire des protéines. Rapport du projet d apprentissage automatique



Documents pareils
Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Insulinothérapie et diabète de type 1

Coup de Projecteur sur les Réseaux de Neurones

Correction du baccalauréat STMG Polynésie 17 juin 2014

Classification Automatique de messages : une approche hybride

Installation et configuration de base de l active Directory

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Séquence 2. L expression du patrimoine génétique. Sommaire

Prédiction de la structure d une

L apprentissage automatique

4.2 Unités d enseignement du M1

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Le Collège de France crée une chaire pérenne d Informatique, Algorithmes, machines et langages, et nomme le Pr Gérard BERRY titulaire

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

CENTRE INTERNATIONAL D ETUDES SUPERIEURES EN SCIENCES AGRONOMIQUES MONTPELLIER SUPAGRO THESE. Pour obtenir le grade de

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Leçon N 4 : Statistiques à deux variables

INF6304 Interfaces Intelligentes

PARTIE I Compte pour 75 %

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Détermination du besoin en protéines de la canette mulard en phase de démarrage :

Module 16 : Les fonctions de recherche et de référence

Résumé du projet (french) Karl Krajic Jürgen Pelikan Petra Plunger Ursula Reichenpfader

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Application Note. WeOS Création de réseaux et de réseaux virtuels VLAN

Manuel de System Monitor

TD n o 8 - Domain Name System (DNS)

Druais Cédric École Polytechnique de Montréal. Résumé

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Descriptif de Kelio Protect

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

VOCABULAIRE LIÉ AUX ORDINATEURS ET À INTERNET

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

NUTRINEAL MC PD4 MONOGRAPHIE. Solution d acides aminés à 1,1 % pour la dialyse péritonéale. Solution pour dialyse péritonéale

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

Travaux pratiques avec RapidMiner

THEME : CLES DE CONTROLE. Division euclidienne

Tableau récapitulatif : composition nutritionnelle de la spiruline

Modélisation aléatoire en fiabilité des logiciels

Développement itératif, évolutif et agile

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Programmation linéaire

Production de Protéines d Organismes Unicellulaires Cultivés sur Corn Steep Liquor et Evaluation Nutritionnelle de la Biomasse

Relation entre deux variables : estimation de la corrélation linéaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

COMPTABILITE SAGE LIGNE 30

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

1 Recherche en table par balayage

La classification automatique de données quantitatives

Cours n 3 Valeurs informatiques et propriété (2)

Manage Yourself. Rapport de planification. Projet de 4ème année informatique. Equipe :

MEMOIRES MAGNETIQUES A DISQUES RIGIDES

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Installer Joomla Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring

INSTALLATION DES SERVICES DE DOMAINE ACTIVE DIRECTORY Windows Server 2008 R2

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Manuel d utilisation du prototype d étiquetage et première expérimentation (fin 2008)

Conception de Médicament

L axe 5 du Cancéropole Nord Ouest

DOSSIER SCIENTIFIQUE DE L IFN N 9 LES PROTEINES

Les réseaux cellulaires

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Application 1- VBA : Test de comportements d'investissements

DESCRIPTION DES PRODUITS ET MÉTRIQUES

NON-LINEARITE ET RESEAUX NEURONAUX

Introduction au Data-Mining

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

MATHÉMATIQUES FINANCIÈRES

Cours Informatique 1. Monsieur SADOUNI Salheddine

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

PARTIE 1 : RENSEIGNEMENTS GÉNÉRAUX Les questions suivantes visent toutes les couvertures demandées. SECTION A : RENSEIGNEMENTS GÉNÉRAUX

C est quoi un tableur?

données en connaissance et en actions?

Ebauche Rapport finale

Projet de Traitement du Signal Segmentation d images SAR

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Algorithmique et structures de données I

Constat. Nicole DAUSQUE, CNRS/UREC

LES DECIMALES DE π BERNARD EGGER

Continuité et dérivabilité d une fonction

Concours interne d ingénieur des systèmes d information et de communication. «Session 2010» Meilleure copie "étude de cas architecture et systèmes"

Air Transat. Contexte. Buts. Défis. Solution. Industry Travelling, Transport

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

La fonction exponentielle

Service d accompagnement pédagogique de l Université Sorbonne Paris Cité

Transcription:

COUTURIER Olivier LETOMBE Florian RN s et prédiction de la structure secondaire des protéines Rapport du projet d apprentissage automatique Année universitaire 200/2002

SOMMAIRE I Introduction Page 2 II Aspects biologiques Page 3 III La méthode MLP Page 5 IV Présentation d autres méthodes Page 9 V Conclusion Page 3 VI Bibliographie Page 4 2

Introduction Le connexionnisme, par opposition au cognitivisme, est la démarche d apprentissage automatique par laquelle le neurone humain est dupliqué de manière formelle. Cette méthode est née du fait que le programmeur a cherché à reproduire un simulacre de raisonnement et de pensée s' assimilant à celui du cerveau. Les réseaux de neurones permettent entre autres de classifier des données à partir d un grand nombre d éléments. C est pourquoi il est naturel de penser à appliquer cette méthode à la prédiction de la structure secondaire des protéines. La connaissance de cette structure de la protéine est essentielle car elle permet de deviner son fonctionnement ce qui constitue une avancée intéressante, notamment dans le domaine de la pharmaceutique et du Drug Design. «Les algorithmes de prédiction fournissent des informations sur la structure secondaire à partir de la structure primaire sans aucun travail biochimique supplémentaire». La méthode par réseaux de neurones est donc peu coûteuse, contrairement à la Résonance Magnétique Nucléaire (RMN). D autres méthodes existent telles que Chou-Fasman qui est une approche statistique, le repliement inverse, une approche plus algorithmique ou encore les HMM et la méthode des «plus proches voisins». Mais nous n allons pas nous attarder plus longuement sur ces dernières. Dans un premier temps, nous allons présenter ce qu est une protéine ainsi que les autres aspects biologiques du problème. Nous nous intéresserons ensuite aux réseaux de neurones appliqués à la prédiction de la structure secondaire après avoir étudié plus en détails leurs principes. Plus précisément, cette seconde partie sera consacrée à l une des méthodes pionnières proposée par Qian et Sejnowski. Enfin, les autres méthodes et leurs résultats obtenus feront l objet du dernier chapitre. 3

Aspects biologiques Nous allons exposer dans un premier temps à quoi correspondent les différents niveaux de la structure d une protéine ; mais penchons-nous tout d abord sur ce qu est une protéine. On distingue 20 acides aminés (AA) : A Ala alanine C Cys cystéine D Asp aspartate E Glu glutamine F Phe phénylalanine G Gly glycine H His histidine I Ile isoleucine K Lys lysine L Leu leucine M Met méthionine N Asn asparagine P Pro proline Q Gin glutamine R Arg arginine S Ser serine T Thr thréonine V Val valine W Trp tryptophane X Tyr tyrosine Une protéine est une séquence - parfois plus - d AA. La structure primaire tout d abord correspond à la séquence d AA elle-même. C est le niveau le plus bas de description d une protéine. Elle se présente de la manière suivante : n NH 2 -A-G-T-F-H-N.-I-K-N-M-D-A-COOH Toujours à gauche = Toujours à droite = Extrémité N-terminal Extrémité C-terminal 4

Apprentissage Automatique Attardons-nous à présent à la structure qui nous intéresse, la secondaire. Elle représente les interactions entre les AA dues à la formation de liaisons hydrogènes entre O (Oxygène) d un groupe carboné et H (Hydrogène) attaché à l azote du groupe aminé d un autre résidu. On distingue trois types de structures secondaires : L hélice Les boucles (parties résiduelles, structure irrégulière) parmi lesquelles : Les random coils ou chaînes aléatoires : - "!# %$'&() : Restent la structure tertiaire et la structure quaternaire qui sont respectivement le repliement d une séquence, sa configuration spatiale et l organisation des différentes séquences. C est cette dernière qui définit le fonctionnement de la protéine. Cette organisation ne se produit que chez certaines protéines. Toute modification de la structure tertiaire ou quaternaire d une protéine conduit à son inactivation. 5

Apprentissage Automatique La méthode MLP Ou Multi-Layer Perceptron Le perceptron Le perceptron fut créé par Frank Rosenblatt en 958. Il s agit d un modèle de réseau de neurones avec algorithme d apprentissage. La définition qui suit est tirée des notes de cours de F. Denis et R. Gilleron intitulé «Apprentissage à partir d exemples» [DG]. Définition : Un perceptron linéaire à seuil prend en entrée n valeurs x,, x n et calcule une sortie o. Un perceptron est défini par la donnée de n+ constantes : les coefficients synaptiques w,, w n et le seuil (ou le biais) ée par la formule : o = n si i= 0 sinon w i x i > Les entrées x,, x n peuvent être à valeurs dans {0, } ou réelles, les poids peuvent être entiers ou réels. Une variante très utilisée de ce modèle est de considérer une fonction de sortie prenant ses valeurs dans {-, } plutôt que dans {0, }. x w x 2 w 2 "!#%$ &..n w i x i > ' o = 0 sinon w n x n 6

Notons que les coefficients synaptiques sont déterminés par apprentissage sur un ensemble appelé ensemble d entraînement. Cette notion est très importante et sera donc toujours en vigueur au cours de la section suivante. 7

Le MLP L idée du MLP ou perceptron multi-couches est partie de l observation suivante : en ajoutant des couches cachées au perceptron, sa puissance de calcul est augmentée. Une définition en est donnée dans l article cité précédemment [DG]. Définition : Un réseau de neurones à couches cachées est défini par une architecture vérifiant les propriétés suivantes : les cellules sont réparties de façon exclusive dans des couches C 0, C,, C q, la première couche C 0 est la rétine composée des cellules d entrée qui correspondent aux n variables d entrée ; les couches C,, C q- sont les couches cachées ; la couche C q est composée de la (ou les) cellule(s) de décision, les entrées d une cellule d une couche C i avec i couche C i- et aucune autre cellule. La dynamique du réseau est synchrone. Grâce à ce type d architectures, de nombreux calculs par réseau de neurones sont devenus réalisables. Ainsi, la fonction booléenne du ou exclusif (ou XOR) est devenue facilement réalisable, alors qu elle ne l était pas avec un simple perceptron : x 0 = -.5-0.5 x -2 x XOR x 2 x 2 8

Cette partie est inspirée d une libre traduction du chapitre 6.2. de [BB]. Les premières applications du MLP à la prédiction de la structure secondaire des protéines ont été réalisées par Qian et Sejnowski. L architecture de base utilisée est un MLP totalement connecté comprenant une seule couche cachée. Nos chercheurs ont déterminé que la couche d entrée avait une taille optimale de 3 AA pour un alphabet de taille 2 : 20 représentant les 20 différents AA et un symbole terminal pour encoder le N ou C-terminal. Ils ont donc obtenu une couche d entrée de 273 unités. A cela, ils ont ajouté une unique couche cachée de 40 unités sigmoïdes et enfin une couche de sortie qui en est composée de 3. Chacune de ces 3 dernières correspond aux types de structures secondaires décrits "!#!$&%'(% )! *%,+-./ précédemment : l hélice éterminée par l unité de sortie ayant la plus grande activité selon le principe du «winner-takes-all» ou de décision majoritaire. Penchons-nous à présent sur la manière dont a été construit ce réseau de neurones. Il a été initialisé avec des poids tirés au hasard dans l intervalle [-0.3, 0.3]. L apprentissage s est fait à partir d un ensemble d entraînement de 20 000 résidus extraits du Brookhaven PDB (Protein Data Bank) par rétropropagation à l aide de la fonction d erreur du LMS (Least Mean Square) ou la méthode des moindres carrés. Cette méthode nous permet de passer de 33% à précisément 62.7% de prédiction correcte, avec des coefficients de corrélation C0 = 0.35, C = 0.29 et C c = 0.38. Ces derniers, meilleurs indicateurs de la performance de prédiction qu un simple pourcentage de prédiction correcte, se calculent de la manière suivante : f f (Px N x ) - (N xpx ) C x = f f f f (N x + N x ) (N x + Px ) (Px + N x ) (Px + Px ) où x = hélice, feuillet, boucle ou 2 ou 3 de ces catégories ; réalisées et P x et N x sont respectivement les prédictions positives ou négatives correctement f P x et f N x sont au contraire les prédictions positives ou négatives incorrectes. Une prédiction parfaite donne C x = alors qu une prédiction totalement incorrecte donne C x = -. La principale amélioration est obtenue en ajoutant à l architecture décrite précédemment un nouveau réseau ayant pour entrée 3 neurones (les mêmes que pour la première architecture) pour chaque sortie du précédent, soit 3*3 = 39 unités. La couche cachée et la sortie seraient de la même forme que pour le précédent réseau, donc respectivement 40 et 3 unités. Une telle architecture en cascade atteint une performance de Q 3 = 64.3%, avec les corrélations C2 = 0.4, C3 = 0.3 et C c = 0.4. 9

En 988, cette architecture apparaît comme la plus performante de toutes les précédentes méthodes, y compris la méthode Chou-Fasman pourtant la plus renommée à l époque. 0

Présentation d autres méthodes De nouvelles méthodes basées sur les anciennes sont apparues au cours des années. Parmi celles-ci, nous pouvons citer la combinaison qui a été faite entre les Réseaux de Neurones (RN) et la méthode de Chou-Fasman. Ainsi, on a utilisé les règles de Chou-Fasman comme initialisation d un RN auquel on a ajouté quelques connexions. La méthode Qian- Sejnowski a été légèrement battue mais les règles de Chou-Fasman ont été largement dépassées. On a également comparé le MLP et la méthode Bayésienne. L hypothèse qui a été faite est que la probabilité des occurrences d AA dans une protéine était indépendante de celle des AA ailleurs. On s est rendu compte que l exactitude des RN n était que légèrement supérieure à celle de la méthode Bayésienne. Cette observation a conduit à un formalisme neuronal nouveau : la sortie représente directement les probabilités conditionnelles des classes structurelles. Une nouvelle fonction objectif est donc définie, basée sur l information mutuelle. Cette nouvelle mesure, finalement assez proche des anciennes puisque utilisant l erreur des moindres carrée, produit pourtant un ensemble d entraînement obtenant de meilleurs résultats bien que le nombre de paramètres ajustables reste le même. Il a été conclu que cette méthode mesurant l information mutuelle prédisait mieux les hélices et les feuillets que la méthode des moindres carrés, au détriment des boucles. Il est essentiel à présent de citer la méthode ayant obtenu les meilleurs résultats achevés jusqu ici. Il s agit du serveur de prédiction PHD proposé par Rost et Sander. En 996, cette méthode a remporté la compétition CASP2 (Critical Assessment of Protein Structure Prediction) qui a eu lieu à Asilomar (Californie). Il s agit là de l unique expérimentation de la méthode ce qui permet de jauger la prédiction de la structure secondaire comme «prédiction aveugle» [BB]. Les performances de la méthode PHD ont atteint 74% d exactitude sur un ensemble contenant des prédictions de simulations de contacts, de structures secondaires et moléculaires. Cette dernière est la catégorie la plus prestigieuse car la plus difficile : le seul prior pris en compte ici est la structure primaire de la séquence d AA. Notons que les trois catégories de prédiction citées ci-dessus sont regroupées dans ce que l on appelle la classification trois états (three-state).

Cette classification semblait être limitée à 65-67% de précision mais au milieu de années 80, nous n étions qu à 50-55% et 65% ont été atteints (en 988) ce qui constitue un point de vue optimiste concernant la prédiction. L information évolutionnaire a atteint plus de 72% d exactitude avec des coefficients de corrélation de 0.64 C pour et 0.53 pour C. La méthode d utilisation de l information évolutionnaire est la suivante :. une base de données de séquences connues est examinée par des méthodes d alignement pour des séquences similaires, 2. la liste des séquences est filtrée par un seuil (dépendant de la taille) pour une identité de séquence significative, 3. un profile d échanges d AA est compilé, 4. utilisation du profile pour la prédiction. La première méthode soutenant plus de 72% de validation sur une classification trois états est le système de RN qu est le PHD. Les profiles de cette méthode, dont le supplément d information est dérivé des alignements multiples des séquences et de la teneur en AA de la protéine, sont pris comme entrée dans un RN. L entrée est basée sur un profile réalisé à partir des occurrences d AA dans les colonnes d un alignement multiple de séquences avec beaucoup de similarités avec la séquence recherchée. Le réseau complet pour la prédiction de la structure secondaire des protéines consiste en trois couches : deux couches de réseaux et une couche faisant une moyenne à travers les réseaux indépendamment entraînés. Les profiles en question ont été tirés de la base de données HSSP qui mélange l information structurelle et séquentielle. L entraînement par rétropropagation des réseaux peut être équilibré ou non. En général, les bases de données de protéines ont grossièrement 30% d hélices de 50% de boucles. En version déséquilibrée, c est cette fréquence qui est utilisée pour les profiles présentés. Avec l approche équilibrée, tous les types sont présentés aussi souvent ce qui entraîne de meilleurs résultats. Le principal danger des architectures de Qian-Sejnowski est la surspécialisation. Rost et Sander se sont basés sur la même architecture mais utilisent deux méthodes pour éviter ce genre de problèmes : arrêt rapide, moyennes d ensembles sur différents réseaux indépendants, utilisant différentes informations d entrée et procédures d apprentissage. 2

La principale nouveauté de leur méthode reste quand même l alignement multiple : des profiles en entrée sont préférés aux séquences brutes d AA. L idée vient du fait qu un alignement multiple fournit plus d informations que les séquences uniques. 3

Conclusion Nous avons exposé ce qu était une protéine et surtout qu il en existait différentes structures dont la secondaire. Les trois principaux types de cette dernière sont les hélices "!$#&%(' édiction de ces différents types appartient au domaine de l apprentissage automatique et plus particulièrement de la classification supervisée à l aide des réseaux de neurones. Le MLP en constitue une approche dont la première implantation appliquée à la prédiction de la structure secondaire des protéines fût réalisée en 988 par Qian et Sejnowski. Les résultats très probants de cette méthode ont donné lieu à d autres travaux basés sur cette même technique dont la meilleure approche fut proposée par Rost et Sander en 996. Les performances obtenues sont bien supérieures à celles escomptées mais restent insatisfaisantes, bien que les progrès de ces quinze dernières années dans ce domaine permettent d afficher un certain optimisme quant à une prédiction un peu moins «aveugle». La méthode la plus récente de prédiction par RN a été proposée par Riis et Krogh qui tente de pallier le problème de surspécialisation en jouant sur l architecture du RN. Ils ont atteint un précision d environ 70%, ce qui semble une limite pour les méthodes de prédiction ne se fondant que sur des informations locales. Comme nous l avons déjà remarqué, les autres méthodes telles que Chou-Fasman ou les chaînes de Markov cachées ont été dépassées pour la première ou insatisfaisantes pour la seconde. Seule la méthode des plus proches voisins semble approcher sans jamais les égaler les performances des RN. Les méthodes exactes de prédiction de structure secondaire des protéines sont actuellement beaucoup trop coûteuses. C est pourquoi il est de l avis de beaucoup que les RN constituent un avenir certain dans ce domaine. 4

Bibliographie [BB] P. Baldi et S. Brunak. Bioinformatics, the machine learning approach. [DG] François Denis et Rémi Gilleron. Apprentissage à partir d exemples, notes de cours. Université Charles de Gaule, Lille 3, 4 avril 2000. [HT] Hélène Touzet. Fonction et Structure des Protéines, notes de cours. LIFL, Lille. 5