Prédiction de la Structure des Protéines. touzet@lifl.fr

Documents pareils

Leslie REGAD ; Gaëlle LELANDAIS. leslie.regad@univ- paris- diderot.fr ; gaelle.lelandais@univ- paris- diderot.fr

PARTIE I Compte pour 75 %

Identification de nouveaux membres dans des familles d'interleukines

Coup de Projecteur sur les Réseaux de Neurones

Prédiction de la structure d une

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Présentation des algorithmes génétiques et de leurs applications en économie

Détermination du besoin en protéines de la canette mulard en phase de démarrage :

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Combinaison de modèles phylogénétiques et longitudinaux pour l analyse des séquences biologiques : reconstruction de HMM profils ancestraux

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Une application des algorithmes génétiques à l ordonnancement d atelier

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

NUTRINEAL MC PD4 MONOGRAPHIE. Solution d acides aminés à 1,1 % pour la dialyse péritonéale. Solution pour dialyse péritonéale

Différentes opérateurs évolutionnaires de permutation: sélections, croisements et mutations

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Traitement bas-niveau

Production de Protéines d Organismes Unicellulaires Cultivés sur Corn Steep Liquor et Evaluation Nutritionnelle de la Biomasse

Chaînes de Markov au lycée

Tableau récapitulatif : composition nutritionnelle de la spiruline

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

MABioVis. Bio-informatique et la

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Conversion d un entier. Méthode par soustraction

Big Data et Graphes : Quelques pistes de recherche

La classification automatique de données quantitatives

Représentation des Nombres

Statistique : Résumé de cours et méthodes

Cisco Certified Network Associate

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Les techniques de multiplexage

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

Introduction au Data-Mining

Téléinformatique. Chapitre V : La couche liaison de données dans Internet. ESEN Université De La Manouba

4.2 Unités d enseignement du M1

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Statistiques Descriptives à une dimension

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Algorithme. Table des matières

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

Introduction à MATLAB R

Outils pour les réseaux de neurones et contenu du CD-Rom

Insulinothérapie et diabète de type 1

Université de La Rochelle. Réseaux TD n 6

Analyse dialectométrique des parlers berbères de Kabylie

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

Plus courts chemins, programmation dynamique

2. Couche physique (Couche 1 OSI et TCP/IP)

Programmation temps-réel Cours 1 et 2 Introduction et ordonnancement

Les clients puissance cube

Séries Statistiques Simples

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

DM 1 : Montre Autoquartz ETA

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

DOSSIER SCIENTIFIQUE DE L IFN N 9 LES PROTEINES

Apprentissage Automatique

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Exercices Corrigés Premières notions sur les espaces vectoriels

II. REVOD Plongée à l ordinateur. Septembre Plan de l exposé

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction au datamining

Programmation C. Apprendre à développer des programmes simples dans le langage C

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Logiciel XLSTAT version rue Damrémont PARIS

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Gestion des Clés Publiques (PKI)

CENTRE INTERNATIONAL D ETUDES SUPERIEURES EN SCIENCES AGRONOMIQUES MONTPELLIER SUPAGRO THESE. Pour obtenir le grade de

Travailler avec les télécommunications

Développement itératif, évolutif et agile

Figure 3.1- Lancement du Gambit

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

SERIE 1 Statistique descriptive - Graphiques

Big Data et Graphes : Quelques pistes de recherche

23. Interprétation clinique des mesures de l effet traitement

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Modélisation aléatoire en fiabilité des logiciels

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

CHAPITRE 3 LA SYNTHESE DES PROTEINES

ISO/CEI NORME INTERNATIONALE

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Précision d un résultat et calculs d incertitudes

FONCTION DE DEMANDE : REVENU ET PRIX

Annexe commune aux séries ES, L et S : boîtes et quantiles

Modélisation multi-agents - Agents réactifs

Transcription:

Prédiction de la Structure des Protéines Hélène TOUZET touzet@lifl.fr

Structure Structure Structure Structure primaire secondaire tertiaire quaternaire

Exemple : la structure secondaire de la transthyretine (homme) GPTGTGESKCPLMVKVLDAVRGSPAINVAVHVFRKAADDTWEPFASGKTSESGELHGLTTEEQFVEGIYKVEI EEEEEEE EE EEEEEEE EEE EEEE EE EEEEEEE DTKSYWKALGISPFHEHAEVVFTANDSGPRRYTIAALLSPYSYSTTAVVTN HHHHHH EEEEEEE EEEEEEEEE EEEEEEEEE E : feuillet β, H : hélice α

Diagramme de Ramachandran: de la 2D à la 3D graphe des angles de torsion ψ (liaison Cα - C) et φ (liaison N-Cα). amplitudes observées hélice α droite feuillet β hélice α gauche 60 < ψ < +30 120 < φ < 30 +90 < ψ < +180 180 < φ < 60 0 < ψ < +60 +45 < φ < +90

diagramme de Ramachandran

Algorithmes de prédiction de structures secondaires Approche statistique : Méthode de Chou Fasman Par apprentissage : Réseaux de neurones Par homologie : Repliement inverse Par optimisation : Algorithmes génétiques NB : l approche thermodynamique n est pas fructueuse

Méthode de Chou-Fasman (1974) Exploiter la répartion non uniforme des acides aminés dans les structures d hélice α ou de feuillet β. Pour chaque acide aminé sont déterminés empiriquement des coefficients reflétant la propension de l acide aminé pour une hélice α, un feuillet β... P (h) propension à figurer dans une hélice α, P (f) propension a figurer dans un feuillet β

P(h) P(f) Alanine 142 83 Arginine 98 93 Aspartic Acid 101 54... Asparagine 67 89 Cysteine 7 119 Glutamic Acid 151 037 Glutamine 111 11 Glycine 57 75 Histidine 10 87 Isoleucine 108 16 Leucine 121 13 Lysine 114 74 Methionine 145 105 Phenylalanine 113 138 Proline 57 55 Serine 77 75 Threonine 83 119 Tryptophan 108 137 Tyrosine 69 147 Valine 106 17

Règles pour une hélice α Identifier les régions de 6 résidus consécutifs pour lesquelles 2/3 des résidus satisfont P (h) > 100 étendre ces régions dans les deux directions, jusqu à atteindre 4 résidus consécutifs de P (h) moyen < 100 les régions pour lesquelles P (h) > P (f) sont déclarées hélice α. Règles pour un feuillet β Identifier les régions de 5 résidus consécutifs pour lesquelles trois résidus au moins satisfont P (f) > 100 étendre ces régions les régions pour lesquelles P (f) > 105 et P (f) > P (h) sont déclarées feuillets β. Résultat : 60% de correction

Réseaux neuronaux (Qian & Sejnowski - 1988) I S L S A D Q I S T V Q A S F D K?? hélice / feuillet / boucle??

Réseau feed-forward, totalement connecté couche d entrée couche cachée couche de sortie Couche d entrée : 17 nœuds ( ou 21 nœuds) Taille de la fenêtre centrée autour de l acide aminé 1 Couche cachée : 5 nœuds Couche de sortie : 3 nœuds (hélice / feuillet / boucle)

Codage des informations Format unaire Un acide aminé : vecteur de taille 21 20 acides aminé + un symbole de terminaison Alanine 10000000000000000000 Cystéine 01000000000000000000... Entrée : taille 17 21 Sortie : winner-takes-all

Apprentissage Apprentissage supervisé (back propagation, scaled conjugate gradients) Cible : 100, 010, 001 Une centaine de séquences protéiques non apparentées soit environ 15 000 paires d apprentissage

Évolution du modèle - PHD (Rost & Sander - 1994) Utiliser des familles de protéines partageant la même structure Un alignement multiple par famille Paire d apprentissage motif : extrait d un alignement multiple cible : hélice / feuillet / boucle Codage d une position de l alignement : ligne de la matrice des fréquences 70 % de correction de la prédiction

Repliement inverse de protéine threading, inverse folding Dans PDB, toutes les protéines avec plus de 25% d identité partagent la même structure. Faire correspondre la séquence avec la structure de protéines homologues connues. Données un modèle structural une fonction de score une séquence dont on veut déterminer la structure (2D ou 3D) Résultat Meilleur alignement entre le modèle et la séquence ( enfilage )

Évolution du nombre de structures répertoriées dans PDB

Modèle structural éléments de la structure secondaire coordonnées dans l espace (PDB) Fonction de score Propriétés physico-chimiques Bowie et al. - 1991 Potentiel de force moyenne Sippl et al. - 1995 Correction : proche de 100% quand les séquences sont identiques à plus de 25%, moins de 40% quand les séquences sont des homologues distants

aliphatiques I L V C A G G T S D P petits très petits positifs M F Y W H K R E Q non polarisés aromatiques chargés polarisés Principales classes d acides aminés

Les algorithmes génétiques Problème d optimisation : Trouver une solution qui minimise un coût, une distance, maximise un score, etc., sous contraintes Exploration probabiliste de l espace des solutions Création d un ensemble initial de solutions potentielles arbitraires Évolution de l ensemble par itérations successives solution potentielle = individu ensemble d individus = population nouvelle population = génération

Exemples une fonction f : IN IN à maximiser individu = entier voyageur de commerce individu = tournée dans le graphe sac à dos individu = sélection d objets ordonnancement individu = affectation

Le passage d une génération à l autre se fait par sélection des individus les plus adaptés, puis par reproduction.

Les algorithmes génétiques: l orthodoxie (Holland, De Jong - 1975) le problème à traiter est vu comme une boite noire codage des données par des chaînes binaires transitions probabilistes

Construction de la génération intermédiaire Étape 1 : évaluation des individus fonction d objectif d un individu i : f i Dépend du problème : valeur de la fonction à maximiser, coût d une tournée, poids d une affectation, temps global d une exécution, etc. fonction d adéquation de l individu (fitness) f i moyenne des f

Étape 2: sélection des individus de manière probabiliste en fonction de leur adéquation Sélection simple individus 0 0 0 1 10 11 adéquations 0.3 0.8 1.7 1.2 11 00 01 10 On tourne la roue autant de fois que l on veut d individus. À chaque tirage, un individu est sélectionné avec une probabilité proportionnelle à son adéquation.

Sélection avec reste probabiliste 11 00 01 10 Les bords de la roue sont marqués à intervalles réguliers d autant de repères que l on souhaite d individus. Un unique tirage.

Création de la génération t+1 Application d opérateurs probabilistes croisement: 2 parents 2 enfants Exemple: croisement en 1 point, en 2 points mutation: 1 individu 1 individu Exemple: modification aléatoire d un bit Conditions d arrêt : convergence

Mise en pratique kit heuristique universel Peut s appliquer à tous les problèmes d optimisation, y compris les problèmes NP-complets, sans analyse particulière du problème pas de garantie Aucune prédiction sur le comportement de l algorithme ou sur la qualité du résultat n est possible. souvent très lent Il ne faut pas avoir recours à un algorithme génétique si une méthode exacte efficace existe l approche brute est souvent peu fructueuse Ajouter des opérateurs spécifiques, changer la représentation des données Algorithmes évolutionnaires, hybrides

Application à la prédiction de structures Le Modèle HP classification des acides aminés: H hydrophobe, P hydrophile (polarisé) repliement: interactions hydrophobes discrétisation de l espace 6 directions de déplacement

Enoncé du problème Donnée: une séquence sur {H, P } Question: quel est le chemin sans croisement qui maximise le nombre de contacts entre acides aminés hydrophobes? NP-complet

HHHPPHPHPHPPHPHPHPPH

Notations absolues et relatives

Combien de mutations?