Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine.

Documents pareils

INF6304 Interfaces Intelligentes

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Identification de nouveaux membres dans des familles d'interleukines

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Introduction au maillage pour le calcul scientifique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Spécificités, Applications et Outils

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

CHAPITRE 3 LA SYNTHESE DES PROTEINES

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

MABioVis. Bio-informatique et la

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

1 Modélisation d être mauvais payeur

données en connaissance et en actions?

La classification automatique de données quantitatives

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

TD1 Signaux, énergie et puissance, signaux aléatoires

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Introduction au datamining

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Détection et prise en charge de la résistance aux antirétroviraux

Que fait SAS Enterprise Miner?

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Utilisation du module «Geostatistical Analyst» d ARCVIEW dans le cadre de la qualité de l air

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Quantification Scalaire et Prédictive

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

TP N 57. Déploiement et renouvellement d une constellation de satellites

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Etude ECDL 2015 : Autoévaluation et connaissances réelles en informatique de la population suisse

SysFera. Benjamin Depardon

DATA ANALYTICS Des données aux connaissances et à la création de valeur

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Génétique et génomique Pierre Martin

Que faire lorsqu on considère plusieurs variables en même temps?

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Régionalisation des régimes de perturbations et implications pour l aménagement dans un contexte de changement climatique

Système immunitaire artificiel

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Limitations of the Playstation 3 for High Performance Cluster Computing

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

MATHÉMATIQUES. Mat-4104

SOUS TITRAGE DE LA WEBÉMISSION DU PROGRAMME DE MATHÉMATIQUES 11 e ET 12 e ANNÉE

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Analyse de la variance Comparaison de plusieurs moyennes

Exemples de dynamique sur base modale

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Les technologies du Big Data

L apprentissage automatique

Transmission d informations sur le réseau électrique

Projet de Traitement du Signal Segmentation d images SAR

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Vers une Optimisation de l Algorithme AntTreeStoch

4 Exemples de problèmes MapReduce incrémentaux

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Annexe commune aux séries ES, L et S : boîtes et quantiles

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Complexité et auto-organisation chez les insectes sociaux. Complexité et auto-organisation chez les insectes sociaux

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

L axe 5 du Cancéropole Nord Ouest

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Géométrie Algorithmique Plan du cours

Problèmes de dénombrement.

: seul le dossier dossier sera cherché, tous les sousdomaines

Les nouveautés de Femap 11.1

Une fréquence peut-elle être instantanée?

ÉTUDE SUR L EFFICACITÉ DES PNEUS D HIVER EN ÉTÉ RÉALISÉE PAR CAA-QUÉBEC

Fast and furious decision tree induction

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

TP 7 : oscillateur de torsion

Systèmes de transmission

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Transcription:

Utilisation des diagrammes de Voronoï et des algorithmes génétiques pour l'étude des complexes protéine-protéine. Anne Poupon Biologie et Bioinformatique des Systèmes de Signalisation INRA - Nouzilly France

Pourquoi la structure 3D est-elle importante? La fonction d une protéine dépend de sa structure 3D. ADN polymerase

Comment déterminer expérimentalement la structure 3D? +IPTG

Comment déterminer expérimentalement la structure 3D? Quelques semaines, taux de succès : 4,5 %.

Les complexes protéine-protéine Les complexes protéine-protéine sont partout! Une large proportion des protéines accomplissent leur fonction à travers l interaction avec d autres macromolécules. Mais la détermination expérimentale de la structure 3D de l assemblage est au mieux difficile! Exemple : complexe GP120 (HIV) - CD4 (surface des lymphocytes T4)

Les complexes protéine-protéine Si on pouvait empêcher l interaction entre GP120 et CD4, il serait peutêtre possible d empêcher la pénétration du virus dans le lymphocyte.

Les complexes protéine-protéine Souvent plusieurs semaines de travail, succès : 1,8%.

Détection expérimentale 4416 complexes on été observés dans la levure Très faible recouvrement entre les méthodes (50) Beaucoup de complexes ne sont pas suffisemment stables Reguly et al. LC - 3307 Tarassov et al. PCA - 1124 599 479 963 Gavin et al. TAP - 3007 Ito et al. Y2H - 1830 155 304 662 405 86 46 288 74 305 50

Modélisation des complexes protéine-protéine La fiabilité des méthodes expérimentale n est pas suffisante. Pour explorer l interactome, il faudrait essayer «tout contre tout», soit environ 4 millions de couples pour la seule levure. Pas accessible à l expérience Il faut prédire la structure 3D des complexes. Même par modélisation, cela représente un défi puisque le temps de calcul pour un couple devra être de l ordre de la seconde. De plus, la précision doit être très bonne

Modélisation des complexes protéine-protéine Si 10 solutions par couple sont explorées (expérimentalement), seulement 1 solution sur 30 est correcte. Si on explore 10 solutions par couple pour 20 couples, on aura une solution correcte seulement pour 7 couples. Pas acceptable!!!

Modélisation des complexes protéine-protéine Principe : étant données les structures 3D de 2 protéines A et B, quelle est la meilleure conformation possible pour l assemblage? Est-elle suffisamment bonne pour que le complexe existe in vivo? Le problème est généralement traité en deux étapes successives : une échantillonnage des conformations possibles est généré (plusieurs millions) une fonction d évaluation permet de classer les conformations S1 S2 S3 Meilleure solution

Le diagramme de Voronoï

Le diagramme de Voronoï

Le diagramme de Voronoï

Le diagramme de Voronoï La région verte est la cellule de Voronoï du centroïde.

Le diagramme de Voronoï Le diagramme de Voronoï est un pavage.

Le diagramme de Voronoï Les voisins peuvent être définis de manière non-ambiguë.

Le diagramme de Voronoï d une protéine On choisit un noeud par acide aminé. Noeud : centre géométrique de la chaîne latérale Noeud : Cα

Le diagramme de Voronoï d une protéine 1 - Chaque acide aminé est remplacé par un centroïde 2 - Chaque centroïde est remplacé par sa cellule L objet ainsi construit est moins précis que la structure atomique, mais plus «computer-friendly», et moins sensible à la flexibilité des chaînes latérales.

Génération des conformations Remplacer les acides aminés par les noeuds Calcul de la triangulation de Delaunay Pour chaque noeud on calcule un vecteur «normal» à partir des positions des voisins, et de longueur fixe Pour chaque paire de nœuds, on superpose les extrémités des vecteurs, on les aligne, on fait une rotation suivant l axe.

Génération des conformations Il y a bien de «bonnes» solutions dans celles qui sont générées. Cette méthode génère de l ordre de 1 million de conformations.

Paramètres On «observe» l interface entre les deux partenaires dans des complexes natifs et des complexes non-natifs. On mesure différents paramètres : fréquence des AA volumes occupé fréquence des paires... Puis apprentissage machine

Algorithme génétique On utilise un algorithme génétique qui optimise l aire sous la courbe de ROC. S = Σ ω x - c i i i i Initialisation Sélection des 20 meilleurs dans les 200+20 20 parents (w,..., w, c,..., c ) 1 n 1 n Stop? 20O enfants Sélection sur l adaptation mutation, croisement Fonction de score

L amarrage protéine-protéine Ecart quadratique moyen Presque aléatoire Vrais positifs SVM (support vector machine) Aire 0,85 ROGER (algorithme génétique) Aire 0,98 Et surtout, beaucoup de vrai positifs dans les solutions les mieux classées. Faux positifs Bernauer et al. (2005) actes de JOBIM 2005 ; Bernauer et al. (2007) Bioinformatics

Le problème des volumes Le diagramme de Voronoï n est pas pondéré. Les volumes des petits aa sont sur-estimés, ceux des gros aa sont sous-estimés.

Le problème des volumes Utilisation d un diagramme de Laguerre

Le problème des volumes

Le problème des volumes

Le cœur et la couronne On mesure les paramètres seulement sur le cœur de l interface. Problème : beaucoup de valeur manquantes!

Le cœur et la couronne On mesure les paramètres seulement sur le cœur de l interface. Problème : beaucoup de valeur manquantes!

Le cœur et la couronne On mesure les paramètres seulement sur le cœur de l interface. Problème : beaucoup de valeur manquantes! Intégration des résidus de la couronne. Test sur les cibles CAPRI.

Partitionnement Les données d apprentissage sont très hétérogènes. On va essayer de faire des groupes plus homogènes. On utilise des paramètres qui mesurent l entropie de la surface. Clustering selon la distance (cosinus). Pour chaque structure native, on agrège toutes les structures natives ayant un cosinus > 0,96. Pour 211 structures natives, on construit 169 clusters ayant plus de 20 membres.

Partitionnement

Partitionnement On apprend une fonction de score sur chaque cluster. Une conformation donnée est évaluée seulement dans les clusters dont elle est proche (cosinus > seuil) <rang> : rang moyen <cos> : cosinus moyen C4 = <rang>. [(1-seuil)/(1-<cos>)] 4

Partitionnement Rang de la première conformation au moins acceptable Seuil Jeu Cible 0.99 0.98 0.975 0.97 global ***/**/*/Total 22 1 1 1 1 4 32 / 27 / 96 / 272 23 3 1 1 1 2 22 / 37 / 287 / 386 24 8 2 4 7 60 0 / 0 / 4 / 100 25 4 8 8 10 25 12 / 3 / 12 / 701 26 1 1 1 1 2 680 / 48 / 117 / 1567 27_1 4 2 2 2 4 61 / 81 / 183 / 1490 27_2 1 1 1 1 1 499 / 131 / 106 / 1490 28 5 9 4 8 5 23 / 56 / 180 / 1573 29 14 5 6 7 17 65 / 85 / 79 / 2187 32 4 2 2 1 4 1 / 11 / 177 / 599

Conclusion et perspectives On classe une bonne solution dans le top 10 dans tous les cas! La méthode peut encore être améliorée, on doit pouvoir atteindre le top 5. Différentes pistes : Elargir le jeu d apprentissage Améliorer le partitionnement Optimisation des fonctions de score : essayer d autres types de fonctions, d autres fonctions d évaluation dans l algorithme génétique Améliorer la combinaison des scores obtenus dans les différentes partitions Le temps de calcul reste trop long (quelques heures à quelques jours pour un couple de protéines). Deux pistes : Parallélisation Heuristique

Remerciements Joël Janin Julie Bernauer Thomas Bourquard Jérôme Azé Christine Froidevaux Frédéric Cazals Mariette Yvinec Jean-Daniel Boissonat Alexandre Bonvin