Dr. Christophe Geourjon

Documents pareils

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Prédiction de la structure d une

Identification de nouveaux membres dans des familles d'interleukines

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

MABioVis. Bio-informatique et la

UE6 - Cycle de vie du médicament : Conception rationnelle

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Perl Orienté Objet BioPerl There is more than one way to do it

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

La presse plieuse de référence

Big data et sciences du Vivant L'exemple du séquençage haut débit

LE RESEAU Ce réseau est issu de l'identification et de la formation de personnes et d'équipes ressources en numérisation.

PLATE-FORME DE MICROSCOPIE ÉLECTRONIQUE À TRANSMISSION

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

L utilisation du lidar terrestre en foresterie. Richard Fournier Département de géomatique appliquée

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau

Transmission d informations sur le réseau électrique

données en connaissance et en actions?

Conception de Médicament

NetCrunch 6. Superviser

Capacité étendue d utilisation en réseau

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

Système combiné pour cloisons WEK 120

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

TP N 3 La composition chimique du vivant

Introduction au Data-Mining

Item 169 : Évaluation thérapeutique et niveau de preuve

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Introduction au Data-Mining

UNIVERSITE DE BREST Référence GALAXIE : 4201

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Big Data et Graphes : Quelques pistes de recherche

Release Notes POM v5

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS Lyon

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

IBM Tivoli Monitoring, version 6.1

Echantillonnage Non uniforme

Présentation. Pour. Gilles ALAIS, Country Manager Barloworld Supply Chain Software France 20 Rue des Petits Hôtels, Paris

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Procédure pas à pas de découverte de l offre. Service Cloud Cloudwatt

Document de synthèse. Étude comparative du coût total des systèmes de vidéosurveillance IP et analogiques

CHARTE INFORMATIQUE LGL

Système de sécurité de périmètre INTREPID

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

ANALYSE SPECTRALE. monochromateur

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Plateforme WikiJob spécifications

Big Data et Graphes : Quelques pistes de recherche

Mesure agnostique de la qualité des images.

Mesures et incertitudes

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Introduction de la journée

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Physiopathologie : de la Molécule à l'homme

LES FONCTIONS DE SURVEILLANCE DES FICHIERS

IMO - Informatique, modélisation et optimisation

Alcatel OmniPCX Office

CTP 3.0 Logiciel de pesage orienté réseau

BROSSES ANTISTATIQUES GUIDE TECHNIQUE

Programme consultant expert (PCE)

UviLight XTW Spectrophotomètre UV-Vis

Structure quantique cohérente et incohérente de l eau liquide

Utiliser un tableau de données

Mathématiques I Section Architecture, EPFL

Que souhaitent les Administrateurs Système?

le nouveau EAGLEmGuard est arrivé. Dissuasion maximum pour tous les pirates informatiques:

Bibliographie Introduction à la bioinformatique

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Introduction au datamining

Calcul intensif pour la biologie

Introduction aux bases de données: application en biologie

INF6304 Interfaces Intelligentes

Les Français et le chauffage. Résultats de l étude menée

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

Compte-rendu re union Campus AAR 3 mars 2015

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Campus Numérique. Université du Travail. Systèmes de communication, sécurité, d un Campus Numérique Académique. 24 mai Guy Leroy - Vincent Dewez

INTÉRÊT DU SCANNER 3D DANS LA MESURE DE L'ANTÉVERSION DES COLS FÉMORAUX

Guide de rédaction d un protocole de recherche clinique à. l intention des chercheurs évoluant en recherche fondamentale

Système d automation TROVIS 6400 Régulateur compact TROVIS 6493

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Eco-système calcul et données

Profil d études détaillé. Section : Informatique et systèmes Finalité : Technologie de l informatique

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Réseau Global MIDI Note applicative

LABORATOIRES DE CHIMIE Techniques de dosage

Suivi d une réaction lente par chromatographie

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

pka D UN INDICATEUR COLORE

Transcription:

Prédiction de la structure 3D Dr. Christophe Geourjon Pôle de BioInformatique Lyonnais PBIL - Site de Lyon-Gerland IBCP - CNRS UMR 5086 Bioinformatique et RMN structurales 7, passage du Vercors 69367 Lyon cedex 07 Tél: +33 (0)4-72-72-26-47 E-mail : Site Web : pbil.ibcp.fr

Conservation de la structure 1D, 2D et 3D 1AJJ : LDL receptor 1CR8 : Low Density Lipoprotein Receptor Related Protein 10 20 30 40.............. 1.pdb1ajj.ent P--CSAFEFHC-LSGECIHSSWRCDGGPDCKDKSDEENCA-- 37 2.pdb1cr8.ent PGGCHTDEFQCRLDGLCIPLRWRCDGDTDCMDSSDEKSCEGV 42 Primary cons. PGGC222EF2CRL2G2CI222WRCDG22DC2D2SDE22C2GV Homology * * : **:* *.* ** *****..** *.***:.* 50 % d identité de séquence Ecart quadratique moyen (CA des résidus conservés) : 1,6A

Conservation de la structure 2D et 3D 16 % d identité de séquence et une topologie conservée En dessous de 30% d identité, la structure est plus conservée que la séquence, ceci est vraie également des structures secondaires. Mais ceci n est pas systématique

Prédiction de structure 3D Modélisation par homologie 2 protéines qui ont plus de 30% d'identité de séquences ont 80% de leurs Cα superposables avec un écart quadratique moyen de 1 Å (RMSD=1Å) Outils de modélisation moléculaire GENO3D Modélisation par analogie 2 protéines qui ont la même fonction et une topologie «probablement» identique en dépit de l'absence de similarité importante (arguments expérimentaux ou de structures secondaires). Threading Outils de modélisation moléculaire GENO3D Une séquence est testée sur une librairie de repliements pour déterminer sa compatibilité structure-séquence probable, méthode d alignement séquencestructures tridimensionnelles. Ab initio Structure directement déduite de la séquence à partir de règles empiriques.

Geno3D : Serveur Web de modélisation moléculaire Cahier des charges Générer des modèles 3D à partir d une empreinte 3D y compris à bas taux d identité de séquence. Pouvoir inclure dans ce processus des informations expérimentales. Pouvoir imposer à certaines régions de la protéine une structure secondaire donnée. Pouvoir supporter en entrée des informations floues. Générer un jeu de modèles (estimation de qualité séquentielle). Notion de haute débit Notion d automatisation (critères qualitatifs) Moyen Modélisation moléculaire globale sous contraintes (distances et angles dièdres) du même type que celle mise en œuvre dans le processus de modélisation moléculaire sous contraintes RMN. Dans ce cas les contraintes sont déduites à partir de la ou des structures empreintes et des alignements de séquences. Ces informations sont par la suite utilisées dans un protocole de géométrie des distances (reconstruction globale de la structure 3D) Possibilité d inclure des informations externes. Moteur de mécanique moléculaire : CNS. Génération d un faisceau de structure 3D.

Geno3D : Différentes étapes Prédiction structures secondaires Alignement(s) protéine-empreinte Contraintes distances et angles dièdres Géométrie des distances Données expérimentales Dynamique moléculaire Sous contraintes Minimisation d énergie Dynamique moléculaire Minimisation d énergie Validation des modèles (satisfaction des contraintes, stéréochimie, énergie) Superposition des modèles

Méthode Geno3D Version 2.0 Système automatique de modélisation de la structure 3D des protéines par homologie et analogie. Disponible sur le Web : http://geno3d-pbil.ibcp.fr (111 784 soumissions) Utilisé à grande échelle (modélisation de l ensemble des protéines d un protéome). En moyenne 15% des requêtes aboutissent à la prédiction d une structure 3D (seuil pour la construction du modèle fixé à 25% d identité entre la protéine à modéliser et la ou les empreintes).

Recherche d homologues distants Recherche de similarité (pdb_select_25 versus pdb_select_95) Sélection des fragments 10%<identité<50% gap <10% longueur > 100AA Classification selon FSSP en «apparenté» ou «non apparenté» Pourcentage de confiance (%) 100 80 60 40 20 0 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 Identité (%) Ssearch (E=10) Nécessité d utiliser une autre source d informations

Utilisation des prédictions de structures secondaires 15,9% identité ; Protéines apparentées (FSSP : RMSD = 2,3A ; Z-score = 19,9) 1auq 1ido 16% identité ; Protéines non apparentées 1ai7-A 1jac-A helix α β sheet

Mesure de l accord entre les structures secondaires Sov Sov coefficient (Structural Overlap) (Rost et al., 1994 ; Zemla et al., 1999) Sov 100 x 1 N [ H,E,C] minov(sq,s t) + δ(s maxov(sq,s ),s t) = x len(sq) i S(i) t q minov : longueur de la structure secondaire chevauchante entre la source S q et la cible S t maxov : longueur maximale des structures secondaires chevauchantes entre la source S q et la cible S t minov maxov δ est défini par : δ ( Protéine 1 Protéine 2, sq st (maxov(sq,s t) minov(sq,s t));minov(s ) = min int(len(sq/2));int(len(s t/2) q,s t);

Utilisation des prédictions de structures secondaires 15,9% identité ; Protéines apparentées (FSSP : RMSD = 2,3A ; Z-score = 19,9) 1auq Sov = 81 1ido 16% identité ; Protéines non apparentées Sov = 9 1ai7-A 1jac-A helix α β sheet Les prédictions de structures secondaires permettent donc de valider des similarités de séquence à bas taux d identité. Annotation fonctionnelle

Détection d empreintes d pour la modélisation à faible taux d identitd identité Compatibilité des structures secondaires prédites (SOV) en % 100 90 80 70 60 50 40 30 20 10 0 Paires non-homologues 0 10 20 30 40 50 60 Sov seuil = 55-60% Paires homologues Modélisation moléculaire Identité de séquence après alignement Identification of related proteins with weak sequence identity using secondary structure information Geourjon, C. Combet, C, Blanchet, C & Deléage G Protein Science (2001) 10, 788-797

1auq 1ido Exemple : modélisation à faible taux d identité : A1 domain of Von Willebrand factor : Integrin CR3 10 20 30 40 50 60.................. 1.1auq DLVFLLDGSSRLSEAEFEVLKAFVVDMMERLRISQKWVRVAVVEYHDGSHAYIGLKDRKR.predicted ceeeeeeeecccchhhhhhhhhhhhhhhhcccccccccceeeeeeccceeeeeccccccc 2.1ido DIAFLIDGSGSIIPHDFRRMKEFVSTVMEQLKKSK--TLFSLMQYSEEFRIHFTFKEFQN.predicted ceeeeeecccccchhhhhhhhhhhhhhhhhccccc??cceeeeeeccceeeeechhhhhh Homology *:.**:***. : :*. :* ** :**:*: *:..::::* : : :: :*: :. 70 80 90 100 110 120.................. 1.1auq PSELRRIASQVKYAGSQVASTSEVLKYTLFQIFSKIDRPEASRIALLLMASQ-EPQRMSR.predicted hhhhhhhhhccccccccccchhhhhhhhhhcccccccccccceeeeeeeccc?cchhhhc 2.1ido NPNPRSLVKPITQLLGRTHTATGIRK-VVRELFNITNGARKNAFKILVVITDGEKFGDPL.predicted ccchhhhhccccccccccchhhhhhh?hhhhccchhhccccccceeeeeeecccceeccc Homology.: * :.. :..:. ::: : *.: ::*. :... : :*:: :: *. 130 140 150 160 170 180.................. 1.1auq NFVRYVQGLKKKKVIVIPVGIG----PHANLKQIRLIEKQAPENKAFVLSSVDELEQQRD.predicted chhhhhhhhhhcceeeeeeeec????cccchhhhhhhhhhcccccceeecchhhhhhhcc 2.1ido GYEDVIPEADREGVIRYVIGVGDAFRSEKSRQELNTIASKPPRDHVFQVNNFEALKTIQN.predicted chhhhhhhhhhcceeeeeeeccccccchhhhhhhhhhcccchhhheeeccccchhhhhhh Homology.: :.:: ** :*:*... :::. *.:.*.::.* :...: *: :: 15,9 % d identité ; Blast E-value = 0,05 ; Sov = 81,7

Geno3D : Résultat de la modélisation Insertion 110 Insertion 140-143 Hélice α Délétion 36-37 Brin β Les structures géométriquement correctes, sans violation des contraintes introduites. «Energie» = -547 kcal mol -1 ; «Rmsd» = 0,36Å Rmsd par rapport à la structure expérimentale (rayons X) : 3,3 Å

3D-Crunch : validation statistique à grande échelle Stratégie mise en oeuvre Modélisation moléculaire à bas taux d identité (entre 10 et 35% d identité) des 1 315 protéines représentatives de l ensemble des protéines de structure 3D connues. (pdb 25%) Pour chacune de ces entrées nous avons réalisé une recherche de similarité sur la banque PDB avec le programme PSI-BLAST (maximum 5 itérations). Nous avons sélectionné les empreintes possibles présentant seulement entre 10 et 35% d identité de séquence (région délicate pour la modélisation moléculaire) soit un total de 5 390. La modélisation de l ensemble de ces modèles a été effectuée sur la ferme de PC sous Linux (382 cpu) du centre de calcul de l IN2P3 sur le campus de La Doua à Villeurbanne. Ceci a nécessité 7 881 heures de calcul.

Résultats (1) 450 400 350 300 250 200 150 100 50 0 0 5 10 15 20 25 30 35 40 3000 2500 2000 1500 1000 Répartition Z-score Analyse qualitative des modèles générés réalisée en utilisant le logiciel DALI (Holm & Sander, 1998). Chaque modèle a été comparé à la structure expérimentale. Dans 5110 cas (96%) les modèles possèdent une similarité structurale avec la structure expérimentale, 94% ont un rmsd (au niveau de la chaîne principale) inférieur à 5Å et peuvent donc être considéré comme pertinents. Globalement, le taux de succès de ce test à grande échelle et à bas taux d identité est donc de 90% (66% à 3Å). 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Utilisable pour des applications en biologie et chimie. Répartition rmsd

Résultats (2) 70,00 60,00 50,00 40,00 10 à 35% d identité 10 à 20% d identité 20 à 35% d identité 65 58 52 70,00 60,00 50,00 40,00 10 à 35% d identité 10 à 20% d identité 20 à 35% d identité 67 65 66 30,00 30,00 20,00 20,00 10,00 10,00 0,00 rmsd>5 1 5<rmsd>4 2 4<rmsd>3 3 3<rmsd>2 4 2<rmsd 5 0,00 rmsd>5 1 5<rmsd>4 2 4<rmsd>3 3 3<rmsd>2 4 2<rmsd 5 Sans utilisation de l information Sov Avec utilisation de l information Sov (seuil fixé à 60%) Utilisable pour des applications en biologie (mutagénèse dirigée, immunologie), en biologie structurale (remplacement moléculaire) et dans les cas les plus favorables pour l étude d interaction avec des ligands. En utilisant l information des prédictions de la structure secondaire, le taux de prédiction sur le serveur Geno3D atteint presque 40% des requêtes.

Serveur Geno3D : exemple d application 9Possibilité d utiliser plusieurs empreintes plus ou moins chevauchantes. Modélisation par domaines ou sous domaines. Protéine a modéliser Empreintes possibles (Cas 1) ¾Exemple : Modélisation d un membre de la famille des transporteurs ABC (collaboration avec Dr. Jean Michel Jault, CEA Grenoble) MsbA : Transporteur de lipides (E. coli) Domaine de fixation de nucléotides Régions non résolues par cristallographie

Geno3D : Bilan Bonne fiabilité y compris à bas taux d identité Possibilité d avoir une estimation de la qualité du modèle obtenu. Ne pas introduire d a priori au niveau des «gaps» et insertions dans l alignement. Possibilité de modéliser des dimères ou trimères Possibilité de modéliser des protéines par domaines (notion de logo moléculaire) Possibilité d inclure les ligands (géométriquement puis minimisation) Disponible sur le Web pour les académique : http://geno3d-pbil.ibcp.fr Disponible également sur serveur sécurisé Automatisation en cours (fonction de scoring) Utilisation dans le cadre de modélisation moléculaire à grande échelle (protéome complet). Programme GENOPLANTE Arabidopsis thaliana. Possibilité de combiner des données provenant de protéines proches (séquences ou fonctions) mais aussi des données expérimentales ou théorique du type : Ponts di-sulfure, Ponts salins, Interaction entre les brins β Dans la suite du programme nous souhaitons augmenter de manière très significative le taux de génération de modèles 3D grâce à l utilisation de modèle d apprentissage coopératif pour la classification, l extraction de la structure prototype et la prédiction de la structure 3D Geno3D: Automatic comparative molecular modelling of protein C. Combet, M. Jambon, G. Deléage & C. Geourjon Bioinformatics, 2002, 18, 213-214

Utilisation d un jeu de distance pour rechercher dans la banque de structures 3D les protéines de même repliement Travaux menés sur des données expérimentales (spectrométrie de masse), mais utilisable aussi avec des données théoriques du type : -Ponts di-sulfure -Ponts salins -Interaction entre les brins β

Séquence de la protéine Séquence d intérêt de la protéine d intérêt Analyse de séquence Recherche Analyse de protéines de homologues séquence Alignement multiple Prédiction des structures secondaires Alignement Données Données expérimentales expérimentales Réticulation chimique Réticulation chimique Protéolyse Protéolyse Identification des peptides par SM Identification des peptides liés par SM Contraintes de distances Contraintes de distances Distances ambiguës Version 1 Banque de données structurale (banque PDB) Banque Familles de données structurales structurale (banque PDB) Génération d une base de données des familles Pré-traitement structurales selon de FSSP la (DALI) PDB Recherche des segments conservés Génération Construction d une des base matrices de données de distances des matrices de pour distances chaque entre famille les acides sur le aminés cœur structural Retour à l expérience Spécificité différente des agents réticulants Longueur du bras espaceur différente Utilisation d une protéine homologue (au niveau expérimental) Recherche des hits pour lesquels les distances correspondent Génération de toutes les combinaisons de contraintes en fonction de du cœur l alignement structural de séquence des protéines homologues Criblage de la la base de donnée des matrices de distances Filtrage grâce Filtrage aux des contraintes résultats ambiguës Pourcentage de Filtrage structure secondaire des résultats moyen Hydrophobie, Accessibilité au solvant, Amphiphilie, Flexibilité Pourcentage de structure secondaire moyen Sélection Hydrophobie, des hits les Accessibilité plus représentés au solvant, Amphiphilie, pour chaque Flexibilité empreinte Construction des histogrammes pondérés des positions trouvées selon leur Sélection des hits les plus représentés pour chaque empreinte occurrence Construction des histogrammes pondérés des positions trouvées selon leur Regroupement occurrence des hits par famille de repliement semblables Regroupement Phylogénie structurale des hits par alignement par famille des structures de repliement 3D (calcul semblables d une déviation standard moyen au niveau des carbones alpha et d un Z-score, algorithme Phylogénie CE) structurale par alignement des structures 3D (calcul d une déviation standard moyen au niveau des carbones alpha et d un Z-score, algorithme CE) Repliements potentiels de la protéine d intérêt Repliements potentiels de la protéine d intérêt Génération des modèles 3D possibles

1er jeu de données test Travail sur les données de l article de Young et al (2000) Protéine étudiée : basic fibroblast growth factor : FGF-2 (code pdb : 1BLA) Linker : BS 3 : bis(sulfosuccinimidyl) suberate cross-link LYS-LYS (NH 2 ) longueur du bras espaceur : 12 Å Résultats expérimentaux : 15 contraintes donnant des informations

Résultats : FGF-2 Filtres appliqués Distances Pourcentage de structures secondaires Hydrophobie Accessibilité au solvant Flexibilité Amphiphilie Histogramme Tolérance 20 % µ+2σ µ+2σ µ+2σ µ+2σ Total des hits 7 486 913 1 116 582 338 031 288 646 269 001 261 654 Hits parmi les bons repliements 6 611 5 226 4334 4274 3886 19 / 20 18 / 20 18 / 20 18 / 20 18 / 20 Enrichissement 0.59 1.55 1.50 1.59 1.49 95 19 17 / 20 20.00 Près de 7,5 millions de hits 95 hits conservés au final