Bioinformatique structurale : Un enjeu de l après génome IN Tech Lyon le 23/10/2003

Documents pareils
La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Big data et sciences du Vivant L'exemple du séquençage haut débit

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

MABioVis. Bio-informatique et la

Introduction aux bases de données: application en biologie

Calcul intensif pour la biologie

SysFera. Benjamin Depardon

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

UE6 - Cycle de vie du médicament : Conception rationnelle

Eco-système calcul et données

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

MASTER 2 SCIENCES DU MEDICAMENT

Dans la fonction de maître de formation pratique. Dans la fonction de maître assistant

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

! Séquence et structure des macromolécules. " Séquences protéiques (UniProt) " Séquences nucléotidiques (EMBL / ENA, Genbank, DDBJ)

Calcul Haute Performance & Données

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Prédiction de la structure d une

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

Physiopathologie : de la Molécule à l'homme

Conception de Médicament

Les mésocentres HPC àportée de clic des utilisateurs industriels

Thierry DELZESCAUX. «biopicsel» group, URA CNRS-CEA 2210 Service MIRCen, I²BM, CEA Fontenay-aux-Roses, France.

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Identification de nouveaux membres dans des familles d'interleukines

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Tutoriel Cloud IFB - Initiation -

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

CHAPITRE 3 LA SYNTHESE DES PROTEINES

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Les Parcours Scientifiques et les Ecoles Doctorales

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Programme consultant expert (PCE)

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Panorama des formations en biotechnologie

Base de données bibliographiques Pubmed-Medline

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Informatique. epims : un LIMS pour la gestion des données de spectrométrie de masse TECHNOLOGIE APPLIQUÉE

Ingénieur R&D en bio-informatique

Charger une structure Comment ouvrir un fichier avec VMD? Comment charger un fichier PDB directement depuis la Protein Data Bank? Comment charger un

IN2P3 et PLUME Valorisation de la production de logiciels

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Application à l astrophysique ACTIVITE

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Possibilités offertes après la L2?

Notre métier : Vous accompagner dans votre Projet

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

MaiMoSiNE Maison de la Modélisation et de la Simulation : Nano Sciences et Environnement

Master Développement et Immunologie

ANALYSE SPECTRALE. monochromateur

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Marie Curie Actions Marie Curie Career Integration Grant (CIG) Call: FP7-People-2012-CIG

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent STIC Traitement du signal et des images

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Big Data et Graphes : Quelques pistes de recherche

Résonance Magnétique Nucléaire : RMN

FACULTÉ DES SCIENCES FACULTY OF SCIENCES OFFRE DE FORMATION CONDITIONS D ADMISSION COURSE OFFERING ADMISSION REQUIREMENTS

Compléments - Chapitre 5 Spectroscopie

Dr Pascale Vergne-Salle Service de Rhumatologie, CHU de Limoges. Membre enseignant chercheur EA 4021

Mise en place d une plateforme de gestion de matériels biologiques : quels avantages pour les chercheurs?

TerrOïko : JEU en collaboration avec la SEEM

RESIF Une infrastructure de recherche pour l'observation des déformations de la terre site web :

Ordonnancement sous contraintes de Qualité de Service dans les Clouds

23. Interprétation clinique des mesures de l effet traitement

Perl Orienté Objet BioPerl There is more than one way to do it

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Spécialisation 3A AgroSup Dijon IAA Microbiologie Industrielle et Biotechnologie (MIB)

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

présentée DEVANT L UNIVERSITÉ DE RENNES 1 pour obtenir le grade de : DOCTEUR DE L UNIVERSITÉ DE RENNES 1 PAR Emilie GUÉRIN TITRE DE LA THÈSE :

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

à l intelligence économique

ASA-Advanced Solutions Accelerator. Solution pour la gestion des données des laboratoires et des plateformes de service

MYRIAD. l ADN isolé n est à présent plus brevetable!

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

Analyse des données de séquençage massif par des méthodes phylogénétiques

Introduction au Data-Mining

Dossier justificatif des travaux de R&D déclarés au titre du CIR

AA-SO5 KIDA/GSOV/VAMDC

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Les environnements de calcul distribué

SYLLABUS MASTER. Mention BIOCHIMIE BIOTECHNOLOGIES

Les OGM. 5 décembre Nicole Mounier

Comment réaliser physiquement un ordinateur quantique. Yves LEROYER

Solutions logicielles de gestion énergétique coopérante smart building in smart grid : Exemple CANOPEA. Xavier Brunotte info@vesta-system.

Détection et prise en charge de la résistance aux antirétroviraux

Transcription:

Bioinformatique structurale : Un enjeu de l après génome IN Tech Lyon le 23/10/2003 Gilbert DELEAGE PBIL-IBCP-CNRS UMR 5086 Pôle Bioinformatique Lyonnais Lyon-Gerland 7, passage du Vercors 69367 Lyon cedex 07 Tél: +33 (0)4-72-72-26-55 fax: +33 (0)4-72-72-26 -01 mel: g.deleage@ibcp. fr http://www.ibcp.fr

Equipe Bioinformatique et RMN structurales Permanents DELEAGE G. PR1 UCBL, Bioinformatique PENIN F. IR2-CNRS, NMR, Biophysique, Biochimie BETTLER E. MC2, Bioinformatique BLANCHET C. IR2-CNRS, Bioinformatique BOCKMANN A. CR2-CNRS, NMR COMBET C. CR2-CNRS Bioinformatique GEOURJON C. IR2-CNRS, Bioinformatique HUET E. CR2-CNRS, Biologie-Biochimie LAVERGNE J-P CR1-CNRS, Biochimie MONTSERRET R. IE2-CNRS, NMR, Biophysique Post-docs and CDD DORKELD F. (EC), Bioinformatique LECLUSE A. (French ministry) Bioinformatique LACORNE N. (ACI GRID) Bioinformatique MISSEREY S. (Genopôle Rhône-Alpes) Bioinformatique Etudiants BOULANT S. Biochimie GIRAUD N. NMR RATINIER M. Biochimie SAPAY N. Bioinformatique VERNOIS A. GRID computing, Informatique PBIL-IBCP

La révolution génomique - Une stratégie revisitée Avant la Bio-informatique Relations Activité Biologique connue Etude Biochimique Structure 3D Séquence Protéine Gène Mutagénèse structureactivité BIO-INFORMATIQUE Bases de données Prédiction des gènes Identification de protéines Prédiction sites/signatures Prédiction de structure Modélisation moléculaire Stockage Classification Intégration Criblage Protéomique Séquences génomiques Séquences Protéiques Prédiction Activités biologiques Etudes Biochimiques Structures 3D Aujourd hui (depuis les programmes de séquençages massifs et la Bio-informatique) Génomique structurale

Réalisations bioinformatiques du groupe PBIL-IBCP http://pbil.ibcp.fr odatabase : o HCVDB : Base de données de séquences annotées d HCV; http://hepatitis.ibcp.fr) o Méthodologies : o MLRC : Prédiction de la structure secondaire des protéines (Guermeur et al., Bioinformatics, 1999) Coll. LIP6 o ProScan : Scan PROSITE avec recherche pondérée par un système original o PattInProt : Algorithme de recherche original de signatures dans les banques. Outil de PROTEOMIQUE o PROCSS : Compatibilité des structures protéiques grâce aux structures secondaires (Geourjon et al., Protein Sci.,2001; Errami et al., Bioinformatics, 2003) o SOPM :Méthode auto-optimisée de prédiction de structure secondaire (Geourjon et al., Protein Eng., 1994) o SOPMA : Méthode auto-optimisée de prédiction de structure secondaire avec alignements (Geourjon et al., Comput Appl Biosci., 1995) o SuMo : Détection de sites 3D dans les protéines (Jambon et al., Proteins, 2003, Brevet international) ologiciels : o AnTheProt : Logiciel intégré d analyse de séquences client/serveur (Deléage et al., Comput Appl Biosci., 1988; Deléage et al., Comput Biol Med., 2001; http://antheprot-pbil.ibcp.fr) o AnTheNuc : Analyse de sites de restriction o Bioread : Interface graphique pour extractblast and extractfasta programmes parser. o DicroProt : Analyse des spectres de dichroïsme circulaire des protéines (Deléage G et Geourjon C.Comp. Appl. Biosc., 1993) o MPSA : integrated protein sequence analysis with client/server capabilities (Blanchet et al., Bioinformatics, 2000; http://mpsapbil.ibcp.fr) o SecTrace : secondary structure plot o Services Web: o NPS@ : Analyse intégrée de séquences sur le Web (Combet et al., Trends Biochem Sci, 2000; Perrière, Combet et al., Nucleic Acids Res., 2003; http://npsa-pbil.ibcp.fr) o Geno3d : Modélisation moléculaire de protéines à grande échelle (Combet et al., Bioinformatics, 2002; http://geno3d-pbil.ibcp.fr) o SuMo : protein common 3D sites detection (Jambon et al., Proteins, 2003; http://sumo-pbil.ibcp.fr) oapplications biologiques: o Très nombreuses en collaboration avec des biologistes

Portail de bioinformatique : Webiciel - NPS@ NPS@ http://npsa-pbil.ibcp.fr Partie «protéine et structure» du Pôle BioInformatique Lyonnais Interconnexion de 46 méthodes d analyse de séquences de protéine Récupération automatique des données dans des logiciels clients/serveurs d analyse biologique MPSA, AnTheProt, Clustal X, RasMol, Liens hypertextes sur les données de 17 banques de données internationales (SWISS-PROT, PROSITE, PDB, SCOP, ). Mise à jour automatique des bases de données disponibles sur le serveur (SP, SP-TrEMBL, NRL3D, Nr, PDB, PROSITE, etc.). Références internationales: Expasy, University of California, InfoBioGen, RSCB(PDB),. 4000000 3500000 3000000 2500000 2000000 1500000 1000000 500000 0 133801 547366 1169926 1953285 2876852 3747813 1998 1999 2000 2001 2002 2003 2530 analyses / jour en 2002 3584 analyses / jour depuis janvier 2003 France 24% Oceania 2% Europa 36% Africa 1% Combet et al., Trends Biochem Sci, 2000; Perrière et al., Nucleic Acids Res., 2003 America 25% Asia 12%

Projets bioinformatique en cours o GRID computing : o GPS@ : Portail d analysesde séquences de protéines sur la Grille (Déploiement de NPS@ sur la grille, EU FP5 DATAGRID) o GriPPS : Services de recherche de signatures sur la grille (Ministère rehcerche ACI-GRID, CNRS-IN2P3, ENSL-LIP) o RUGBI : Prédictions de structures secondaires sur la grille GRID (Ministère rehcerche et CNRS-IN2P3 (V. BRETON), Biopôle Clermont-Limagne, CS, ECP) o e-toile : Projet de grille expérimentale (Ministère rehcerche RNTL) o GiGn : Réseau de recherche français de GrIlle pour la GeNomique (Ministère rehcerche Action IMPG, with V. BRETON) o HealthGrid : Organisation de conférences (HealthGrid Conference, Lyon FR, January 2003) o Bioinformatique structurale et clinique : o CPS@ : Version pour cliuster de NPS@ (PBS, PVM and MPI algorithms) o euhcvdb : Base européenne de séquences HCV (EU FP5 HepCVax QLK2-CT-2002-01329 ; EU FP6 virgil) o Collaborarion avec D. KAHN (PRODOM) o Améliorationdes domaines PRODOM grâce aux prédictions de structures o Connexion avec Geno3D ostrucannot Annotation structurale de genome Arabidopsis thaliana : (consortium France, Belgium (P. ROUZE, Gent) and SIB (A. BAIROCH, Geneva)) o MSFold : Modélisation de structure 3D à partir des contraintes de MS. Protéomique structurale, (coll. E. Forest, IBS, Grenoble) o MADPROTS : Modélisation, analyses et serveur Web pour amarrage moléculaire o SYNAPSE : Système expert d annotation de protéines

Organisation hiérarchique des protéines Structure primaire = séquence= mot écrit avec un alphabet de 20 lettres MKLDEIARLAGVSRTTASYVINGKAKQYRVSDKTVEKVMAVVREHNYHPNAVAAGLRAGR Structure secondaire Brins β Hélice α Structure secondaire = mot alphabet de 3 à 10 lettres CCHHHHHHHHHHHCCCEEEETTTTEEEEECCCCHHHHHHHHHHHCCHHHHHHHHHGCCCC Structure tertiaire = objet 3D Fonction

Relation identité de séquence ressemblance structurale 1AJJ : LDL receptor 1CR8 : Low Density Lipoprotein Receptor Related Protein 10 20 30 40.............. 1.pdb1ajj.ent P--CSAFEFHC-LSGECIHSSWRCDGGPDCKDKSDEENCA-- 37 2.pdb1cr8.ent PGGCHTDEFQCRLDGLCIPLRWRCDGDTDCMDSSDEKSCEGV 42 Identity * * : **:* *.* ** *****..** *.***:.* 100 Ssearch (E=10) Pourcentage de protéines ressemblantes (%) 80 60 40 20 0 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 Identité de séquence (%) Nécessité de discriminer dans l intervalle 10-30% d identité

Utilité des prédictions de structure secondaire Sov = 81 15,9% identité ; Protéines apparentées (FSSP : RMSD = 2,3A ; Z-score = 19,9) 1auq 1ido 16% identité ; Protéines non apparentées Sov = 9 1ai7-A 1jac-A helix α β sheet Les structures secondaires permettent de discriminer les protéines ayant des structures 3D proches «zone floue» de 10-30% (Geourjon et al., Protein Sci.,2001; Errami et al., Bioinformatics, 2003)

Prédiction de structure 3D Modélisation homologique «classique» 2 protéines qui ont plus de 30% d'identité de séquences ont 80% de leurs Cα superposables avec un écart quadratique moyen de 1 Å (RMSD=1Å) Modélisation par analogie (à faible taux d identité) 2 protéines qui ont la même fonction et une topologie «probablement» identique en dépit de l'absence de similarité importante (arguments expérimentaux ou de structures secondaires). Threading (en cours de développement) Une séquence est testée sur une librairie de repliements pour déterminer sa compatibilité structure-séquence probable, méthode d alignement séquencestructures tridimensionnelles. Ab initio (en progression dans CASP5, folding@home Stanford) Structure directement déduite de la séquence à partir de règles empiriques.

Modélisation moléculaire via le Serveur Web Geno3D Protein sequence MKLDEIARLAGVSRTTASYVINGKAKQYRVSDKTVEKVMAVVREHNYHPNAVAAGLRAGR Secondary structures Geno3 α Helix Tools Β strands http://geno3d-pbil.ibcp.fr Combet C., Jambon M., Deléage G. et Geourjon, C. (2002) Bioinformatics, 18, 213-214

3D-Crunch : Modélisation à grande échelle Stratégie Modélisation à faible taux d identité (entre 10-35%) 1,315 protéines de structures 3D connues (pdb 25%) PSI-BLAST sur chaque entrée (max 5 run). Les 5,390 protéines ayant un pourcentage d indentité entre 10 et 35% ont été modélisées Les calculs ont été réalisés au CC-IN 2 P 3 Villeurbanne (France) 7,881 heures de CPU 3000 450 2500 400 2000 350 1500 Number of models 300 250 200 150 100 1000 500 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 RMSD (A) 50 0 0 5 10 15 20 25 30 35 40 Z-score

Apport des prédictions de structures secondaires Sans Sov 70,00 60,00 50,00 40,00 Identité de séquences 10-35% 10-20% 20-35% 58 52 65 30,00 20,00 10,00 0,00 rmsd>5 5<rmsd>4 4<rmsd>3 3<rmsd>2 2<rmsd 70,00 1 2 3 4 5 60,00 50,00 66 67 65 Avec Sov >60% 40,00 30,00 20,00 10,00 0,00 Rmsd 1> 5 5<rmsd>4 2 4<rmsd>3 3 3<rmsd>2 4 2<rmsd 5

Geno3D : Bilan Bonne fiabilité y compris à bas taux d identité Ne pas introduire d a priori au niveau des «gaps» et insertions dans l alignement. Possibilité d avoir une estimation de la qualité du modèle obtenu. Possibilité de combiner des données provenant de protéines proches (séquences ou fonctions) mais aussi des données expérimentales. Possibilité de modéliser des dimères ou trimères Possibilité de modéliser des protéines par domaines Possibilité d inclure les ligands (géométriquement puis minimisation) Disponible également sur serveur sécurisé Contrat de collaboration avec des industriels Utilisation dans le cadre de modélisation moléculaire à grande échelle Protéome complet Arabidopsis thaliana. Programme GENOPLANTE

Problème 1 : séquences non alignables, repliement différent, même fonction, même site actif Subtilisine Protéases à sérine Chymotrypsine

Problème 2 : Séquences proches, même repliement, activité différentielle Lectine de cacahuète Arceline (haricot) 2PEL 1IOA 2PELAx0 1IOAAx1 RMSD sur positions conservées = 4,1 Å 10 20 30 40 50 60 70 80 90 100 110 120 AETVSFNFNSFSEGNPAINFQGDVTVLSNGNIQLTNLN-----KVNSVGRVLYAMPVRIWSSATGNVASFLTSFSFEMKDIKDYDPADGIIFFIAPEDTQIPAGSIGGGTLGVSDTKGAGHFVGV ATETSFNFPNFHTDDKLI-LQGNATISSKGQLQLTGVGSNELPRVDSLGRAFYSDPIQIKD--SNNVASFNTNFTFIIRAKNQSISAYGLAFALVPVNSPPQKKQEFLGIFNTNNPEPNARTVAV *.****.*.: * :**:.*: *:*::***.:. :*:*:**.:*: *::*. :.***** *.*:* :: ::.* *: * :.* ::. * :...:.:.: *.* Prim.cons. A222SFNF22F222222IN2QG22T22S2G22QLT222SNELP2V2S2GR22Y22P22I22SA22NVASF2T2F2F2222222222A2G22F222P222222222222G2222222222222V2 135 145 155 165 175 185 195 205 215 225 235 245 2PELAx0 EFDTYSNSEYNDPPTDHVGIDVNSVDSVKTVPWNSVSGAVVKVTVIYDSSTKTLSVAVTNDNGDITT-IAQVVDLKAKLPERVKFGFSASG--SLGGRQIHLIRSWSFTSTLITTTRRS------ 1IOAAx1 VFNTFKNR--IDFDKNFIKPYVN-----ENCDFHKYNGEKTDVQITYDSSNNDLRVFLHFTVSQVKCSVSATVHLEKEVDEWVSVGFSPTSGLTEDTTETHDVLSWSFSSKFRNKLSNILLNNIL *:*:.* *.:.: ** :. ::..*..* : ****.: * * :.::. ::.*.*: :: * *..***.:. :. : * : ****:*.:... Prim.cons. 2F2T22N2EY2D222222222VNSVDSV222222222G2222V222YDSS222L2V22222222222S2222V2L22222E2V22GFS222GL2222222H222SWSF2S222222222LLNNIL 26 % d identité entre les séquences

Méthodologie SuMo (PHD M. Jambon) Etape 1 : découpage en groupements chimiques aromatic Cα Phényle Hydroxyle hydroxyl Exemple : tyrosine = aromatic, hydroxyl (Jambon et al., Proteins, 2003, Brevet international)

Etape 2 : génération d un graphe de triplets de groupements chimiques Sélection des groupements accessibles Connexion des groupements voisins (< 6 Å, par exemple) Définition des triplets de groupements chimiques P3 P P2 P1 : groupement chimique 1 C3 C2 de la protéine C C1 : centre de densité 1 CP: orientation vers l'extérieur

Représentation finale des molécules et stockage Graphe des groupements chimiques T4 T2 T1 T4 Graphe des triplets T2 T1 Base de données T3 T3 Utilisation (comparaisons)

Principe de la comparaison entre 2 molécules T4 Identification de toutes les paires de triplets similaires Connexion des paires T2 T1 T1/T1' T3 T2/T2' T4/T4' T1' T2' T3' T5' T4' T3/T3' 2 zones de similitude (à affiner)

Exemple 1 : protéases à sérine Asp32 His64 Subtilisine Chymotrypsine His57 Asp32 Comparaison subtilisine 1SBC / chymotrypsine 1AFQ Résultat : [Comparison result of (1AFQ,1SBC): ----------------------------- Patch number 1 --... Number of groups: 4 Score = 1.116 [RMSD = 0.708] [penalty = 0.408] Ser195 Selected pairs of groups: ammonium B HIS 57 0.55 30.245 2.96... ammonium HIS 64 0.54 30.407 2.70... Ser221 aromatic B HIS 57 0.56 31.077 3.61... aromatic HIS 64 0.56 31.309 3.27... Données biochimiques acyl B ASP 102 0.67 32.459 7.49... acyl ASP 32 0.66 31.730 7.17... hydroxyl C SER 195 0.59 27.628 2.51... hydroxyl SER 221 0.57 27.964 3.42... ]

Vue de surface des 2 sites catalytiques de protéases Subtilisine (1SBC) Chymotrypsine (1AFQ) His 64 His 57 Asp 32 Ser 221 Asp 102 His195

Exemple 2 : lectines de légumineuses Collaboration avec Anne Imberty, CERMAV (Grenoble) Travail sur la famille des lectines de légumineuses Séquences voisines Même repliement

Recherche de site à sucre dans la famille des lectines de légumineuses 100% 4 80% 60% 40% 91 8 2 2 20% 0% lectines fonctionnelles (avec ou sans ligand) lectines démétallisées arceline non détectés détectés inhibiteurs d'alphaamylase Site recherché : lectine de cacahuète (2PEL) Nombre de protéines analysées = 107 Pourcentage de réussite global = 96 %

Illustration : 1DQ1 et 1DQ2 : Concanavaline A Orange : concanavaline A fonctionnelle Bleu : concanavaline A non fonctionnelle (démétallisée) RMSD = 0,9 Å séquences très proches

Vue des sites 1DQ1 et 1DQ2 : concanavaline A native et démétallisée Site de fixation du sucre (mannose) Asn 14 Tyr 12 Asp 208 Superposition : Site fonctionnel et site détruit en absence de calcium et de zinc

Annotation structurale

Etude structure fonction des protéines. Génomique structurale Séquences de génome Détection de phases ouvertes de lecture Analyse comparative Séquences Protéiques Thérapie génique Thérapie protéique Médicaments Agroalimentaire Classification Prédictions Biocristallographie Résonance Magnétique Nucléaire Modélisation Moléculaire Organisation en familles Sélection d un membre représentatif de la famille Détermination de la structure 3D Construction de modèles 3D par homologie Criblage virtuel