De la Chimiothèque au Criblage Virtuel

Documents pareils
Conception de Médicament

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

UE6 - Cycle de vie du médicament : Conception rationnelle

Outils pour les réseaux de neurones et contenu du CD-Rom

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie

MASTER 2 SCIENCES DU MEDICAMENT

Eco-système calcul et données

Votre Réseau est-il prêt?

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

THESE DE DOCTORAT. De l Université Paris 7 - Denis Diderot. Spécialité Chimie Informatique et Théorique

UNIVERSITE DE BREST Référence GALAXIE : 4201

AA-SO5 KIDA/GSOV/VAMDC

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Big Data et Graphes : Quelques pistes de recherche

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Migration vers l'open-source de l infrastructure de pare-feu du campus CNRS d Orléans

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

MABioVis. Bio-informatique et la

ASA-Advanced Solutions Accelerator. Solution pour la gestion des données des laboratoires et des plateformes de service

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Physique Chimie. Utiliser les langages scientifiques à l écrit et à l oral pour interpréter les formules chimiques

Juillet 2014 FORMATIONS UNIVERSITAIRES EN APPRENTISSAGE

Big Data et Graphes : Quelques pistes de recherche

µrv : Realité Virtuelle

Centre Universitaire LA CITADELLE 220, avenue de l Université B.P DUNKERQUE CEDEX 1 GUIDE DES ETUDES LICENCE PROFESSIONNELLE

Physiopathologie : de la Molécule à l'homme

Formation Symantec Veritas Cluster Server 6.x pour Unix

UN PROCEDE DE SUPERVISION ET TELESURVEILLANCE A DISTANCE : UN OUTIL PEDAGOGIQUE FAVORISANT L INITIATION AU TRAVAIL DE GROUPE

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Environmental Research and Innovation ( ERIN )

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

La Plateforme GALA. Un projet régional structurant. avec le pôle Cancer-Bio-Santé pour la recherche et l'innovation en galénique CPER

Mise en place d un cluster. De basculement. Et DHCP Failover. Installation. Préparation. Vérification

WEA Un Gérant d'objets Persistants pour des environnements distribués

Ajouter un cache SSD à son ordinateur

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM TUNISIE MAROC ALGERIE

DIRECTEUR ADJOINT DES VENTES

Serveur de sauvegarde à moindre coût

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

Handisup / Janvier 2014 : Extrait de la liste des profils de jeunes diplômés en situation de handicap en recherche d'expériences professionnelles

Évaluation d une architecture de stockage RDF distribuée

PROPOSITION. One ID. Références développement. Version 1.0 Juillet One ID

Le e s tocka k ge g DAS,NAS,SAN

Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis

MASTER (LMD) INGENIERIE DE LA SANTE

CHAPITRE VI : HYBRIDATION GEOMETRIE DES MOLECULES

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

TP1 : Initiation à Java et Eclipse

Interaction et Vis ualis ation en Géosicence

Artica. La déduplication. Révision Du 08 Février 2011 version

Molécules et Liaison chimique

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

Manuel d'utilisation: Gestion commerciale - CRM

Prestataire Informatique

Création du projet : 1 sur 13

Jean-François Boulicaut & Mohand-Saïd Hacid

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

Suivi Biologique des Nouveaux Anticoagulants

Documentation Technique du programme HYDRONDE_LN

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Dossier -projet d'informations et Sciences du numérique.

la solution vidéo numérique qui offre une surveillance simple et puissante t: +44 (0) e: w:

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

CHAPITRE 2 : Structure électronique des molécules

Une solution opensource d'affichage dynamique - XIBO

Fès. Licences Fondamentales. Filière SMC : Sciences de la Matière Chimie Coordonnateur : Pr. Mohammed KHALDI

Relevé de Décisions Conseil d Administration Réunion du 27 septembre 2010 CHATENAY-MALABRY

Proposition de stage

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

Qui ont toujours à mon côté pour me soutenir et me guider au long de ce projet.

Le Master Mathématiques et Applications

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

CRM PERFORMANCE CONTACT

Dakar, Sénégal 5-9 Mars Dr Joël Keravec MSH/RPM Plus - Brésil et représentant le Globa

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Mercredi 15 Janvier 2014

Sophie Guézo Alexandra Junay

Les mésocentres HPC àportée de clic des utilisateurs industriels

Windows Server 2012 Administration avancée

Manuel d'utilisation: Gestion commerciale - CRM

EndNote Basic. Un logiciel en ligne pour gérer les références bibliographiques. Sandrine(Wolff(&(David(Vivarès( Définition

Dossier de Presse. Opportunités de Sponsoring

Surveillance de Température sans fil

Qu est-ce qu un outil de travail collaboratif Google Drive?

Panorama des solutions analytiques existantes

Exemple PLS avec SAS

Qu est-ce que ArcGIS?

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Stock-It. Présentation succincte. Le logiciel de gestion de stock d un professionnel

Présentation de la Grille EGEE

Transcription:

Aurélien Monge, Alban Arrault, Christophe Marot et Luc Morin-Allory Institut de Chimie Organique et Analytique, UMR CNRS 6005, Université d Orléans BP 6759, 45067 ORLEANS Cedex 2, France. aurelien.monge@univ-orleans.fr http://www.univ-orleans.fr/icoa/ CASCIMODOT

Plan La recherche pharmaceutique Le criblage virtuel Chimiothèques et espaces chimiques Le logiciel ScreeningAssistant Sélection de composés par diversité Analyse de chimiothèques De la 2D à la 3D

La recherche pharmaceutique

La recherche pharmaceutique Au fil des années, le processus de découverte de nouveaux médicaments s est complexifié, notamment parce que les critères d acceptation d un nouveau médicament sont devenus de plus en plus drastiques.

La recherche pharmaceutique Cela se traduit par une augmentation du coût et de la durée de la mise au point d un médicament : o 15 ans o de 600 millions à 1,3 milliard d euros L optimisation de toutes les étapes du développement des médicaments est la seule solution pour diminuer les coûts et le temps de la création de nouveaux médicaments. chemoinformatique

Le criblage virtuel

Le criblage virtuel On distingue deux types de criblages : o Le criblage virtuel o Le criblage réel à haut débit Le criblage virtuel est réalisé in-silico. Il permet de réaliser de manière rapide et à moindre coût des prédictions de l activité des molécules. Le criblage réel permet quand à lui de tester rapidement in-vitro l activité de composés biologiques. On est cependant limité par le nombre de composés qu il est possible de tester en un temps raisonnable et par le coût des tests.

Le criblage virtuel Méthodes basées sur le ligand QSAR (Quantitative Structure-activity Relationships) Liste de molécules avec leurs activités biologiques Apprentissage (PLS, SVM, NN ) Modéle Tests Virtuels

Le criblage virtuel CoMFA (Comparative Molecular Field Analysis)

Le criblage virtuel Pharmacophores

Le criblage virtuel Méthode basée sur la cible Docking

Le criblage virtuel Notre laboratoire utilise principalement le docking comme technique de criblage virtuel. Le but est de trouver de nouveaux inhibiteurs pour les cibles COX-2 (anti-inflammatoire) et PPAR (diabète, obésité ). Pour chaque criblage, un grand nombre de molécules sont testées. En utilisant un PC haut de gamme, il faudrait 6 mois pour réaliser un criblage. Il a donc été nécessaire de mettre en place un système permettant de distribuer les calculs. Un criblage par docking correspond à des centaines de milliers de calculs durant chacun environ 30 secs. Cela se prête bien à la distribution. Ce travail a été réalisé par un stagiaire d IUT d informatique (Clément Didier)

Le criblage virtuel FlexX Interface graphique serveur

Le criblage virtuel Lancement d un job

Le criblage virtuel Une aide au traitement des résultats obtenus a également été implémentée : Le programme est capable de trier en fonction de leur score 30 000 000 de conformations. L opération dure quelques heures, occupe 1,5 Go de mémoire vive, et génère 40 Go de fichiers.

Le criblage virtuel Le système se compose de 8 PCs AMD 64 (3800+) sous Linux. Ce nombre de 8 PCs est dû non pas au coût matériel, mais au coût logiciel. Le logiciel de docking FlexX est disponible sous forme d une licence annuelle par poste. Le système mis en place fonctionne, et permet au modélisateur de gérer et surveiller le docking sur les PCs du réseau. L interface d aide au traitement de résultats a permis de gagner du temps sur les première étape d analyses qui consistent à traiter des millions de résultats.

Chimiothèques et espaces chimiques

Chimiothèques et espaces chimiques Comment sont choisies les molécules testées lors des criblages? Idéalement il faudrait réaliser les tests de criblage sur l ensemble des molécules synthétisables pouvant être des médicaments : entre 10 20 et 10 24 [1]. A raison de 30 secs de calculs par molécules il nous faudrait ~ 10 16 années pour faire un criblage sur toutes les molécules possibles On ne va donc pas tester toutes les molécules possibles. 1 - Ertl, P. J. Chem. Inf. Comput. Sci. 2003, 43, 374-380.

Chimiothèques et espaces chimiques Définitions d espaces chimiques Réel Composés d un organisme < 10 millions Global Combinaison de toutes les chimiothèques réelles existantes < 80 millions Tangible Facile à synthétiser ou à obtenir > 10 20 Virtuel Tous les composés synthétisables > 10 60 Hann, M. M.; Oprea, T. I. Curr. Opin. Chem. Biol. 2004, 8, 255-263.

Chimiothèques et espaces chimiques Les chimiothèques de l ICOA Chimiothèque réelle La chimiothèque de l institut regroupe 3 700 molécules. La chimiothèque nationale du CNRS référence près de 30 000 composés, dont ceux de l ICOA.

De la Chimiothèque Chimiothèques et espaces chimiques Chimiothèque virtuelle

Chimiothèques et espaces chimiques Chimiothèque virtuelle de 5 millions de références provenant de 38 fournisseurs.

Le logiciel ScreeningAssistant

Le logiciel ScreeningAssistant Les logiciels existants pour la gestion de chimiothèques sont mal adaptés et très couteux. Cela handicape les laboratoires publics et les petites entreprises. Cela vient en partie du fait que, contrairement à la bioinformatique, les initiatives de développements Open Source en chemoinformatique sont peu nombreuses, mal organisées et peu abouties (pas d interface graphique). Nous avons donc développé notre propre logiciel : ScreeningAssistant [1]. Ce logiciel est disponible gratuitement sous licence GPL. Il est programmé en Java et utilise une base MySQL. 1 - http://screenassistant.sourceforge.net/

Le logiciel ScreeningAssistant «The program looks very nice, and would be (to my knowledge) the first open source [GUI] program in the field of QSAR.» Egon Willighagen, auteur du Chemistry Development Kit.

Le logiciel ScreeningAssistant Les fonctionnalités du logiciel sont les suivantes : o Compilation des chimiothèques de différents fournisseurs avec prise en charge automatique des doublons. o Analyses graphiques des bases. o Filtration des composés par leurs propriétés physicochimiques. o Filtration des composés en fonction de leurs propriétés «druglike» et «lead-like». o Suppression des composés pouvant générer des faux-positifs lors des tests biochimiques. o Suppression des composés potentiellement mutagènes (dans la prochaine version). o Sélection de composés par diversité.

Le logiciel ScreeningAssistant Détection de doublons Toutes ces représentations correspondent à la même molécule!!!!!! ScreeningAssistant utilise le code unique InChI (http://www.iupac.org/inchi/).

Le logiciel ScreeningAssistant Similarité avec les médicaments existants Notion de composés «drug-like» et «lead-like» La «règle des 5» de Lipinski est devenu un standard pour caractériser l aspect «drug-like» d une molécule (voie orale). Cependant cette règle a l inconvénient d être basée sur des cut-off. Les critères pour définir un «lead» sont plus drastiques. Nous avons mis au point un score drug-like et un score lead-like. Ce score établit des pénalités progressives pour 8 propriétés. (HBA, HBD, liaisons rotables, X, cycles, taille max de cycle, MW et logp) [1]. 1 - Monge, A.; Arrault, A.; Marot, C.; Morin-Allory, L. Mol. Divers. 2006, in press.

Le logiciel ScreeningAssistant Les structures privilégiées Sous-structures de taille importante que l on retrouve dans de nombreux ligands de cibles biologiques différentes.

Le logiciel ScreeningAssistant Identification et suppression de «faux-positifs» potentiels Ils peuvent se séparer en trois catégories [1] : o Les fonctions réactives : forment des liaisons covalentes. o Les «warheads» : forment des liaisons non-covalentes. 1 - Rishton, G.M. DDT, 2003, 8, 86-96

Le logiciel ScreeningAssistant o Les «promiscuous aggregating inhibitors» [1] : 1 - McGovern, S.L.; Caselli, E.; Grigorieff, N.; Shoichet B.K. J. Med. Chem. 2002, 45, 1712-1722.

Le logiciel ScreeningAssistant Les composés potentiellement mutagènes (prochaine version) Exemples de toxicophores. Kazius, J.; McGuire, R.; Bursi, R. J. Med. Chem. 2005, 48, 312-320.

Sélection de composés par diversité

Sélection de composés par diversité La diversité Qu est-ce que la diversité? En chimie médicinale, il est posé comme principe que, d une manière générale, les molécules ayant des structures voisines ont une activité biologique proche. En se basant sur ce principe, on favorisera le criblage de composés avec des structures suffisamment différentes. Ceci dans le but d isoler plusieurs familles d intérêts.

Sélection de composés par diversité Sur quels critères (descripteurs)? Nous avons fait le choix de combiner deux notions pour évaluer la diversité : Squelette Valdecoxib A : atome quelconque (sauf H) --- : liaison quelconque Exemple de fragments moléculaires

Sélection de composés par diversité Comment la mesurer? La méthode que nous utilisons est basée sur le clustering. molécule cluster Pour mesurer la diversité d un ensemble, nous comptons le nombre de clusters présents.

Sélection de composés par diversité Comment la visualiser? Exemple de la représentation de la diversité de notre base 56 descripteurs (54 sous-structures, la masse et le logp) sont projetés sur 2 axes.

Sélection de composés par diversité Exemples Sélection de composés pour tests à hauts-débits Nous avons mis au point un algorithme pour sélectionner un nombre important de composés. Dans un premier temps les composés sont groupés par framework. On choisi le même pourcentage de molécules dans chaque framework. Au sein de chaque framework, on choisi les molécules qui apportent le plus de diversité aux molécules déjà sélectionnées. La diversité est évaluée en utilisant des fingerprints.

Sélection de composés par diversité Contrôle visuel de la sélection : Les molécules commerciales filtrées. (1 million) Sélection par diversité. (500 000) Le graphe de droite semble identique à celui de gauche : il n y a pas à priori d erreur flagrante dans la sélection.

Sélection de composés par diversité Sélection de composés pour mise en plaque Pour la mise en plaques de la chimiothèque ICOA, nous avons cherché à concentrer la diversité sur quelques plaques. La première plaque doit être la plus diverse, la deuxième plaque doit compléter au mieux la première plaque en terme de diversité. Nous avons évalué les performances de différents algorithmes.

Sélection de composés par diversité Evolution de la diversité en fonction du nombre de plaques sélectionnées 5 plaques (24 % des composés) nous permettent d obtenir 83 % de la diversité totale de la chimiothèque ICOA.

Sélection de composés par diversité Visualisation de la diversité de la sélection En rouge les molécules sélectionnées, en violet celles non sélectionnées.

Analyse de chimiothèques

Analyse de chimiothèques Druglikeness

Analyse de chimiothèques Diversité basée sur les fingerprints Nous avons utilisés quatre fingerprints différents dans notre étude SSKey-3DS (JOELib) : fragments et 3 descripteurs MACCS (MOE) : principalement des fragments TGD (MOE) : distances topologiques entre paires de pharmacophores TGT (MOE) : idem TGD mais pour des triangles pharmacophoriques

Analyse de chimiothèques

Analyse de chimiothèques Frameworks, scaffolds et chaînes latérales H 3 C O N O N O N H 2 S O O N H 2 S O Valdecoxib Framework Scaffold Side chain

Analyse de chimiothèques

De la 2D à la 3D

De la 2D à la 3D Par défaut notre logiciel stocke les structures 2D des composés. Si ces structures peuvent suffire pour des criblages QSAR, les criblages par pharmacophores, CoMFA, et par certains logicels de docking necessitent de disposer des conformations de ces composés. Il nous faut donc générer ces conformations pour les composés de notre base. Une molécule peut avoir plusieurs centaines de conformations. Générer les conformations de plusieurs millions de molécules pose des problèmes d espace de stockage et de temps de calcul.

De la 2D à la 3D Nous avons choisis d implémenter une génération de conformations de manière distribuée dans ScreeningAssistant. Le logiciel Omega offre la possibilité d utiliser PVM sous Linux pour distribuer les calculs. Cette solution a deux désavantages : elle est limitée aux systèmes Linux. elle nécessite la mise en place de PVM, ce qui n est pas forcément à la porté d un chimiste médicinal. Pour simplifier le processus d installation pour l utilisateur, la distribution des calculs pour la génération de conformations a été implémentée directement dans ScreeningAssistant. Pour limiter les problèmes de stockage les structures seront stockées de manière compressée dans MySQL.

De la 2D à la 3D ScreeningAssistant (Server) ScreeningAssistant Clients Les conformères sont générés sur chaque client avec Omega. Un client peu facilement être ajouté au système en spécifiant l adresse IP du serveur. Serveur MySQL

De la 2D à la 3D Le serveur est intégré à ScreeningAssistant. Pour les PC clients, seule une petite fenêtre graphique a besoin d être lancée. La priorité du calcul peut facilement être modifiée via les interfaces graphiques sur le serveur et sur les clients. Evidemment si une priorité est spécifiée sur le client, elle prend le pas sur celle spécifiée par la serveur.

De la 2D à la 3D La base MySQL de ScreeningAssistant a été exploitée pour la gestion de la distribution des calculs. Chaque structure a 3 états : Conformations Structure Le serveur génère des groupes de structures au fur et à mesure des besoins des clients. Il prendra d abord les structures non traitées, puis celles en cours de traitement, de la plus ancienne à la plus récente. Bonne tolérance aux pannes.

Conclusion

Conclusion Le logiciel ScreeningAssistant permet de gérer les chimiothèques, et de sélectionner des composés pour des tests de criblages. Ce logiciel est utilisé pour gérer les 5 millions de références de notre chimiothèque virtuelle. Ce logiciel intègre des scores «drug-like» et «lead-like» basés sur des limites progressives. Il permet d identifier d éventuels faux positifs, et de sélectionner les composés par diversité. Nous avons en tête encore un certain nombre d améliorations à apporter à ScreeningAssistant. D autres personnes sont aussi intéressées par l ajout de nouvelles fonctionnalités. Le fait que le programme soit sous licence GPL devrait permettre de favoriser son développement par d autres développeurs.

Remerciemments Toute l équipe du laboratoire de modélisation moléculaire et de chimiométrie de l ICOA : Luc Morin-Allory Christophe Marot Alban Arrault Maryline Bourotte Laurent Robin