Aurélien Monge, Alban Arrault, Christophe Marot et Luc Morin-Allory Institut de Chimie Organique et Analytique, UMR CNRS 6005, Université d Orléans BP 6759, 45067 ORLEANS Cedex 2, France. aurelien.monge@univ-orleans.fr http://www.univ-orleans.fr/icoa/ CASCIMODOT
Plan La recherche pharmaceutique Le criblage virtuel Chimiothèques et espaces chimiques Le logiciel ScreeningAssistant Sélection de composés par diversité Analyse de chimiothèques De la 2D à la 3D
La recherche pharmaceutique
La recherche pharmaceutique Au fil des années, le processus de découverte de nouveaux médicaments s est complexifié, notamment parce que les critères d acceptation d un nouveau médicament sont devenus de plus en plus drastiques.
La recherche pharmaceutique Cela se traduit par une augmentation du coût et de la durée de la mise au point d un médicament : o 15 ans o de 600 millions à 1,3 milliard d euros L optimisation de toutes les étapes du développement des médicaments est la seule solution pour diminuer les coûts et le temps de la création de nouveaux médicaments. chemoinformatique
Le criblage virtuel
Le criblage virtuel On distingue deux types de criblages : o Le criblage virtuel o Le criblage réel à haut débit Le criblage virtuel est réalisé in-silico. Il permet de réaliser de manière rapide et à moindre coût des prédictions de l activité des molécules. Le criblage réel permet quand à lui de tester rapidement in-vitro l activité de composés biologiques. On est cependant limité par le nombre de composés qu il est possible de tester en un temps raisonnable et par le coût des tests.
Le criblage virtuel Méthodes basées sur le ligand QSAR (Quantitative Structure-activity Relationships) Liste de molécules avec leurs activités biologiques Apprentissage (PLS, SVM, NN ) Modéle Tests Virtuels
Le criblage virtuel CoMFA (Comparative Molecular Field Analysis)
Le criblage virtuel Pharmacophores
Le criblage virtuel Méthode basée sur la cible Docking
Le criblage virtuel Notre laboratoire utilise principalement le docking comme technique de criblage virtuel. Le but est de trouver de nouveaux inhibiteurs pour les cibles COX-2 (anti-inflammatoire) et PPAR (diabète, obésité ). Pour chaque criblage, un grand nombre de molécules sont testées. En utilisant un PC haut de gamme, il faudrait 6 mois pour réaliser un criblage. Il a donc été nécessaire de mettre en place un système permettant de distribuer les calculs. Un criblage par docking correspond à des centaines de milliers de calculs durant chacun environ 30 secs. Cela se prête bien à la distribution. Ce travail a été réalisé par un stagiaire d IUT d informatique (Clément Didier)
Le criblage virtuel FlexX Interface graphique serveur
Le criblage virtuel Lancement d un job
Le criblage virtuel Une aide au traitement des résultats obtenus a également été implémentée : Le programme est capable de trier en fonction de leur score 30 000 000 de conformations. L opération dure quelques heures, occupe 1,5 Go de mémoire vive, et génère 40 Go de fichiers.
Le criblage virtuel Le système se compose de 8 PCs AMD 64 (3800+) sous Linux. Ce nombre de 8 PCs est dû non pas au coût matériel, mais au coût logiciel. Le logiciel de docking FlexX est disponible sous forme d une licence annuelle par poste. Le système mis en place fonctionne, et permet au modélisateur de gérer et surveiller le docking sur les PCs du réseau. L interface d aide au traitement de résultats a permis de gagner du temps sur les première étape d analyses qui consistent à traiter des millions de résultats.
Chimiothèques et espaces chimiques
Chimiothèques et espaces chimiques Comment sont choisies les molécules testées lors des criblages? Idéalement il faudrait réaliser les tests de criblage sur l ensemble des molécules synthétisables pouvant être des médicaments : entre 10 20 et 10 24 [1]. A raison de 30 secs de calculs par molécules il nous faudrait ~ 10 16 années pour faire un criblage sur toutes les molécules possibles On ne va donc pas tester toutes les molécules possibles. 1 - Ertl, P. J. Chem. Inf. Comput. Sci. 2003, 43, 374-380.
Chimiothèques et espaces chimiques Définitions d espaces chimiques Réel Composés d un organisme < 10 millions Global Combinaison de toutes les chimiothèques réelles existantes < 80 millions Tangible Facile à synthétiser ou à obtenir > 10 20 Virtuel Tous les composés synthétisables > 10 60 Hann, M. M.; Oprea, T. I. Curr. Opin. Chem. Biol. 2004, 8, 255-263.
Chimiothèques et espaces chimiques Les chimiothèques de l ICOA Chimiothèque réelle La chimiothèque de l institut regroupe 3 700 molécules. La chimiothèque nationale du CNRS référence près de 30 000 composés, dont ceux de l ICOA.
De la Chimiothèque Chimiothèques et espaces chimiques Chimiothèque virtuelle
Chimiothèques et espaces chimiques Chimiothèque virtuelle de 5 millions de références provenant de 38 fournisseurs.
Le logiciel ScreeningAssistant
Le logiciel ScreeningAssistant Les logiciels existants pour la gestion de chimiothèques sont mal adaptés et très couteux. Cela handicape les laboratoires publics et les petites entreprises. Cela vient en partie du fait que, contrairement à la bioinformatique, les initiatives de développements Open Source en chemoinformatique sont peu nombreuses, mal organisées et peu abouties (pas d interface graphique). Nous avons donc développé notre propre logiciel : ScreeningAssistant [1]. Ce logiciel est disponible gratuitement sous licence GPL. Il est programmé en Java et utilise une base MySQL. 1 - http://screenassistant.sourceforge.net/
Le logiciel ScreeningAssistant «The program looks very nice, and would be (to my knowledge) the first open source [GUI] program in the field of QSAR.» Egon Willighagen, auteur du Chemistry Development Kit.
Le logiciel ScreeningAssistant Les fonctionnalités du logiciel sont les suivantes : o Compilation des chimiothèques de différents fournisseurs avec prise en charge automatique des doublons. o Analyses graphiques des bases. o Filtration des composés par leurs propriétés physicochimiques. o Filtration des composés en fonction de leurs propriétés «druglike» et «lead-like». o Suppression des composés pouvant générer des faux-positifs lors des tests biochimiques. o Suppression des composés potentiellement mutagènes (dans la prochaine version). o Sélection de composés par diversité.
Le logiciel ScreeningAssistant Détection de doublons Toutes ces représentations correspondent à la même molécule!!!!!! ScreeningAssistant utilise le code unique InChI (http://www.iupac.org/inchi/).
Le logiciel ScreeningAssistant Similarité avec les médicaments existants Notion de composés «drug-like» et «lead-like» La «règle des 5» de Lipinski est devenu un standard pour caractériser l aspect «drug-like» d une molécule (voie orale). Cependant cette règle a l inconvénient d être basée sur des cut-off. Les critères pour définir un «lead» sont plus drastiques. Nous avons mis au point un score drug-like et un score lead-like. Ce score établit des pénalités progressives pour 8 propriétés. (HBA, HBD, liaisons rotables, X, cycles, taille max de cycle, MW et logp) [1]. 1 - Monge, A.; Arrault, A.; Marot, C.; Morin-Allory, L. Mol. Divers. 2006, in press.
Le logiciel ScreeningAssistant Les structures privilégiées Sous-structures de taille importante que l on retrouve dans de nombreux ligands de cibles biologiques différentes.
Le logiciel ScreeningAssistant Identification et suppression de «faux-positifs» potentiels Ils peuvent se séparer en trois catégories [1] : o Les fonctions réactives : forment des liaisons covalentes. o Les «warheads» : forment des liaisons non-covalentes. 1 - Rishton, G.M. DDT, 2003, 8, 86-96
Le logiciel ScreeningAssistant o Les «promiscuous aggregating inhibitors» [1] : 1 - McGovern, S.L.; Caselli, E.; Grigorieff, N.; Shoichet B.K. J. Med. Chem. 2002, 45, 1712-1722.
Le logiciel ScreeningAssistant Les composés potentiellement mutagènes (prochaine version) Exemples de toxicophores. Kazius, J.; McGuire, R.; Bursi, R. J. Med. Chem. 2005, 48, 312-320.
Sélection de composés par diversité
Sélection de composés par diversité La diversité Qu est-ce que la diversité? En chimie médicinale, il est posé comme principe que, d une manière générale, les molécules ayant des structures voisines ont une activité biologique proche. En se basant sur ce principe, on favorisera le criblage de composés avec des structures suffisamment différentes. Ceci dans le but d isoler plusieurs familles d intérêts.
Sélection de composés par diversité Sur quels critères (descripteurs)? Nous avons fait le choix de combiner deux notions pour évaluer la diversité : Squelette Valdecoxib A : atome quelconque (sauf H) --- : liaison quelconque Exemple de fragments moléculaires
Sélection de composés par diversité Comment la mesurer? La méthode que nous utilisons est basée sur le clustering. molécule cluster Pour mesurer la diversité d un ensemble, nous comptons le nombre de clusters présents.
Sélection de composés par diversité Comment la visualiser? Exemple de la représentation de la diversité de notre base 56 descripteurs (54 sous-structures, la masse et le logp) sont projetés sur 2 axes.
Sélection de composés par diversité Exemples Sélection de composés pour tests à hauts-débits Nous avons mis au point un algorithme pour sélectionner un nombre important de composés. Dans un premier temps les composés sont groupés par framework. On choisi le même pourcentage de molécules dans chaque framework. Au sein de chaque framework, on choisi les molécules qui apportent le plus de diversité aux molécules déjà sélectionnées. La diversité est évaluée en utilisant des fingerprints.
Sélection de composés par diversité Contrôle visuel de la sélection : Les molécules commerciales filtrées. (1 million) Sélection par diversité. (500 000) Le graphe de droite semble identique à celui de gauche : il n y a pas à priori d erreur flagrante dans la sélection.
Sélection de composés par diversité Sélection de composés pour mise en plaque Pour la mise en plaques de la chimiothèque ICOA, nous avons cherché à concentrer la diversité sur quelques plaques. La première plaque doit être la plus diverse, la deuxième plaque doit compléter au mieux la première plaque en terme de diversité. Nous avons évalué les performances de différents algorithmes.
Sélection de composés par diversité Evolution de la diversité en fonction du nombre de plaques sélectionnées 5 plaques (24 % des composés) nous permettent d obtenir 83 % de la diversité totale de la chimiothèque ICOA.
Sélection de composés par diversité Visualisation de la diversité de la sélection En rouge les molécules sélectionnées, en violet celles non sélectionnées.
Analyse de chimiothèques
Analyse de chimiothèques Druglikeness
Analyse de chimiothèques Diversité basée sur les fingerprints Nous avons utilisés quatre fingerprints différents dans notre étude SSKey-3DS (JOELib) : fragments et 3 descripteurs MACCS (MOE) : principalement des fragments TGD (MOE) : distances topologiques entre paires de pharmacophores TGT (MOE) : idem TGD mais pour des triangles pharmacophoriques
Analyse de chimiothèques
Analyse de chimiothèques Frameworks, scaffolds et chaînes latérales H 3 C O N O N O N H 2 S O O N H 2 S O Valdecoxib Framework Scaffold Side chain
Analyse de chimiothèques
De la 2D à la 3D
De la 2D à la 3D Par défaut notre logiciel stocke les structures 2D des composés. Si ces structures peuvent suffire pour des criblages QSAR, les criblages par pharmacophores, CoMFA, et par certains logicels de docking necessitent de disposer des conformations de ces composés. Il nous faut donc générer ces conformations pour les composés de notre base. Une molécule peut avoir plusieurs centaines de conformations. Générer les conformations de plusieurs millions de molécules pose des problèmes d espace de stockage et de temps de calcul.
De la 2D à la 3D Nous avons choisis d implémenter une génération de conformations de manière distribuée dans ScreeningAssistant. Le logiciel Omega offre la possibilité d utiliser PVM sous Linux pour distribuer les calculs. Cette solution a deux désavantages : elle est limitée aux systèmes Linux. elle nécessite la mise en place de PVM, ce qui n est pas forcément à la porté d un chimiste médicinal. Pour simplifier le processus d installation pour l utilisateur, la distribution des calculs pour la génération de conformations a été implémentée directement dans ScreeningAssistant. Pour limiter les problèmes de stockage les structures seront stockées de manière compressée dans MySQL.
De la 2D à la 3D ScreeningAssistant (Server) ScreeningAssistant Clients Les conformères sont générés sur chaque client avec Omega. Un client peu facilement être ajouté au système en spécifiant l adresse IP du serveur. Serveur MySQL
De la 2D à la 3D Le serveur est intégré à ScreeningAssistant. Pour les PC clients, seule une petite fenêtre graphique a besoin d être lancée. La priorité du calcul peut facilement être modifiée via les interfaces graphiques sur le serveur et sur les clients. Evidemment si une priorité est spécifiée sur le client, elle prend le pas sur celle spécifiée par la serveur.
De la 2D à la 3D La base MySQL de ScreeningAssistant a été exploitée pour la gestion de la distribution des calculs. Chaque structure a 3 états : Conformations Structure Le serveur génère des groupes de structures au fur et à mesure des besoins des clients. Il prendra d abord les structures non traitées, puis celles en cours de traitement, de la plus ancienne à la plus récente. Bonne tolérance aux pannes.
Conclusion
Conclusion Le logiciel ScreeningAssistant permet de gérer les chimiothèques, et de sélectionner des composés pour des tests de criblages. Ce logiciel est utilisé pour gérer les 5 millions de références de notre chimiothèque virtuelle. Ce logiciel intègre des scores «drug-like» et «lead-like» basés sur des limites progressives. Il permet d identifier d éventuels faux positifs, et de sélectionner les composés par diversité. Nous avons en tête encore un certain nombre d améliorations à apporter à ScreeningAssistant. D autres personnes sont aussi intéressées par l ajout de nouvelles fonctionnalités. Le fait que le programme soit sous licence GPL devrait permettre de favoriser son développement par d autres développeurs.
Remerciemments Toute l équipe du laboratoire de modélisation moléculaire et de chimiométrie de l ICOA : Luc Morin-Allory Christophe Marot Alban Arrault Maryline Bourotte Laurent Robin