QUANTILE DE RÉGRESSION : APPLICATION À L ANALYSE DE L ÉCOTOXICITÉ DE MOLÉCULES CHIMIQUES Jonathan VILLAIN 1,2 Ronan BUREAU 2 Gilles DURRIEU 1 1 Laboratoire de Mathématiques de Bretagne Atlantique, Université de Bretagne Sud 2 Centre d Étude et de Recherche sur le Médicament de Normandie, Université de Basse Normandie Caen Journées de la Statistique, Vannes. 1 / 37
Plan 1 2 3 4 Journées de la Statistique, Vannes. 2 / 37
Définition : Chémoinformatique définie au Workshop Chemoinformatics in Europe : Research and Teaching (29 mai - 1er juin 2006 à Obernai, France) «Methods developed for building databases on chemical compounds and reactions, for the prediction of physical, chemical and biological properties of compounds and materials, for drug design, for structure elucidation, for the prediction of chemical reactions and for the design of organic syntheses. Research and development in chemoinformatics is essential - For increasing our understanding of chemical phenomena - For industry to remain competitive in a global economy Chemoinformatics methods can be applied in any field of chemistry, from analytical chemistry to organic chemistry. It is of particular importance in drug design and development.» Journées de la Statistique, Vannes. 3 / 37
Applications : gestion de bases de données de molécules et de réactions, aide pour la conception de nouveaux médicaments, résolution des structures moléculaires, prédiction des réactions chimiques, conception de protocoles de synthèse chimique, prédiction des propriétés physiques, chimiques, biologiques. Journées de la Statistique, Vannes. 4 / 37
Outils de mesures : Journées de la Statistique, Vannes. 5 / 37
moléculaire : NeisVac-C (vaccin contre la méningite) Journées de la Statistique, Vannes. 6 / 37
Législation REACH Juin 2007 : mise en place de la législation REACH (Registration, Evaluation, Autorization and restriction of CHemicals). Principaux objectifs de REACH : assurer un niveau élevé de protection de la santé humaine et de l environnement contre les risques chimiques, renforcer la compétitivité et l innovation, déterminer les risques chimiques pour chaque composé en utilisant 3 méthodes (in vivo, in vitro, in silico). Journées de la Statistique, Vannes. 7 / 37
Législation REACH En écotoxicologie L écotoxicologie étudie le comportement et les effets d agents sur les écosystèmes. Son but est d évaluer le danger de substances par des études de toxicité ainsi que de caractériser la probabilité d exposition de ces substances. Journées de la Statistique, Vannes. 8 / 37
Législation REACH Études d écotoxicologie : il est possible de tester les molécules sur plusieurs espèces aquatiques (aigu, long terme et reprotoxicité) Daphnie, Lemna, Bioaccumulation chez le poisson (poisson zèbre et autres), Algue (P. subcapitata). Durrieu et al. 2005, 2006, 2007, 2010. Journées de la Statistique, Vannes. 9 / 37
Problématique : Objectif : Mise en place d un modèle statistique pour la prédiction du niveau de toxicité des produits chimiques pour les algues. Journées de la Statistique, Vannes. 10 / 37
Plan 1 2 3 4 Journées de la Statistique, Vannes. 11 / 37
Modèle de régression Y = Xβ + ε où Y = (Y 1,..., Y n ) est le vecteur des observations, X est une matrice connue de dimension n p ayant pour lignes x i R p, i = 1,..., n, ε = (ε 1,..., ε n ) est un vecteur d erreurs indépendantes, de fonction de répartition inconnue et de médiane nulle, β = (β 1,..., β p ) désigne le vecteur inconnu des paramètres de régression à estimer. Journées de la Statistique, Vannes. 12 / 37
Quantile de régression (Koenker et Bassett, 1978) On appelle θ-quantile de régression toute solution du problème de minimisation β(θ) = arg min β R p n ( ρ θ Yi x iβ ) i=1 où ρ θ (x) = x (θ I(x < 0)) et I(P) prend la valeur 1 ou 0 selon que la condition P est vérifiée ou non. Cas particulier pour θ = 1/2 : estimateur L 1 ou régression médiane. Journées de la Statistique, Vannes. 13 / 37
Quantile de régression (Koenker et Bassett, 1978) Théorème Sous des conditions de régularité, nous avons quand n : Cas i.i.d : n ( β(θ) β) D N (0, Σθ ), Σ θ = (θ (1 θ)/f 2 (F 1 (θ))) (X X) 1, où q(θ) = 1/f (F 1 (θ)) est la densité du quantile. Cas indépendant mais non identiquement distribué : Σ θ = (θ (1 θ)) (X FX) 1 (X X) (X FX) 1 où F = diag{f 1 (F 1 (θ)),..., f n (F 1 (θ))}. Journées de la Statistique, Vannes. 14 / 37
Quantile de régression Estimation par noyau de q(θ) Ẑ n (θ) = 1 ν 2 n 1 0 ( ) θ w β 1(w) n K dw, ν n où (ν n ) n est une suite de tailles de fenêtres et K une fonction noyau. Théorème (Dodge and Jurečková, 1995) Sous des conditions de régularité, nous avons, quand n, 1 Ẑn(θ) P q(θ) 2 nνn (Ẑn (θ) q(θ)) D N ( 0, q 2 (θ) K 2 (x) dx ). Journées de la Statistique, Vannes. 15 / 37
Quantile de régression SVM Soit : (X 1, Y 1 ),..., (X n, Y n ), un échantillon statistique de taille n et de loi F inconnue. un espace muni d un produit scalaire tel que x φ(x) où x = (x 1,..., x n ) F et φ(x) l espace transformé. Journées de la Statistique, Vannes. 16 / 37
Quantile de régression SVM La fonction quantile Y conditionnellement à X est : Q (θ/x = x) F 1 Y (θ/x = x) = w θ φ(x) pour θ (0, 1), où w θ désigne le θ-quantile de régression. La solution s obtient en minimisant pour θ (0, 1) 1 2 w θ 2 +C où C désigne le degré de pénalisation. n ( ρ θ yi w θφ(x i ) ), i=1 Journées de la Statistique, Vannes. 17 / 37
Quantile de régression SVM Le θ-quantile de régression pour x s écrit alors : Q(θ/x ) = n i=1 ( λ i λ + i ) K(x i, x ) et w θ = n i=1 ( λ i λ + i ) φ(x i ), où λ i, λ + i sont les multiplicateurs de Lagrange et K(x i, x j ) désigne une fonction noyau. Journées de la Statistique, Vannes. 18 / 37
Détection de nouveauté Novelty detection et 1-classe SVM On considère dans un premier temps la classification SVM pour 2 classes. Soit : X 1,..., X n, un échantillon statistique de taille n et de loi F inconnue et Y = { 1, 1}. un espace muni d un produit scalaire tel que x φ(x) où x = (x 1,..., x n ) F et φ(x) l espace transformé. Journées de la Statistique, Vannes. 19 / 37
Détection de nouveauté Novelty detection et 1-classe SVM En classification SVM, le but est de minimiser 1 2 w 2 + C n n ξ i i=1 sous les contraintes Y i (< Φ(x i ), w > +b) 1 ξ i et ξ i 0 avec i = 1,..., n. Journées de la Statistique, Vannes. 20 / 37
Détection de nouveauté Novelty detection et 1-classe SVM Dans le cadre de la 1-classe SVM, on ne considère qu une seule classe. L équation à minimiser devient alors 1 2 w 2 + 1 nν n ξ i ρ i=1 sous les contraintes < w, Φ(x i ) > ρ ξ i et ξ i 0 avec ρ la distance maximum à l origine pour i = 1,..., n. Journées de la Statistique, Vannes. 21 / 37
Choix du noyau Nous considérons ici la fonction noyau de type radial gaussien (RBF) donnée par : k (x i, x j ) = exp ( x i x j 2 2 σ 2 ). Journées de la Statistique, Vannes. 22 / 37
Plan 1 2 3 4 Journées de la Statistique, Vannes. 23 / 37
Rapport de Toxicité Rapport de toxicité (Toxic Ratio) : pour déterminer le mode d action d une molécule à partir du modèle de régression linéaire ( ) 1 log = a log(p) + b, EC 50 où a et b désignent les paramètres de régression inconnus. Calcul du TR TR = Activité prédite par le modèle. Activité mesurée Unité de mesure de l activité : mg/l. Journées de la Statistique, Vannes. 24 / 37
Données Molécules chimiques : 401 composés pour lesquels nous avons les valeurs de EC 50 (concentration aboutissant à une inhibition de 50 % de la croissance d une algue (P. subcapitata)). Descripteurs des molécules : EC 50 associée à l activité (ACT), 153 descripteurs topologiques, Fingerprint (128 descripteurs), RIF (54 descripteurs). Journées de la Statistique, Vannes. 25 / 37
Objectif : déterminer un modèle pouvant prédire EC 50. Étapes : 1 Calcul du TR à partir d une régression quantile (θ = 0.5), 2 Prédiction du mode d action (MOA) des composés chimiques par classification SVM, 3 Modèle de régression quantile SVM sur les molécules prédites comme n ayant pas un MOA spécifique, 4 Mise en place d un domaine de validité (One-class SVM). 5 Application du modèle sur des médicaments. Journées de la Statistique, Vannes. 26 / 37
: Étape 1 Estimateur quantile de régression (θ = 0.5) en considérant toutes les molécules (n = 401) : log (1/EC 50 ) = 0.43 log(p) + 3.35, En calculant le TR, on obtient 336 composés ayant un TR< 10 (mode d action non spécifique) et 65 composés ayant un TR 10 (mode d action spécifique). Journées de la Statistique, Vannes. 27 / 37
: Étape 2 Classification SVM : erreur de classification en apprentissage = 1.75% erreur en validation croisée (2/3, 1/3) = 14.95%. 368 composés chimiques sont prédits en cross-validation comme n ayant pas de mode d action spécifique. Journées de la Statistique, Vannes. 28 / 37
Molécules prédites comme ayant un MOA spécifique Triazinone Bipyridylium Chloroacetamides Quinolines Diphenylether Journées de la Statistique, Vannes. 29 / 37
: Étape 3 (a) (b) R² cross 0.0 0.2 0.4 0.6 0.8 1.0 SCE cross 0 100 200 300 400 0 50 100 150 nombre de variable 0 50 100 150 nombre de variable Figure: (a) R 2 et (b) SCE R en fonction du nombre de variables dans le modèle. Journées de la Statistique, Vannes. 30 / 37
: Étape 3 Régression par segment avec estimation du point de rupture : 73 variables, R 2 cross = 0.68, SCE R cross = 141.26. Journées de la Statistique, Vannes. 31 / 37
: Étape 4 15 10 5 0 5 10 15 10 5 0 5 10 15 10 5 0 5 10 15 Comp1 Comp2 Comp3 Figure: Représentation des groupes One-Class SVM sur les 3 premières composantes de la KPCA. Journées de la Statistique, Vannes. 32 / 37
: Étape 4 36 médicaments ont été testés au sein du CERMN. Par One-class SVM, seulement 4 médicaments sont prédits comme étant dans le domaine de validité. R 2 = 0.92 Remarque : Les médicaments sont connus pour avoir un mode d action spécifique du fait de leur utilisation. Journées de la Statistique, Vannes. 33 / 37
Plan 1 2 3 4 Journées de la Statistique, Vannes. 34 / 37
Définition d un modèle associé à un mode d action non spécifique. Détection de molécules avec un MOA non spécifique et Estimation d un domaine de validité par One-Class SVM. Étude des composés ayant un mode d action sprécifique. Utiliser la régression quantile SVM en séquentielle. Journées de la Statistique, Vannes. 35 / 37
Merci de votre attention Journées de la Statistique, Vannes. 36 / 37
bibliographie [1] J. Villain, G. Durrieu, R. Bureau, Definition of a global model to determine the chemical ecotoxicity on Algae. (2012) Journée de rencontre de l école doctorale SICMA, Brest. [2] J. Villain, G. Durrieu, R. Bureau, Definition of a first global model to determine the ecotoxicity of chemical on Algea. (2013) Poster de la 6 e journée de la SFci, Nancy. [3] J. Villain, G. Durrieu, R. Bureau, Quantile de régression : application à l analyse de l écotoxicité de molécules chimiques. (2014) Proc de la 46 e jounée de la Société Française de Statistique. Rennes. [4] J. Villain, S. Lozano, M.P. Halm-Lemeille, G. Durrieu, R. Bureau, Quantile regression model for a diverse set of chemicals : Application to acute toxicity for green algae. (2014) J Mol Model, 20 :2508, DOI 10.1007/s00894-014-2508-x. [5] J. Villain, M.P. Halm-Lemeille, G. Durrieu, R. Bureau, Quantile models and validity domain for estimate drug toxicity. à soummettre. Journées de la Statistique, Vannes. 37 / 37