QUANTILE DE RÉGRESSION : APPLICATION À L ANALYSE DE L ÉCOTOXICITÉ DE MOLÉCULES CHIMIQUES

Documents pareils
CONCLUSION. 31 mars 2015 Laurène Chochois Helpdesk REACH&CLP Luxembourg

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Exemple PLS avec SAS

POSITION DE DETIC CONCERNANT LA PROPOSITION DE LA COMMISSION ET LES AMENDEMENTS ADOPTES PAR LE CONSEIL ET LE PARLEMENT EUROPEEN EN PREMIERE LECTURE

A-ESSE s.p.a. FICHE DE SÉCURITÉ

Le règlement 1907/2006 REACh

Conception de Médicament

Principe de symétrisation pour la construction d un test adaptatif

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Méthodes de Simulation

Vue d ensemble : Office of Cellular, Tissue and Gene Therapies

Etude des propriétés empiriques du lasso par simulations

Modèles et Méthodes de Réservation

Économetrie non paramétrique I. Estimation d une densité

Mesure et détection de substances dangereuses : EX-OX-TOX (IS-013) Version CT-Q

Théorie et codage de l information

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Classification non supervisée

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Allocation Robuste et Restrictions sur les Contributions au Risque

MAP 553 Apprentissage statistique

Introduction au Data-Mining

Détection des deux roues motorisés par télémétrie laser à balayage

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Forthcoming Database

Analyse en Composantes Principales

Les méthodes alternatives de surveillance de la qualité des eaux. Présentation du projet SWIFT-WFD

de calibration Master 2: Calibration de modèles: présentation et simulation d

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Introduction au Data-Mining

5. Helpdesk national du SPF Economie

Vérification audiovisuelle de l identité

La classification automatique de données quantitatives

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

CODIFICATION CONSOLIDATION. Current to August 30, À jour au 30 août Last amended on December 12, 2013

Fiche de Données de Sécurité ADESILEX FIS 13

Simulation de variables aléatoires

Processus aléatoires avec application en finance

Soutenance de stage Laboratoire des Signaux et Systèmes

Cycle «Betriber an Ëmwelt»

Bourses d excellence pour les masters orientés vers la recherche

I. Polynômes de Tchebychev

Introduction à la statistique non paramétrique

Introduction au datamining

Consultants en coûts - Cost Consultants

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Apprentissage non paramétrique en régression

3 Approximation de solutions d équations

NON-LINEARITE ET RESEAUX NEURONAUX

Projet ARMED Assessment and Risk Management of MEdical Devices in plasticized polyvinylchloride

Mesure agnostique de la qualité des images.

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Friulsider KEM chemical fixings KEM Fixations chimiques Friulsider

COMMENTAiRES/ DECISIONS

1 Comment faire un document Open Office /writer de façon intelligente?

Catherine Elsen design thinking.

Oscillations libres des systèmes à deux degrés de liberté

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABDELHAMID IBN BADIS MOSTAGANEM TUNISIE MAROC ALGERIE

Fiche de données de sécurité. 1.2 Utilisations identifiées pertinentes de la substance ou du mélange et utilisations déconseillées

MASTER 2 CONTAMINANTS EAU SANTE

FICHE DE DONNÉES DE SÉCURITÉ Barbarian Super 360

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Mesure chimique. Chemical measurement. Sonde de température Pt 1000 Inox Pt 1000 stainless steel. Ref : Français p 1.

FICHE DE DONNEES DE SECURITE. 1 Identification de la Substance / du Mélange et de la Société / l Entreprise

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

étiquetage des produits chimiques

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Poste: 62 MCF 209. Profil court : Ingénierie environnementale, caractérisation et traitement des déchets, boues, sédiments et sols pollués

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Cours 02 : Problème général de la programmation linéaire

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

SECTION 3: Composition/informations sur les composants 3.2. Mélanges % CAS # (EC) No 1272/ /45/EC Deuterium oxide 99.

La matrice emploi- exposition spéci2ique du milieu de soin : application au risque chimique

Application de K-means à la définition du nombre de VM optimal dans un cloud

Formation à la recherche bibliographique en sciences

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

1 er MASTER CONCEPT «UN MONDE UNE SANTE»

Apprentissage statistique dans les graphes et les réseaux sociaux

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

IPv6: from experimentation to services

Fonctions de plusieurs variables

Introduction à la Statistique Inférentielle

RAPID Prenez le contrôle sur vos données

AIDE-MÉMOIRE LA THERMOCHIMIE TABLE DES MATIERES

Programmes des classes préparatoires aux Grandes Ecoles

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Ekoconstruct / Catalogue ek construct

Estimation & amélioration du DCiE d un datacenter

: QUICK STRIPPER 4X5L PROMO F

Formation à l outil REACH EXCEL TOOL

Espérance conditionnelle

FICHE DE DONNEE SECURITE

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

INTRODUCTION : INFORMATIONS CLÉS ET ACTIVITÉS DU HELPDESK REACH&CLP LUXEMBOURG. 31 mars 2015 Laurène Chochois Helpdesk REACH&CLP Luxembourg

COULEE D ALLIAGES METALLIQUES : MODELISATION DES STRUCTURES ET SEGREGATIONS CHIMIQUES

Transcription:

QUANTILE DE RÉGRESSION : APPLICATION À L ANALYSE DE L ÉCOTOXICITÉ DE MOLÉCULES CHIMIQUES Jonathan VILLAIN 1,2 Ronan BUREAU 2 Gilles DURRIEU 1 1 Laboratoire de Mathématiques de Bretagne Atlantique, Université de Bretagne Sud 2 Centre d Étude et de Recherche sur le Médicament de Normandie, Université de Basse Normandie Caen Journées de la Statistique, Vannes. 1 / 37

Plan 1 2 3 4 Journées de la Statistique, Vannes. 2 / 37

Définition : Chémoinformatique définie au Workshop Chemoinformatics in Europe : Research and Teaching (29 mai - 1er juin 2006 à Obernai, France) «Methods developed for building databases on chemical compounds and reactions, for the prediction of physical, chemical and biological properties of compounds and materials, for drug design, for structure elucidation, for the prediction of chemical reactions and for the design of organic syntheses. Research and development in chemoinformatics is essential - For increasing our understanding of chemical phenomena - For industry to remain competitive in a global economy Chemoinformatics methods can be applied in any field of chemistry, from analytical chemistry to organic chemistry. It is of particular importance in drug design and development.» Journées de la Statistique, Vannes. 3 / 37

Applications : gestion de bases de données de molécules et de réactions, aide pour la conception de nouveaux médicaments, résolution des structures moléculaires, prédiction des réactions chimiques, conception de protocoles de synthèse chimique, prédiction des propriétés physiques, chimiques, biologiques. Journées de la Statistique, Vannes. 4 / 37

Outils de mesures : Journées de la Statistique, Vannes. 5 / 37

moléculaire : NeisVac-C (vaccin contre la méningite) Journées de la Statistique, Vannes. 6 / 37

Législation REACH Juin 2007 : mise en place de la législation REACH (Registration, Evaluation, Autorization and restriction of CHemicals). Principaux objectifs de REACH : assurer un niveau élevé de protection de la santé humaine et de l environnement contre les risques chimiques, renforcer la compétitivité et l innovation, déterminer les risques chimiques pour chaque composé en utilisant 3 méthodes (in vivo, in vitro, in silico). Journées de la Statistique, Vannes. 7 / 37

Législation REACH En écotoxicologie L écotoxicologie étudie le comportement et les effets d agents sur les écosystèmes. Son but est d évaluer le danger de substances par des études de toxicité ainsi que de caractériser la probabilité d exposition de ces substances. Journées de la Statistique, Vannes. 8 / 37

Législation REACH Études d écotoxicologie : il est possible de tester les molécules sur plusieurs espèces aquatiques (aigu, long terme et reprotoxicité) Daphnie, Lemna, Bioaccumulation chez le poisson (poisson zèbre et autres), Algue (P. subcapitata). Durrieu et al. 2005, 2006, 2007, 2010. Journées de la Statistique, Vannes. 9 / 37

Problématique : Objectif : Mise en place d un modèle statistique pour la prédiction du niveau de toxicité des produits chimiques pour les algues. Journées de la Statistique, Vannes. 10 / 37

Plan 1 2 3 4 Journées de la Statistique, Vannes. 11 / 37

Modèle de régression Y = Xβ + ε où Y = (Y 1,..., Y n ) est le vecteur des observations, X est une matrice connue de dimension n p ayant pour lignes x i R p, i = 1,..., n, ε = (ε 1,..., ε n ) est un vecteur d erreurs indépendantes, de fonction de répartition inconnue et de médiane nulle, β = (β 1,..., β p ) désigne le vecteur inconnu des paramètres de régression à estimer. Journées de la Statistique, Vannes. 12 / 37

Quantile de régression (Koenker et Bassett, 1978) On appelle θ-quantile de régression toute solution du problème de minimisation β(θ) = arg min β R p n ( ρ θ Yi x iβ ) i=1 où ρ θ (x) = x (θ I(x < 0)) et I(P) prend la valeur 1 ou 0 selon que la condition P est vérifiée ou non. Cas particulier pour θ = 1/2 : estimateur L 1 ou régression médiane. Journées de la Statistique, Vannes. 13 / 37

Quantile de régression (Koenker et Bassett, 1978) Théorème Sous des conditions de régularité, nous avons quand n : Cas i.i.d : n ( β(θ) β) D N (0, Σθ ), Σ θ = (θ (1 θ)/f 2 (F 1 (θ))) (X X) 1, où q(θ) = 1/f (F 1 (θ)) est la densité du quantile. Cas indépendant mais non identiquement distribué : Σ θ = (θ (1 θ)) (X FX) 1 (X X) (X FX) 1 où F = diag{f 1 (F 1 (θ)),..., f n (F 1 (θ))}. Journées de la Statistique, Vannes. 14 / 37

Quantile de régression Estimation par noyau de q(θ) Ẑ n (θ) = 1 ν 2 n 1 0 ( ) θ w β 1(w) n K dw, ν n où (ν n ) n est une suite de tailles de fenêtres et K une fonction noyau. Théorème (Dodge and Jurečková, 1995) Sous des conditions de régularité, nous avons, quand n, 1 Ẑn(θ) P q(θ) 2 nνn (Ẑn (θ) q(θ)) D N ( 0, q 2 (θ) K 2 (x) dx ). Journées de la Statistique, Vannes. 15 / 37

Quantile de régression SVM Soit : (X 1, Y 1 ),..., (X n, Y n ), un échantillon statistique de taille n et de loi F inconnue. un espace muni d un produit scalaire tel que x φ(x) où x = (x 1,..., x n ) F et φ(x) l espace transformé. Journées de la Statistique, Vannes. 16 / 37

Quantile de régression SVM La fonction quantile Y conditionnellement à X est : Q (θ/x = x) F 1 Y (θ/x = x) = w θ φ(x) pour θ (0, 1), où w θ désigne le θ-quantile de régression. La solution s obtient en minimisant pour θ (0, 1) 1 2 w θ 2 +C où C désigne le degré de pénalisation. n ( ρ θ yi w θφ(x i ) ), i=1 Journées de la Statistique, Vannes. 17 / 37

Quantile de régression SVM Le θ-quantile de régression pour x s écrit alors : Q(θ/x ) = n i=1 ( λ i λ + i ) K(x i, x ) et w θ = n i=1 ( λ i λ + i ) φ(x i ), où λ i, λ + i sont les multiplicateurs de Lagrange et K(x i, x j ) désigne une fonction noyau. Journées de la Statistique, Vannes. 18 / 37

Détection de nouveauté Novelty detection et 1-classe SVM On considère dans un premier temps la classification SVM pour 2 classes. Soit : X 1,..., X n, un échantillon statistique de taille n et de loi F inconnue et Y = { 1, 1}. un espace muni d un produit scalaire tel que x φ(x) où x = (x 1,..., x n ) F et φ(x) l espace transformé. Journées de la Statistique, Vannes. 19 / 37

Détection de nouveauté Novelty detection et 1-classe SVM En classification SVM, le but est de minimiser 1 2 w 2 + C n n ξ i i=1 sous les contraintes Y i (< Φ(x i ), w > +b) 1 ξ i et ξ i 0 avec i = 1,..., n. Journées de la Statistique, Vannes. 20 / 37

Détection de nouveauté Novelty detection et 1-classe SVM Dans le cadre de la 1-classe SVM, on ne considère qu une seule classe. L équation à minimiser devient alors 1 2 w 2 + 1 nν n ξ i ρ i=1 sous les contraintes < w, Φ(x i ) > ρ ξ i et ξ i 0 avec ρ la distance maximum à l origine pour i = 1,..., n. Journées de la Statistique, Vannes. 21 / 37

Choix du noyau Nous considérons ici la fonction noyau de type radial gaussien (RBF) donnée par : k (x i, x j ) = exp ( x i x j 2 2 σ 2 ). Journées de la Statistique, Vannes. 22 / 37

Plan 1 2 3 4 Journées de la Statistique, Vannes. 23 / 37

Rapport de Toxicité Rapport de toxicité (Toxic Ratio) : pour déterminer le mode d action d une molécule à partir du modèle de régression linéaire ( ) 1 log = a log(p) + b, EC 50 où a et b désignent les paramètres de régression inconnus. Calcul du TR TR = Activité prédite par le modèle. Activité mesurée Unité de mesure de l activité : mg/l. Journées de la Statistique, Vannes. 24 / 37

Données Molécules chimiques : 401 composés pour lesquels nous avons les valeurs de EC 50 (concentration aboutissant à une inhibition de 50 % de la croissance d une algue (P. subcapitata)). Descripteurs des molécules : EC 50 associée à l activité (ACT), 153 descripteurs topologiques, Fingerprint (128 descripteurs), RIF (54 descripteurs). Journées de la Statistique, Vannes. 25 / 37

Objectif : déterminer un modèle pouvant prédire EC 50. Étapes : 1 Calcul du TR à partir d une régression quantile (θ = 0.5), 2 Prédiction du mode d action (MOA) des composés chimiques par classification SVM, 3 Modèle de régression quantile SVM sur les molécules prédites comme n ayant pas un MOA spécifique, 4 Mise en place d un domaine de validité (One-class SVM). 5 Application du modèle sur des médicaments. Journées de la Statistique, Vannes. 26 / 37

: Étape 1 Estimateur quantile de régression (θ = 0.5) en considérant toutes les molécules (n = 401) : log (1/EC 50 ) = 0.43 log(p) + 3.35, En calculant le TR, on obtient 336 composés ayant un TR< 10 (mode d action non spécifique) et 65 composés ayant un TR 10 (mode d action spécifique). Journées de la Statistique, Vannes. 27 / 37

: Étape 2 Classification SVM : erreur de classification en apprentissage = 1.75% erreur en validation croisée (2/3, 1/3) = 14.95%. 368 composés chimiques sont prédits en cross-validation comme n ayant pas de mode d action spécifique. Journées de la Statistique, Vannes. 28 / 37

Molécules prédites comme ayant un MOA spécifique Triazinone Bipyridylium Chloroacetamides Quinolines Diphenylether Journées de la Statistique, Vannes. 29 / 37

: Étape 3 (a) (b) R² cross 0.0 0.2 0.4 0.6 0.8 1.0 SCE cross 0 100 200 300 400 0 50 100 150 nombre de variable 0 50 100 150 nombre de variable Figure: (a) R 2 et (b) SCE R en fonction du nombre de variables dans le modèle. Journées de la Statistique, Vannes. 30 / 37

: Étape 3 Régression par segment avec estimation du point de rupture : 73 variables, R 2 cross = 0.68, SCE R cross = 141.26. Journées de la Statistique, Vannes. 31 / 37

: Étape 4 15 10 5 0 5 10 15 10 5 0 5 10 15 10 5 0 5 10 15 Comp1 Comp2 Comp3 Figure: Représentation des groupes One-Class SVM sur les 3 premières composantes de la KPCA. Journées de la Statistique, Vannes. 32 / 37

: Étape 4 36 médicaments ont été testés au sein du CERMN. Par One-class SVM, seulement 4 médicaments sont prédits comme étant dans le domaine de validité. R 2 = 0.92 Remarque : Les médicaments sont connus pour avoir un mode d action spécifique du fait de leur utilisation. Journées de la Statistique, Vannes. 33 / 37

Plan 1 2 3 4 Journées de la Statistique, Vannes. 34 / 37

Définition d un modèle associé à un mode d action non spécifique. Détection de molécules avec un MOA non spécifique et Estimation d un domaine de validité par One-Class SVM. Étude des composés ayant un mode d action sprécifique. Utiliser la régression quantile SVM en séquentielle. Journées de la Statistique, Vannes. 35 / 37

Merci de votre attention Journées de la Statistique, Vannes. 36 / 37

bibliographie [1] J. Villain, G. Durrieu, R. Bureau, Definition of a global model to determine the chemical ecotoxicity on Algae. (2012) Journée de rencontre de l école doctorale SICMA, Brest. [2] J. Villain, G. Durrieu, R. Bureau, Definition of a first global model to determine the ecotoxicity of chemical on Algea. (2013) Poster de la 6 e journée de la SFci, Nancy. [3] J. Villain, G. Durrieu, R. Bureau, Quantile de régression : application à l analyse de l écotoxicité de molécules chimiques. (2014) Proc de la 46 e jounée de la Société Française de Statistique. Rennes. [4] J. Villain, S. Lozano, M.P. Halm-Lemeille, G. Durrieu, R. Bureau, Quantile regression model for a diverse set of chemicals : Application to acute toxicity for green algae. (2014) J Mol Model, 20 :2508, DOI 10.1007/s00894-014-2508-x. [5] J. Villain, M.P. Halm-Lemeille, G. Durrieu, R. Bureau, Quantile models and validity domain for estimate drug toxicity. à soummettre. Journées de la Statistique, Vannes. 37 / 37