Quelques problèmes de recherche en Biostatistique Rémi Servien UMR 1331 Toxalim, INRA, Toulouse Rencontres des Jeunes Statisticiens 30 Août 2015 1 / 46
Case study In dogs, we study the effect of robenacoxib on osteoarthritis K = 4 ordinal outcomes (scores) measured at 6 visits : 2 / 46
Case study 3 / 46
What is done in practice Compute the sum of scores Analyse it as a continuous variable : Posture + Lameness at walk + Lameness at trot + Pain at palpation = Sum of scores : 0-12 4 / 46
Why is this approach not appropriate? It ignores the actual metric of each score It assumes that all categories are equidistant The distance between 0 and 1 is not the same as the distance between 2 and 3 5 / 46
Why is this approach not appropriate? It ignores the actual metric of each score The distance between 1 and 2 is not the same as the distance between 1 and 2 "Weighted" sum of scores have been proposed but not ideal : Multidimensional nature of the data is lost Dependance of the scores not taken into account Any result can be obtained using appropriate weights 6 / 46
What should be done Analyse the data as ordered categorical data using appropriate models (logit, probit...) Many publications on ordinal data analysis Applications to assess drug effect Estimation/modelling issues But published models restricted to the analysis of only one score! 7 / 46
Limits of univariate analyses They only estimate marginal distributions Drugs A and B have the same marginal distributions but different benefit-risk ratios! Univariate analyses assume scores are independent 8 / 46
Probit mixed effects models Objectives : Extend this previous model (Todem et al.) To analyse more than two scores To identify similarities between scores Are some scores redundant? To adress questions like : What is the percentage of subjects with no symptoms (clinical cure)? What is the percentage of subjects with no or mild symptoms (acceptable clinical status)? To provide a model that could be used in routine practice 9 / 46
Latent variable approach 10 / 46
Latent variable approach The K scores Y 1,..., Y K are obtained by categorisation of K continuous latent variables Y 1,..., Y K Y kij = f k ( xkij, β k ) + ηki + ε kij f k : known real function for score k = 1,..., K x kij : covariates for subject i, score k and time t kij β k : fixed effects for score k η ki : random effects for inter-individual variability ε kij : random effects for intra-individual variability 11 / 46
Modelling correlations between scores The correlations between the scores across time are modeled as correlations between latent variables Y η 1i 0 ε 1ij 0... N..., Ω... N..., Γ η ki ε kij ε 0 0 kij ε kij η Ki Ω variance-covariance matrix : overall correlation between scores within subjects Γ correlation matrix : correlation within subjects at a given occasion ε Kij 12 / 46
Parameter estimation (a, β, Γ, Ω) Likelihood : untractable in reasonable time (curse of dimensionality) Pseudo-likelihood using a pairwise approach Stochastic EM algorithm (SAEM like) Unbiased estimates with nice properties (asymptotic normality, efficacy...) in a reasonable time with our own program written in C++ (no current software) 13 / 46
Osteoarthritis in dogs 125 dogs over 12 weeks 6 clinical examinations and 4 scores (with 4 categories) : Posture while standing Lameness while walking Lameness while trotting Pain at the palpation Exclusion of subjects with missing data ( 1.2 %) 3 models M1 Scores are independent (Ω diagonal matrix and Γ = Id) M2 Scores are independent conditionally to η i (Γ = Id) M3 All correlations are included 14 / 46
Model Y ijk = β(k) max(1 exp( β eq t ij )) + η ik + ε ijk β (k) max : maximum treatment effect observed at the plateau exp( β eq t ij ) : rate at which the plateau is reached β eq : equilibrium constant (common to all scores) 15 / 46
Results Model 1 Model 2 Model 3-2 log Likelihood 7393.427 6933.052 6494.719 Model M3 performs better (but as more parameters than Model M1 and M2) Model 1 Model 2 Model 3 AIC 7429.247 6981.052 6554.719 Model M3 performs better! 16 / 46
Are some scores redundant? Principal Component Analysis (PCA) on Γ and Ω (Model M3) Independance of pain at palpation from the 3 other scores! These 3 scores are highly dependent 17 / 46
Joint probability estimation What is the percentage of subjects with no symptoms (clinical cure)? Model M3 (third graph) performs better! 18 / 46
Comparison with univariate analyses 19 / 46
Perspectives Γ might depend on covariates Γ might change with time Handling of missing data (talk of this morning) Generalization of our C++ code for routine practice Reference for this work : C. Laffont et al., Journal of the American Statistical Association, 2014. 20 / 46
Problème réel Nouveaux appareils de radiothérapie : 5 faisceaux à la place de 2 Avantage : zones saines irradiées reçoivent une dose plus faible Inconvénient : réglages sont plus longs Objectif : Obtenir, par une classification non supervisée, des groupes composés de jeux d angles homogènes permettant de définir des préréglages. 21 / 46
Difficultés Data 1 st angle 2 nd angle 3 rd angle 4 th angle 5 th angle 1 1.81π 0 π/4 π/2 π 2 π/2 π 1.81π 0 π/4 3 π/2 π 0.19π 2π π/4 TABLE : Exemple de données. Définir une distance δ entre 2 angles a et b δ(a, b) = min a b + k2π k Z Définir une distance d entre 2 jeux d angles x 1 et x 2 5 d(x 1, x 2 ) = inf δ ( ) x 1σ(l), x 2l, σ F l=1 où F est l ensemble des permutations circulaires. 22 / 46
Classification Objectifs d une classification : créer des groupes d individus tels que au sein d un méme groupe les individus soient le plus semblables d un groupe à l autre ils soient le plus dissemblables. 23 / 46
Critère Trouver l ensemble des centres Ω = {c 1, c 2,..., c k } qui minimise la distortion D(Ω) = min c Ω n d(x i, c). i=1 Pas de solution explicite pour minimiser d Algorithmes de type recuit-simulé (nombre de groupes fixé) 24 / 46
Algorithme de type recuit simulé Chaque donnée est assignée à son centre le plus proche (en utilisant la distance d) distorsion D a i. Un centre c i = {c i1, c i2, c i3, c i4, c i5 } est choisi au hasard. Un nouveau centre C i est proposé pour ce groupe, de coordonnées c ij N w (c ij, σ 2 a) avec 1 j 5 où N w (c ij, σ 2 a) est de densité f (x; c ij, σ 2 a) = 1 2πσa k= On calcule la nouvelle distorsion D n i. exp { (x c ij + 2kπ) 2 }. 2σ 2 a 1 On accepte le nouveau centre avec la probabilité 1 exp ( (D n i D a i )/(t n))), où t n est le paramètre appelé température, et nous retournons à l étape 1. 2 Si nous le rejetons nous retournons à l étape 2 et nous choisissons un autre centre. 25 / 46
Convergence En prenant t n = C 0 log n on démontre la convergence de l algorithme en utilisant Bartoli et Del Moral (2001) avec C 0 > k osc K (D). En pratique avec Ω i+1 K (Ω i,.). osc ˆ K (D) = sup D(Ω i ) D(Ω i+1 ) 1 i n 26 / 46
Simulations On tire uniformément nombre de groupes k nombre de points par groupe n k les 5 angles des centres c ik pour chaque groupe. Chaque angle de chaque donnée est généré selon une N w (c ik, σ 2 g). 27 / 46
Simulations σ g = 6 σ g = 10 σ g = 14 σ a = 6 99 94 88 σ a = 10 99 95 90 σ a = 14 99 95 90 TABLE : Pourcentage de classification correcte de notre algorithme sur des données simulées par rapport à σ g et σ a. 28 / 46
Données réelles On trouve les 2 (choix par critère AIC) centres suivants c 1 = {π/4, π/2, π, 1.81π, 1.99π} et c 2 = {π/4, 0.51π, 3/4π, π, 1.88π}. 3 angles communs π/4, π/2 et π un 4e angle avec une différence minime autour de 1.85π différence réelle sur la 5e valeur : 3π/4 et dans l autre 0. Utilisation facile pour les praticiens. 29 / 46
Conclusion et Perspectives Etude du problème Distance adéquate Algorithme de minimisation convergent Obtention des préréglages Ref. : Servien et al., Statistics in Medecine, 2013. Perspectives : Classification bayésienne par processus de Dirichlet (choix automatique du nombre de groupes) Etude de l éventuelle influence de covariables 30 / 46
Motivations Etudier comportement des contaminants organiques Les classer dans des groupes selon différents propriétés (dégradation, toxicologie...) Choix d une molécule modèle par groupe pour des études plus poussées Problématique sous-jacente : étude de la Chlordécone 31 / 46
Outils statistiques Données : 40 variables de descripteurs (X i ) 17 variables de paramètres environnementaux (Y j ) Plus de 200 molécules Problèmes : Variables corrélées 2 ensembles de variables (X i ) et (Y j ) à relier Valeurs manquantes Solutions : Régression PLS puis Algorithme de classification 32 / 46
Régression PLS On cherche à construire un modèle linéaire de type Y = X Q + E Q matrice des coefficients et E matrice d erreurs. Objectifs : Nouvelles variables X combinaisons linéaires des X Elles ne sont plus corrélées Maximisation de la covariance entre X et Y Gestion des données manquantes (algorithme NIPALS) 33 / 46
Classification hiérarchique Préalables : Choisir une distance inter-individus (ex : distance euclidienne) Choisir un critére d agglomération (distance entre groupe d invidus) (ex : critére de Ward...). Procédure itérative : Début Chaque individu est un groupe. Itérations Regroupement des 2 groupes les plus proches. Fin Une classe regroupe tous les individus. Résultats : arbre de classification appelé dendrogramme. 34 / 46
Dendrogramme 35 / 46
Dendrogramme 36 / 46
Application TyPol Outil destiné à des biologistes Gestion de la base de données Accessible en ligne après demande de compte à l administrateur Simple d utilisation (= "presse-boutons") 37 / 46
38 / 46
Choix Molecules 39 / 46
Calcul du PRESS pour la PLS 40 / 46
Cercle des corrélations 41 / 46
Dendrogramme 42 / 46
Choix du nombre de classes 43 / 46
Multivariate analysis of clinical scores Classification de données circulaires Classification de micropolluants Représentation de la classification finale 3 Individuals factor map (PLS Regression) 4 t2 6 4 2 0 2 4 5 6 51338 27 3 64902 72 3 36734 19 7 131983 72 7 INRA 1 131983 72 7 INRA 2 133855 98 8 63637 89 8 131983 72 7 3268 87 9 15972 60 8 1746 01 6 19408 74 3 2051 24 3 21725 46 2 34256 82 1 51218 45 2 35822 46 9 555 37 3 74070 46 5 67129 08 2 94361 06 5 126833 17 8 40321 76 4 39227 28 6 23950 58 5 35065 30 6 35694 08 7 40186 72 9 50 29 3 39001 02 0 101 21 3 135410 20 7 1897 45 6 INRA 2 1746 81 2 15545 48 9 1912 24 9 330 55 2303 17 5 38380 07 3 330 54 1 1698 60 8 1570 64 5 122 34 9 1897 45 6 INRA 1 1918 16 7 2303 16 4 52663 59 9 38444 93 8 52663 62 4 52663 71 5 57653 85 7 99105 77 8 72 55 9 52663 78 2 52663 79 3 72 54 8 55215 18 4 55673 89 7 51207 31 9 57117 31 4 57117 41 6 57117 44 9 67562 39 4 60145 20 2 60851 34 5 72918 21 9 70648 26 9 7085 19 0 3567 62 2 1918 02 1 1918 00 9 34883 41 5 34883 43 7 33284 50 3 25569 80 6 133 07 3 16605 91 7 13029 08 8 2050 68 2 2974 90 5 2050 67 1 2974 92 7 37680 66 3 38444 78 9 5598 13 0 94 74 6 94 75 7 709 98 8 2327 02 8 2051 61 8 34883 39 1 33146 45 1 2051 60 7 133 06 2 68359 37 5 INRA 1 118 74 1 95 76 1 1031 07 8 58 89 9 115 29 7 16672 87 0 608 73 1 297 78 9 1715 40 876 44 8 8001 35 2 14168 01 5 1024 57 3 27304 13 8 2550 75 6 309 00 2 465 73 6 57 74 9 60 57 1 72 20 8 68359 37 5 175013 18 0 52315 07 8 119446 68 3 335104 84 2 52645 53 1 361377 29 9 143 50 0 2385 85 5 4234 79 1 5 0 5 10 15 t1 44 / 46
Influence de la filiation 45 / 46
Conclusion et Perspectives Analyse fine de la filiation des molécules (application au tebuconazole) Relation non linéaire (ex : PLS spline...) Référence : R. Servien et al.(2014), Chemosphere. 46 / 46