Quelques problèmes de recherche en Biostatistique

Documents pareils
Exemple PLS avec SAS

Improving the breakdown of the Central Credit Register data by category of enterprises

Application Form/ Formulaire de demande

Instructions Mozilla Thunderbird Page 1

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Algorithmes de recommandation, Cours Master 2, février 2011

Paxton. ins Net2 desktop reader USB

Principe de symétrisation pour la construction d un test adaptatif

Once the installation is complete, you can delete the temporary Zip files..

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

CEST POUR MIEUX PLACER MES PDF

Modèles pour données répétées

FOURTH SESSION : "MRP & CRP"

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

BNP Paribas Personal Finance

Face Recognition Performance: Man vs. Machine

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

MODERN LANGUAGES DEPARTMENT

MANUEL MARKETING ET SURVIE PDF

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Revision of hen1317-5: Technical improvements

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Modélisation géostatistique des débits le long des cours d eau.

Contents Windows

Gestion des prestations Volontaire

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

FÉDÉRATION INTERNATIONALE DE NATATION Diving

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

Agile&:&de&quoi&s agit0il&?&

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

POLICY: FREE MILK PROGRAM CODE: CS-4

Photoactivatable Probes for Protein Labeling

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Exercices sur SQL server 2000

Edna Ekhivalak Elias Commissioner of Nunavut Commissaire du Nunavut

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Notice Technique / Technical Manual

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

1.The pronouns me, te, nous, and vous are object pronouns.

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Nouveautés printemps 2013

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Practice Direction. Class Proceedings

Fédération Internationale de Handball. b) Règlement du but

The Exploration of HIV Fitness Landscapes

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

CLASSIFICATION REPORT OF REACTION TO FIRE PERFORMANCE IN ACCORDANCE WITH EN : 2007

Eléments de statistique

APPENDIX 6 BONUS RING FORMAT

Embases pour raccordement G1/8 - G1/4

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

Swap: Utilisation et risques Approche de gestion pour les consommateurs

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

QUEL AVENIR POUR LA PHARMACIE HOSPITALIERE EN SUISSE?

Material Banking Group Percentage Regulations. Règlement fixant le pourcentage (groupe bancaire important) CONSOLIDATION CODIFICATION

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

PROJET DE LOI. An Act to Amend the Employment Standards Act. Loi modifiant la Loi sur les normes d emploi

Université de XY University of XY. Faculté XY Faculty of XY

Scénarios économiques en assurance

Règlement relatif à l examen fait conformément à la Déclaration canadienne des droits. Canadian Bill of Rights Examination Regulations CODIFICATION

Institut français des sciences et technologies des transports, de l aménagement

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

BIG Data et R: opportunités et perspectives

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

Monitoring des classes de neige des calottes polaires par Envisat

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

Disclosure on Account Opening by Telephone Request (Trust and Loan Companies) Regulations

Data issues in species monitoring: where are the traps?

Forthcoming Database

Credit Note and Debit Note Information (GST/ HST) Regulations

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Frequently Asked Questions

DOCUMENTATION - FRANCAIS... 2

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Règlement sur les baux visés à la Loi no 1 de 1977 portant affectation de crédits. Appropriation Act No. 1, 1977, Leasing Regulations CODIFICATION


Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

EN UNE PAGE PLAN STRATÉGIQUE

RAPID Prenez le contrôle sur vos données

Life Companies Borrowing Regulations. Règlement sur les emprunts des sociétés d assurance-vie CONSOLIDATION CODIFICATION

Transcription:

Quelques problèmes de recherche en Biostatistique Rémi Servien UMR 1331 Toxalim, INRA, Toulouse Rencontres des Jeunes Statisticiens 30 Août 2015 1 / 46

Case study In dogs, we study the effect of robenacoxib on osteoarthritis K = 4 ordinal outcomes (scores) measured at 6 visits : 2 / 46

Case study 3 / 46

What is done in practice Compute the sum of scores Analyse it as a continuous variable : Posture + Lameness at walk + Lameness at trot + Pain at palpation = Sum of scores : 0-12 4 / 46

Why is this approach not appropriate? It ignores the actual metric of each score It assumes that all categories are equidistant The distance between 0 and 1 is not the same as the distance between 2 and 3 5 / 46

Why is this approach not appropriate? It ignores the actual metric of each score The distance between 1 and 2 is not the same as the distance between 1 and 2 "Weighted" sum of scores have been proposed but not ideal : Multidimensional nature of the data is lost Dependance of the scores not taken into account Any result can be obtained using appropriate weights 6 / 46

What should be done Analyse the data as ordered categorical data using appropriate models (logit, probit...) Many publications on ordinal data analysis Applications to assess drug effect Estimation/modelling issues But published models restricted to the analysis of only one score! 7 / 46

Limits of univariate analyses They only estimate marginal distributions Drugs A and B have the same marginal distributions but different benefit-risk ratios! Univariate analyses assume scores are independent 8 / 46

Probit mixed effects models Objectives : Extend this previous model (Todem et al.) To analyse more than two scores To identify similarities between scores Are some scores redundant? To adress questions like : What is the percentage of subjects with no symptoms (clinical cure)? What is the percentage of subjects with no or mild symptoms (acceptable clinical status)? To provide a model that could be used in routine practice 9 / 46

Latent variable approach 10 / 46

Latent variable approach The K scores Y 1,..., Y K are obtained by categorisation of K continuous latent variables Y 1,..., Y K Y kij = f k ( xkij, β k ) + ηki + ε kij f k : known real function for score k = 1,..., K x kij : covariates for subject i, score k and time t kij β k : fixed effects for score k η ki : random effects for inter-individual variability ε kij : random effects for intra-individual variability 11 / 46

Modelling correlations between scores The correlations between the scores across time are modeled as correlations between latent variables Y η 1i 0 ε 1ij 0... N..., Ω... N..., Γ η ki ε kij ε 0 0 kij ε kij η Ki Ω variance-covariance matrix : overall correlation between scores within subjects Γ correlation matrix : correlation within subjects at a given occasion ε Kij 12 / 46

Parameter estimation (a, β, Γ, Ω) Likelihood : untractable in reasonable time (curse of dimensionality) Pseudo-likelihood using a pairwise approach Stochastic EM algorithm (SAEM like) Unbiased estimates with nice properties (asymptotic normality, efficacy...) in a reasonable time with our own program written in C++ (no current software) 13 / 46

Osteoarthritis in dogs 125 dogs over 12 weeks 6 clinical examinations and 4 scores (with 4 categories) : Posture while standing Lameness while walking Lameness while trotting Pain at the palpation Exclusion of subjects with missing data ( 1.2 %) 3 models M1 Scores are independent (Ω diagonal matrix and Γ = Id) M2 Scores are independent conditionally to η i (Γ = Id) M3 All correlations are included 14 / 46

Model Y ijk = β(k) max(1 exp( β eq t ij )) + η ik + ε ijk β (k) max : maximum treatment effect observed at the plateau exp( β eq t ij ) : rate at which the plateau is reached β eq : equilibrium constant (common to all scores) 15 / 46

Results Model 1 Model 2 Model 3-2 log Likelihood 7393.427 6933.052 6494.719 Model M3 performs better (but as more parameters than Model M1 and M2) Model 1 Model 2 Model 3 AIC 7429.247 6981.052 6554.719 Model M3 performs better! 16 / 46

Are some scores redundant? Principal Component Analysis (PCA) on Γ and Ω (Model M3) Independance of pain at palpation from the 3 other scores! These 3 scores are highly dependent 17 / 46

Joint probability estimation What is the percentage of subjects with no symptoms (clinical cure)? Model M3 (third graph) performs better! 18 / 46

Comparison with univariate analyses 19 / 46

Perspectives Γ might depend on covariates Γ might change with time Handling of missing data (talk of this morning) Generalization of our C++ code for routine practice Reference for this work : C. Laffont et al., Journal of the American Statistical Association, 2014. 20 / 46

Problème réel Nouveaux appareils de radiothérapie : 5 faisceaux à la place de 2 Avantage : zones saines irradiées reçoivent une dose plus faible Inconvénient : réglages sont plus longs Objectif : Obtenir, par une classification non supervisée, des groupes composés de jeux d angles homogènes permettant de définir des préréglages. 21 / 46

Difficultés Data 1 st angle 2 nd angle 3 rd angle 4 th angle 5 th angle 1 1.81π 0 π/4 π/2 π 2 π/2 π 1.81π 0 π/4 3 π/2 π 0.19π 2π π/4 TABLE : Exemple de données. Définir une distance δ entre 2 angles a et b δ(a, b) = min a b + k2π k Z Définir une distance d entre 2 jeux d angles x 1 et x 2 5 d(x 1, x 2 ) = inf δ ( ) x 1σ(l), x 2l, σ F l=1 où F est l ensemble des permutations circulaires. 22 / 46

Classification Objectifs d une classification : créer des groupes d individus tels que au sein d un méme groupe les individus soient le plus semblables d un groupe à l autre ils soient le plus dissemblables. 23 / 46

Critère Trouver l ensemble des centres Ω = {c 1, c 2,..., c k } qui minimise la distortion D(Ω) = min c Ω n d(x i, c). i=1 Pas de solution explicite pour minimiser d Algorithmes de type recuit-simulé (nombre de groupes fixé) 24 / 46

Algorithme de type recuit simulé Chaque donnée est assignée à son centre le plus proche (en utilisant la distance d) distorsion D a i. Un centre c i = {c i1, c i2, c i3, c i4, c i5 } est choisi au hasard. Un nouveau centre C i est proposé pour ce groupe, de coordonnées c ij N w (c ij, σ 2 a) avec 1 j 5 où N w (c ij, σ 2 a) est de densité f (x; c ij, σ 2 a) = 1 2πσa k= On calcule la nouvelle distorsion D n i. exp { (x c ij + 2kπ) 2 }. 2σ 2 a 1 On accepte le nouveau centre avec la probabilité 1 exp ( (D n i D a i )/(t n))), où t n est le paramètre appelé température, et nous retournons à l étape 1. 2 Si nous le rejetons nous retournons à l étape 2 et nous choisissons un autre centre. 25 / 46

Convergence En prenant t n = C 0 log n on démontre la convergence de l algorithme en utilisant Bartoli et Del Moral (2001) avec C 0 > k osc K (D). En pratique avec Ω i+1 K (Ω i,.). osc ˆ K (D) = sup D(Ω i ) D(Ω i+1 ) 1 i n 26 / 46

Simulations On tire uniformément nombre de groupes k nombre de points par groupe n k les 5 angles des centres c ik pour chaque groupe. Chaque angle de chaque donnée est généré selon une N w (c ik, σ 2 g). 27 / 46

Simulations σ g = 6 σ g = 10 σ g = 14 σ a = 6 99 94 88 σ a = 10 99 95 90 σ a = 14 99 95 90 TABLE : Pourcentage de classification correcte de notre algorithme sur des données simulées par rapport à σ g et σ a. 28 / 46

Données réelles On trouve les 2 (choix par critère AIC) centres suivants c 1 = {π/4, π/2, π, 1.81π, 1.99π} et c 2 = {π/4, 0.51π, 3/4π, π, 1.88π}. 3 angles communs π/4, π/2 et π un 4e angle avec une différence minime autour de 1.85π différence réelle sur la 5e valeur : 3π/4 et dans l autre 0. Utilisation facile pour les praticiens. 29 / 46

Conclusion et Perspectives Etude du problème Distance adéquate Algorithme de minimisation convergent Obtention des préréglages Ref. : Servien et al., Statistics in Medecine, 2013. Perspectives : Classification bayésienne par processus de Dirichlet (choix automatique du nombre de groupes) Etude de l éventuelle influence de covariables 30 / 46

Motivations Etudier comportement des contaminants organiques Les classer dans des groupes selon différents propriétés (dégradation, toxicologie...) Choix d une molécule modèle par groupe pour des études plus poussées Problématique sous-jacente : étude de la Chlordécone 31 / 46

Outils statistiques Données : 40 variables de descripteurs (X i ) 17 variables de paramètres environnementaux (Y j ) Plus de 200 molécules Problèmes : Variables corrélées 2 ensembles de variables (X i ) et (Y j ) à relier Valeurs manquantes Solutions : Régression PLS puis Algorithme de classification 32 / 46

Régression PLS On cherche à construire un modèle linéaire de type Y = X Q + E Q matrice des coefficients et E matrice d erreurs. Objectifs : Nouvelles variables X combinaisons linéaires des X Elles ne sont plus corrélées Maximisation de la covariance entre X et Y Gestion des données manquantes (algorithme NIPALS) 33 / 46

Classification hiérarchique Préalables : Choisir une distance inter-individus (ex : distance euclidienne) Choisir un critére d agglomération (distance entre groupe d invidus) (ex : critére de Ward...). Procédure itérative : Début Chaque individu est un groupe. Itérations Regroupement des 2 groupes les plus proches. Fin Une classe regroupe tous les individus. Résultats : arbre de classification appelé dendrogramme. 34 / 46

Dendrogramme 35 / 46

Dendrogramme 36 / 46

Application TyPol Outil destiné à des biologistes Gestion de la base de données Accessible en ligne après demande de compte à l administrateur Simple d utilisation (= "presse-boutons") 37 / 46

38 / 46

Choix Molecules 39 / 46

Calcul du PRESS pour la PLS 40 / 46

Cercle des corrélations 41 / 46

Dendrogramme 42 / 46

Choix du nombre de classes 43 / 46

Multivariate analysis of clinical scores Classification de données circulaires Classification de micropolluants Représentation de la classification finale 3 Individuals factor map (PLS Regression) 4 t2 6 4 2 0 2 4 5 6 51338 27 3 64902 72 3 36734 19 7 131983 72 7 INRA 1 131983 72 7 INRA 2 133855 98 8 63637 89 8 131983 72 7 3268 87 9 15972 60 8 1746 01 6 19408 74 3 2051 24 3 21725 46 2 34256 82 1 51218 45 2 35822 46 9 555 37 3 74070 46 5 67129 08 2 94361 06 5 126833 17 8 40321 76 4 39227 28 6 23950 58 5 35065 30 6 35694 08 7 40186 72 9 50 29 3 39001 02 0 101 21 3 135410 20 7 1897 45 6 INRA 2 1746 81 2 15545 48 9 1912 24 9 330 55 2303 17 5 38380 07 3 330 54 1 1698 60 8 1570 64 5 122 34 9 1897 45 6 INRA 1 1918 16 7 2303 16 4 52663 59 9 38444 93 8 52663 62 4 52663 71 5 57653 85 7 99105 77 8 72 55 9 52663 78 2 52663 79 3 72 54 8 55215 18 4 55673 89 7 51207 31 9 57117 31 4 57117 41 6 57117 44 9 67562 39 4 60145 20 2 60851 34 5 72918 21 9 70648 26 9 7085 19 0 3567 62 2 1918 02 1 1918 00 9 34883 41 5 34883 43 7 33284 50 3 25569 80 6 133 07 3 16605 91 7 13029 08 8 2050 68 2 2974 90 5 2050 67 1 2974 92 7 37680 66 3 38444 78 9 5598 13 0 94 74 6 94 75 7 709 98 8 2327 02 8 2051 61 8 34883 39 1 33146 45 1 2051 60 7 133 06 2 68359 37 5 INRA 1 118 74 1 95 76 1 1031 07 8 58 89 9 115 29 7 16672 87 0 608 73 1 297 78 9 1715 40 876 44 8 8001 35 2 14168 01 5 1024 57 3 27304 13 8 2550 75 6 309 00 2 465 73 6 57 74 9 60 57 1 72 20 8 68359 37 5 175013 18 0 52315 07 8 119446 68 3 335104 84 2 52645 53 1 361377 29 9 143 50 0 2385 85 5 4234 79 1 5 0 5 10 15 t1 44 / 46

Influence de la filiation 45 / 46

Conclusion et Perspectives Analyse fine de la filiation des molécules (application au tebuconazole) Relation non linéaire (ex : PLS spline...) Référence : R. Servien et al.(2014), Chemosphere. 46 / 46