Une approche pragmatique pour la création d un outil d annotation d échantillons dans le domaine des lymphomes Nicolas Garcelon, Anita Burgun I3-CRB Nov 2009 1
Background L unité INSERM U917 (Microenvironnement et Cancer) participe au programme national CIT (Carte d Identité des Tumeurs). Le CIT recueille les échantillons annotés des différents laboratoire participant. Les annotations sont transmises par un fichier Excel au CIT. Pour cela le CIT fournit une liste d annotations obligatoires. L unité U917 n a actuellement aucun outil à sa disposition pour recueillir ces annotations. 2
Objectifs Développer une application permettant d annoter les échantillons : Répondre aux besoins du CIT en terme d items Répondre aux besoins de l unité U917 en terme d items, d ergonomie, de fonctionnalité (ajout, suppression, modification, recherche, export... ) 3
Objectifs connexes background objectifs objectifs connexes méthodes résultats discussion Partager les informations entre les colaborateurs Diffuser les fichiers issus de puces à ADN sur Internet à la suite d une publication Lier les données au Système d Information Hospitalier (SIH) 4
Méthodes Analyse du fichier d annotations transmis par le CIT General information (14 data elements obligatoires) Biomaterial Type ( cell line, biopsy,...) Biomaterial Source ( DNA, RNA,...) Pool Status (Y/N) Disease State (Normal / cancerous) Organism ( Homo sapiens, Mus musculus ) Organism Part... Patient information (3 data elements dont 2 obligatoires) Tumor information (10 data elements) Birth Date Sex Origin TNM Stage Localization Histology % stromal cells and % tumor cells Size 5
Méthodes Analyse du fichier d annotations transmis par le CIT Biological tests (1 data element) Normal and test values Clinical information (25 data elements) Risk Factors (1 data element) Genetic screens (6 data elements) Prognosis index Related syndromes Diagnosis Date... Ex: Presence of virus etc... Chromosomal modification Polymorphism Aneuploidy Gene fusion... 6
Méthodes Analyse des besoins pour l unité U917 sur les lymphomes Cell Type (7 data elements) Date traitement Cell type Cell purity % purity Cell viability % viability State before handling Patient (8 data elements) IPP IEP Prénom Nom Date de naissance Sexe Disease Diagnosis Date Sample (5 data elements) Biomaterial type Organism Part Delay Before Care Delay before care (H) Disease state 7
Méthodes Analyse des besoins pour l unité U917 sur les lymphomes Timing (23 data elements) sampling Date State Number of involved nodal Areas Number of involved nodal areas (>4) Ann Harbor staging Presence of extranodal sites Bone marrow involment Hemoglobin level Hb above 120 g/l LDH Patient Normal LDH LDH greater than upper limit of normal performance status (ECOG) performance status (ECOG) above 2 FLIPI score IPI Score Rituximab treatment Daunorubicin treatment Beta2microglobuline patient normal Beta2microglobuline Beta2microglobuline > upper limit of normal lodlin > 6 cm BMI Utilisation (8 data elements) 8 CIT ID Biomaterial source RNA Quality RNA Quality (RIN) RNA Quantity DNA Quality DNA Quantity Fichier CEL Disease Diagnosis Dat
Méthodes Le choix des thésaurus il faut choisir des thésaurus mappés dans l UMLS (Unified Medical Language System) Metathesaurus 9
Résultats les data elements sont agencés en arbre. 10
Résultats L application développée en PHP / Oracle / Ajax 11
Résultats Mapping des annotations du CIT et de l unité U917 : U917 : 49 data elements 26 data elements en commun avec le CIT 23 data elements absents du CIT 7 data elements nécessiteraient un thesaurus pour lister leur set values : Cell type, disease, disease state, biomaterial type, organism part, biomaterial source, and organism 12
Résultats Mapping des annotations du CIT et de l unité U917 : 13
Discussion Données complémentaires : Anapath : ADICAP ( non mappé dans l UMLS ) Plus globalement : quelle granularité pour le codage? Par exemple, devons nous annoter un échantillon fait sur la 7ieme côte d un patient, avec un tel niveau de détail anatomique? Suivant le degré de granularité on pourra utiliser MeSH (niveau grossier) ou FMA (niveau fin). 15
Discussion Quel format d échange? Pour le CIT, c est un fichier avec séparateur tabulation ====> en retard par rapport aux formats d échange de type HL7 Difficultés rencontrées pour faire comprendre l intérêt d être compatible avec le TVN (tumorothèque virtuelle nationale)... Difficulté pour obtenir une liste de value sets auprès du CIT : ils préfèrent uniformiser à la fin. Réflexion importante en cours sur l interopérabilité entre le SIH et les applications cliniques. Standardisation des échanges et des messages échangés. (versioning des messages / modification / suppression...) 16