L ANALYSE DE DONNÉES AU SERVICE DES UTILISATEURS Lorène Allano 16 Avril 2013
Question? Expert Aide à la décision Expériences Digitalisation Analyse automatique Visualisation Outils adapté Données numériques Informations interprétables 2
DE LA DONNÉE VERS L INFORMATION Données brutes Volumineuses Massives Hétérogènes Structurées ou non Informations Interprétables Intelligibles Aide à la décision 3
LABORATOIRE ANALYSE DE DONNÉES ET INTELLIGENCE DES SYSTÈMES Compétences Traitement de données brutes Fouilles de données Aide à la décision Intelligence distribuée 60 personnes Applications Industrialisation 4
PLAN 1. Outils d analyse de données pour extraire l information 2. De l analyse de données vers la biologie des systèmes 3. Des outils adaptés aux utilisateurs 5
1. ANALYSE DE DONNÉES POUR EXTRAIRE L INFORMATION
OUTILS D ANALYSE DE DONNÉES POUR EXTRAIRE L INFORMATION Extraction par l utilisateur fouille interactive Extraction automatique modélisation 7
FOUILLE DE DONNÉES INTERACTIVE
FOUILLE INTERACTIVE Projection De données multidimensionnelles à l écran Exemples ACP (linéaire) ACC (non linéaire) Distorsions Déchirures Recollements Objectif: Visualisation des distances multidimensionnelles 9
PROXIVIZ 10
PROXIVIZ 11
PROXILENS 12
PROXILENS 13
CLASSIFICATION SEMI-AUTOMATIQUE 14
CLASSIFICATION SEMI-AUTOMATIQUE 15
CONCLUSIONS Visualisation des données Outils interactifs et intuitifs de fouille des données pour l utilisateur Classification semi-automatique (regroupement) 16
MODÉLISATION
MODÉLISATION Modélisation non supervisée Sans connaissance a priori sur la sortie associée aux données Ex clustering Profil de patient, stratification de population Modélisation supervisée Avec une base de données dont la sortie est connue Ex: classification Recherche de marqueurs de réponse/ non réponse 18
CONCLUSIONS Outils de modélisation Extraction d information intelligible par l utilisateur À partir de données hétérogènes et massives Selon les besoins et les données disponibles 19
2. DE L ANALYSE DE DONNÉES VERS LA BIOLOGIE DES SYSTÈMES
DE L ANALYSE DE DONNÉES VERS LA BIOLOGIE DES SYSTÈMES Analyses de données numériques issues d échantillons biologiques De l intégration des données vers la compréhension de mécanismes 21
DONNÉES PROTÉOMIQUES POUR LE DIAGNOSTIC IN VITRO
Staphylococcus aureus Nécessité d un diagnostic : Sûr Rapide Informatif Peu couteux 23
Hémoculture Extraction des protéines Protéomique par spectrométrie de masse Analyse des données et visualisation 24
OUTILS D ANALYSE DE DONNÉES Spectres 2D Extraction de pics Comparaison à une base de référence (1,97): STAAU-I_Y1195_NLVSEVTDAVEK_1077 (652.341 / 1076.55) Analyse des peptides après fragmentation Intensity 0 20000 40000 60000 (1,98): STAAU-I_Y1195_NLVSEVTDAVEK_890 (652.341 / 890.447) Detected - A = 3.21e+05 - Fwhm = 1.05 Intensity 0 20000 40000 60000 80000 100000 120000 Intensity (1,99): STAAU-I_Y1195_NLVSEVTDAVEK_977 (652.341 / 977.479) Detected - A = 1.78e+05 - Fwhm = 1.33 0 50000 100000 150000 Detected - A = 8.67e+05 - Fwhm = 1.09 18.0 18.5 19.0 19.5 20.0 20.5 Time (min) 18.0 18.5 19.0 19.5 20.0 20.5 Time (min) Prédiction de résistance, typage, virulence 25
CONCLUSIONS Chaine de traitement de la donnée brute à l utilisateur Autres sources Metabolomique par spectrométrie de masse Spectroscopie Raman sur cellule ou tissu Imagerie hyperspectrale Des données et des analyses en lien avec les équipes expérimentales 26
DES DONNÉES AUX MÉCANISMES
DE L INTÉGRATION DES DONNÉES VERS LA COMPRÉHENSION DE MÉCANISMES Intégration de donnés multi-omics Métabolomique Protéomique Transcriptomique Génomique Modélisation pharmacocinétique Xp Modèles à effets-mixtes, modèles parents-métabolites Personnalisation du traitement grâce à la carte individuelle métabolique Dose Xa k a k 21 k 12 k m X Xm k e k em Interface avec la biologie des systèmes Lien vers des bases de connaissances 28
3. DES OUTILS ADAPTÉS AUX UTILISATEURS
SUIVI DE PATIENT, CANCER UROLOGIQUE Recommandation de traitement selon: Données issues de différents services Suivi dans le temps Profile du patient 30
SUIVI DE PATIENT, CANCER UROLOGIQUE Des données hétérogènes et multi-sources Interface d aide à la décision Intégration de l expertise 31
UNE COLLABORATION ÉTROITE POUR RÉPONDRE AUX BESOINS APHP Pr. Olivier Cussenot (hôpital Tenon, Paris) Un outils dédié pour: Centraliser les informations d un patient Centraliser les différentes sources Suivi dans le temps Outils de comparaison visuelle avec une base de patients de référence Génération automatique de rapport Utilisé au quotidien par Pr. Cussenot 32
CONCLUSIONS
CONCLUSIONS Des études en lien avec les experts Les utilisateurs pour la définition des besoins Les équipes instrumentales pour l interface aux données Les utilisateurs finaux pour des outils adaptés Des méthodes innovantes d analyse de données De la donnée brute à l aide à la décision Pour les données massives et hétérogènes Intégration de la donnée Des outils au service des utilisateurs Interactifs Interprétables Utilisables 34
Questions? Lorene.allano@cea.fr