.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données
Plan. 1 Problématique. 2 Knowledge Data Discovery Phase 1 Phase 2. 3 Programme de la Journée Thématique A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 1 / 18
Problématique Problématique Développement des outils informatiques et des NTIC Augmentation très importante du nombre et de la taille des BDD en Santé : SIH (séjours), BDD médicales (MICI, nutrition), épidémiologiques (prisons) = gisements de données Nécessité de disposer de méthodes efficaces pour L exploitation (requêtes simples,... ) mais aussi La découverte (extraction) de connaissances La valorisation des connaissances extraites pour l aide à la décision Techniques de la statistique inférentielle classique insuffisantes (multiplication des tests, des croisements,... ) Méthodologie d extraction de connaissances à partir de bases de données (KDD) (milieu 90 - Fayyad) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 3 / 18
Knowledge Data Discovery Knowledge Data Discovery KDD = Knowledge Data Discovery = Extraction de connaissances à partir de bases de données Processus permettant la découverte, à partir de Base De Données (BDD), de connaissances auparavant inconnues et potentiellement utiles pour la prise de décision (Fayyad) Méthodologie différente de l étude de recherche classique Etude classique : prospectif, un objectif principal, données recueillies pour y répondre KDD souvent rétrospectif = on travaille sur une BDD existante Domaine de recherche inter disciplinaire KDD largement utilisé en marketing, grandes distributions, banques,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 5 / 18
Knowledge Data Discovery Knowledge Data Discovery KDD encore plus difficile à utiliser pour l analyse des BDD cliniques Nature des données : valeurs aberrantes, valeurs manquantes, différents types de variables Nécessité d une validation à chaque étape du processus Nécessité de modèles explicatifs Expertise rare et coûteuse A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 6 / 18
Knowledge Data Discovery Phase 1 Phase 2 Phase 3 BDD Existante Données ne.oyées Fouille de données Valorisa6on des résultats ACTIONS 3 phases principales : Phase 1 : pré traitement des données (80% du temps du projet) Phase 2 : extraction de connaissances (fouille de données ou data mining) : procédures dérivées des statistiques, de l informatique et de l ntelligence artificielle Phase 3 : valorisation des connaissances extraites : prise de décision A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 7 / 18
Knowledge Data Discovery Phase 1 KDD - Phase 1 Objectifs du projet Plan d analyse Sélection des données Type de données Pré traitement ( garbage in garbage out ) Valeurs aberrantes Méthodes univariés : boxplot,... Méthodes multivariées : Analyses en Composantes Principales (ACP), Classifications,... Cohérence des données : homme et grossesse! Méthodes statistiques (supra) Règles logiques : expertise SI traitement par voie orale et âge début diabète > 30 ans et BMI > 25 ALORS type diabète =2 (2% des dossiers corrigés) Gestion de données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 9 / 18
Knowledge Data Discovery Phase 1 KDD - Phase 1 Pré traitement : +++ Gestion des données manquantes Fréquemment : valeurs manquantes sur de nombreuses variables Domaine de recherche en Statistique Comment faire des analyses multivariées? (exemple : régressions) Travaux fondamentaux : Rubin, Little, Schafer Très important d utiliser ces méthodes modernes (Rubin) Dans cette JT : présentation des principales méthodes de gestion des données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 10 / 18
Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Data mining : méthodes multi-disciplinaires Méthodes statistiques Méthodes descriptives : Classifications, analyse en composantes principales, analyses factorielles Modélisation : régression, discrimination Méthodes informatiques Règles d associations Algorithmes génétiques : boîte noire Méthodes statistiques et informatiques Arbres de décisions Méthodes dérivées de l intelligence artificielle Réseaux de neurones : boîte noire Réseaux bayésiens : boîte noire Méthode de base de données (entrepôts de données data warehouse) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 12 / 18
Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Certaines méthodes existent depuis de nombreuses années : Classifications (Fischer : 1936,..., Diday 1979,... ) Arbres de décision : Hunt 1966 Réseaux de neurones : perceptron de Rosenblat, 1961 Nouveautés Développement de nouveaux outils (règles d association) Regrouper les méthodes, les outils pour les 3 phases : pré traitement, extraction de connaissances, valorisation A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 13 / 18
Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Méthodes utilisées depuis plusieurs années en marketing, banques, grande distribution... Logiciels disponibles : Mineset (Silicon Graphics) SAS (entreprise miner) Prix exhorbitants SPSS Modeler R, SIPINA, TANAGRA, CBA,... Gratuits ou prix universitaires Principales méthodes dans le domaine médical : Règles d association, (présentation succincte) Arbres de décision, Classifications (clusters) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 14 / 18
Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Une règle d association est une règle du type : Si A et B alors C Identification automatique = algorithme d Agrawal (1993) pour l analyse du panier de la ménagère Exemple : SI achat couche culotte ET achat samedi ALORS achat bière Règles d association caractérisées différentes mesures : Le support : P(A et B et C) (= fréquence) La confiance : P(C/A et B) (= probabilité conditionnelle) L amélioration : P(C/A et B)/P(C)... Pas nécessairement de variable à expliquer et d ordre de priorité entre les variables. Méthode adaptée aux gros volumes de données et à un nombre important de variables A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 15 / 18
Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Attention au paramétrage du support et confiance minimum ET au nombre de variables Nombre élevé de règles générées! Exemple 1 : DIABCARE = programme européen d évaluation du suivi des diabétiques (type 2) 29165 patients, 51 variables 128150 règles (support=10%, confiance=60%) Exemple 2 : 12 variables dont complication de St Vincent (s=10%, c=60%) Nombre de Règles : 943 Exemples de Règle : SI cholestérol>5,2mmol/l ET diabète de type 2 ALORS présence d angor (support = 31,6%, confiance=71.89%) Logiciels libres : Tanagra, R,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 16 / 18
Programme de la Journée Thématique Programme Arbres de décision : 9h30-11h Méthodes de classification : 11h - 12h30 Méthodes de gestion des données manquantes : 14h - 16h30 Exemples gestion des données manquantes : 16h30-18h Présentation d articles - Discussion A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 18 / 18