Analyse de grandes bases de données en santé



Documents pareils
Spécificités, Applications et Outils

Introduction au datamining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Agenda de la présentation

Introduction au Data-Mining

Cycle de formation certifiante Sphinx

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Didier MOUNIEN Samantha MOINEAUX

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Publications, ressources, liens, logiciels,

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

QU EST-CE QUE LE DECISIONNEL?

Le cinquième chapitre

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

WEBSELL. Projet DATAMINING

4.2 Unités d enseignement du M1

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

INTRODUCTION AU DATA MINING

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Méthodologie de conceptualisation BI

Apprentissage Automatique

Le DataMining, qu est-ce que c est et comment l appréhender?

Introduction à la Fouille de Données (Data Mining) (8)

Présentation de la majeure ISN. ESILV - 18 avril 2013

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

DATA MINING - Analyses de données symboliques sur les restaurants

Coheris est agréé organisme de formation, n d agrément

Etude d Algorithmes Parallèles de Data Mining

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Cybermarché et analyse comportementale

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Statistiques et traitement des données

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Introduction au Data-Mining

Introduction à la B.I. Avec SQL Server 2008

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Mémo technique LE DATAMINING

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

La classification automatique de données quantitatives

Application de K-means à la définition du nombre de VM optimal dans un cloud

We make your. Data Smart. Data Smart

données en connaissance et en actions?

Débouchés professionnels

Complet Intuitif Efficace. Références

Bases de données Outils de gestion

Base de données clients outil de base du CRM

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Application du data mining pour l évaluation de risque en assurance automobile

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

THOT - Extraction de données et de schémas d un SGBD

Améliorer les performances du site par l'utilisation de techniques de Web Mining

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Chapitre 9 : Informatique décisionnelle

Stages de Formation en Statistique Appliquée et Logistique

Laboratoire 4 Développement d un système intelligent

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Présentations personnelles. filière IL

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Livre Blanc. ETL Master Data Management Data Quality - Reporting. Comment mieux connaître et maîtriser son réseau de distribution indirect?

Data Mining et Statistique

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Annexe au dossier du cursus CMI SID Licence - Master en Ingénierie. Syllabus L3 et Master SID Statistique et Informatique Décisionnelle

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Stages de Formation en Statistique Appliquée et Logistique

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

TRAVAUX DE RECHERCHE DANS LE

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Guide d exploration de base de données de IBM SPSS Modeler 15

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Travailler avec les télécommunications

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

La problématique. La philosophie ' ) * )

Transcription:

.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données

Plan. 1 Problématique. 2 Knowledge Data Discovery Phase 1 Phase 2. 3 Programme de la Journée Thématique A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 1 / 18

Problématique Problématique Développement des outils informatiques et des NTIC Augmentation très importante du nombre et de la taille des BDD en Santé : SIH (séjours), BDD médicales (MICI, nutrition), épidémiologiques (prisons) = gisements de données Nécessité de disposer de méthodes efficaces pour L exploitation (requêtes simples,... ) mais aussi La découverte (extraction) de connaissances La valorisation des connaissances extraites pour l aide à la décision Techniques de la statistique inférentielle classique insuffisantes (multiplication des tests, des croisements,... ) Méthodologie d extraction de connaissances à partir de bases de données (KDD) (milieu 90 - Fayyad) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 3 / 18

Knowledge Data Discovery Knowledge Data Discovery KDD = Knowledge Data Discovery = Extraction de connaissances à partir de bases de données Processus permettant la découverte, à partir de Base De Données (BDD), de connaissances auparavant inconnues et potentiellement utiles pour la prise de décision (Fayyad) Méthodologie différente de l étude de recherche classique Etude classique : prospectif, un objectif principal, données recueillies pour y répondre KDD souvent rétrospectif = on travaille sur une BDD existante Domaine de recherche inter disciplinaire KDD largement utilisé en marketing, grandes distributions, banques,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 5 / 18

Knowledge Data Discovery Knowledge Data Discovery KDD encore plus difficile à utiliser pour l analyse des BDD cliniques Nature des données : valeurs aberrantes, valeurs manquantes, différents types de variables Nécessité d une validation à chaque étape du processus Nécessité de modèles explicatifs Expertise rare et coûteuse A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 6 / 18

Knowledge Data Discovery Phase 1 Phase 2 Phase 3 BDD Existante Données ne.oyées Fouille de données Valorisa6on des résultats ACTIONS 3 phases principales : Phase 1 : pré traitement des données (80% du temps du projet) Phase 2 : extraction de connaissances (fouille de données ou data mining) : procédures dérivées des statistiques, de l informatique et de l ntelligence artificielle Phase 3 : valorisation des connaissances extraites : prise de décision A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 7 / 18

Knowledge Data Discovery Phase 1 KDD - Phase 1 Objectifs du projet Plan d analyse Sélection des données Type de données Pré traitement ( garbage in garbage out ) Valeurs aberrantes Méthodes univariés : boxplot,... Méthodes multivariées : Analyses en Composantes Principales (ACP), Classifications,... Cohérence des données : homme et grossesse! Méthodes statistiques (supra) Règles logiques : expertise SI traitement par voie orale et âge début diabète > 30 ans et BMI > 25 ALORS type diabète =2 (2% des dossiers corrigés) Gestion de données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 9 / 18

Knowledge Data Discovery Phase 1 KDD - Phase 1 Pré traitement : +++ Gestion des données manquantes Fréquemment : valeurs manquantes sur de nombreuses variables Domaine de recherche en Statistique Comment faire des analyses multivariées? (exemple : régressions) Travaux fondamentaux : Rubin, Little, Schafer Très important d utiliser ces méthodes modernes (Rubin) Dans cette JT : présentation des principales méthodes de gestion des données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 10 / 18

Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Data mining : méthodes multi-disciplinaires Méthodes statistiques Méthodes descriptives : Classifications, analyse en composantes principales, analyses factorielles Modélisation : régression, discrimination Méthodes informatiques Règles d associations Algorithmes génétiques : boîte noire Méthodes statistiques et informatiques Arbres de décisions Méthodes dérivées de l intelligence artificielle Réseaux de neurones : boîte noire Réseaux bayésiens : boîte noire Méthode de base de données (entrepôts de données data warehouse) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 12 / 18

Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Certaines méthodes existent depuis de nombreuses années : Classifications (Fischer : 1936,..., Diday 1979,... ) Arbres de décision : Hunt 1966 Réseaux de neurones : perceptron de Rosenblat, 1961 Nouveautés Développement de nouveaux outils (règles d association) Regrouper les méthodes, les outils pour les 3 phases : pré traitement, extraction de connaissances, valorisation A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 13 / 18

Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Méthodes utilisées depuis plusieurs années en marketing, banques, grande distribution... Logiciels disponibles : Mineset (Silicon Graphics) SAS (entreprise miner) Prix exhorbitants SPSS Modeler R, SIPINA, TANAGRA, CBA,... Gratuits ou prix universitaires Principales méthodes dans le domaine médical : Règles d association, (présentation succincte) Arbres de décision, Classifications (clusters) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 14 / 18

Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Une règle d association est une règle du type : Si A et B alors C Identification automatique = algorithme d Agrawal (1993) pour l analyse du panier de la ménagère Exemple : SI achat couche culotte ET achat samedi ALORS achat bière Règles d association caractérisées différentes mesures : Le support : P(A et B et C) (= fréquence) La confiance : P(C/A et B) (= probabilité conditionnelle) L amélioration : P(C/A et B)/P(C)... Pas nécessairement de variable à expliquer et d ordre de priorité entre les variables. Méthode adaptée aux gros volumes de données et à un nombre important de variables A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 15 / 18

Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Attention au paramétrage du support et confiance minimum ET au nombre de variables Nombre élevé de règles générées! Exemple 1 : DIABCARE = programme européen d évaluation du suivi des diabétiques (type 2) 29165 patients, 51 variables 128150 règles (support=10%, confiance=60%) Exemple 2 : 12 variables dont complication de St Vincent (s=10%, c=60%) Nombre de Règles : 943 Exemples de Règle : SI cholestérol>5,2mmol/l ET diabète de type 2 ALORS présence d angor (support = 31,6%, confiance=71.89%) Logiciels libres : Tanagra, R,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 16 / 18

Programme de la Journée Thématique Programme Arbres de décision : 9h30-11h Méthodes de classification : 11h - 12h30 Méthodes de gestion des données manquantes : 14h - 16h30 Exemples gestion des données manquantes : 16h30-18h Présentation d articles - Discussion A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février 2015 18 / 18