Analyse de grandes bases de données en santé

Dimension: px
Commencer à balayer dès la page:

Download "Analyse de grandes bases de données en santé"

Transcription

1 .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données

2 Plan. 1 Problématique. 2 Knowledge Data Discovery Phase 1 Phase 2. 3 Programme de la Journée Thématique A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

3 Problématique Problématique Développement des outils informatiques et des NTIC Augmentation très importante du nombre et de la taille des BDD en Santé : SIH (séjours), BDD médicales (MICI, nutrition), épidémiologiques (prisons) = gisements de données Nécessité de disposer de méthodes efficaces pour L exploitation (requêtes simples,... ) mais aussi La découverte (extraction) de connaissances La valorisation des connaissances extraites pour l aide à la décision Techniques de la statistique inférentielle classique insuffisantes (multiplication des tests, des croisements,... ) Méthodologie d extraction de connaissances à partir de bases de données (KDD) (milieu 90 - Fayyad) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

4 Knowledge Data Discovery Knowledge Data Discovery KDD = Knowledge Data Discovery = Extraction de connaissances à partir de bases de données Processus permettant la découverte, à partir de Base De Données (BDD), de connaissances auparavant inconnues et potentiellement utiles pour la prise de décision (Fayyad) Méthodologie différente de l étude de recherche classique Etude classique : prospectif, un objectif principal, données recueillies pour y répondre KDD souvent rétrospectif = on travaille sur une BDD existante Domaine de recherche inter disciplinaire KDD largement utilisé en marketing, grandes distributions, banques,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

5 Knowledge Data Discovery Knowledge Data Discovery KDD encore plus difficile à utiliser pour l analyse des BDD cliniques Nature des données : valeurs aberrantes, valeurs manquantes, différents types de variables Nécessité d une validation à chaque étape du processus Nécessité de modèles explicatifs Expertise rare et coûteuse A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

6 Knowledge Data Discovery Phase 1 Phase 2 Phase 3 BDD Existante Données ne.oyées Fouille de données Valorisa6on des résultats ACTIONS 3 phases principales : Phase 1 : pré traitement des données (80% du temps du projet) Phase 2 : extraction de connaissances (fouille de données ou data mining) : procédures dérivées des statistiques, de l informatique et de l ntelligence artificielle Phase 3 : valorisation des connaissances extraites : prise de décision A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

7 Knowledge Data Discovery Phase 1 KDD - Phase 1 Objectifs du projet Plan d analyse Sélection des données Type de données Pré traitement ( garbage in garbage out ) Valeurs aberrantes Méthodes univariés : boxplot,... Méthodes multivariées : Analyses en Composantes Principales (ACP), Classifications,... Cohérence des données : homme et grossesse! Méthodes statistiques (supra) Règles logiques : expertise SI traitement par voie orale et âge début diabète > 30 ans et BMI > 25 ALORS type diabète =2 (2% des dossiers corrigés) Gestion de données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

8 Knowledge Data Discovery Phase 1 KDD - Phase 1 Pré traitement : +++ Gestion des données manquantes Fréquemment : valeurs manquantes sur de nombreuses variables Domaine de recherche en Statistique Comment faire des analyses multivariées? (exemple : régressions) Travaux fondamentaux : Rubin, Little, Schafer Très important d utiliser ces méthodes modernes (Rubin) Dans cette JT : présentation des principales méthodes de gestion des données manquantes A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

9 Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Data mining : méthodes multi-disciplinaires Méthodes statistiques Méthodes descriptives : Classifications, analyse en composantes principales, analyses factorielles Modélisation : régression, discrimination Méthodes informatiques Règles d associations Algorithmes génétiques : boîte noire Méthodes statistiques et informatiques Arbres de décisions Méthodes dérivées de l intelligence artificielle Réseaux de neurones : boîte noire Réseaux bayésiens : boîte noire Méthode de base de données (entrepôts de données data warehouse) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

10 Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Certaines méthodes existent depuis de nombreuses années : Classifications (Fischer : 1936,..., Diday 1979,... ) Arbres de décision : Hunt 1966 Réseaux de neurones : perceptron de Rosenblat, 1961 Nouveautés Développement de nouveaux outils (règles d association) Regrouper les méthodes, les outils pour les 3 phases : pré traitement, extraction de connaissances, valorisation A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

11 Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining Méthodes utilisées depuis plusieurs années en marketing, banques, grande distribution... Logiciels disponibles : Mineset (Silicon Graphics) SAS (entreprise miner) Prix exhorbitants SPSS Modeler R, SIPINA, TANAGRA, CBA,... Gratuits ou prix universitaires Principales méthodes dans le domaine médical : Règles d association, (présentation succincte) Arbres de décision, Classifications (clusters) A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

12 Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Une règle d association est une règle du type : Si A et B alors C Identification automatique = algorithme d Agrawal (1993) pour l analyse du panier de la ménagère Exemple : SI achat couche culotte ET achat samedi ALORS achat bière Règles d association caractérisées différentes mesures : Le support : P(A et B et C) (= fréquence) La confiance : P(C/A et B) (= probabilité conditionnelle) L amélioration : P(C/A et B)/P(C)... Pas nécessairement de variable à expliquer et d ordre de priorité entre les variables. Méthode adaptée aux gros volumes de données et à un nombre important de variables A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

13 Knowledge Data Discovery Phase 2 KDD - Phase 2 : Datamining - Règles d association Attention au paramétrage du support et confiance minimum ET au nombre de variables Nombre élevé de règles générées! Exemple 1 : DIABCARE = programme européen d évaluation du suivi des diabétiques (type 2) patients, 51 variables règles (support=10%, confiance=60%) Exemple 2 : 12 variables dont complication de St Vincent (s=10%, c=60%) Nombre de Règles : 943 Exemples de Règle : SI cholestérol>5,2mmol/l ET diabète de type 2 ALORS présence d angor (support = 31,6%, confiance=71.89%) Logiciels libres : Tanagra, R,... A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

14 Programme de la Journée Thématique Programme Arbres de décision : 9h30-11h Méthodes de classification : 11h - 12h30 Méthodes de gestion des données manquantes : 14h - 16h30 Exemples gestion des données manquantes : 16h30-18h Présentation d articles - Discussion A. Duhamel, M. Genin, M. Lemdani Analyse de Grandes BDD en Santé Version - 19 février / 18

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Cycle de formation certifiante Sphinx

Cycle de formation certifiante Sphinx Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Objectifs Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Structure générale des études à l UTC Règlement

Plus en détail

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Le DataMining, qu est-ce que c est et comment l appréhender?

Le DataMining, qu est-ce que c est et comment l appréhender? Le DataMining, qu est-ce que c est et comment l appréhender? Extrait d une conversation téléphonique (réelle) : «Allô, monsieur Decourt? Je travaille pour X 1 et nous désirons rencontrer tous les habitants

Plus en détail

Introduction à la Fouille de Données (Data Mining) (8)

Introduction à la Fouille de Données (Data Mining) (8) Introduction à la Fouille de Données (Data Mining) (8) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2008 Introduction à la fouille

Plus en détail

Présentation de la majeure ISN. ESILV - 18 avril 2013

Présentation de la majeure ISN. ESILV - 18 avril 2013 Présentation de la majeure ISN ESILV - 18 avril 2013 La Grande Carte des Métiers et des Emplois Sociétés de service Entreprises Administrations Grand- Public Sciences Utiliser Aider à utiliser Vendre APPLICATIONS:

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1) Introduction à lʼinformatique Décisionnelle et la «Business Intelligence» (1) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92.

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES Bruno Agard (1), Andrew Kusiak (2) (1) Département de Mathématiques et de Génie Industriel, École Polytechnique de Montréal,

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Statistiques et traitement des données

Statistiques et traitement des données Statistiques et traitement des données Mention : Mathématiques Nature de la formation : Diplôme national de l'enseignement Supérieur Durée des études : 2 ans Crédits ECTS : 120 Formation accessible en

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Mémo technique LE DATAMINING

Mémo technique LE DATAMINING Mémo technique LE DATAMINING 46, rue de la Tour 75116 Paris France Tél : 00 33 (0)1 73 00 55 00 Fax : 00 33 (0)1 73 00 55 01 http://www.softcomputing.com Février 01 SOMMAIRE 1 SYNTHESE : CE QU IL FAUT

Plus en détail

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014 Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014 1 Classiquement, le Big Data se définit autour des 3 V : Volume, Variété et

Plus en détail

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

TANAGRA : un logiciel gratuit pour l enseignement et la recherche TANAGRA : un logiciel gratuit pour l enseignement et la recherche Ricco Rakotomalala ERIC Université Lumière Lyon 2 5, av Mendès France 69676 Bron rakotoma@univ-lyon2.fr http://eric.univ-lyon2.fr/~ricco

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

We make your. Data Smart. Data Smart

We make your. Data Smart. Data Smart We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Débouchés professionnels

Débouchés professionnels Master Domaine Droit, Economie, Gestion Mention : Monnaie, Banque, Finance, Assurance Spécialité : Risque, Assurance, Décision Année universitaire 2014/2015 DIRECTEUR de la spécialité : Monsieur Kouroche

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

Bases de données Outils de gestion

Bases de données Outils de gestion 11/03/2010 Bases de données Outils de gestion Mise en place d outils pour gérer, stocker et utiliser les informations d une recherche biomédicale ent réalisé par L. QUINQUIS d épidémiologie et de biostatistique

Plus en détail

Base de données clients outil de base du CRM

Base de données clients outil de base du CRM Base de données clients outil de base du CRM Introduction Objectifs SOMMAIRE Constitution de la base de données clients Alimentation Datamart et DataWarehouse Contenu Dimensions Exploitation de la base

Plus en détail

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

Application du data mining pour l évaluation de risque en assurance automobile

Application du data mining pour l évaluation de risque en assurance automobile Application du data mining pour l évaluation de risque en assurance automobile 4 Septembre 2012 Sylvain Pannetier Lebeuf Recherche & Analytique Contenu Qui on est: La compagnie L équipe de recherche et

Plus en détail

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos. Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données 1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer ANNEXES Evaluation de la formation à Polytech Lille Département GIS Enseignements les plus utiles Enseignements à renforcer Enseignements à intégrer Commentaires Généraux Accompagnement Professionnel Enseignements

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Livre Blanc. ETL Master Data Management Data Quality - Reporting. Comment mieux connaître et maîtriser son réseau de distribution indirect?

Livre Blanc. ETL Master Data Management Data Quality - Reporting. Comment mieux connaître et maîtriser son réseau de distribution indirect? Livre Blanc ETL Master Data Management Data Quality - Reporting Comment mieux connaître et maîtriser son réseau de distribution indirect? Sommaire I. Les 3 principaux canaux de distribution... 3 II. Les

Plus en détail

Data Mining et Statistique

Data Mining et Statistique Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Annexe au dossier du cursus CMI SID Licence - Master en Ingénierie. Syllabus L3 et Master SID Statistique et Informatique Décisionnelle

Annexe au dossier du cursus CMI SID Licence - Master en Ingénierie. Syllabus L3 et Master SID Statistique et Informatique Décisionnelle Annexe au dossier du cursus CMI SID Licence - Master en Ingénierie Syllabus L3 et Master SID Statistique et Informatique Décisionnelle Toulouse 3 14 février 2013 1 I - Licence 3 Semestre 5 4 I-1. Concepts

Plus en détail

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9

Plus en détail

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL Présenté par Hana Gara Kort Sous la direction de Dr Jalel Akaichi Maître de conférences 1 1.Introduction

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant

Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 3 - Data

BI = Business Intelligence Master Data-ScienceCours 3 - Data BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3 03/11/2014 Plan du TP 2 Présentation de la suite Microsoft BI Ateliers sur SSIS (2H) Ateliers sur RS (2H) 3 Présentation de la suite Microsoft BI Présentation

Plus en détail

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes. SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail