Data mining et statistiques. Hugues Bersini IRIDIA / ULB

Documents pareils

La recherche clinique au cœur du progrès thérapeutique

Exemple PLS avec SAS

5Visualisation. pièges à. éviter... de données : e-book : Visualisation & Ergonomie. Page 1 / 30. Partagez cet e-book :

Intelligence Economique - Business Intelligence

Introduction au datamining

AGROBASE : un système de gestion de données expérimentales

L industrie pharmaceutique et la grippe aviaire

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

We make your. Data Smart. Data Smart

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

I N S T I T U T QUELLES CONTRIBUTIONS AU SMART METERING? AFTERWORK ENERGY

La rencontre du Big Data et du Cloud

BIG DATA et DONNéES SEO

New Way of Working Coworking day Mise en place du Smart Working chez GSK

LADIES IN MOBILITY. LIVE TWEET Innovative City

The impacts of m-payment on financial services Novembre 2011

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Les méthodes alternatives de surveillance de la qualité des eaux. Présentation du projet SWIFT-WFD

ENOVIA 3DLive. IBM PLM Solutions 1 er Octobre Philippe Georgelin Sébastien Veret

Tutoriel de formation SurveyMonkey

Empowering small farmers and their organizations through economic intelligence

Entreposage de données complexes pour la médecine d anticipation personnalisée

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Master UP 6. Mention Santé Publique et Management de la Santé. Spécialité Pharmacologie Clinique. Construire une carrière dans l industrie

La solution idéale de personnalisation interactive sur internet

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

L OBSERVATOIRE DE LA BIOLOGIE DE SYNTHESE SYNTHETIC BIOLOGY OBSERVATORY

Quels nouveaux outils pour accompagner le développement de nos professions?

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Services à la recherche: Data Management et HPC *

(ATTENTION : une seule réponse possible pour les questions à choix multiples)

Tutoriel Cloud IFB - Initiation -

RAPID Prenez le contrôle sur vos données

ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique

ATELIER : INTERNATIONALISATION DE L INNOVATION ET LEVIERS EUROPEENS 1 PARTICIPATION AUX PROGRAMMES ACTUELS

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

Forthcoming Database

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Introduction Françoise Colaïtis Cap Digital Charles Huot Temis

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Recherche et veille documentaire scientifique

Editing and managing Systems engineering processes at Snecma

SensOrLabs. a protocol validation platform for the IoT. Dominique Barthel, Quentin Lampin IMT/OLPS/BIZZ/MIS Apr 7th 2014, ST, CEA, LIG

Business-Insight Company Presentation

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

AUDIT COMMITTEE: TERMS OF REFERENCE

eprocurement Bernard Longhi SC PDA eproc Domain Coordinator CEN/eBES Chair CLEEP French National Forum Chair Geneva, 21 April 2015

ELCA Forum 2014 BIG DATA

GRIFES. Gestion des risques et au-delà. Pablo C. Martinez. TRMG Product Leader, EMEA Symantec Corporation

Le spécialiste de l investissement immobilier et financier pour les expatriés en Asie.

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Big Data et Statistique Publique

23/01/2015. Les nouvelles structures (IHU et autres) Les petites dernières : les CRC. STRUCTURES de RECHERCHE CLINIQUE RECONNUES

Optimiser votre reporting sans déployer BW

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

INTRODUCTION. Bienvenue dans la TCN FRENCH TEAM, nous allons ensemble démarrer une belle aventure qui peut devenir lucrative pour tous.

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Quels noms de domaine doit on obtenir pour maximiser l'impact de ses marques de commerce? Comment gérer les conflits?

IMI : Avantages et Inconvénients L exemple du projet COMBACTE

Opportunités s de mutualisation ITIL et ISO 27001

ONEPROD MVX. Maintenance conditionnelle des machines critiques. Brand of ACOEM

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La Gestion des Données Cliniques

Analyse de grandes bases de données en santé

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Travaux pratiques avec RapidMiner

Aspects de droit anglais

Eléments de statistique

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Connaissance Client et Digital : quels enjeux pour quelles valeurs? Non à la personnalisation bidon! Vente Privée Orange Gan Assurances

I RENALA. Research and Education Network for Academic and Learning Activities. The Madagascar NREN

Application Form/ Formulaire de demande

Comment le Health 2.0 peut contribuer à l'autonomie éclairée du citoyen. Sarah Cruchet, Célia Boyer, Maria-Ana Simonet et Vincent Baujard

données en connaissance et en actions?

Big Data & Analytics Leviers de transformation Métier. Retours d expérience. Laurence CHRETIEN Valérie PERHIRIN Mars 2015

VERS L EXCELLENCE DANS LA FORMATION PROGRAMME D APPUI A LA QUALITE AMELIORATION SUPERIEUR DE LA QUALITE DE L ENSEIGNEMENT TITRE DU PROJET

Sub-Saharan African G-WADI

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Modèle de centralisation des achats indirects au niveau mondial. Sandra Carlos & Bernd Gladden

Anticiper et prédire les sinistres avec une approche Big Data

La Révolution du Data Marketing

Flood risk assessment in the Hydrographic Ebro Basin. Spain

2 Serveurs OLAP et introduction au Data Mining

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

BI SWISS FORUM (ecom / SITB)

Transcription:

Data mining et statistiques Hugues Bersini IRIDIA / ULB

Philippe Smets (1938-2005), créateur d IRIDIA Théorie des croyances vs Probabilités

IA, IRIDIA et Data Mining

Les réseaux de neurones

IA à la Google

Deep Learning: Reconnaissance d images, traduction, conduite automatique, (déterministe)

IRIDIA dans le domaine médical Diagnostique automatique de cancer: Decaestecker, Van Ham, Kiss Détection de problèmes respiratoires: Mathys, Degroot, Kahn Analyse d électrocardiogrammes: Bableyantz Aide à la marche assistée de paraplégiques: Preumont Aide à l empowerment des diabétiques Classification des cancers par puce ADN: IRIBHM et Bordet Création de l institut IB 2, projet BridgeIris: Bontempi

Gradation automatique des cancers Christine Decaestecker

Cluepoints : detection of outlier clinical site Real example Known fraud in center 191 SMART analysis 191 is an outlier Other centers? 141, 155, 165? Most frauds are undetected by current methods Marc Buyse Summary through PCA of a SMART analysis

PUCE ADN Microarray chip Vincent Detours Gianluca Bontempi

LA SPINOFF INSILICO

The concept: InSilico DB is a central data hub for genomics-based biomedical research David Weiss et Alain Coletta InSilico DB = Data + Tools

Website for genomics datasets management and query Illustrer le propos par un projet récemment réalisé + 1 photo

Integration with visualisation and analysis tools Curated biological samples information Smoker GenePattern Excel Integr. Gen. Viewer Genes R/Bioconductor

Personalized Medicine Genotype Drugs Phenotype Clinical annotations Identifying robust drugs genotype phenotype relationships is a key challenge in the process of making this vision a reality. This requires very large sample sets for discovery and validation.

Qui se ressemble s assemble

Dernier en date: BridgeIris

Première veritable infrastructure BigData à l ULB

Statistiques et Data Mining 1. Les data scientists font tout le temps des stats fréquentielles, souvent de manière maladroite et inconsciente pour trouver le meilleur modèle: comptage et métrique. 2. Faut-il évaluer les modèles de manière plus scientifique : p-value, student-test,.? 3. L opérationalité, le déterminisme du monde et l absence de risque (envoi de mails, sms ) le rendent rarement necessaire mais en médecine?? 4. Le BigData renforce le bricolage opérationnel et diminue le recours à l évaluation scientifique des résultats.

Statistiques «inconscientes» pour la classification: Trois exemples A model??? Naïve Bayes? Plus proches voisins Arbres de décision

Classification incertaine Diagnostic médical Stats plus formelles Erreurs conséquentes Classification certaine Reconnaissance de caractère, de scène Approches plus informelles Erreurs inconséquentes

Evaluation de modèles plus formelle Validation croisée et base de la comparaison Comparaison de modèles: t-test. Validation de modèle et intervalle de confiance : Pr[-z < val/n < +z] = c Conforte l idée de l élargissement de l ensemble de données

Conclusions Stats inconscientes (le minimum qu il faut savoir) dans l elaboration des modèles. Data Mining et BigData, de plus en plus, privilégient les qualités d informaticien sur celles de statisticiens. Le besoin de rigueur statistique s accroit avec l incertitude inhérente au monde et les consequences des erreurs. Mais la culture statistique est toujours un grand plus!