Gestion de données incertaines et de leur provenance



Documents pareils
UE 8 Systèmes d information de gestion Le programme

Information utiles. webpage : Google+ : digiusto/

Bases de données avancées Introduction

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Raisonnement probabiliste

Business Intelligence avec Excel, Power BI et Office 365

Introduction aux bases de données

Cours Bases de données

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Systèmes d information et bases de données (niveau 1)

Bases de données documentaires et distribuées Cours NFE04

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

SQL Parser XML Xquery : Approche de détection des injections SQL

Séance 1 Introduction aux bases de données

Intelligence Economique - Business Intelligence

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Bases de données Cours 1 : Généralités sur les bases de données

Bases de données Outils de gestion

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Introduction aux Bases de Données

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

BUSINESS INTELLIGENCE

1/ Présentation de SQL Server :

Mercredi 15 Janvier 2014

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Programmation Web. Madalina Croitoru IUT Montpellier

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Gestion des bases de données

MYXTRACTION La Business Intelligence en temps réel

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

SCONET Modifications apportées dans la version SCONET

Introduction à la B.I. Avec SQL Server 2008

Introduction aux Bases de Données Relationnelles Conclusion - 1

4.2 Unités d enseignement du M1

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Big Data et Graphes : Quelques pistes de recherche

Apprentissage Automatique

Avertissement. La Gestion Electronique de Documents

Travail de diplôme 2011 Business Intelligence Open Source SpagoBI/Talend Résumé

Jean-François Boulicaut & Mohand-Saïd Hacid

SQL Server 2012 Administrez une base de données : Exercices et corrigés

ARCHIVAGE DES BASES DE

Les technologies du Big Data

SQL Server 2012 et SQL Server 2014

Base de données relationnelle et requêtes SQL

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Intégration de la dimension sémantique dans les réseaux sociaux

BES WEBDEVELOPER ACTIVITÉ RÔLE

Notre Catalogue des Formations IT / 2015

BASE DE DONNÉES XML NATIVE

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

Accès à l'information XML par des requêtes XQuery au travers de son XSchema

CATALOGUE FORMATIONS DOMAINE Bases de données

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Les bases de données

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

PROSOP : un système de gestion de bases de données prosopographiques

Business Intelligence

Placez vous au préalable à l endroit voulu dans l arborescence avant de cliquer sur l icône Nouveau Répertoire

UNIVERSITE DE CONSTANTINE 1 FACULTE DES SIENCES DE LA TECHNOLOGIE DEPARTEMENT D ELECTRONIQUE 3 ème année LMD ELECTRONIQUE MEDICALE

Le monde change vite, les méthodes de gestion évoluent. La traçabilité et le reporting s invitent désormais dans les usines de préfabrication.

Architectures d'intégration de données

Définition d'un système générique de partage de données entre systèmes existants

Correction du baccalauréat STMG Polynésie 17 juin 2014

Arborescence et création de dossiers

: seul le dossier dossier sera cherché, tous les sousdomaines

Catalogue des formations Edition 2015

APPROCHE DE LA SURVEILLANCE DES SYSTEMES PAR RESEAUX DE PETRI SYNCHRONISES FLOUS

MANAGEMENT DES SERVICES INFORMATIQUES

XML et recherche d information

Fichier sql.ini, Serveurs

Centre Génie Industriel et Informatique (G2I) RECHERCHE D INFORMATION DANS LES DOCUMENTS XML RAPPORT DE RECHERCHE

Datawarehouse and OLAP

Données semi-structurées Actives

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Générer du code à partir d une description de haut niveau

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Les bases de données relationnelles

Introduction aux SGBDR

IBM DB2 Alphablox. d administration GC

Transcription:

Gestion de données incertaines et de leur provenance Pierre Senellart Séminaire INSERM & Institut TELEOM 7 octobre 2008 P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 1 / 16

Données incertaines Nombreuses sources de données incertaines : Erreurs de mesure Intégration de données de multiples sources Processus automatiques imprécis (extraction d information, traitement du langage naturel...) Jugement humain imparfait P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 2 / 16

Gérer cette imprécision Objectif Ne pas faire comme si cette imprécision n existait pas, et la gérer de façon aussi rigoureuse que possible, tout au long d un processus (automatique et humain) qui peut être complexe. En particulier : Utiliser des probabilités pour représenter la confiance en les données Interroger les données et récupérer des résultats probabiliste Permettre d ajouter, supprimer, modifier des données de manière probabiliste Garder tout au long du processus trace de la provenance des données, afin d assurer la traçabilité P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 3 / 16

Gérer cette imprécision Objectif Ne pas faire comme si cette imprécision n existait pas, et la gérer de façon aussi rigoureuse que possible, tout au long d un processus (automatique et humain) qui peut être complexe. En particulier : Utiliser des probabilités pour représenter la confiance en les données Interroger les données et récupérer des résultats probabiliste Permettre d ajouter, supprimer, modifier des données de manière probabiliste Garder tout au long du processus trace de la provenance des données, afin d assurer la traçabilité P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 3 / 16

Plan de l exposé 1 Données incertaines, processus incertains 2 Tables (modèle relationnel) 3 rbres (modèle semi-structuré) 4 État de l art P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 4 / 16

Le modèle relationnel Données stockées dans des tables haque table a un schéma précis (type des colonnes) dapté quand l information est très structurée Patient Examen 1 Examen 2 Diagostic 23 12 B 10 23 2 4 D 15 15 E 15 17 P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 5 / 16

Simples annotations probabilistes Patient Examen 1 Examen 2 Diagostic Probabilité 23 12 0.9 B 10 23 0.8 2 4 0.2 2 14 0.4 D 15 15 0.6 D 15 15 0.4 E 15 17 0.7 E 15 17 0.3 Permet de représenter la confiance dans chaque entrée de la table Des algorithmes efficaces pour répondre aux requêtes Impossible d exprimer des dépendances entre entrées P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 6 / 16

nnotations + contraintes Patient Examen 1 Examen 2 Diagostic Probabilité 23 12 0.9 B 10 23 0.8 2 4 0.2 2 14 0.4 D 15 15 0.6 D 15 15 0.4 E 15 17 0.7 E 15 17 0.3 Toujours des algorithmes efficaces pour les requêtes Dépendances simples (exclusion) exprimables, mais pas dépendances plus complexes P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 7 / 16

Plan de l exposé 1 Données incertaines, processus incertains 2 Tables (modèle relationnel) 3 rbres (modèle semi-structuré) 4 État de l art P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 8 / 16

Le modèle semi-structuré B D <a> <b>...</b> <c> <d>...</d> </c> </a> Présentation arborescente des données Pas (ou moins) de contraintes de schéma Permet de mêler balises (contenu structuré) et texte (contenu non structuré) Particulièrement adapté à du contenu annoté P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 9 / 16

Simples annotations probabilistes 0:24 B 0:70 D Probabilités associées aux nœuds de l arbre Exprime les dépendances entre parent et enfant Impossible d exprimer des dépendances plus complexes ) tous les ensembles de mondes possibles ne sont pas exprimables de cette façon! P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 10 / 16

nnotations par variables d événements w 1 ; :w 2 B sémantique w 2 D D B Évén. Proba. p 1 = 0:06 p 2 = 0:70 p 3 = 0:24 w 1 0:8 w 2 0:7 Expression de dépendances arbitrairement complexes, et algorithmes efficaces pour les requêtes et mises à jours (dans les cas «faciles»)! Évidemment, possibilité d adapter au cas relationnel P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 11 / 16

nnotations par variables d événements w 1 ; :w 2 B sémantique w 2 D D B Évén. Proba. p 1 = 0:06 p 2 = 0:70 p 3 = 0:24 w 1 0:8 w 2 0:7 Expression de dépendances arbitrairement complexes, et algorithmes efficaces pour les requêtes et mises à jours (dans les cas «faciles»)! Évidemment, possibilité d adapter au cas relationnel P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 11 / 16

Gestion de la provenance Variables d événements : peuvent représenter l origine des données Typiquement : 1 À chaque mise à jour (probabiliste), une nouvelle variable d évènement est introduite 2 es variables restent présentes tout au long de la vie de la base de données 3 Les résultats des requêtes sont assorties de probabilités, mais aussi des variables d évènements correspondantes Permet de garder trace, sans coût supplémentaire, de l origine des données! P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 12 / 16

Plan de l exposé 1 Données incertaines, processus incertains 2 Tables (modèle relationnel) 3 rbres (modèle semi-structuré) 4 État de l art P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 13 / 16

Quelques références De nombreux travaux sur les bases de données relationnelles probabilistes Nilesh Dalvi and Dan Suciu. Management of Probabilistic Data: Foundations and hallenges. Proc. PODS, Beijing, hina, June 2007. Une synthèse des modèles des bases de données XML probabilistes Benny Kimelfeld and Yuri Kosharovski and Yehoshua Sagiv. Query Efficiency in Probabilistic XML Models. Proc. SIGMOD, Vancouver, anada, June 2008. P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 14 / 16

À TELEOM ParisTech Intérêt général pour la représentation des données incertaines Des travaux passés et en cours sur les modèles probabilistes avec variables d évènements Intérêt particulier pour la gestion des mises à jour Thèse à venir sur la gestion de données imprécises dans un système en pair-à-pair auto-administré (projet NR DataRing) P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 15 / 16

Pour aller plus loin... Gestion des intervalles de valeur, et des distributions continues de probabilité Mises à jours complexes (modifications, suppressions) efficaces Transformer des valeurs de confiance en vraies probabilités P. Senellart (TELEOM ParisTech) Données incertaines et provenance 07/10/2008 16 / 16