Extraction de connaissances à partir de sources non ontologiques

Documents pareils
OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

REFORME DE LA CATEGORIE B RECLASSEMENT DANS LE NOUVEL ESPACE STATUTAIRE

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

OPEN ACCESS. ouverte INP Toulouse

Les attentes du marché

SparkInData. Place de Marché des applications Spatiales

Séminaire Open Data en Agriculture : état des lieux et perspectives. 12 novembre 2013 à Paris. Introduction

Intégration de données hétérogènes et réparties. Anne Doucet

Emergence du Big Data Exemple : Linked Open Data

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

SQL Server Administration d'une base de données transactionnelle avec SQL Server Management Studio (édition enrichie de vidéos)

Construction d ontologies à partir de textes

Emergence du Big Data Exemple : Linked Open Data

REDACTION DES RÉFÉRENCES BIBLIOGRAPHIQUES EN LICENCE ET MASTER INFORMATION-COMMUNICATION

La stratégie de Radio France dans la production et la gestion de données musicales

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

BI2 : Un profil UML pour les Indicateurs Décisionnels

Master2 Psychologie du travail- management des organisations

L utilisation des outils électroniques, l exemple des logiciels de gestion de références bibliographiques

TEMPS PARTIEL Principe général : Quotité de temps partiel Rémunération : 50 % 50 % ; 60 % 60 % ; 70 % 70 % ; 80 % 85,7 % ; 90 % 91,4 %

Gestion de données avec TALEND

Les bases de données clients dans le cadre du commerce B2B : Quelques aspects juridiques

Le certificat individuel (Produits phytosanitaires)

Enterprise Data Quality : fiabilisez vos processus E-Business Suite en améliorant la qualité des données

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Mise en place d'une démarche qualité et maintien de la certification ISO 9001:2008 dans un système d'information

Drupal Contributeur. Maitrisez la publication sous Drupal. Une formation Formateur : Fabien Crépin. Drupal Contributeur.

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

Evolution des catalogues et des métiers: comment se préparer aux changements? Quelques échos de la BnF. CRFCB Université de Toulouse 29 mars 2013

SCIENCES ECONOMIQUES ET GESTION

Dans tous les cas, pour le chef d entreprise, le représentant légal ou le directeur de l établissement principal ou du siège

AVERTISSEMENTS. Réglementaires RAPPEL SUR L AGREMENT DES ENTREPRISES POUR L APPLICATION ET LA DISTRIBUTION DES PRODUITS PHYTOSANITAIRES (DAPA)

JDev Atelier Datalift

1

") # /!"! ) )# ") / 1) )) -()#! "-) " ") 2) "! #" ). ") () ) )!. #) ()" #!0 ) () ))!)() -! () "!!""#!! 6) $ )7 )! " # )!"!! ) ) " #9# () () ") ") )

La Veille Scientifique

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Evry - M2 MIAGE Entrepôt de données

SERVICE RÉFÉRENCE et FORMATION DES PUBLICS

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Google Site Internet E-réputation Réseaux Sociaux ing...

Architectures d'intégration de données

IFT2255 : Génie logiciel

Fête des voisins et vos voisins de bureau?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

ENGEES 1 quai Koch _ BP Strasbourg Cedex. Appel d offre Pour l acquisition d un logiciel de scolarité

12-13/06/2013 C.COLIN / MA. BLOCH

Cédants et Repreneurs d Affaires 22 juin Rémunération du repreneur en LBO : Optimisations fiscale et sociale

Initiation à la recherche documentaire

Vers un outil d aide à la gestion des risques dans les chaînes logistiques : les bases conceptuelles

All Boards Family Association loi 1901 Statuts

This is an author-deposited version published in : Eprints ID : 13279

COURS D INDUSTRIES... Techniques d impression. Pascal Prévôt Fabien Rocher

INTÉGRATEUR RÉSEAU ET SÉCURITÉ. IT Services : «L engagement de résultat» CONSEIL AUDIT INTÉGRATION SUPPORT TECHNIQUE SERVICES MANAGÉS

I4 : Bases de Données

Les personnels de l'urogec vous souhaitent de bonnes vacances 2008

Deuxi&me Forum Halieumétrique, Nantes, 1995 Session III : Modélisation et représentation des connaissances

Guide du mémoire de fin d études

Initiative parlementaire Loi fédérale sur la continuation de l assurance des travailleuses dans la prévoyance professionnelle

GESTION D UNE BASE BIBLIOGRAPHIQUE

LEXIQUE. Extraits du document AFNOR (Association Française de Normalisation) NF EN ISO 9000 octobre 2005

Retour d expériences avec UML

ETAT DE L ART ET PERSPECTIVES POUR LES SERVICES NUMÉRIQUES APPLIQUÉS À LA VITICULTURE.

Le CLOuD COmpuTING 100% made IN france

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Utiliser un tableau de données

Mise en œuvre de l architecture SINP. Forum ATEN des TIC 4 juin Y. Lebeau MEDDE/DGALN/DEB/PEM4

La plateforme technique d informations des professionnels des ZNA

Approche de couplage de BD et d ontologie pour l aide à la décision sémantique : contribution pour la satisfaction des requêtes SQL et SPARQL.

GUIDE PRATIQUE DE LA SCI

BACCALAUREAT PROFESSIONNEL GESTION ADMINISTRATION

2011 Hakim Benameurlaine 1

IBM Cognos Disclosure Management

Simplifiez votre implantation a l etranger

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du

SEANCE D INFORMATION AUX AVOCATS

Programmation en Java IUT GEII (MC-II1) 1

Évaluation de G-LexAr pour la traduction automatique statistique

Évaluation et implémentation des langages

LMI 2. Programmation Orientée Objet POO - Cours 9. Said Jabbour. jabbour@cril.univ-artois.fr

1.Introduction - Modèle en couches - OSI TCP/IP

PREFET DES BOUCHES-DU-RHONE

ACTE DE VENTE D'UN NAVIRE DE PLAISANCE

FORMULAIRE D INSCRIPTION 2015

L agrément des entreprises pour le conseil indépendant à l utilisation de produits phytopharmaceutiques. Ordre du jour

Masses de données et calcul : à l IRIT. 8 octobre 2013

MASTER MEEF ECONOMIE GESTION. Présentation

Charte de nommage du «.tn»

LA GESTION DES SERVICES INFORMATIQUES À L'ÉPREUVE DU TERRAIN

P.A.R.A.D.S. PÔLES D ACCUEIL EN RÉSEAU POUR L ACCÈS AUX DROITS SOCIAUX

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

RECUEIL DES ACTES ADMINISTRATIFS

CERTIFICATE. Reichhart Logistique France. ISO/TS 16949:2009 Third Edition Rue de Neuf-Mesnil Feignies France

Big Data et Graphes : Quelques pistes de recherche

Présentation BAI -CITC

Transcription:

Extraction de connaissances à partir de sources non ontologiques Fabien Amarger 1,2, Jean-Pierre Chanet 2, Ollivier Haemmerlé 1, Nathalie Hernandez 1, Catherine Roussey 2 1 IRIT UMR 5505, UTM, Département de Mathématiques-Informatique, 5 allées Antonio Machado, F-31058 Toulouse Cedex - prenom.nom@univ-tlse2.fr 2 IRSTEA Équipe COPAIN, 9 av. Blaise Pascal CS 200 85, 63178, Aubiére, France - prenom.nom@irstea.fr Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 1 / 29

Plan I. Contexte II. Proposition Transformation syntaxique Analyseur de qualité Extraction ciblée sur le domaine Alignements et fusion des éléments filtrés Validations III. Conclusion et perspectives Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 2 / 29

I. Contexte Motivations Volonté d aider les agriculteurs à diminuer l usage des produits phytosanitaires Augmentation des sources d information dans le domaine de l agriculture Bulletins de Santé du Végétal (BSV) Thésaurus AGROVOC Base de données publique e-phy etc. Mais les sources d informations sont hétérogènes et distribuées Cibler la connaissance d intérêt pour le cas d étude Agréger les connaissances disponibles Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 3 / 29

I. Contexte Motivations Faciliter l accès des agriculteurs à ces connaissances Permettre l interrogation de la base de connaissances en LN (SWIP) Rendre les connaissances extraites réutilisables dans d autres contextes Volonté de contribuer au Linked Open Data (LOD) Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 4 / 29

I. Contexte Idée générale - problématique Problématique générale Création d une base de connaissances (BC) à partir de plusieurs sources non ontologiques Réutilisation de sources existantes Exploitation des avantages des différents types de formalismes associés aux sources d information (BDD, Thésaurus) Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 5 / 29

I. Contexte Idée générale - Proposition Proposition Évaluer la confiance à accorder à une connaissance extraite à partir de : La qualité de la source de la connaissance Le type de source dont elle est extraite Son degré de consensus Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 6 / 29

Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 7 / 29

1. Transformation syntaxique Base de connaissances(bc) brute Une BC brute est une BC obtenue par une méthode automatique Dans notre cas, toujours à partir d une source non ontologique Utilisation du projet NOR2O (Villazon-Terrazas 2011) Fait partie du projet NeOn Implémentation sous forme de patrons de transformations dédiés au type de source (Thésaurus, taxonomie,...) Application disponible et open source Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 8 / 29

1. Transformation syntaxique Exemple d utilisation de NOR2O Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 9 / 29

1. Transformation syntaxique Exemple d utilisation de NOR2O Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 10 / 29

1. Transformation syntaxique Exemple d utilisation de NOR2O Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 11 / 29

1. Transformation syntaxique Exemple d utilisation de NOR2O Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 12 / 29

2. Analyseur de qualité En réflexion... Définir les critères de qualité d une source Prise en compte du point de vue de l utilisateur Méthode de représentation de la qualité d une source Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 13 / 29

2. Analyseur de qualité Définitions - Qualité traduction de ISO 9000 - Quality management systems - 2005 Ensemble de caractéristiques d un produit, d un système ou d un processus qui lui confèrent l aptitude à satisfaire des besoins exprimés ou implicites. La définition de la qualité, pour nous, est : Dépendante de l application Évolutive Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 14 / 29

2. Analyseur de qualité Critères de qualité Citations [String et al. 1997][Jayawardene et al. 2013][Gómez-Pérez et al. 1999][Poveda-Villalón et al. 2012][Gil et al. 2007][Suominen et al. 2012][Mader et al. 2011] Organisation des critères Conception de la source Utilisation de la source Contenu de la source Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 15 / 29

2. Analyseur de qualité Critères sur la conception de la source Origine La provenance des données est indiquée et sure L expertise des auteurs est reconnue L intérêt des auteurs pour la qualité des données Accessibilité Données ouvertes Format simple, flexible et ouvert Qualité de la présentation / Qualité de la documentation Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 16 / 29

2. Analyseur de qualité Critères sur l utilisation de la source Popularité Les données sont beaucoup utilisées Les données sont liées La source fait référence dans le domaine La source a une bonne réputation Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 17 / 29

2. Analyseur de qualité Critères sur le contenu de la source Fraicheur Dernière MAJ Fréquence de MAJ Nécessité de MAJ Validité Valide syntaxiquement Respect les contraintes du domaine Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 18 / 29

2. Analyseur de qualité Critères sur le contenu de la source Précision La granularité est conforme aux besoins La source contient le moins possible d ambiguïtés Couverture Les données couvrent le domaine étudié Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 19 / 29

3. Extraction ciblée sur le domaine Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 20 / 29

3. Extraction ciblée sur le domaine Exemple ADOM ADOM Abstract Domain Ontological Module Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 21 / 29

3. Extraction ciblée sur le domaine Exemple Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 22 / 29

3. Extraction ciblée sur le domaine Exemple Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 23 / 29

3. Extraction ciblée sur le domaine Exemple - Alignement manuels des sources avec le ADOM Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 24 / 29

3. Extraction ciblée sur le domaine Exemple - Filtrage des sous parties Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 25 / 29

3. Extraction ciblée sur le domaine Calcul des scores de confiance Calcul des scores de confiances à partir de la qualité de la source d information Exemple : Augmentation du score de base pour les classes provenant d un thésaurus Diminution du score des relations ObjectProperties provenant d un thésaurus Augmentation du score des relations ObjectProperties provenant d une base de données... Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 26 / 29

4. Alignements et fusion des éléments filtrés Création des alignements d équivalence entre un maximum d éléments des éléments filtrés Alignement des relations, classes, dataproperties et instances Méthode encore à déterminer Utilisation de ces alignements pour fusionner les listes d éléments Agrégation des scores de confiances Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 27 / 29

5. Validations Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 28 / 29

III. Conclusion et perspectives Proposition d une méthode d extraction de connaissances à partir de sources non ontologiques En cours de réflexion : Critères de qualités d une source Calcul de la confiance d un élément à partir de la qualité de la source Méthode de représentation de la confiance Méthode d agrégation de la confiance lors de la fusion Perspectives : Méthode d extraction de sous parties suivant le domaine (ADOM) Méthode d alignement et de fusion Méthodes de validation Amarger F., Chanet J.P., Haemmerlé O., Hernandez N., Roussey C. Réseau MIA 11/2013 29 / 29