Contributions à l étude des mesures sémantiques

Documents pareils
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Introduction au datamining

Sujet de thèse CIFRE RESULIS / LGI2P

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

SparkInData. Place de Marché des applications Spatiales

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Hervé Couturier EVP, SAP Technology Development

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Bigdata et Web sémantique. les données + l intelligence= la solution

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

ISTEX, vers des services innovants d accès à la connaissance

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

sentée e et soutenue publiquement pour le Doctorat de l Universitl

Apprentissage Automatique

Ingénierie et gestion des connaissances

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Masses de données et calcul : à l IRIT. 8 octobre 2013

Une plateforme de recherche et d expérimentation pour l édition ouverte

MASTER LPL : LANGUE ET INFORMATIQUE (P)

MABioVis. Bio-informatique et la

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

JDev Atelier Datalift

L apprentissage automatique

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Intelligence Artificielle et Robotique

Catalogue des formations Edition 2015

LIVRE BLANC Décembre 2014

TRAVAUX DE RECHERCHE DANS LE

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Programmation d'agents intelligents Vers une refonte des fils de raisonnement. Stage de fin d'études Master IAD 2006

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Les apports de l informatique. Aux autres disciplines

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Urbanisation de système d'information. PLM 6 (Product Lifecycle Management) Collaboration et partage d'informations

Entrepôt de données 1. Introduction

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Présentation générale du projet data.bnf.fr

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

DESCRIPTIF DE MODULE S5 GSI

Management des organisations

Les ontologies pour l intégration sémantique : enjeux et défis

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

Didier MOUNIEN Samantha MOINEAUX

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Business Process Design Max Pauron

Big Graph Data Forum Teratec 2013

Conserver les Big Data, source de valeur pour demain

Titre : La BI vue par l intégrateur Orange

Big Data et Graphes : Quelques pistes de recherche

JASPERSOFT : Répondre à la demande croissante face à un reporting de plus en plus complexe.

Cadre formel pour la modélisation de la gestion des processus métier par une équipe médicale interdisciplinaire

Évaluation et implémentation des langages

Mercredi 15 Janvier 2014

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

Cette Leçon va remplir ces attentes spécifiques du curriculum :

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

TEXT MINING Tour d Horizon

Differential Synchronization

Compte-rendu re union Campus AAR 3 mars 2015

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Vision prospective et obstacles à surmonter pour les assureurs

Tutoriel: Création d'un Web service en C++ avec WebContentC++Framework

Types de REA produites dans le cadre de la séquence pédagogique

Gestion de données incertaines et de leur provenance

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

CBBC Canadian Business & Biodiversity Council

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay

L évaluation de la performance de la communication media

Institut français des sciences et technologies des transports, de l aménagement

Rappel sur les bases de données

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Etudier l informatique

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

La gestion des contraintes pour modéliser les stratégies humaines d'ordonnancement et concevoir des interfaces homme-machine ergonomiques

Utiliser un proxy sous linux

THOT - Extraction de données et de schémas d un SGBD

Des prestations au service des entreprises des filières innovantes et des entreprises de croissance

Information utiles. webpage : Google+ : digiusto/

XML et travail collaboratif : vers un Web sémantique

Dafoe Présentation de la plate-forme UIMA

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Shibboleth. David Verdin - JOSY "Authentification centralisée pour les applications web" - Paris - 4 février mai

«Une bonne thèse répond à une question très précise!» : comment l enseigner?

Séance 1 Introduction aux bases de données

Utilisation des tableaux sémantiques dans les logiques de description

Transcription:

Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe

Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance

Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)?

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)? sim(singe,lion)? sim(singe,canari)

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)? sim(singe,lion) > sim(singe,canari)

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)? prox(singe,banana)? prox(singe,lion)

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)? prox(singe,banana) > prox(singe,lion)

Contribution à l étude des mesures sémantiques La notion de similarité est centrale dans la mise en place de nombreux processus cognitifs et donc décisionnels Comment doter les machines de la capacité de comparer des termes, concepts, ressources, unités de language (mots, phrases, textes)? prox(singe,banana) > prox(singe,lion)

Contribution à l étude des mesures sémantiques Monkeys love bananas, they are a great healthy food source for them. Monkeys will peel bananas from the opposite end than people usually do. This method is easier for them and keeps the fruit intact. (ask.com) sim(monkey,lion) prox(monkey,banana)

Contribution à l étude des mesures sémantiques Monkeys love bananas, they are a great healthy food source for them. Monkeys will peel bananas from the opposite end than people usually do. This method is easier for them and keeps the fruit intact. (ask.com) sim(monkey,lion) prox(monkey,banana) Un grand nombre de modèles proposés pour estimer la similarité ou la proximité d entités (mots, concepts, ressources)

Contribution à l étude des mesures sémantiques Objectifs : Analyser la diversité des mesures afin d améliorer les modèles existants et permettre une caractérisation fine de leurs propriétés Collaborateurs : Sylvie Ranwez, Stefan Janaqi, Jacky Montmain, Vincent Ranwez, David Sanchez, Montserrat Batet Contributions Un cadre abstrait unificateur Analyse de la robustesse, gestion de l incertitude Nouvelles mesures efficaces Code de calcul Différents prototypes

Contribution à l étude des mesures sémantiques Semantic Measures Library Un code de calcul et un logiciel performants pour le calcul et l analyse des mesures sémantiques Open source et distribués sous licence libre Plus de 1500 téléchargements Publication 2014-12 citations au 1er trim. 2015 semantic-measures-library.org site Internet dédié à la documentation et aux téléchargements Une liste de discussions à partir de laquelle un support est proposé plus de 11000 visites Code de calcul et site Internet maintenus depuis 2012

Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance

Estimation d IC par les fonctions de croyance Collaborateurs : Abdelhak Imoussaten, Jacky Montmain, François Trousset IC : Information Content, une notion centrale dans le développement de nombreuses mesures notamment de similarité ou de proximité

Estimation d IC par les fonctions de croyance Collaborateurs : Abdelhak Imoussaten, Jacky Montmain, François Trousset IC : Information Content, une notion centrale dans le développement de nombreuses mesures notamment de similarité ou de proximité Lucie a un livre de Mathématiques Lucie a un livre d Algèbre

Estimation d IC par les fonctions de croyance Collaborateurs : Abdelhak Imoussaten, Jacky Montmain, François Trousset IC : Information Content, une notion centrale dans le développement de nombreuses mesures notamment de similarité ou de proximité

Estimation d IC par les fonctions de croyance Approche intrinsèque Analyse d indicateurs topologiques Approche extrinsèque Contextuelle, analyse de fréquence d utilisation

Estimation d IC par les fonctions de croyance Exemples d utilisation de la notion d IC : Mesures sémantiques

Estimation d IC par les fonctions de croyance Exemples d utilisation de la notion d IC : Mesures sémantiques Contenu informationnel de propositions Lucie a un livre de Mathématiques Lucie a un livre d Algèbre

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 100 requêtes

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 98 x Pizza

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 1 x Pizza Piment

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 1 x Arsenic

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 98 x Pizza IC(1 x Arsenic )? IC(1 x Pizza Piment )

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 98 x Pizza IC(1 x Arsenic ) > IC(1 x Pizza Piment )

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 98 x Pizza IC(1 x Pavarotti ) > IC(1 x Pizza Piment )

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte du chef Alfredo Analyse de son historique de recherche WWW 98 x Pizza IC(1 x Pavarotti ) > IC(1 x Pizza Piment ) et pourtant les probabilités et donc les IC seraient les mêmes en considération d un raisonnement déductif

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte de Lucie Observations dans la bibliothèque de Lucie : 98 x Math book IC(Book of Antiquity)? IC(Book of Algebra)

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement à modéliser : à la découverte de Lucie Observations dans la bibliothèque de Lucie : 98 x Math book IC(Book of Antiquity) > IC(Book of Algebra)

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Comportement des modèles existants : Intrinsèques, non contextuels Extrinsèque, seulement basé sur une propagation exacte des masses IC(Book of Antiquity) = IC(Book of Algebra)

Estimation d IC par les fonctions de croyance Objectif : Proposer un modèle contextuel plus fidèle de l appréciation humaine de la notion d IC Observations dans la bibliothèque de Lucie : 98 x Math book IC(Book of Antiquity) > IC(Book of Algèbre) Pourquoi? raisonnement inductif considération implicite de l imprecision d un concept Inductive Inference Assumption La propagation des masses n est pas que bottom-up

Estimation d IC par les fonctions de croyance Les fonctions de croyance permettent : la prise en compte de l imprecision et de l incertitude, la mise en place de raisonnements inexactes (plausibles). Introduction du cadre : univers des réponses précises masses définies sur, avec et Pour chaque élément, un interval de probabilité peut être défini via la belief et la plausibility :

Estimation d IC par les fonctions de croyance Modélisation adoptée afin de tirer parti des fonctions de croyance pour estimer l IC

Estimation d IC par les fonctions de croyance

Estimation d IC par les fonctions de croyance afin de faciliter la lisibilité

Estimation d IC par les fonctions de croyance Belief, Plausibility

Estimation d IC par les fonctions de croyance Belief, Plausibility

Estimation d IC par les fonctions de croyance Belief, Plausibility

Estimation d IC par les fonctions de croyance Belief, Plausibility

Estimation d IC par les fonctions de croyance Belief, Plausibility & Pignistic probability: Inductive Inference Assumption

Estimation d IC par les fonctions de croyance Belief, Plausibility & Pignistic probability: Inductive Inference Assumption

Estimation d IC par les fonctions de croyance

Estimation d IC par les fonctions de croyance Des fonctions de croyance à l IC Plausibility Inductive Inference Assumption Convex mean Pignistic prob. Belief

Estimation d IC par les fonctions de croyance La modélisation du comportement souhaité est démontrée formellement pour IC Plausibility, IC prob. pignistic et variants

Estimation d IC par les fonctions de croyance La modélisation du comportement souhaité est démontrée formellement pour IC Plausibility, IC prob. pignistic et variants Test : Dégradation des performances des mesures basées sur l IC? Idéal : modéliser l Inductive Inference Assumption sans dégrader la performance des systèmes basés sur l IC Evaluations empiriques Evaluation classique - étude corrélation Pearson/Spearman entre les similarités attendues / estimées pour un ensemble de paires de termes/concepts. Utilisation de WordNet 3.1 pour l ordre partiel des concepts + corpus annoté pour le calcul des masses des concepts Implantations réalisées avec la SML Code source & jeux de données open source

Estimation d IC par les fonctions de croyance La modélisation du comportement souhaité est démontrée formellement pour IC Plausibility, IC prob. pignistic et variants Test : Dégradation des performances des mesures basées sur l IC? Idéal : modéliser l Inductive Inference Assumption sans dégrader la performance des systèmes basés sur l IC Evaluations empiriques Evaluation classique, étudie la corrélation Pearson/Spearman entre les similarités attendues / estimées pour un ensemble de paires de concepts Utilisation de WordNet 3.1 pour l ordre partiel des concepts + corpus annoté pour le calcul des masses des concepts Implantations réalisées avec la SML Code source & jeux de données open source

Estimation d IC par les fonctions de croyance Performance des mesures Résultats comparables entre exp. Pas de dégradation des mesures L IC pig. semble meilleur L IC plausibility & pignitic permettent la modélisation de l inductive inference assumption sans dégradation des performances des mesures dans des contextes d utilisation classiques

Estimation d IC par les fonctions de croyance Corrélations entre ICs L I C p l a u s i b i l i t y & p i g n i s t i c modélisent un comportement différent des IC classiques tout en permettant une conservation des performances des mesures

Estimation d IC par les fonctions de croyance Conclusion Proposition de modèles d IC basés sur les fonction de croyance fidèles à l Inductive Inference Assumption Ces IC modélisent des comportement différents des IC classiques mais ne semblent pas dégrader les performances des mesures basées sur la notion d IC Implémentation des modèles via la SML Perspectives Intégrer la prise en compte de la similarité dans la propagation des masses Prendre en compte la notion de Prototypicalité

Quelques mots sur mon positionnement recherche pour stimuler d éventuelles collaborations

Recherche : vue d ensemble Ingénierie des Connaissances Formaliser des connaissances pour les rendre intelligibles par l outil informatique Ontologies, Logiques Descriptives, RDF(S), OWL, Données liées, Web sémantique Extraction d Information Extraire de l information et de la connaissance par l analyse de gros volumes de données hétérogènes : corpus de textes, bases de données - aspects Big Data Apprentissage automatique, Modèles probabilistes, TAL, Extraction de motifs Recherche d Information & Recommandation Trouver de l information pertinente et personnalisée dans de gros volumes de données au regard d une problématique d aide à la décision. Modèles distributionnels, Modèles de langue, Apprentissage automatique Objectifs - Construire et enrichir des référentiels de connaissances, - Proposer des modèles permettant de les exploiter (e.g. fouiller), - Doter un collectif d acteurs d outils d aide à la décision.

Recherche : vue d ensemble Ingénierie des Connaissances Formaliser des connaissances pour les rendre intelligibles par l outil informatique Ontologies, Logiques Descriptives, RDF(S), OWL, Données liées, Web sémantique Extraction d Information Extraire de l information et de la connaissance par l analyse de gros volumes de données hétérogènes : corpus de textes, bases de données - aspects Big Data Apprentissage automatique, Modèles probabilistes, TAL, Extraction de motifs Recherche d Information & Recommandation Trouver de l information pertinente et personnalisée dans de gros volumes de données au regard d une problématique d aide à la décision. Modèles distributionnels, Modèles de langue, Apprentissage automatique Objectifs - Construire et enrichir des référentiels de connaissances, - Proposer des modèles permettant de les exploiter (e.g. fouiller), - Doter un collectif d acteurs d outils d aide à la décision.

Recherche : vue d ensemble Ingénierie des Connaissances Formaliser des connaissances pour les rendre intelligibles par l outil informatique Ontologies, Logiques Descriptives, RDF(S), OWL, Données liées, Web sémantique Extraction d Information Extraire de l information et de la connaissance par l analyse de gros volumes de données hétérogènes : corpus de textes, bases de données - aspects Big Data Apprentissage automatique, Modèles probabilistes, TAL, Extraction de motifs Recherche d Information & Recommandation Trouver de l information pertinente et personnalisée dans de gros volumes de données au regard d une problématique d aide à la décision. Modèles distributionnels, Modèles de langue, Apprentissage automatique Objectifs - Construire et enrichir des référentiels de connaissances, - Proposer des modèles permettant de les exploiter (e.g. fouiller), - Doter un collectif d acteurs d outils d aide à la décision.

Recherche : vue d ensemble Ingénierie des Connaissances Formaliser des connaissances pour les rendre intelligibles par l outil informatique Ontologies, Logiques Descriptives, RDF(S), OWL, Données liées, Web sémantique Extraction d Information Extraire de l information et de la connaissance par l analyse de gros volumes de données hétérogènes : corpus de textes, bases de données - aspects Big Data Apprentissage automatique, Modèles probabilistes, TAL, Extraction de motifs Recherche d Information & Recommandation Trouver de l information pertinente et personnalisée dans de gros volumes de données au regard d une problématique d aide à la décision. Modèles distributionnels, Modèles de langue, Apprentissage automatique Objectifs - Construire et enrichir des référentiels de connaissances, - Proposer des modèles permettant de les exploiter (e.g. fouiller), - Doter un collectif d acteurs d outils d aide à la décision.

Recherche : vue d ensemble Ingénierie des Connaissances Formaliser des connaissances pour les rendre intelligibles par l outil informatique Ontologies, Logiques Descriptives, RDF(S), OWL, Données liées, Web sémantique Extraction d Information Extraire de l information et de la connaissance par l analyse de gros volumes de données hétérogènes : corpus de textes, bases de données - aspects Big Data Apprentissage automatique, Modèles probabilistes, TAL, Extraction de motifs Recherche d Information & Recommandation Trouver de l information pertinente et personnalisée dans de gros volumes de données au regard d une problématique d aide à la décision. Modèles distributionnels, Modèles de langue, Apprentissage automatique Objectifs - Construire et enrichir des référentiels de connaissances, - Proposer des modèles permettant de les exploiter (e.g. fouiller), - Doter un collectif d acteurs d outils d aide à la décision.

Recherche : vue d ensemble

Recherche : vue d ensemble

Recherche : vue d ensemble

Recherche : vue d ensemble

Recherche : vue d ensemble

Recherche : vue d ensemble

Séminaire C2S Nîmes Mardi 17 mars 17h-19h Les systèmes d information sémantiques : fondations de la médecine de demain? Jean Charlet Clément Jonquet

Questions? sebastien.harispe@mines-ales.fr Collaborateurs Sylvie Ranwez, Stefan Janaqi, Jacky Montmain, Abdelhak Imoussaten, François Trousset, Vincent Ranwez, David Sanchez, Montserrat Batet