ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES



Documents pareils
Concevoir sa stratégie de recherche d information

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Apprentissage Automatique

Compte-rendu de Hamma B., La préposition en français

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

I.R.I.S. lance IRISPdf 4.0, la nouvelle version de sa solution d'ocr de production

Initiation à la recherche documentaire

Gestion collaborative de documents

LA RECHERCHE DOCUMENTAIRE

Analyse dialectométrique des parlers berbères de Kabylie

Quels apprentissages info-documentaires au collège?

Business & High Technology

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE)

La recherche documentaire

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

I.R.I.S. annonce la disponibilité d'iriscapture Pro 7 for Invoices, la nouvelle version de son logiciel de reconnaissance de factures.

Cognit Ive Cas d utilisation

Spécialité Gestion de l'information et de la Documentation*

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Proposer de nouveaux services aux Levalloisiens. Des ressources numériques, accessibles à distance.

Gestion electronique de document

XML pour la mise en valeur des informations

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Ressources lexicales au service de recherche et d indexation des images

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE

TRAVAUX DE RECHERCHE DANS LE

Recherche bibliographique

RECUEIL POLITIQUE DES

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

: seul le dossier dossier sera cherché, tous les sousdomaines

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Formation à la recherche documentaire sur le web

Europresse : Découvrir la recherche avancée

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Marc SALLIERES CEO ALTIC

Bachelier Bibliothécaire- Documentaliste!

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Présentation générale du projet data.bnf.fr

Présentation du réseau documentaire régional en éducation pour la santé. Jeudi 4 juin 2009 BLOIS

ISTEX, vers des services innovants d accès à la connaissance

Chapitre 9 : Informatique décisionnelle

De la production collaborative à la capitalisation des connaissances Le rôle des documentalistes

Table des matières. Préface...5. Introduction...9

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

McAfee Data Loss Prevention Discover 9.4.0

Introduction aux Bases de Données

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Brique BDL Gestion de Projet Logiciel

«Au cœur de la relation citoyen»

Tout sur la cybersécurité, la cyberdéfense,

3. Hypothèses 4. Méthodologie

Mise à jour de la réglementation du cyclisme pour tous

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Site web de Support : Manuel utilisateur

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Évaluation et implémentation des langages

Description du programme du Master M2 MIAGE SIIN (1)

! Text Encoding Initiative

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Politique relative au programme de gestion et de garde des documents semiactifs des professeurs et des organismes résidant

Journée : Apport de l'intelligence Economique pour la gouvernance stratégique de l'entreprise

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Référentiels de représentation des contenus

Projet : Réalisation d une base de. données. Sujet : Gestion des ressources humaines. Logiciel : Microsoft Access

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Construction d ontologies à partir de textes

TYPO3 & Synomia Cédric Tempestini <ctempestini@archriss.com>

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le taux d'actualisation en assurance

Catalogue des formations Edition 2015

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Intelligence Economique - Business Intelligence

Université du Québec à Trois-Rivières Politique de gestion des documents actifs, semi-actifs et inactifs de l'u.q.t.r.

Présentation du 23 mai 2013 Barcarolle/Prangins AGENDA. 1. INTRODUCTION 2. CALYPS 3. QlikView by QlikTech 4. ANALYSE AVEC QLIKVIEW

La gestion électronique de documents

Le choc de l ANI sur le paysage concurrentiel quelles stratégies de conquête des entreprises?


Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Cégep de Saint Laurent Direction des communications et Direction des ressources technologiques. Projet WebCSL : Guide de rédaction web

Journée d'animation du réseau des professeurs documentalistes de l'académie de Rouen

Présentation de la future plateforme internet du Réseau francophone de l'innovation. Réunion de lancement OIF 9-10 juillet 2013

Entrepôt de données 1. Introduction

Politique numéro 42 POLITIQUE DE GESTION DOCUMENTAIRE

«Audit Informatique»

Transcription:

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique Louvain-la-Neuve 31-01-2011

Contexte de la recherche Développement des technologies de l'information La connaissance et l'information sont les nouvelles matières premières de l'activité économique Paradoxe de la société et de l'économie de l'information Les documents sont accessibles plus facilement La production et la diffusion de documents a augmenté en vitesse et en volume Mais, face à une requête précise, l'information est noyée dans la masse L'accès à l'information est devenu un enjeu stratégique Schuiten & Peeters

Introduction Différentes technologies permettent l'accès aux documents Globalement satisfaisantes dans de nombreux cas concrets

Recherche d'informations (RI) Deux phases : 1.Indexation des documents 2.Recherche des documents

Recherche d'informations (RI) Il reste des possibilités d'amélioration pour rendre les résultats plus complets et précis! La recherche d'informations (RI) est traditionnellement basée sur un espace de mots, ce qui entraîne certaines difficultés Ambiguïté lexicale Variété lexicale Prise en compte du sens des expressions (e.a. temporelles) Informations complexes, composées...

Difficultés en RI Ambiguïté lexicale

Difficultés en RI Variété lexicale

Difficultés en RI Sens des expressions temporelles : exemple 1

Difficultés en RI Sens des expressions temporelles : exemple 2

Difficultés en RI Informations complexes, composées

Thèse Cette thèse a pour objectif de montrer si des techniques symboliques de TAL peuvent : venir contribuer à l enrichissement sémantique de la représentation des documents, d une manière qui serait susceptible d en améliorer l accès c.-à-d. par le passage d'un espace de mots à un espace de concepts

Thèse Trois façons d'apporter des éléments de sens à la représentation des documents 1. Indexation thématique (semi) automatique (classification supervisée) 2. Extraction et d'interprétation d'informations temporelles 3. Indexation thématique à dimension temporelle (indexation multidimensionnelle)

1. Indexation thématique (semi) auto. Classification supervisée Attribution de catégories issues d'un ensemble défini a priori Apporte une sémantique bien définie à chaque document ainsi indexé Qualité de l'indexation Problème de coût et de passage à l'échelle Cohérence globale à long terme pas nécessairement assurée

1. Indexation thématique (semi) auto. Idée : améliorer le processus de classification des documents Proposition (automatique) de catégories Validation (manuelle) par des documentalistes, experts du domaine

1. Indexation thématique (semi) auto. Types de variations reconnues lors de l'extraction Traitement cruel, inhumain ou dégradant Traitement cruel Traitement inhumain Traitement dégradant Traitement cruel Contrôle du chômeur Fédération des entreprises belges (FEB) Fédération des entreprises belges FEB Traitements cruels Contrôle (de des) chômeurs Contrôle des chômeurs Contrôle *** des chômeurs *** = renforcé, ponctuel, régulier, etc.

1. Indexation thématique (semi) auto. Résultats Tests sur textes parlementaires, avec thésaurus ad-hoc, et indexation manuelle Classification «générale» (47 catégories) NbCat Classification «fine» (2.514 catégories) NbCat = 5,6 R = 85,87% P = 32,48% = 10,1 R = 62,91% P = 30,86% Les résultats peuvent être améliorés en combinaison avec d'autres méthodes (+SVM (47 catégories) : NbCat = 4,8 R = 91,72% P = 33,50%) Bilan Avantage par rapport au processus manuel Rapidité (coût moins élevé et meilleur passage à l'échelle) Cohérence Le gain sémantique amené par l indexation en catégories devient plus abordable (par rapport au traitement manuel)

2. Extraction temporelle En RI, l'information temporelle peut être exploitée pour Trouver les documents pertinents Améliorer le ranking Filtrer les résultats en exprimant des contraintes additionnelles Proposer de nouveaux modes de présentation des résultats Donner aux expressions temporelles une valeur, un sens a) Reconnaissance d'expressions porteuses d'une information temporelle b) Interprétation de ces éléments et calcul d'une valeur normalisée

2. Extraction temporelle Centrée sur les expressions adverbiales moyen très fréquent de véhiculer une information temporelle dans un texte Méthode symbolique bien adaptée pour décrire le plus complètement et précisément possible ce type d expression Ressource d extraction Transducteurs (patrons lexico-syntaxiques) créés à la main D'autres éléments interviennent dans le modèle temporel complet (verbes, structure syntaxique...)

2. Extraction temporelle Création de la ressource d'extraction

2. Extraction temporelle Reconnaissance et interprétation

3. Indexation à dimension temporelle Utiliser les résultats des deux premières parties pour gérer les informations complexes en RI Constat dans les systèmes de RI La recherche d'informations complexes (p. ex. incluant une dimension temporelle) est rarement possible Peu de support réel des aspects temporels La date prise en compte est souvent la date de création / diffusion du document

3. Indexation à dimension temporelle Idée Indexation classique (thématique) peut évoluer vers une indexation multidimensionnelle [ attaque à main armée ; banque ] [ (attaque à main armée, 17/03/2005, Bruxelles) ; (banque,_,_) ] Lier les indices thématiques et les expressions temporelles au niveau de la proposition Tests et évaluation Liens thématico-temporels : précision de 98,97% Apport informationnel aux catégories de l'indexation : Catégories avec dimension temporelle : 27,32 % Uniquement celles différentes de la date de l'article : 18,90% Remarque : toutes les catégories ne doivent pas nécessairement avoir une dimension temporelle!

3. Indexation à dimension temporelle Exemple <text id= F051230A_0098.txt date= 20051230-15:59 > <title>vtt - F. Meirhaeghe engagé pour 3 ans chez Landbouwkrediet (1LEAD). </title> ANDERLECHT 30/12 (BELGA) = Le coureur belge de mountainbike Filip Meirhaeghe a signé jeudi un contrat de trois ans avec la formation cycliste Landbouwkrediet-Colnago, a communiqué à la presse, vendredi, la direction de l équipe dirigée par Gérard Bulens. Meirhaeghe, suspendu depuis l été 2004 jusqu au 14 janvier 2005 pour avoir utilisé de l EPO, a été engagé pour cette période de 3 ans afin de pouvoir se préparer au mieux pour les Jeux OLympiques de Pékin en 2008. Le biker flandrien sera alors âgé de 37 ans. </text> Indice thématique Expr. temporelle Val. temporelle belge 30/12 30/12/2005 jeudi 29/12/2005 30/12 30/12/2005 jeudi 29/12/2005 Communiqué à la presse vendredi 30/12/2005 Jeux OLympiques En 2008 2008 (fuzzy=1) contrat

Perspectives

Conclusions Les techniques symboliques de TAL peuvent contribuer à enrichir et améliorer la représentation sémantique des documents De manière automatique ou semi automatique À partir de ressources linguistiques construites automatiquement ou manuellement Pour indexer du contenu thématique ou relatif à d'autres dimensions, telle que l'information temporelle Les systèmes de RI actuels sont susceptibles de tirer parti de ces apports sémantiques D'autres applications peuvent également en profiter

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique Louvain-la-Neuve 31-01-2011