Détection automatique à partir du web des caractéristiques ontologiques et du type d une



Documents pareils
TEXT MINING Tour d Horizon

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Business Intelligence avec Excel, Power BI et Office 365

Apprentissage Automatique

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Évaluation transparente de systèmes de questions-réponses : application au focus

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Business Intelligence

THESE. Thème. Contributions aux techniques de recherche d informations

à la fonction remplie par la pièce. AMP 1200 est un système de ventilation décentralisée d'applications. AMP 1200 est une centrale

Apprentissage statistique dans les graphes et les réseaux sociaux

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Préparer un état de l art

gros L abonnement L abonnement qui peut rapporter gros J aide un organisme et je m abonne à la chance! POSSIBILITÉ DE PAIEMENT DIFFÉRÉ

Fiche Produit. 1m2 I Escalier Gain de Place en Colimaçon. Ludovic Cretenoud 079 /

Créer une base de données vidéo sans programmation (avec Drupal)

Mehdi Embarek. Un système de question-réponse dans le domaine médical : le système Esculape.

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Gestion collaborative de documents

Petit Déjeuner Web Analytics. 14 Juin Intercontinental de Paris

Etude sur l efficacité marketing des entreprises luxembourgeoises Bilan en demi-teinte

Tarifs WebArtDesign à Grenoble: Création Site Internet, Référencement, Création Graphique, Création Log...

Trois approches du GREYC pour la classification de textes

Recherche d'information dans Internet Introduction

Système de sécurité de périmètre INTREPID

DOCUMENT COMMERCIAL DU SERVICE POWER BANNER

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

AoIP - DES SOLUTIONS MODERNES

E-Gen : traitement automatique des offres d emploi

Systèmes d information et bases de données (niveau 1)

1 Description générale. Résumé

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

SNMP for cloud Jean Parpaillon. SNMP4cloud - 1

Une réelle solution HA Continuité en toute situation!

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

Mise en place du Business Activity Monitoring (BAM) pour piloter les processus logistiques grâce aux Echanges de Données Informatisés (EDI)

L introduction à la thèse

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Le GPS, la téléphonie mobile et les alertes intelligentes au service de la santé et de votre famille.

Working with Kinect. Intelligence Ambiante. Tomás DÍAZ TRONCOSO Arturo GARCÍA TOVAR Daoud MAROUAN LMTIUI

Analyse dialectométrique des parlers berbères de Kabylie

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Cosmina TRIFAN Chef de projets Webmarketing, Pentalog WebSchool Orleans

Benchmark marketing

Dafoe Présentation de la plate-forme UIMA

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

Trends Every. to Know. Eli Goodman, Media Delphine Gatignol, VP Sales FRANCE. Marché. Numérique en France

Annotations manuelles et automatiques de corpus

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

Chapitre 4 Évaluation des performances d'un filtre

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Marketing mobile Les clés pour intégrer efficacement le mobile dans sa stratégie marketing

OpenText StreamServe Cours Customer Communication Management L essentiel

Chapitre 1 Qu est-ce qu une expression régulière?

A l Aise Web - Liens sponsorisés

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Occasions d affaires en Fédération de Russie

Recherche bibliographique

Utiliser un tableau de données

Jeudi 30 avril L art de bien référencer son site Internet

L IMPACT ATTENDU DE DMARC SUR LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab

4. Exercices et corrigés

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Modélisation d'une ontologie de domaine et des outils d'extraction de l'information associés pour l'anglais et le français

Recherche de microblogs : quels critères pour raffiner les résultats des moteurs usuels de RI?

Sur l utilisation de LDA en RI pair-à-pair

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Exemple d application: l annuaire DNS Claude Chaudet

The Over-60 Research Unit UCSF 2007 adaptation en français en 2013

LES CHIFFRES CLÉS DU NUMÉRIQUE ET LES BONNES PRATIQUES DE NUMÉRISATION DES TPE /PME

Guide de l'acheteur. Jean-Philippe Loiselle inc. Courtier immobilier. Tél :

DEBAT D ORIENTATIONS BUDGETAIRES 2015

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Création et partage de la valeur, maîtrise du risque en démarche collaborative Client/Fournisseur

MASTERCLASS PI. CNCPI Vendredi 28 mars 2014


Regroupement sémantique de définitions en espagnol

Recherche d information textuelle

Initiation à LabView : Les exemples d applications :

Générer du code à partir d une description de haut niveau

Sans formation à l aide sociale que faire?

Multi-catégorisation de textes juridiques et retour de pertinence

LES RETOMBÉES ÉCONOMIQUES DE LA PÊCHE DE LOISIRS DANS LE SECTEUR DU LAC DU BOURGET. Restitution - 13 octobre 2014

Bienvenue. Immobilier/ Commerces/ Crédit/ Assurances/ Défiscalisation

Contrôle et Monitoring

plateforme de paiements sécurisés sur internet Groupe Crédit Mutuel-CIC La carte d identité 2009

Utilisation des Réseaux Sociaux par les Organisations Touristiques en Suisse

Salon du crédit et de l assurance. Braine-l Alleud 23 février 2015

Formation certifiante Le tourisme. Tout naturellement!

Intégration de la dimension sémantique dans les réseaux sociaux

Créateur de Visibilité

SEO perspec(ves Novembre 2013

Bases de données. Chapitre 1. Introduction

Introduction à MapReduce/Hadoop et Spark

Optimisation de la cession d une entreprise et incidences sur le patrimoine privé du chef d entreprise

Introduction à la Recherche d information

UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...

Transcription:

Détection automatique à partir du web des caractéristiques ontologiques et du type d une Entité Nommée Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr ismart - Université d Avignon (LIA) Michel Benoit - Patrice Bellot Mercredi 30 juin 2010 1/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Définition Etat de l art TREC Entity Ranking Questions-réponses Catégorisation des ENs candidates Résultats 2/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Déterminer si deux entités nommées sont de même type (représentent le même concept) ex : Nikon d3000 et canon 550d Etude de leur environnement Indépendant de la langue 3/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Définition Etat de l art Entité Nommée (EN) Définition courante Unité d information (ou textuelle) Représente une personne, une organisation, une date, etc. Intérêt Filtre et amélioration des performances Systèmes de questions-réponses Ex : Quelles sont les villes à visiter en France? 4/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Définition Etat de l art Etat de l art s déductives Utilisation de patrons d extraction Mr. mot première lettre capitale... mot est une personne. s inductives : semi-supervisées Bootstrapping Synonymes, mots de la même classe [Pasca 06] Relations syntaxiques [Cucchiarelli 01] etc. 5/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Définition Etat de l art Etat de l art (2) s inductives : supervisées Arbres de décision [Sekine 98] CRF [Mc Mallum & Li 03] SVM [Asahara & Matsumoto 03] etc. Ressources Corpus (Penn TreeBank) Listes d ENs (gazeeters) Taxonomies (DBPedia) etc. 6/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

Définition Etat de l art Limites Ex : Quels sont les acheteurs potentiels d Eurocopter? Faible nombre de types d ENs reconnus (5-200) Impossibilité de construire des ressources aussi précises que nécessaire Monde en perpétuelle évolution 7/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

TREC Entity Ranking TREC Campagne d évaluation internationale en RI Créée en 1992 Soutenue par le gouvernement américain (NIST) 8/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

TREC Entity Ranking Entity Ranking Related Entity Finding Retrouver des ENs d un type donné Satisfaisant une relation en texte libre avec une EN source Exemple de Topic : EN : Michael Schumacher Type : personne Texte : Michael s teammates while he was racing in Formula 1 9/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristique

TREC Entity Ranking Corpus et Evaluation Corpus ClueWeb09 1 milliard de pages web 15To de données 4 langues (En, Fr, Es, Ch) Evaluation Plusieurs mesures : P@R, MAP@R, ndcg@r 100 résultats maximum Cinquantaine de topics 10/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Questions-réponses Catégorisation des ENs candidates Résultats Questions-réponses Reconnaissance d entités nommées Pers, Org et Loc : Stanford-NER Produits : Règles Analyse morpho-syntaxique TreeTagger Compacité Comp(EC i ) = 1 QW P w QW Z j R j +1 11/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Questions-réponses Catégorisation des ENs candidates Résultats Catégorisation des ENs candidates Collecte d ENs de référence Du type attendu Utilisation de patrons d extraction Ex : teammates including NP Pasca 2004 Constitution de corpus Interrogation de Yahoo! Requête : EN Récupération des x premiers documents Corpus de référence : constitué des documents récupérés pour chaque EN de référence. 12/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Catégorisation des ENs candidates (2) Questions-réponses Catégorisation des ENs candidates Résultats Modèle de langage Calcul de n-grammes Lissage desj distributions : Dirichlet ps(w d) si w est vu p(w d) = α d p(w C) sinon tf (c,d)+µp(w C) p s(w d) = P w V tf (w,d)+µ µ α d = tf (w,d)+µ P w V Divergence de Kullback-Leibler Distance entre deux distributions de probabilités Le modèle de référence et celui d une EN candidate DKL(P Q) = P P(i) i P(i)log Q(i) 13/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Résultats de la chaîne principale Questions-réponses Catégorisation des ENs candidates Résultats Métrique Max Median P@10.070.235.005 Tab.: Résultats, Référentiel TREC Entity Ranking 2009, Anglais. 13 équipes, 4 runs par équipe Métrique PERS ORG PROD ALL P@10 0,067 0,082 0,033 0,0700 Tab.: Catégories, Référentiel TREC Entity Ranking 2009, Anglais Actuellement la catégorisation améliore les résultats d environ 15% 14/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Détection des caractéristiques Première approche Analyse des différences de comportement d unigrammes entre le modèle lié au corpus d ENs d un même type et un modèle du monde Exemple Différence entre les probabilités des deux modèles d unigrammes Type d ENs : camera 20 premiers unigrammes : measure, 200mm, $599.95, 2000d, advertising, selector, symantec, focus, high-quality, digtal, softcover, globally, select, seldom, differ, picture, softwaresecurity, decent-sized, high-contrast, ex-z300. 15/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Merci de votre attention Des questions? 16/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu

Métriques Precision Precision = documents pertinents retrouves documents r etrouves Mean Average Precision (MAP) MAP@R = P R r=1 (P@r.rel(r)) NbrDeDocumentARetrouver normalized Discounted Cumulative Gain (ndcg) DCG@R = rel 1 + R i=2 rel i log 2 i ndcg@r = DCG@R IDCG@R 17/17 Ludovic Bonnefoy ludovic.bonnefoy@ismart.fr Détection automatique à partir du web des caractéristiqu