Approches fondées sur les chaînes de caractères pour le Recherche d'information

Documents pareils
Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Relation entre deux variables : estimation de la corrélation linéaire

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Resolution limit in community detection

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Microsoft Excel : tables de données

Deux disques dans un carré

Programmation linéaire

N SIMON Anne-Catherine

Le langage SQL Rappels

Parcours DIWEB : (Données, Interaction et Web)

1.1 L EXPLORATEUR WINDOWS

Assurance et responsabilité

progression premiere et terminale

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Exercice : la frontière des portefeuilles optimaux sans actif certain

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

PROGRAMME PROVISOIRE. Degré 9 (1CO)

Dans un contexte économique difficile, comment exploiter tout le potentiel d'un assistant virtuel en ligne? Odile BEURIER & Frédéric DURKA

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Activité pour développer le concept de phrase et de mot

UTILISER UN SITE COLLABORATIF

Navigation dans les fichiers de configuration 1

Entrepôt de données 1. Introduction

Utilisez les outils de la fiche méthode «étude d une affiche de film». Vous pouvez faire part d autres éléments concernant l étude de cette œuvre.

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

LEXIQUE. Extraits du document AFNOR (Association Française de Normalisation) NF EN ISO 9000 octobre 2005

Apprentissage Automatique

RECOMMANDATION UIT-R SM (Question UIT-R 68/1)

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

MO-Call pour les Ordinateurs. Guide de l utilisateur

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

Plan de cette matinée

Introduction : présentation de la Business Intelligence

Algorithmique I. Algorithmique I p.1/??

La classification automatique de données quantitatives

Démonstration d utilisation De NesmaCom

! Text Encoding Initiative

User stories et Backlog de produit

Enseigner les Lettres avec les TICE

1 Complément sur la projection du nuage des individus

PLAN DE COURS DÉPARTEMENT ÉLECTRONIQUE INDUSTRIELLE. TITRE DU COURS Ordinateur Outil RA 1-4-2

Exceptions. 1 Entrées/sorties. Objectif. Manipuler les exceptions ;

A. Qui êtes-vous? 119 questionnaires recueillis. 2.Votre statut. Vous avez été recruté sur un poste 0.8% 4.2% 1.Quelle est votre activité principale?

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Séquence 1. Découverte de l album. Objectifs. Présentation générale des activités. Déroulement détaillé

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Les tâches d un projet

Hélène Douville Accélératrice de succès

N 130 SENAT SECONDE SESSION ORDINAIRE DE PROJET DE LOI MODIFIÉ PAR LE SÉNAT. tendant à la généralisation de la Sécurité sociale.

Soutien technique en informatique

La Business Intelligence, un projet stratégique

HMI target Visu / PLC HMI. Pour réaliser une interface homme machine avec PLC control

Note de cours. Introduction à Excel 2007

CENTRE NATIONAL DE LA FONCTION PUBLIQUE TERRITORIALE ASSISTANTE DE DIRECTION

Les textos Slt koman sa C pa C?

CHEQUE DOMICILE. PAIEMENT EN LIGNE d un intervenant ou d un prestataire

UE C avancé cours 1: introduction et révisions

CH.6 Propriétés des langages non contextuels

Atelier rédactionnel

BANQUES DE DONNÉES PÉDAGOGIQUES

Le cadre des Web Services Partie 1 : Introduction

Research Monitor. Research Monitor. Prise en main. Version Guide

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

I/ CONSEILS PRATIQUES

Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Gestion de données incertaines et de leur provenance

Guide de démarrage. Étape 1 : ajoutez des hôtels à votre compte. Étape 2 : entrez votre adresse . Étape 3 : cliquez sur le lien du message

Efficacité des Modules Maintenance dans les ERP.

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

L2T SMS RESELLER MANUEL D UTILISATION ESPACE CLIENT AVERTISSEMENT

4 ème PHYSIQUE-CHIMIE TRIMESTRE 1. Sylvie LAMY Agrégée de Mathématiques Diplômée de l École Polytechnique. PROGRAMME 2008 (v2.4)

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Sommaire. Introduction Définition Historique Domaine d application.2. 4.Les Travaux réalisés sur les domaines d application.

Et si vous faisiez relire et corriger vos textes par un professionnel?

EXCEL TUTORIEL 2012/2013

Analyse dialectométrique des parlers berbères de Kabylie

COORDINATION NON COOPÉRATIVE: MÉTHODES D ENCHÈRES

Introduction à la Programmation Parallèle: MPI

Manuel d utilisation DeveryLoc

GUIDE Excel (version débutante) Version 2013

Travailler avec. en classe

PARCE QUE L ÉCOLE MÉRITE LE MEILLEUR

GUIDE D UTILISATION CHRONOTRACE Pour suivre vos envois dans le monde entier

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

PNL & RECRUTEMENT IMPACT SUR LES ENTRETIENS Présentation du 10/06/03

Arborescence et création de dossiers

Bases de Données. Plan

ERGONOMIE GESTION DES DONNEES CLIENT. Gestion données client Vue 360 (Obligatoire) Données récupérées. Données calculées

Questionnaire pour connaître ton profil de perception sensorielle Visuelle / Auditive / Kinesthésique

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Transcription:

Approches fondées sur les chaînes de caractères pour le Recherche d'information Mathieu Roche Cours ECD (Recherche d'information et Langage Naturel) 2008/2009

Utilisation des informations sur les chaînes de caractères en RI Utiliser des connaissances sémantiques pour améliorer les méthodes de classification (cf cours précédent). De telles connaissances existent dans le domaine général. Limite : domaines spécialisés. Lien entre les chaînes de caractères et la sémantique? 2

Utilisation des informations sur les chaînes de caractères en RI Utiliser des méthodes fondées sur les chaînes de caractères pour : Apporter des connaissances sémantiques (pour le regroupement de mots sémantiquement proches), Normaliser les textes (correction orthographique, etc.), Reconnaissance des langues, 3 Identification de plagiat (proximité de marques déposées à l'inpi), etc.

Suffixes/Préfixes But : vérifier qu'une chaîne de caractères Ch1 se retrouve : au début d'une chaîne de caractères Ch2 (préfixe), à la fin d'une chaîne de caractères Ch2 (suffixe). Exemples de similarités : Préfixe -> Ch1 = chat / Ch2 = chaton Suffixe -> Ch1 = suivre / Ch2 = poursuivre 4

Suffixes/Préfixes Avantage : efficace sur certains domaines spécialisés tels que la médecine [Nakache et al. 2006] Les suffixes indicateurs d'états pathologiques : 'ite' pour désigner l'inflammation (pancréatite, appendicite, gastrite), 'algie' ou 'odynie' pour la douleur. Les suffixes indicateurs de gestes techniques : 'centèse' signifie ponction, 'ectomie' est propre à l'ablation, 'plastie' la réparation. 5

Suffixes/Préfixes Utilisation de ces connaissances (suffixes/préfixes) sur les chaînes de caractères comme connaissance du domaine. Désuffixation pour améliorer les méthodes de classification [Nakache et al., 2006] Limite : chat / chateau! 6

String Matching Il existe de nombreuses mesures de similarité (pas seulement au niveau des méthodes de mise en correspondance de schémas). Exemple avec la distance «Edit distance» (notée E) = somme minimale du coût des opérations qu'il faut effectuer pour transformer Ch1 en Ch2. Opérations : suppression, insertion, remplacement. 7 Remarque : L'«Edit Distance» est aussi appelé «Distance de Levenshtein»

String Matching Exemple : E(gréviste,grève) = 4 Ch1 : Opérations : Remplacement Insertion Insertion Insertion Ch2 : _g _r _é _v _i _s _t _e _g _r _è _v _e Mesure prenant en compte E : la mesure String Matching (SM) de Maedche et Staab : SM(Ch1,Ch2) = max[ 0; (min( Ch1, Ch2 )-E(Ch1,Ch2))/min( Ch1, Ch2 ) ] 8 SM(gréviste,grève) = max(0;(5-4)/5) = 0.2 Calculer SM(chat,chaton)

String Matching Méthode (Distance de Levenshtein) : Construire une matrice M de n+1 lignes et m+1 colonnes. Initialiser de la première ligne par la matrice ligne [ 0,1,.., m-1, m] et la première colonne par la matrice colonne [ 0,1,.., n-1, n] Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j) On a donc ici la matrice Cout : 9

String Matching On remplit ensuite la matrice M en utilisant la règle suivante M[i, j] est égale au minimum de: - L élément directement avant plus 1: M[i-1, j] + 1. - L élément directement au dessus plus 1: M[i, j-1] + 1. - Le diagonal précédent plus le coût: M[i-1, j-1] + Cout(i, j).... Calculer la matrice pour les mots : (chat, chaton) 10

n-grammes Technique des n-grammes est utilisée pour calculer le nombre de n caractères consécutifs. Généralement, la valeur de n varie entre 1 et 5. Exemple de tri-grammes : Ch1 = chat / Ch2 = chaton : tr(ch1) = {cha, hat} tr(ch2) = {cha, hat, ato, ton} 11 Mise en oeuvre de mesures fondées sur les tri-grammes tels que la mesure de Lin.

n-grammes Mesure Lin (1998) : Tri(Ch1,Ch2) = 1/[ 1+ tr(ch1) + tr(ch2) - 2 X tr(ch1) Intersect tr(ch2) ] SM(chat,chaton) = 1/[1+2+4-2X2]=0.33 12

Avantages et limites des mesures fondées sur les chaînes de caractères Mesures fondées sur les chaînes de caractères souvent utilisées pour la mise en correspondances de schémas. Reconnaître que la chaîne de caractères NomAuteur est proche de Nom auteur Avantages : indépendant des langues et des domaines. Limite : université école d'ingénieur enseignant enseignante téléphone enseignants téléphonie 13 Solution : utiliser des informations contextuelles (description en langage naturel, noeuds et feuilles, etc.). Combinaison mesures lexicales et contextuelles.

Avantages et limites des mesures fondées sur les chaînes de caractères Limite : problème de polysémie. Exemple, souris! (cf cours précédent) Par exemple, polysémie sur les acronymes/sigles (cf prochain cours). Exemple : JO = Jeux Olympiques ou Journal Officiel Difficultés : Mise à jour nécessaire des lexiques utilisés (acronymes récents). Choix de l'acronyme adapté parmi une liste donnée. 14 Connaître la définition des acronymes des domaines spécialisés

Reconnaissance de la langue et Recherche d'information Autre utilisation des n-grammes pour les tâches de classification : Reconnaissance de la langue (étape préliminaire très efficace avant les approches de classification). Autre méthode de reconnaissance de la langue fondée sur l'identification des mots-outils propres aux langues (par exemple, the, and, etc.). 15

Reconnaissance de la langue et Recherche d'information Exemple à partir d'un corpus parallèle : Adoption of the Minutes of the previous sitting Adoption du procès-verbal de la séance précédente 16 Exercice : Calculer les n-grammes sur ces deux phrases parallèles avec n = 2, 4, 10. Conclure sur l'utilisation des n-grammes de caractères pour la reconnaissance de la langue sur cet exemple. Généraliser ces résultats en donnant des exemples typiques de n- gramme du français et de l'anglais