Lexicalisation des entités nommées en arabe: une approche méthodologique

Documents pareils
De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Nom de l application

Apprentissage Automatique

اد ر ادر : Livret scolaire ا ا :.. ا ا :.. ذاھ اا ف إ! أ : -1 ا%ف!' & ا%$ : + %*م ھ رأي ا. '& و/&. ا*

! Text Encoding Initiative

Modélisation des données

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Construction et maintenance d une ressource lexicale basées sur l usage

TEXT MINING Tour d Horizon

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Grammaires d unification

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Atelier rédactionnel

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Évaluation et implémentation des langages

CONSTITUTION D'UN CORPUS D'ERREURS DU DACTYLOGRAPHE

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

1. Qu est-ce que la conscience phonologique?

Compte-rendu de Hamma B., La préposition en français

Formation aux écrits professionnels

Guide explicatif de l utilisation. de la plateforme d éducation en ligne (e-learning)

Méthode du commentaire de document en Histoire

N SIMON Anne-Catherine

CORRIGE LES NOMBRES DECIMAUX RELATIFS. «Réfléchir avant d agir!»

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Luc Grivel (*, **)

Document d aide au suivi scolaire

GUIDE DES TRAVAUX DES ÉLEVES MODULE D INITIATION À LA RECHERCHE : LE MÉMOIRE DE RECHERCHE ET D APPLICATION PROFESSIONNELLE

En direct de la salle de presse du Journal virtuel

CONSTRUCTION DE L'INFORMATION

Réaliser la fiche de lecture du document distribué en suivant les différentes étapes de la méthodologie (consulter le support du TD!

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

N. Paparoditis, Laboratoire MATIS

Parcours DIWEB : (Données, Interaction et Web)

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Utiliser un tableau de données

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

LFRA12 RECHERCHE DOCUMENTAIRE APPLIQUEE A LA TRADUCTION

OASIS Date de publication

ÉVALUATION DE LA PRODUCTION DE QUATRE SYSTÈMES TRADUCTION AUTOMATIQUE. Christine Yen

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

Annotations manuelles et automatiques de corpus

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Utiliser ma messagerie GMAIL

Livret personnel de compétences

Système de Question/Réponse dans le cadre d'une plateforme intégrée : cas de l'arabe

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Avis n sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Cliquez pour du modifier titre le style

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

Projet de raccordement au réseau de transport de gaz naturel EXPRESSION PRELIMINAIRE DE BESOIN SITE :..

MAQUETTE M2 PRO ILTS

Trois approches du GREYC pour la classification de textes

Une architecture de services pour mieux spécialiser les processus d acquisition terminologique

Analyse dialectométrique des parlers berbères de Kabylie

NOTICE SUR LES MEMOIRES DE MASTER 2

EDUCATEUR FEDERAL. NOM : PRENOM : Certifications : EPREUVES DE CERTIFICATIONS

Contemporary Engineering Sciences, Vol. 2, 2009, no. 4,

La traduction automatique des articles de l anglais au français

Évaluation de G-LexAr pour la traduction automatique statistique

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Guide du mémoire de fin d études

PLAN D ÉTUDES. école fondamentale

Proposition de séquence collège/lycée. Niveau A2 A2+

CRÉER UN COURS EN LIGNE

Prochaines Dates séminaires Nom : Prénom :.. Date naissance :.. Adresse Complète :

UE11 Phonétique appliquée

Assurance et responsabilité

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Formulaire de dépôt. Office Benelux de la Propriété intellectuelle. Zone réservée à l Office Benelux de la Propriété intellectuelle Numéro

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Import d'écritures d'isagri vers COMPTABILITEEXPERT. I - Créer le dossier dans ComptabilitéExpert. II - Import comptabilité générale exercice N-1

1. Présentation générale du volet «Recherche» du projet PASS

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Certificats Electronique d AE sur Clé USB

L élaboration de la fiche de poste

TP1 - Prise en main de l environnement Unix.

CHAPITRE VI. Détermination d unités de traitement

CONSERVATOIRE NATIONAL DES ARTS ET METIERS. Ecole Management et Société. Département Culture Information Technique et Société (CITS) INTD

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

La Conscience phonologique

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Aide : publication de décisions VS

Hervé Le Coustumer - Directeur Business Unit Support & Services Managés

1 Presentation du bandeau. 2 Principe de création d un projet : C2 industrialisation Apprendre Gantt project Ver 2.6 planifier

Ressources lexicales au service de recherche et d indexation des images

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

LÉA, plateforme pédagogique

Les idées. Albums pour aborder ce trait. Présco-1 er cycle (À partir de 5 ans) 1 er cycle et 2 e cycle. 2 e cycle Livres ouverts

Transcription:

Lexicalisation des entités nommées en arabe: une approche méthodologique Slim Mesfar Abdelmajid Ben Hamadou, Ines Boujelben 10 Juin 2009 1

Introduction Problèmes de la lexicalisation / extraction en langue arabe Approche préconisée Conclusion et perspectives 2

Introduction Les entités nommées (ENs) sont très fréquentes dans les textes électroniques, notamment les articles journalistiques. Les ENs restent insuffisamment représentées dans les ressources. Parmi les projets d extraction en arabe les plus reconnus, nous citons les travaux de [Roche et al,04], [Abbès,08] 3

Introduction Jusqu à présent, il y a peu de systèmes, en arabe, pour l extraction terminologique automatique dans des domaines spécifiques. Une méthodologie d extraction terminologique en arabe d un domaine particulier d étude en se basant sur un corpus hétérogène. Exemple: Domaine de la biomédecine 4

Problèmes de la lexicalisation / extraction en langue arabe Absence de casse : indice naïf pour faciliter la reconnaissance des ENs (noms propres). Absence de normes de transcription des ENs (akzimat) أك ز يم ة (akzimya) أك ز يميا ( akzimā )أ ك ز يما eczema 5

Problèmes de la lexicalisation / extraction en langue arabe Structure complexe des mots arabes : les mots arabes, peuvent être affixés. Il y a des particules qui se collent aux radicaux ce qui empêchent leurs détections, exemple ««و ت م ر ض ه et «et + par + maladie + sa» و + ب +م ر ض + ه Wa + bi + maradi + hi PRON_PERS NOM PREP CONJ CONJ PREP NOM PRON_PERS 6

Problèmes de la lexicalisation / extraction en langue arabe Problèmes de la délimitation des ENs pour deux raisons : mot inconnu : absence d informations morphologiques (nécessité d avoir un analyseur morphologique) antonomase : passage du mot de la langue au nom propre Certains prénoms arabes peuvent avoir différentes catégories grammaticales ي ز يد (yazid), أ ش ر ف (achraf), أ ح س ن( ahsan ) V V+ADJ V+ADJ 7

Problèmes de la lexicalisation / extraction en langue arabe La non voyellation des textes arabes est une source d ambiguïtés. Le mot en arabe «مرض» sans voyelles, peut s interpréter selon trois sens distincts : marida م ر ض Verbe(tomber malade) (maladie) maradun Nom م ر ض maladie) marrada Verbe(provoquer la م ر ض Ambiguïté des termes non voyellés hors contexte. 8

Approche préconisée Texte en arabe standard Analyseur morphologique NooJ Tokenizer Mot du texte Lexique des formes simples fléchies Analyseur morphologique Informations linguistiques associées à la forme reconnue Grammaires morphologiques Liste de marqueurs Système Extracteur NER pour terminologique l arabe pour l arabe Entités nommées reconnues Termes reconnus Grammaires syntaxiques 9

Approche préconisée Étapes: 1- Construction d un corpus représentatif d un domaine particulier d étude 2- Étude du corpus en vue de dégager la liste des termes du domaine 3- Identification des différents types de constituants ainsi que les relations existantes entre eux 4- Amélioration des résultats en réalisant un compromis entre la lexicalisation et la reconnaissance automatique à base des règles. 10

Approche préconisée Étapes: 5- Formalisation des règles associées à chaque type de composants 6- Écriture et représentation des grammaires locales de la reconnaissance d EN 7- Test et évaluation des grammaires sur un nouveau corpus 11

Approche préconisée L enchaînement de ces étapes peut se faire en utilisant le modèle en spirale: -Détermination, à partir des résultats des cycles précédents, des objectifs à atteindre et des contraintes à respecter. -Analyse des risques et évaluation des alternatives -Développement et vérification de la solution retenue - Revue des résultats et vérification de chaque cycle 12

1- Construction d un corpus représentatif d un domaine particulier d étude Un corpus catégorisé issu des sites de grande distribution Construire un corpus à partir du web d un domaine particulier d étude, Recourir à une grande variété de thèmes avoir une large couverture des mots de la langue Travailler sur les petites annonces, les dépêches journalistiques, les articles, ensemble de romans littéraires et les forums de discussion. 13

1- Construction d un corpus représentatif d un domaine particulier d étude Construction d un corpus -Nombre de textes:262 -Nombre d unités de textes:21859 -Nombre de annotations : 4409179 (360350 différentes) 14

1- Construction d un corpus représentatif d un domaine particulier d étude -Nombre total de tokens: 61947 formes différentes 378126 occurrences - Nombre des mots non arabes:1747 formes différentes Liste des tokens dans le corpus 15

2- Étude du corpus en vue de dégager la liste des ENs Collecter le maximum d informations en relation avec un domaine spécialisé Procéder à une analyse morphologique du corpus pour extraire les informations qui seront utilisées dans le système de reconnaissance d EN Retenir et décrire des structures lexicales qui présentent des caractéristiques à la fois spécifiques au domaine et stables dans le corpus. 16

2- Étude du corpus en vue de dégager la liste des ENs Voir le contexte dans lequel un terme du domaine peut apparaître. Utiliser les ressources linguistiques telles que les gazatteers et les grammaires locales Procéder à une analyse morpho-lexicale lors du traitement automatique d un corpus. 17

3- Identification des différents types de constituants ainsi que les relations existantes entre eux Classifier les informations en catégories selon les relations syntaxiques au sein d une phrase. Identifier les mots déclencheurs tels que «ط ث ية»= médecin=tabibun ) ) ou.(«م س ت ش ف ى»= hôpital=mostašfa ) Identifier les syntagmes nominaux descriptifs tels que ğam iyyat «جمعي ة al hilel al ahmar association الهالل األحمر «Croissant-rouge et d autres types de syntagmes tels que les noms propres et leurs combinaisons potentielles. 18

3- Identification des différents types de constituants ainsi que les relations existantes entre eux Extraction des mots déclencheurs -Établissements de santé: 42 marqueurs lexicaux. -Médecins: 36 marqueurs lexicaux. -Maladies : 23 marqueurs lexicaux. -Diverses(Hormones,bactéries, ): 51 marqueurs lexicaux. >ب ك ت ر ا< >ه ر م ون< >ف روس< >ف ت ام ه<... >م ر ض< < و ب اء< >د اء< >ح ك م< >م ناع ت< >ت ل ق ح<... >ط ب ب< >م م ر ض< >م ب ن ج< >ح ك م< >ج ر اح< >ب ط ري< >ص ذ ل <... >م س ت ش ف ى< >م س ت و ص ف< >م ص ح ت< >ع اد ة< >ق س م< >غ ر ف ت< >م خ ب ر< >ص ذ ل ت<... Les déclencheurs des termes de la biomédecine 19

4- Amélioration des résultats en réalisant un compromis entre la lexicalisation et la reconnaissance automatique à base des règles Représenter par des règles cette approche en se basant sur : des preuves internes fournies par les constituants de l EN. des preuves externes fournies par le contexte d apparition de l EN. Dégager certains concepts grammaticaux ou structures syntaxiques à travers l étape de l analyse 20

4- Amélioration des résultats en réalisant un compromis entre la lexicalisation et la reconnaissance automatique à base des règles Identifier les problèmes et essayer de les traiter Explorer toutes les constructions syntagmatiques potentielles - L EN peut être accompagnée de : -Un contexte droit uniquement - Un contexte gauche uniquement - Un contexte droit et un contexte gauche الدكتىر محمد تن صالح:أستاذ في كلية الطة Exemple: (Docteur Mohamed Ben Salah : professeur à la faculté de médecine) 21

5- Formalisation des règles associées à chaque type de composants Traiter d une manière particulière les emprunts / ENs étrangères Décider de ce que l on doit lister dans un dictionnaire ou représenter dans une grammaire. Avoir un compromis entre la couverture lexicale et le temps de réponse. Reconnaître des termes complexes au lieu des termes simples isolés pour résoudre les problèmes d ambiguïté des termes hors contexte 22

6- Écriture et formalisation des grammaires locales de la reconnaissance d EN Grammaire morphologique de décomposition des mots agglutinés pour l arabe Grammaire pour traiter les ambiguïtés citées précédemment Grammaire syntaxique pour la reconnaissance des termes d un domaine particulier 23

6- Écriture et formalisation des grammaires locales de la reconnaissance d EN Grammaire locale de reconnaissance des noms des établissements de santé (ENAMEX+ORG+Med) 24

6- Écriture et formalisation des grammaires locales de la reconnaissance d EN Grammaire locale de reconnaissance des noms de médecins (ENAMEX+PERS+Medecin) 25

7- Test et évaluation de grammaire sur un nouveau corpus Comparer avec une extraction humaine :identification des termes fondés sur l intuition de l extracteur humain (Love 2000). Utiliser des métriques d évaluation de système de reconnaissance des entités nommées: - La précision (Bruit) - Le rappel (Couverture de système) - La F-Mesure 26

7- Test et évaluation de grammaire sur un nouveau corpus Précision P Rappel R F-Mesure F Médecins 85% 83% 84% Maladies 95% 93% 94% Établissements de santé 76% 71% 73.41% Évaluation du système de reconnaissance des termes de la biomédecine 27

Conclusion et perspectives Proposer une approche méthodologique de reconnaissance d EN en arabe Assurer un compromis entre les données lexicalisées et celles représentées sous forme de règles Illustrer l approche préconisée pour décrire le développement d un module d extraction terminologique d ENs liées au domaine de la biomédecine Orienter la tâche de reconnaissance et catégorisation d EN vers de nouveaux défis : le typage le plus fin et la désambiguïsation des termes reconnus. Reconnaître les constructions nominales et verbales exprimant des symptômes. 28

29