Laurent Besacier Hervé Blanchon

Documents pareils
Évaluation de G-LexAr pour la traduction automatique statistique

Traitement automatique des entités nommées en arabe : détection et traduction

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues

1 Description générale. Résumé

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Apprentissage Automatique

N SIMON Anne-Catherine

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Application d un algorithme de traduction statistique à la normalisation de textos

Pratiques induites par les réunions à distance : discours, identités et organisation des actions

SparkInData. Place de Marché des applications Spatiales

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Évaluation et implémentation des langages

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

! Text Encoding Initiative

Support pour les langues s écrivant de droite à gauche

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Calculabilité Cours 3 : Problèmes non-calculables.

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

L'assurance qualité automatisée en agence de traduction (QA Distiller, Xbench et SDLX QA Check)

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Probabilités sur un univers fini

SYSTRAN 7 Guide de démarrage

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Dans une agence de location immobilière...

Interférences lexicales entre deux langues étrangères: anglais et français

Algorithmes d'apprentissage

«La pomme qui voulait voyager»

Application Form/ Formulaire de demande

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Indications pour une progression au CM1 et au CM2

Les probabilités. Chapitre 18. Tester ses connaissances

L informatique en BCPST

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

UE11 Phonétique appliquée

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

OpenText StreamServe Cours Customer Communication Management L essentiel

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Cours 1 : Qu est-ce que la programmation?

Vérifier la qualité de vos applications logicielle de manière continue

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

SOMMAIRE. Dossier : Aide au suivi du stagiaire

FORMATIONS LINGUISTIQUES DIPLOMES, TESTS & EXAMENS D ESPAGNOL COCEF

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

BAP E Gestionnaire de parc informatique et télécommunications MI2 / MI3 Ouverts au titre de 2010 Arrêté du 7/04/10 - J.

Thèmes et situations : La poste et la banque. Fiche pédagogique

1. Qu est-ce que la conscience phonologique?

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Styler un document sous OpenOffice 4.0

Compte-rendu de Hamma B., La préposition en français

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Portail Vocal d Entreprise

Model checking temporisé

Le Test d évaluation de français De la Chambre de commerce et d industrie de Paris

LIVRE BLANC Décembre 2014

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Jeux mathématiques en maternelle. Activités clés. Jeu des maisons et des jardins (Yvette Denny PEMF)

La traduction automatique des articles de l anglais au français

UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...

Document d aide au suivi scolaire

Information Equipment

THE SUBJUNCTIVE MOOD. Twenty-nineth lesson Vingt-neuvième leçon

part de mon expérience.

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Perl Console. Votre compagnon pour développer en Perl. Les Journées du Perl , 17 novembre, Lyon. Alexis Sukrieh

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Probabilités sur un univers fini

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Simulation en santé. Outil de gestion des risques. Avril Dr MC Moll 1

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

DOCM Solutions officielles = n 2 10.

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Table des matières. Qui sommes-nous? Nos services. Pourquoi ETN? Nos tarifs. Contact

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Exemple PLS avec SAS

CORRIGÉ DU DOSSIER N 2

Stakeholder Feedback Form January 2013 Recirculation

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Contents Windows

Guide de démarrage rapide. Microsoft Windows 7 / Vista / XP / 2000 / 2003 / 2008

Annotations manuelles et automatiques de corpus

Transcription:

Laboratoire d Informatique de Grenoble Equipe GETALP Université Stendhal Laurent Besacier Hervé Blanchon Réalisé par Atef Ben Youssef Sous la direction de Georges Antoniadis 1

Plan La traduction statistique 2

La traduction statistique Objectifs : Améliorer un système état de l art en enrichissant les données. Comparer les performances de 2 systèmes : Système construit sur des données brutes Système construit sur des données enrichies Enrichir les données : Ajouter des classes morphosyntaxiques aux données. Deuxième niveau (aller plus loin) Ajouter le sens aux données. 3

La La traduction statistique Étiquetage POS Tagger (POS Anglais Tagger) et Arabe Données Perspective et outils Expériences Conclusion et évaluation Riche morphologie Problèmes du traitement automatique de la langue arabe Absence des voyelles Ambiguïté Sens de mot Fonction de mot Détection de racine Problème de segmentation 4

Traduction Probabiliste La traduction prbabiliste La traduction statistique se résume à trouver le document cible ayant la plus grande probabilité d être la traduction d un document source. Le théorème de Bayes : s est le mot à traduire t est une traduction possible du mot s Pr(t s) est la valeur assignée pour chaque paire de mots (t,s) Puisque le dénominateur est indépendant de t, s est fixe t = argmax t Pr(t) Pr(s t) Les trois défis informatiques présentés par la traduction statistique : Le modèle de langage Pr(t). Le modèle du traduction Pr(s t). L algorithme de recherche (argmax t ). 5

Modèles de langue La traduction prbabiliste Un modèle statistique de langue donne la probabilité d observer un mot sachant ceux qui le précèdent. Ces modèles sont obtenus à partir de données d entraînement (ou d apprentissage) sur des corpus de la langue cible. Les systèmes à base de modèles de langue statistiques permettent d estimer la probabilité a priori de la séquence de mots S = m 1, m 2,..., m n selon l'équation suivante : P( S ) = P(m 1 ) x P( m 2 m 1 ) x... x P( m n m 1, m 2,..., m n-1 ) 6

Modèles de traduction La traduction prbabiliste Le modèle de traduction donne la probabilité qu un mot ou un groupe de mots dans la langue source soit traduit par un autre dans la langue cible. Un modèle de traduction est vu comme un modèle d alignement de mots. The program has been implemented Le programme a été mis en application Nous nous intéressons ici au problème du calcul de P(s I t J ) Brown et al, propose cinq modèles IBM de traduction pour : Modéliser P(S=s I T=t J ) Chaque modèle diffère de l autre par la façon de calculer la probabilité de traduction Pr(s t). 7

Machine de traduction La traduction prbabiliste Texte source Phase d entraînement (réalisée une seule fois) Décodeur Argmax p(e)*p(f/e) t s P(s t) P(t) Modèle de traduction Modèle de langage Corpus Arabe Corpus Anglais Texte cible Machine de traduction statistique : Arabe/Anglais 8

Modèle factoriel La traduction prbabiliste les processus de traduction sont divisés en trois étapes [Koehn et Hoang, 2007]. : Traduire les lemmes d'entrée par les lemmes de sortie Traduire les informations morphosyntaxiques (POS) et morphologiques. Générer les mots en tenant compte des facteurs linguistiques traduits. Exemple d un modèle factoriel 9

POS Tagger : Anglais Utilisation de 36 balises (Tagset) Are these all your personal effects? Étiqueteur TreeTagger : Are VBP be these DT these all PDT all your PP$ your personal JJ personal effects NNS effect? SENT? Évaluation [Schmid, 1994] : 97.53% 10

POS Tagger : Arabe Préparation des données : translitération Buckwalter Un caractère arabe = une lettre latine. À chaque caractère arabe distinct correspond une lettre latine distincte, et vice versa. La translittération est réversible : on peut reconstituer exactement l original arabe à partir de la forme latine. Exemple : hl h*h kl mtelqatk Al$xSyp? هل هذه كل متعلقاتك الشخصية 11

POS Tagger : Arabe Etiqueteur de Columbia University ASVM (SVM-POS) L entrée de ASVM est: Un texte arabe de gauche à droite translittéré en Buckwalter Les sorties de ASVM sont trois textes : Tokenisé : L analyse des mots : mot = préfixe racine suffixe Étiqueté : Utilisation de 24 balises (Tagset) disponibles dans la distribution de Arabic TreeBank : CC, CD, CONJ+NEG PART, DT, FW, IN, JJ, NN, NNP, NNPS, NNS, NOFUNC, NUMERIC COMMA, PRP, PRP$, PUNC, RB, UH, VBD, VBN, VBP, WP, WRB Étiqueté à base de phrase (Base Phrase Chunkers) 12

POS Tagger : Arabe Évaluation de ASVM [Diab, Hacioglu et Jurafsky, 2004] : Les phrases sont distribuées au hasard : 4000 phrases pour l apprentissage 119 phrases pour le développement 400 phrases pour le test Système Score % TOK. Résultat de comparaison entre SVM-TOK et RULE+DICT (approche utilisé par BASELINE) POS. Résultat de comparaison entre SVM-POS et BASELINE en étiquetage du texte arabe TOK POS SVM-TOK 99.12 RULE+DICT 93.71 SVM-POS 95.49 BASELINE 92.2 Réf. Automatic Tagging of Arabic Text: From Raw Text to Base Phrase Chunks, M. Diab, K. Hacioglu, D. Jurafsky 13

POS Tagger : Arabe La qualité d'étiquetage sur nos données (corpus oraux) est très décevante beaucoup d erreurs Nous décidons de : Corriger manuellement une partie du corpus (20%) Utilisation des expressions régulières (gain de temps) Script contenant 1407 Expressions Régulières 13.05% des mots différents sont erronés Temps mis = 58 heures pour 3700 lignes Impossible de tout corriger manuellement! Utilisation des 20% corrigés pour apprendre un étiqueteur plus robuste (SRI-LM) 14

POS Tagger : Arabe Le nouvel étiqueteur arabe réalisé est formé par: Corpus d entrainement : la partie vérifiée manuellement de IWSLT07 Préparation des données : # phrases # mots # mots différents Corpus Arabe 3681 37170 5307 Un modèle de langage 3-gramme (commande ngram-count de l outil SRILM ) Un tableau d étiquettes (tags) associé au lexique : w t1 p1 t2 p2 Le processus d étiquetage : Attribuer à une séquence de mots, la séquence de catégories la plus probable (commande disambig de SRI-LM ) 15

POS Tagger : Arabe Les différentes étapes de notre étiqueteur Application des expressions régulières (correction) Utilisation de la tokenisation de SVM-POS Etiquetage par notre système re-entraîné Pour les mots non traîtés par notre système, prendre les étiquettes données par l étiqueteur SVM-POS Évaluation sur les données d apprentissage : 99.4% 16

POS Tagger : Arabe Évaluation :Test fait sur les 100 dernières phrases du corpus L étiqueteur ASVM: 857 mots étiquetés (w/pos) Il y a 77 étiquettes fausses 9.0% des étiquettes sont fausses. 75 phrases erronées Notre étiqueteur : 877 mots étiquetés (w/pos) Il y a 15 étiquettes fausses 1.7% des étiquettes sont fausses. 14 phrases erronées 17

Données : Bitexte Le point de départ de l entraînement du système est ce que l on désigne par bitexte. Un bitexte est un corpus bilingue parallèle. On a utilisé dans notre étude une collection de corpus parallèles arabe/anglais : IWSLT07 (un corpus de 20k paires de phrases). Corpus IWSLT est sous forme de transcriptions de la parole dans le domaine du tourisme Corpus Arabe Corpus Anglais Nombre de phrases 19972 19972 Nombre des mots 131472 153066 Nombre des mots différents 24901 13337 18

Outils Utilisation des données enrichies (+étiquettes) pour construire un système amélioré. Outils disponibles : SRILM : compatible avec les données enrichies. GIZA++ : compatible avec les données enrichies. Moses : compatible avec les données enrichies. BLEU : calcule les scores des deux systèmes Système construit sur des données brutes Système construit sur des données enrichies 19

Éxperiences Première expérience : Traduire les mots arabes par les lemmes anglais Traduire les catégories Générer les formes de surface Pour les lemmes inconnus, TreeTagger attribue l étiquette <unknown> au lemme. (Exemple : Health-Sports <unknown> NP) Fausse génération du mot en utilisant uniquement les informations syntaxiques (POS) 20

Éxperiences Deuxième expérience : Traduire les mots arabes par les mots et les lemmes anglais Traduire les catégories Générer les formes de surface Pour le lemme inconnu, on fait appel au mot. 21

Éxperiences Utiliser les étiquettes syntaxiques (POS) sous forme factorisée (Factored Models) pour améliorer Les alignements EN/AR Le décodage Utiliser les étiquettes syntaxiques (POS) en langue cible seulement (EN) pour améliorer la sortie de traduction Modèle de langage «POS» en langue cible pour réordonner les hypothèses de traduction Un tel modèle préfère la séquence (NNP VBZ NNS) nom_propre verbe_singulier nom_pluriel que la séquence (NNS VBZ NNP). nom_pluriel verbe_singulie nom_propre 22

Évaluation qualitative Source : نعم لقد حجزت مقعدين مسبقا» avance «Oui, j ai réservé deux places en 1- طبعا سأضع عليها عالمة هنا موافق» OK «Bien sûr, je vais signer ici 2- Modèle non factoriel (classique) : 1- Yes, I reserved seats in advance? 2- Of course. put on it موافق sign here. Modèles factoriels : 1- Yes, I reserved two seats in advance? 1- Yes, I have two a reservation in advance? 2- Of course. put on it. Okay. Sign here. 2- Of course. Put it okay to sign here Références : 1- Yes, I have already reserved two seats. 1- Sure. Two seats are booked. 1- Yes. We have reserved two seats already. 2- Sure. I'll mark it here, OK? 2- No problem. Let me mark here. Okay? 2- OK. I'll put a mark here then. Alright? 23

Évaluation qualitative Exemples de faux alignements qui existaient dans le table de traduction du modèle classique (non factoriel) et n existaient plus dans le table de traduction du modèle factoriel 0.333333 0.243902 0.0149254 0.0117647 2.718 (0) (0) ordered لقد 0.00049334 0.0010086 0.0298507 0.0082353 2.718 (0) (0) the لقد 0.0138889 0.135135 0.111111 0.454545 2.718 (0) (0) seats مقعدين 0.00325733 0.0194553 0.111111 0.454545 2.718 (0) (0) two مقعدين 0.00628931 0.0020921 0.0588235 0.003096 2.718 (0) (0) all نعم Exemples d alignements correctes qui n existaient pas dans le modèle classique et qui existaient dans le table de traduction du modèle factoriel 0.0075188 0.0078125 0.003663 0.0062305 2.718 (0) (0) okay okay نعم 0.0217391 0.0167785 0.014652 0.0155763 2.718 (0) (0) well well نعم 1 1 0.003663 0.0031153 2.718 (0) (0) yeeeah <unknown> نعم 1 1 0.003663 0.0031153 2.718 (0) (0) yep <unknown> نعم 24

Évaluation qualitative L utilisation des informations morphosyntaxique Enlève les faux alignements qui existaient dans le modèle classique Filtre le modèle de traduction Génère plus de possibilités correctes qui n existaient plus dans le modèle classique Modèle de traduction plus flexible dans les modèles factoriels 25

Évaluation quantitative Les résultats sont plus intéressants en utilisant la désambiguïsation lexicale 26

Conclusion & perspective Nous avons au cours de ce stage : Réalisé un analyseur syntaxique robuste de l arabe pour le type de données IWSLT (oral) Essayé d insérer les informations morphosyntaxiques dans notre traducteur automatique Enrichissement du corpus d apprentissage par des catégories, via un formalisme de modèles factorisés Les analyses qualitatives et quantitatives ont montré des premiers résultats encourageants. Il serait intéressant de mettre en parallèle un analyseur sémantique (ontologie, synonymie, métonymie ) 27

Merci 28