Le bi-texte et ses applications



Documents pareils
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Exemple PLS avec SAS

Application Form/ Formulaire de demande

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

AGROBASE : un système de gestion de données expérimentales

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Les doutes et les questions des économistes face au système des brevets

Practice Direction. Class Proceedings

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Aspects de droit anglais

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Concepts clés associés aux outils logiciels, exemples

Research/activity time (hours/month) / Temps consacré à la recherche/l'activité (heures/mois)

Improving the breakdown of the Central Credit Register data by category of enterprises

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Stakeholder Feedback Form January 2013 Recirculation

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Évaluation de G-LexAr pour la traduction automatique statistique

Ingénierie et gestion des connaissances

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Scénarios économiques en assurance

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) mai 2008

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Dans une agence de location immobilière...

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

1 Description générale. Résumé

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Le French Cohort Program : au service des étudiants, de la recherche, de la communauté

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Faits saillants et survol des résultats du sondage

LA VEILLE MULTILINGUE ET LE PROCESSUS DE TRADUCTION. Marilena MILCU, Assistant Professor, PhD, Lucian Blaga University of Sibiu

BNP Paribas Personal Finance

Short-term Pooled Investment Fund Regulations. Règlement sur le fonds commun de placement à court terme CONSOLIDATION CODIFICATION

Application d un algorithme de traduction statistique à la normalisation de textos

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe.

DOCUMENTATION - FRANCAIS... 2

TEXT MINING von 7

ÉVALUATION DES RÉTROACTIONS DONNÉES PAR UN LOGICIEL D AIDE À L APPRENTISSAGE DE L ÉCRITURE MANUSCRITE

Management des Systèmes d Information

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

Le projet WIKIWATER The WIKIWATER project

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

La post-édition : l'avenir incontournable du traducteur?

Plan Vert de l industrie touristique montréalaise 21 février 2014

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

Industrial Phd Progam

Voici les textes des fichiers associés au bulletin CA. Notez que vous retrouverez dans ces textes les nouvelles de toutes les régions.

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Création de Sous-Formulaires

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

Évaluation de la mise en oeuvre des recommandations issues des audits effectués à l Université Nationale du Bénin par la Banque mondiale et l UNESCO

Paxton. ins Net2 desktop reader USB

Soumission des articles pour l ICOFOM Study Series

How to Login to Career Page

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

MODERN LANGUAGES DEPARTMENT

DOCUMENTATION - FRANCAIS... 2

Form of Deeds Relating to Certain Successions of Cree and Naskapi Beneficiaries Regulations

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Fiche produit ifinance v4

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

1.The pronouns me, te, nous, and vous are object pronouns.

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

DOSSIER DE CANDIDATURE APPLICATION FORM

CONSOLIDATION CODIFICATION. Current to August 30, 2015 À jour au 30 août 2015

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Bourses d excellence pour les masters orientés vers la recherche

Discours de Eric Lemieux Sommet Aéro Financement Palais des congrès, 4 décembre 2013

Present Tense (1) masc = masculine fem = feminine sing = singular pl = plural

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Hervé Couturier EVP, SAP Technology Development

ANGULAR JS AVEC GDE GOOGLE

Le Traitement Automatique des Langues en France à l ère du Big Data

CLOUD COMPUTING et Relation Client/Fournisseur Une Révolution culturelle?

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

DEA ès Sciences de Gestion. DES en Sciences Economiques. Ingénieur diplômé de l'ecole Polytechnique de Paris.

Francoise Lee.

La formation interprofessionnelle pour les professions de la santé: L avenir C est dès maintenant!

Eléments de statistique

Algorithmes de recommandation, Cours Master 2, février 2011

Lycée Français de Hong Kong French International School

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Université de XY University of XY. Faculté XY Faculty of XY

CHRONIQUE D UN DICTIONNAIRE ANNONCÉ

Transcription:

Le bi-texte et ses applications Elliott Macklovitch Philippe Langlais Université de Montréal TALN04 Fès, Maroc 1

Survol définitions du bi-texte bref historique la constitution de corpus parallèles les applications : à la traduction les outils d'aide à la traduction apprentissage de modèles statistiques autres applications : à la lexicographie, à la RI, à la désambiguïsation de sens, etc. bibliographie TALN04 Fès, Maroc 2

Les débuts (1) (Melby, 1981): l'intérêt des Mormons pour la TA et la TAO l'avènement des ordinateurs personnels Melby : sauvegarder des textes sources et leurs traductions à des fins pédagogiques (Harris, 1988a, 1988b): également professeur de traduction invente le terme bi-texte TALN04 Fès, Maroc 3

Les débuts (2) (Gale & Church, 1991), (Brown et al, 1991) dans les propositions de Melby et de Harris, les bi-textes étaient saisis manuellement à la même conférence d'acl, deux papiers sur l'alignement automatique de phrases lequel permet de créer automatiquement des bi-textes de taille importante faire corréler dans TS et TC le nombre de mots (Brown) ou le nombre de caractères (G & C) TALN04 Fès, Maroc 4

Le prédicat qui donne lieu à des bi-textes traduire [v] 1 [SN] 2 [SN] 3 [SP-en] <agent> <texte i > <texte j > les TR travaillent simultanément avec 2 textes le défi du TR : produire un texte j en langue TC qui préserve le sens du texte i en TS TALN04 Fès, Maroc 5

traduire [v] 1 [SN] 2 [SN] 3 [PP-en] <agent> <texte i > <texte i > <texte j > <texte j > en L 1 en L 2 "un bi-texte" TALN04 Fès, Maroc 6

Définitions (2) texte i texte j texte k texte l texte m texte n. un ensemble de bi-textes constitue un corpus parallèle TALN04 Fès, Maroc 7

Définitions (3) la traduction est une relation transitive étant donné : texte i texte j texte n alors texte n est une traduction du texte i l'ensemble de ces paires de bi-textes constitue également un corpus parallèle TALN04 Fès, Maroc 8

La traduction est compositionnelle la traduction T d'un segment de texte S est fonction de la traduction des sous-segments s 1, s 2, s 3 qui composent S la compositionnalité s'applique de façon récursive à deux textes qui sont des traductions mutuelles, c.-à-d. à des unités de textes de plus en plus petites TALN04 Fès, Maroc 9

Les correspondances hiérarchiques Source Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j Cible Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j TALN04 Fès, Maroc 10

Les correspondances hiérarchiques Source Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j Cible Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j TALN04 Fès, Maroc 11

La relation de traduction : tr L1,L2 (S,T) en TALN, on a surtout cherché à caractériser cette relation d'un point de vue génératif étant donné S, définir une procédure qui produira T le point de vue de la reconnaissance : étant donné (S,T), décider si ce sont des traductions l'analyse de traduction vise à rendre explicite toutes les correspondances entre S et T (Isabelle et al. 1993) TALN04 Fès, Maroc 12

Définitions - 4 «Considérons un texte S et sa traduction T comme deux ensembles de segments successifs : S = {s1, s2,.., s n } et T = {t1, t2,..., t m }. Un alignement A est tout simplement un sous-ensemble du produit cartésien S X T. Par exemple, si S = {s1, s2, s3} et T = {t1, t2, t3}, alors l'alignement A = {s1-t1, s2-t2, s2-t3} associe le segment s1 au segment t1; le segment s2 aux segments t2 et t3; etc.» (Isabelle and Simard,1996) Nous appelons le triplet (S, T, A) un bi-texte. TALN04 Fès, Maroc 13

La constitution de corpus parallèles TALN04 Fès, Maroc 14

Dans le meilleur des mondes possibles grandes quantités de traductions de qualité disponibles gratuitement, dans le domaine publique bien organisées, dans des répertoires parallèles des noms limpides pour les fichiers parallèles dans un format qui permet l'extraction facile du texte mises à jour régulièrement = le Hansard canadien! de plus en plus de bi-textes sur la Toile TALN04 Fès, Maroc 15

La cueillette automatique de bi-textes sur la Toile PT-Miner (Chen & Nie, 2000) moteur de recherche pour repérer des sites candidats (anchor:[l 1 ] and anchor: [L 2 ]) recherche de noms de fichiers parallèles filtrage des fichiers téléchargés selon la taille, la structure html, l'identification de la langue, etc. exploité avec succès pour la constitution de modèles de traduction statistiques TALN04 Fès, Maroc 16

Le pré-traitement des fichiers Comment extraire le texte? Supprimer le formatage et/ou le balisage? Ou l'exploiter pour faciliter l'alignement? La segmentation (en phrases et en mots) une étape critique : un texte mal segmenté est difficile à aligner les règles de segmentation sont propres à chaque langue TALN04 Fès, Maroc 17

L'alignement L'alignement A vise à rendre explicite les correspondances entre (S,T). plusieurs niveaux de résolution l'alignement de phrases: +/- résolu (Simard, Foster & Isabelle, 1992) : ajout des mots apparentés, calculés dynamiquement voir (Véronis & Langlais 2000) pour ARCADE correct à 98,5 % sur des textes «normaux» TALN04 Fès, Maroc 18

L'alignement des mots - 1 Une autre paire de manches! "bitext correspondence is typically only partial many words in each text have no clear equivalent in the other text." (Melamed, 2000) TALN04 Fès, Maroc 19

L'alignement des mots - 2 "Very often, it is difficult for a human to judge which words in a given target string correspond to which words in its source string. Especially problematic is the alignment of words within idiomatic expressions, free translations, and missing function words. The problem is that the notion of correspondence between words is subjective." (Och and Ney, 2003) TALN04 Fès, Maroc 20

Les applications du bi-texte TALN04 Fès, Maroc 21

La TA et l'analyse de traductions «L'analyse de traductions et la TA posent, en principe, des problèmes très semblables. Dans les cas où la TA n'est pas possible, nous soutenons qu'il est malgré tout possible d'élaborer des dispositifs capables d'analyser les traductions réalisées par des humains et que ces analyseurs auront de nombreuses utilités.» (P. Isabelle et al. 1993) «Le modèle hiérarchisé de correspondances traductionnelles implique la possibilité de faire varier un paramètre de résolution [qui] n'a pas d'homologue en TA.» (P. Isabelle, 1992) TALN04 Fès, Maroc 22

La résolution des bi-textes les bi-textes de faible résolution des représentations qui ne rendent explicites qu'un sous-ensemble des correspondances entre S et T la génération de trad. exige des modèles forts on ne peut pas traduire un paragraphe sans traduire tous les élément qui le composent en appliquant l'analyse de traduction au développement des outils d'aide, on peut souvent se contenter de modèles plus faibles TALN04 Fès, Maroc 23

Une nouvelle génération d'outils d'aide à la traduction «Les traductions existantes renferment infiniment plus de solutions à plus de problèmes de traduction que tout autre outil de référence.» (P. Isabelle et al. 1993) TALN04 Fès, Maroc 24

TALN04 Fès, Maroc 25

TALN04 Fès, Maroc 26

TALN04 Fès, Maroc 27

TSrali.com TransSearch est maintenant un service offert en ligne, par abonnement ~ 1500 abonnés; +75K requêtes par mois un service rentable, transféré au secteur privé ajout bientôt d'une BD anglais-espagnol TRÈS APPRÉCIÉ PAR SES UTILISATEURS! L'architecte du système : Michel Simard TALN04 Fès, Maroc 28

Au-delà de la TA statistique? La traduction de HQ est une cible mouvante souvent il existe plusieurs bonnes traductions même si un système de TA réussit à en produire une, le TR humain voudra peut-être la modifier TransType: un nouveau type de TA interactive l'interaction se situe au niveau du texte cible le système propose des complétions qui S'ADAPTENT à ce qu'écrit le traducteur le traducteur a toujours le dernier mot; les complétions du système ne sont que des suggestions pour plus de détails, voir (Foster et al. 2002) TALN04 Fès, Maroc 29

TransType: le prototype actuel TALN04 Fès, Maroc 30

Autres applications Développement de lexiques bilingues pour lexicographes, terminologues, etc. extraire d'un corpus parallèle toutes les traductions possibles de chaque mot source critères de sélection selon le contexte? également possible d'identifier les expressions idiomatiques (c.-à-d. non-compositionnelles) ainsi que leurs traductions C.f. (Melamed 1998) TALN04 Fès, Maroc 31

La désambiguïsation de sens It would be a major breakthrough if the availability of parallel text made it possible to make progress on the sense disambiguation problem. The fact that French and English are different as they are makes for a valuable research opportunity We can use the French text to disambiguate wordsenses in the English, producing a large sensedisambiguated corpus to develop and test word-sense disambiguation algorithms (Church & Gale 1991) TALN04 Fès, Maroc 32

Conclusion Les bi-textes se sont avérés une ressource des plus fructueuse pour la R&D en linguistique informatique la parole est maintenant à Philippe Langlais, qui abordera ces questions d'un point de vue plus technique TALN04 Fès, Maroc 33

Bibliographie Brown, Peter, J. Lai and Robert Mercer. 1991. Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics, Berkeley CA, pp. 29-36. Chen, J. and Jian-Yun Nie. 2000. Parallel Text Mining for Cross-language IR. In Actes de la conférence RIAO, Paris, pp. 62-77. Church, Kenneth W. and William A. Gale. 1991. Concordances for Parallel Text. In Proceedings of the Seventh Annual Conference of the UW Centre for the New OED and Text Research, pp. 40-62. Foster, George, Philippe Langlais and Guy Lapalme. 2002. User-friendly Text Prediction for Translators. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, Philadelphia PA. Gale, William and Kenneth W. Church. 1991. A Program for Aligning Sentences in Bilingual Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics, Berkeley CA, pp. 177-183. Harris, Brian. 1988a. Bi-text: A New Concept in Translation Theory. Language Monthly, no. 54, pp 8-10. Harris, Brian. 1988b. Are You Bi-textual? Language Technology, no.7, p. 41. TALN04 Fès, Maroc 34

Isabelle, Pierre. 1992. Bi-text: Toward a New Generation of Support Tools for Translation and Terminology. Published in French in META, 37(4), pp. 721-737. Isabelle, Pierre, M. Dymetman, G. Foster, J-M. Jutras, E. Macklovitch, F. Perrault, X. Ren and M. Simard. 1993. Translation Analysis and Translation Automation. In Proceedings of the Fifth International Conference on Theoretical and Methodological Issues in Machine Translation, Kyoto, Japan, pp. 12-20. Isabelle, Pierre and Michel Simard. 1996. Propositions pour la représentation et l évaluation des alignements et des textes parallèles. Rapport technique du CITI. Laval (QC), Canada. (http://www-rali.iro.umontreal.ca/arc-a2/propeval) Melamed, I. Dan. 1998. Empirical Methods for MT Lexicon Development. In Proceedings of the Third Conference for Machine Translation in the Americas, AMTA 98, Langhorne PA, Springer-Verlag, LNAI 1529, pp. 18-30. Melamed, I. Dan. 2000. Models of Translational Equivalence among Words. Computational Linguistics, 26(2), pp. 221-249. Melby, Alan. 1981. A Bilingual Concordance System and its Use in Linguistic Studies. In Proceedings of the 8th Lacus Forum, Hornbeam Press, Columbia SC, pp.541-54. Och, Franz Josef and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1): pp.19-51. Simard, Michel, George Foster and Pierre Isabelle. 1992. Using Cognates to Align Sentences in Bilingual Corpora. In Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation, Montreal, Canada, pp. 67-81. Véronis, Jean and Philippe Langlais. 2000. Evaluation of parallel text alignment systems : The Arcade project. In Parallel Text Processing, ed. Jean Véronis, Kluwer Academic Publishers, pp. 369-388. TALN04 Fès, Maroc 35