Le bi-texte et ses applications Elliott Macklovitch Philippe Langlais Université de Montréal TALN04 Fès, Maroc 1
Survol définitions du bi-texte bref historique la constitution de corpus parallèles les applications : à la traduction les outils d'aide à la traduction apprentissage de modèles statistiques autres applications : à la lexicographie, à la RI, à la désambiguïsation de sens, etc. bibliographie TALN04 Fès, Maroc 2
Les débuts (1) (Melby, 1981): l'intérêt des Mormons pour la TA et la TAO l'avènement des ordinateurs personnels Melby : sauvegarder des textes sources et leurs traductions à des fins pédagogiques (Harris, 1988a, 1988b): également professeur de traduction invente le terme bi-texte TALN04 Fès, Maroc 3
Les débuts (2) (Gale & Church, 1991), (Brown et al, 1991) dans les propositions de Melby et de Harris, les bi-textes étaient saisis manuellement à la même conférence d'acl, deux papiers sur l'alignement automatique de phrases lequel permet de créer automatiquement des bi-textes de taille importante faire corréler dans TS et TC le nombre de mots (Brown) ou le nombre de caractères (G & C) TALN04 Fès, Maroc 4
Le prédicat qui donne lieu à des bi-textes traduire [v] 1 [SN] 2 [SN] 3 [SP-en] <agent> <texte i > <texte j > les TR travaillent simultanément avec 2 textes le défi du TR : produire un texte j en langue TC qui préserve le sens du texte i en TS TALN04 Fès, Maroc 5
traduire [v] 1 [SN] 2 [SN] 3 [PP-en] <agent> <texte i > <texte i > <texte j > <texte j > en L 1 en L 2 "un bi-texte" TALN04 Fès, Maroc 6
Définitions (2) texte i texte j texte k texte l texte m texte n. un ensemble de bi-textes constitue un corpus parallèle TALN04 Fès, Maroc 7
Définitions (3) la traduction est une relation transitive étant donné : texte i texte j texte n alors texte n est une traduction du texte i l'ensemble de ces paires de bi-textes constitue également un corpus parallèle TALN04 Fès, Maroc 8
La traduction est compositionnelle la traduction T d'un segment de texte S est fonction de la traduction des sous-segments s 1, s 2, s 3 qui composent S la compositionnalité s'applique de façon récursive à deux textes qui sont des traductions mutuelles, c.-à-d. à des unités de textes de plus en plus petites TALN04 Fès, Maroc 9
Les correspondances hiérarchiques Source Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j Cible Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j TALN04 Fès, Maroc 10
Les correspondances hiérarchiques Source Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j Cible Section 1 Paragraphe 1 Phrase 1 Syntagme 1 Mot i Mot j TALN04 Fès, Maroc 11
La relation de traduction : tr L1,L2 (S,T) en TALN, on a surtout cherché à caractériser cette relation d'un point de vue génératif étant donné S, définir une procédure qui produira T le point de vue de la reconnaissance : étant donné (S,T), décider si ce sont des traductions l'analyse de traduction vise à rendre explicite toutes les correspondances entre S et T (Isabelle et al. 1993) TALN04 Fès, Maroc 12
Définitions - 4 «Considérons un texte S et sa traduction T comme deux ensembles de segments successifs : S = {s1, s2,.., s n } et T = {t1, t2,..., t m }. Un alignement A est tout simplement un sous-ensemble du produit cartésien S X T. Par exemple, si S = {s1, s2, s3} et T = {t1, t2, t3}, alors l'alignement A = {s1-t1, s2-t2, s2-t3} associe le segment s1 au segment t1; le segment s2 aux segments t2 et t3; etc.» (Isabelle and Simard,1996) Nous appelons le triplet (S, T, A) un bi-texte. TALN04 Fès, Maroc 13
La constitution de corpus parallèles TALN04 Fès, Maroc 14
Dans le meilleur des mondes possibles grandes quantités de traductions de qualité disponibles gratuitement, dans le domaine publique bien organisées, dans des répertoires parallèles des noms limpides pour les fichiers parallèles dans un format qui permet l'extraction facile du texte mises à jour régulièrement = le Hansard canadien! de plus en plus de bi-textes sur la Toile TALN04 Fès, Maroc 15
La cueillette automatique de bi-textes sur la Toile PT-Miner (Chen & Nie, 2000) moteur de recherche pour repérer des sites candidats (anchor:[l 1 ] and anchor: [L 2 ]) recherche de noms de fichiers parallèles filtrage des fichiers téléchargés selon la taille, la structure html, l'identification de la langue, etc. exploité avec succès pour la constitution de modèles de traduction statistiques TALN04 Fès, Maroc 16
Le pré-traitement des fichiers Comment extraire le texte? Supprimer le formatage et/ou le balisage? Ou l'exploiter pour faciliter l'alignement? La segmentation (en phrases et en mots) une étape critique : un texte mal segmenté est difficile à aligner les règles de segmentation sont propres à chaque langue TALN04 Fès, Maroc 17
L'alignement L'alignement A vise à rendre explicite les correspondances entre (S,T). plusieurs niveaux de résolution l'alignement de phrases: +/- résolu (Simard, Foster & Isabelle, 1992) : ajout des mots apparentés, calculés dynamiquement voir (Véronis & Langlais 2000) pour ARCADE correct à 98,5 % sur des textes «normaux» TALN04 Fès, Maroc 18
L'alignement des mots - 1 Une autre paire de manches! "bitext correspondence is typically only partial many words in each text have no clear equivalent in the other text." (Melamed, 2000) TALN04 Fès, Maroc 19
L'alignement des mots - 2 "Very often, it is difficult for a human to judge which words in a given target string correspond to which words in its source string. Especially problematic is the alignment of words within idiomatic expressions, free translations, and missing function words. The problem is that the notion of correspondence between words is subjective." (Och and Ney, 2003) TALN04 Fès, Maroc 20
Les applications du bi-texte TALN04 Fès, Maroc 21
La TA et l'analyse de traductions «L'analyse de traductions et la TA posent, en principe, des problèmes très semblables. Dans les cas où la TA n'est pas possible, nous soutenons qu'il est malgré tout possible d'élaborer des dispositifs capables d'analyser les traductions réalisées par des humains et que ces analyseurs auront de nombreuses utilités.» (P. Isabelle et al. 1993) «Le modèle hiérarchisé de correspondances traductionnelles implique la possibilité de faire varier un paramètre de résolution [qui] n'a pas d'homologue en TA.» (P. Isabelle, 1992) TALN04 Fès, Maroc 22
La résolution des bi-textes les bi-textes de faible résolution des représentations qui ne rendent explicites qu'un sous-ensemble des correspondances entre S et T la génération de trad. exige des modèles forts on ne peut pas traduire un paragraphe sans traduire tous les élément qui le composent en appliquant l'analyse de traduction au développement des outils d'aide, on peut souvent se contenter de modèles plus faibles TALN04 Fès, Maroc 23
Une nouvelle génération d'outils d'aide à la traduction «Les traductions existantes renferment infiniment plus de solutions à plus de problèmes de traduction que tout autre outil de référence.» (P. Isabelle et al. 1993) TALN04 Fès, Maroc 24
TALN04 Fès, Maroc 25
TALN04 Fès, Maroc 26
TALN04 Fès, Maroc 27
TSrali.com TransSearch est maintenant un service offert en ligne, par abonnement ~ 1500 abonnés; +75K requêtes par mois un service rentable, transféré au secteur privé ajout bientôt d'une BD anglais-espagnol TRÈS APPRÉCIÉ PAR SES UTILISATEURS! L'architecte du système : Michel Simard TALN04 Fès, Maroc 28
Au-delà de la TA statistique? La traduction de HQ est une cible mouvante souvent il existe plusieurs bonnes traductions même si un système de TA réussit à en produire une, le TR humain voudra peut-être la modifier TransType: un nouveau type de TA interactive l'interaction se situe au niveau du texte cible le système propose des complétions qui S'ADAPTENT à ce qu'écrit le traducteur le traducteur a toujours le dernier mot; les complétions du système ne sont que des suggestions pour plus de détails, voir (Foster et al. 2002) TALN04 Fès, Maroc 29
TransType: le prototype actuel TALN04 Fès, Maroc 30
Autres applications Développement de lexiques bilingues pour lexicographes, terminologues, etc. extraire d'un corpus parallèle toutes les traductions possibles de chaque mot source critères de sélection selon le contexte? également possible d'identifier les expressions idiomatiques (c.-à-d. non-compositionnelles) ainsi que leurs traductions C.f. (Melamed 1998) TALN04 Fès, Maroc 31
La désambiguïsation de sens It would be a major breakthrough if the availability of parallel text made it possible to make progress on the sense disambiguation problem. The fact that French and English are different as they are makes for a valuable research opportunity We can use the French text to disambiguate wordsenses in the English, producing a large sensedisambiguated corpus to develop and test word-sense disambiguation algorithms (Church & Gale 1991) TALN04 Fès, Maroc 32
Conclusion Les bi-textes se sont avérés une ressource des plus fructueuse pour la R&D en linguistique informatique la parole est maintenant à Philippe Langlais, qui abordera ces questions d'un point de vue plus technique TALN04 Fès, Maroc 33
Bibliographie Brown, Peter, J. Lai and Robert Mercer. 1991. Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics, Berkeley CA, pp. 29-36. Chen, J. and Jian-Yun Nie. 2000. Parallel Text Mining for Cross-language IR. In Actes de la conférence RIAO, Paris, pp. 62-77. Church, Kenneth W. and William A. Gale. 1991. Concordances for Parallel Text. In Proceedings of the Seventh Annual Conference of the UW Centre for the New OED and Text Research, pp. 40-62. Foster, George, Philippe Langlais and Guy Lapalme. 2002. User-friendly Text Prediction for Translators. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, Philadelphia PA. Gale, William and Kenneth W. Church. 1991. A Program for Aligning Sentences in Bilingual Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics, Berkeley CA, pp. 177-183. Harris, Brian. 1988a. Bi-text: A New Concept in Translation Theory. Language Monthly, no. 54, pp 8-10. Harris, Brian. 1988b. Are You Bi-textual? Language Technology, no.7, p. 41. TALN04 Fès, Maroc 34
Isabelle, Pierre. 1992. Bi-text: Toward a New Generation of Support Tools for Translation and Terminology. Published in French in META, 37(4), pp. 721-737. Isabelle, Pierre, M. Dymetman, G. Foster, J-M. Jutras, E. Macklovitch, F. Perrault, X. Ren and M. Simard. 1993. Translation Analysis and Translation Automation. In Proceedings of the Fifth International Conference on Theoretical and Methodological Issues in Machine Translation, Kyoto, Japan, pp. 12-20. Isabelle, Pierre and Michel Simard. 1996. Propositions pour la représentation et l évaluation des alignements et des textes parallèles. Rapport technique du CITI. Laval (QC), Canada. (http://www-rali.iro.umontreal.ca/arc-a2/propeval) Melamed, I. Dan. 1998. Empirical Methods for MT Lexicon Development. In Proceedings of the Third Conference for Machine Translation in the Americas, AMTA 98, Langhorne PA, Springer-Verlag, LNAI 1529, pp. 18-30. Melamed, I. Dan. 2000. Models of Translational Equivalence among Words. Computational Linguistics, 26(2), pp. 221-249. Melby, Alan. 1981. A Bilingual Concordance System and its Use in Linguistic Studies. In Proceedings of the 8th Lacus Forum, Hornbeam Press, Columbia SC, pp.541-54. Och, Franz Josef and Hermann Ney. 2003. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1): pp.19-51. Simard, Michel, George Foster and Pierre Isabelle. 1992. Using Cognates to Align Sentences in Bilingual Corpora. In Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation, Montreal, Canada, pp. 67-81. Véronis, Jean and Philippe Langlais. 2000. Evaluation of parallel text alignment systems : The Arcade project. In Parallel Text Processing, ed. Jean Véronis, Kluwer Academic Publishers, pp. 369-388. TALN04 Fès, Maroc 35