Projet ANR 2009 CORD 023 TRACE TRADUCTION ROBUSTE PAR ANALYSE ET CORRECTION D'ERREURS REFORMULATION TEXTES À TRADUIRE. Mai 2011 Aurélien Max

Transcription

1 Projet ANR 2009 CORD 023 TRACE TRADUCTION ROBUSTE PAR ANALYSE ET CORRECTION D'ERREURS DES REFORMULATION TEXTES À TRADUIRE Mai 2011 Aurélien Max

2 Résumé La tâche n o 4 du projet TRACE étudie les possibilités liées à la réécriture automatique de textes pour l amélioration de traductions produites automatiquement. Les travaux effectués s organisent selon les trois axes suivants. Le premier axe porte sur l acquisition automatique de réécritures de groupes de mots n altérant que faiblement le sens d origine (paraphrases locales). Le second axe s intéresse à l identification de parties des phrases à traduire qui pourraient bénéficier d une réécriture avant traduction, ainsi qu à la sélection en contexte des paraphrases appropriées. Finalement, le troisième axe porte sur l exploitation effective de paraphrases dans un système de traduction. Nous rendons compte d expériences préliminaires pour chacun des axes étudiés, et détaillons nos perspectives à l appui des résultats et analyses que nous proposons. 1

3 Travaux effectués dans le cadre du lot n o 4 : Reformulation des textes à traduire Aurélien Max LIMSI CNRS et Université Paris-Sud aurelien.max@limsi.fr mai 2011 Table des matières 1 Contexte et description générale 3 2 Sous-lot 4.1 : Acquisition de patrons de reformulations locales La tâche d acquisition de reformulations locales Expériences en acquisition de reformulations locales sur des corpus monolingues parallèles Contributions à la construction de corpus monolingues parallèles Perspectives en acquisition de reformulations locales Sous-lot 4.2 : Identification de parties à réécrire et de réécritures en contexte Modélisation de la difficulté de traduction d un segment Substitution de paraphrases sous-phrastiques en contexte Sous-lot 4.3 : Réécriture automatique d énoncés Réestimation des scores de traduction à l aide de paraphrases Expériences initiales en utilisation de treillis de paraphrases en source Conclusion et perspectives 27 2

4 1 Contexte et description générale Cette tâche se concentre sur la question suivante : existe-t-il d autres formulations d un texte à traduire qui, tout en conservant raisonnablement le sens d origine, permettront une meilleure traduction par un système donné? Cette question trouve une réponse évidente lorsque le système de traduction considéré ne peut proposer une traduction pour une unité source particulière : lorsqu un mot est «hors-vocabulaire» pour le système et que sa traduction correcte ne peut être obtenue par simple recopie dans la langue cible, remplacer ce mot par un mot même grossièrement équivalent que le système saura traduire peut mener à une amélioration de la qualité perçue de la traduction 1. Cette approche a été largement étudiée ces dernières années, principalement pour des scénarios dans lesquels de faibles quantités de données d apprentissage sont disponibles [10, 28, 31, 1]. Conceptuellement, disposant d un répertoire existant de paraphrases sous-phrastiques 2 pour des segments source, on autorise un système à traduire un segment inconnu à l aide des traductions connues de ses paraphrases. Celles-ci peuvent provenir de corpus parallèles bilingues complémentaires [10], de corpus monolingues [28] ou de ressources lexicosémantiques [31]. Une alternative, devenue visible après le démarrage de ce projet, consiste à proposer en entrée d un système une vue enrichie de la phrase à traduire [34, 16]. Un treillis de mots est construit automatiquement en ajoutant des chemins alternatifs couvrant un segment d origine qui lui associent des paraphrases sousphrastiques (voir une illustration Figure 1). Ces travaux ont fait suite à la démonstration, dans le cadre de la traduction multisource, que de telles vues enrichies par des paraphrases manuelles pouvaient mener à des gains importants en traduction [39]. L objectif n est donc plus uniquement de se concentrer sur les segments qu un système ne saurait pas traduire (dont la quantité diminue rapidement pour de courts segments avec l augmentation de la taille des corpus disponibles). Il s agit de permettre au système de choisir la formulation d une phrase à traduire parmi celles représentées dans le treillis qui permettra de produire une hypothèse de score maximal. La motivation centrale pour ce type d approche réside dans la difficulté à traduire des segments pour lesquels de nombreuses traductions sont possibles. Si, pour de tels segments polysémiques en source, on connaît des reformulations locales ayant une ambiguïté de traduction plus faible, on permet alors au décodeur parcourant l espace de recherche des traductions possibles de prendre des décisions plus sûres 3. Les objectifs et les résultats de ces travaux nous amènent à commenter la situation actuelle selon les deux grands axes suivants : 1) que révèle le recours à des paraphrases pour améliorer la performance des systèmes de traduction automatique?, et 2) quelles sont les implications et les limites des techniques fondées sur l utilisation de paraphrases existantes? 1. On remarque ici que ce problème trouve une solution élégante, en particulier dans le cas de variantes morphologiques, avec des approches fondées sur la traduction par analogie [25]. 2. Notons que la littérature récente en anglais réserve désormais largement le terme de «paraphrase» pour ce niveau sous-phrastique, que nous préférons préciser lorsque nécessaire. 3. On verra plus loin que cela n implique pas nécessairement qu elles seront meilleures : la capacité à modéliser le contexte des segments semble ici en effet un élément déterminant. 3

5 Figure 1 Création d un treillis de paraphrases (partie droite de la figure) pour une phrase à traduire (haut de la figure) (d après [16]). Les arcs en gras portent des mots appartenant à la formulation originale, et les valeurs numériques correspondent à un score de paraphrase utilisé lors de la recherche de la meilleure traduction. 4

6 Figure 2 Pourcentage de segments de taille 1 à 4 présents dans la partie espagnole du corpus Europarl en fonction de la taille de corpus considérée (d après [10]) Recours à des paraphrases des segments à traduire Le manque de données d apprentissage, qui ne permet pas d apprendre des traductions pour au minimum l ensemble des mots d un texte à traduire, a été la première motivation pour le recours à des paraphrases. Il apparaît néanmoins que cette limitation s estompe rapidement lorsque davantage de données deviennent disponibles, comme illustré sur la Figure 2. Cela ne doit néanmoins pas diminuer l importance d une telle prise en compte dans des contextes de langues peu dôtées par exemple, ni ne faire oublier qu outre la présence des segments dans la partie source des corpus d apprentissage, on souhaite également disposer de l ensemble des traductions nécessaires dans la partie cible, ce qui s avère très difficile en pratique et est quoi qu il en soit très difficile à évaluer 4. Ce problème met en exergue l incapacité des systèmes à base de segments actuels à généraliser les modèles appris pour les segments du corpus source. Ainsi, un système qui ne disposera pas exactement de la séquence de mots à traduire dans sa table de traduction ne pourra au mieux attaquer sa traduction que par composition, ce qui n est pas toujours souhaitable 5. La Figure 3 donne quelques exemples de paraphrases obtenues automatiquement pour certains segments en anglais. Si British forces venait à être absent de la table de traduction, traduire à la place British troops ou British armed forces pourraient être tout à fait adapté dans de nombreux contextes. Un contexte dans lequel une telle sub- 4. L étude rapportée dans [43] décrivant les résultats oracle atteignables par des systèmes statistiques à base de segments montre cependant qu il est déjà possible, pour des quantités de données d apprentissage jugées modestes aujourd hui, d obtenir une très bonne couverture des traductions à produire relativement aux segments à traduire. Ce résultat met précisément en évidence l intérêt d une meilleure évaluation a priori des traductions qui sont effectivement correctes, ce à quoi l exploitation de paraphrases en contexte peut contribuer. 5. Il s agit précisément d un des arguments convaincants pour le passage d une traduction mot-à-mot à une traduction fondée sur des unités plus grandes. Il faut toutefois noter que l approche fondée sur les segments n interdit pas des traductions par composition de traductions d unités plus petites : c est l ensemble des scores des modèles mis en jeu qui permettra de préférer telle ou telle segmentation effective du texte à traduire. 5

7 Segment source Paraphrases Balkan War Balkan war (0.25) Balkans War (0.125) Balkans (0.125) Balkans war (0.125) war in the Balkans (0.125) Balkan conflict (0.125) British forces British troops (0.29) British armed forces (0.19) Czech president President of the Czech Republic (0.5) Dalai Lama s of the Dalai Lama (0.27) I don t see I do not believe (0.18) I do not think (0.18) I do not see (0.15) Figure 3 Exemples de paraphrases en anglais obtenues par pivot via le français [29]. Les scores indiqués correspondent à la probabilité de paraphrase telle que définie par [2]. stitution serait beaucoup plus délicate serait par exemple l utilisation de I do not believe pour le segment original I don t see. 6 Bien évidemment, la question de l obtention des paraphrases pour les segments à traduire et de leur validation en contexte sont ici centrales : nous les abordons dans ce projet et présentons nos travaux en rapport dans les sections 2 et 3. Mode d exploitation des paraphrases L étude décrite dans [39] présente plusieurs résultats utiles pour guider la réflexion sur la manière dont des paraphrases peuvent être utilisées pour améliorer la qualité des traductions produites par un système automatique. En particulier, ses auteurs réalisent une expérience contrastive en traduction multisource, où plusieurs traductions manuelles du texte à traduire sont disponibles 7, qui présente les principaux résultats suivants : La combinaison des traductions indépendantes de chaque paraphrase source utilisant des techniques de combinaison de systèmes [38] obtient des résultats supérieurs à l utilisation de treillis de mots source incluant toutes ces paraphrases en entrée du système. Si les gains en performance des techniques de combinaison de systèmes sont reconnus, il n existe à ce jour, à notre connaissance, aucune justification dépassant la simple hypothèse de l intérêt de construire des hypothèses multisource par consensus. En outre, une telle situation dans laquelle sont disponibles des paraphrases d énoncés de haute qualité est peu probable, et suggère donc de ne pas délaisser la voie de l utilisation de treillis, qui permettent l inclusion de paraphrases locales générées automatiquement [34, 16]. Une solution intermédiaire prometteuse [37] consiste à obtenir de contributeurs monolingues des reformulations pour des fragments dont la traduction a été estimée problématique (manuellement ou automatiquement, ce qui est, dans ce dernier cas, en lien direct avec un des objectifs de la Tâche 2 de ce projet). 6. Un autre niveau de correspondance approximative présent dans le tableau correspond à des variantes très proches, telles que Balkan War et Balkans War. À l extrême, la correction avant traduction d unités mal orthographiées ne correspondant pas à des mots valides, un des problèmes abordés dans la Tâche 1 de ce projet, peut être vue comme relevant de la même limitation des systèmes considérés. 7. Ils ont pour cela réutilisé des traductions de référence multiples dans une tâche italien anglais et ont donc considéré qu il pouvait s agir d autant de variantes de bonne qualité de la phrase à traduire lorsque l anglais devient la langue source. Ils disposent ainsi pour chaque phrase en anglais d une phrase d origine et de 15 paraphrases issues d un corpus touristique (BTEC). 6

8 L exploitation conjointe d une phrase d origine et de l ensemble des paraphrases disponibles permet d améliorer la qualité des traductions relativement à l exploitation de la phrase d origine seule. Cependant, l exploitation des paraphrases seules obtient une qualité significativement inférieure au cas où la phrase d origine est également utilisée. Il apparaît donc qu il existe une dépendance possiblement forte entre la formulation précise de la phrase d origine 8 et la traduction de référence servant à mesurer la performance de la traduction (en utilisant la métrique BLEU). Ce résultat doit servir de mise en garde : certaines améliorations pouvant être obtenues par l utilisation de paraphrases source ne seront perçues comme telles que si la méthodologie d évaluation utilisée permet cette reconnaissance. Des métriques automatiques autorisant une certaine flexibilité par rapport aux traductions de référence disponibles, telles que METEOR ou TERp (voir la description de la Tâche 2), pourraient donc être utilisées, mais une évaluation manuelle semble a priori la plus adaptée pour guider ce type de travaux. Une situation plus réaliste est de considérer l utilisation de paraphrases générées automatiquement. Si les résultats publiés exploitant des treillis de paraphrases source rapportent des gains en qualité des traductions produites, on regrette que ces résultats ne soient pas accompagnés de diagnostics fins permettant de comprendre dans quelles conditions et pour quelles unités source (notamment peut-être en fonction de la difficulté de leur traduction, cf. Tâche 2 de ce projet) des gains peuvent être obtenus. Notamment, aucun de ces travaux ne rend compte de la nature des arcs effectivement suivis par le décodeur pour construire la meilleure traduction. En outre, le lien avec les travaux sur le multisource utilisant des entrées manuelles [39] n a pas encore été fait : pourquoi ne pas bénéficier à la fois de la possibilité de fournir des entrées multiples à un système et de la possibilité de sélectionner la meilleure hypothèse par consensus entre les meilleures hypothèses? Nous avons commencé à considérer ces questions dans notre travail et discuterons de nos premiers résultats dans la section 4. Les différences de gains marquées entre l exploitation de paraphrases manuelles et l exploitation de paraphrases générées automatiquement pourraient notamment s expliquer par la difficulté à modéliser le contexte d application des paraphrases. La modélisation du contexte des segments source a elle reçu un intérêt important ces dernières années, laquelle peut s exprimer soit comme un problème de réestimation dans le contexte d une phrase à traduire des scores des différentes traductions d un segment [11, 42, 19], soit comme un problème d adaptation thématique pour un texte à traduire [18]. Nous montrerons dans la section 4 que prendre en compte le contexte source à la fois pour les segments à traduire et pour leurs paraphrases permet d estimer des probabilités de traduction menant à des gains en traduction. Cependant, cette approche ne nécessite pas à ce stade de représenter les phrases à traduire sous forme de treillis : plutôt que de mettre en compétition différentes formulations d un même segment, celles qui sont appropriées en contexte sont utilisées collectivement pour améliorer l estimation des scores des traductions possibles. 8. Laquelle a en fait été obtenue par traduction de la phrase italienne, qui sert ici de référence en cible. 7

9 2 Sous-lot 4.1 : Acquisition de patrons de reformulations locales 2.1 La tâche d acquisition de reformulations locales L acquisition de paraphrases sous-phrastiques est un domaine de recherche relativement actif (voir [27] pour des références complètes). Les méthodes proposées s avèrent toutes très dépendantes de la disponibilité d un type de ressources particulier, ce qui fait de la disponibilité de ces corpus un problème en soi. Les principaux travaux reposent sur des corpus monolingues parallèles (par exemple, des versions alignées de livres traduits [4]), des corpus monolingues comparables (par exemple, des dépêches (produites indépendamment) traitant d un même sujet d actualité [3]) et des corpus bilingues parallèles (par exemple, des débats parlementaires traduits manuellement [2]). L approche d acquisition utilisée dans les travaux publiés en utilisation de paraphrases générées automatiquement pour améliorer la qualité de la traduction automatique [34, 16] est celle du pivot par une ou plusieurs langues [2] : un segment source est associé à l ensemble de ses traductions dans chaque langue pivot, lesquelles sont ensuite associées à l ensemble de leurs traductions dans la langue initiale. Cette construction est illustrée sur la Figure 4. Figure 4 Exemple de paraphrasage par pivot du segment français «ce n est pas le moment de» par la technique du pivot bilingue [2]. La construction automatique d unités possiblement équivalentes par pivot a déjà mené à des résultats prometteurs en traduction statistique, par exemple pour améliorer l estimation des traductions de segments [13] ou pour guider la recherche heuristique de la meilleure traduction [15]. La Figure 5 illustre les différentes configurations de paraphrases générables par pivot. La connaissance du segment p 1 permet uniquement d atteindre une des traductions correctes, e 1. La connaissance du segment p 2 permet d atteindre la traduction correcte e 3, mais également la traduction incorrecte e 6, ce qui illustre le risque de divergence de sens lié à la technique du pivot. La connaissance de p 5 correspond ici à un autre sens du segment f, et donc peut faire atteindre de mauvaises traductions. Finalement, la technique du pivot ne permet pas d obtenir des paraphrases du segment à traduire (p 3 ) dont la traduction correcte en contexte n est pas directement connue (e 4 ) 9. La Figure 5 met par ailleurs en évidence la sensibilité de la mesure de performance utilisée aux traductions de référence disponible : si la référence contient le segment e 1 (a good lawyer), l hypothèse correcte e 3 (a brillant attorney) serait fortement pénalisée par une métrique telle que BLEU. 9. Cette limitation ne concerne pas les travaux qui acquièrent leurs paraphrases sur des corpus monolingues : cependant, le seul travail publié ne vise que la traduction de segments 8

10 Figure 5 Exemples de segments possiblement équivalents en langue source pour le segment f un bon avocat dans la phrase «L embauche d un bon avocat est cruciale quelle que soit l activité». L ensemble E contient les traductions correctes dans le contexte de f, et l ensemble F les paraphrases de f en contexte. 2.2 Expériences en acquisition de reformulations locales sur des corpus monolingues parallèles Nos contributions dans ce domaine dans le cadre du projet TRACE ont principalement porté jusqu ici sur une étude des paraphrases sous-phrastiques, incluant la constitution de corpus et la comparaison de techniques d acquisition 10. Un principe ayant guidé notre travail a été que l étude sur la paraphrase requiert une meilleure compréhension de cet objet complexe, sur laquelle aucune attention particulière n est véritablement portée dans les travaux reposant sur un mode d évaluation extrinsèque de l apport des paraphrases [10, 34, 16]. Pour cela, il est important de pouvoir se situer dans un cadre où l évaluation des paraphrases acquises peut se faire de manière satisfaisante (il est par exemple impossible d évaluer le rappel d une technique d acquisition attaquant de larges corpus monolingues (ex. [36, 5])). Nos travaux s incrivent dans le cadre décrit dans [12] : des paires d énoncés en relation de paraphrase sont alignées manuellement au niveau des mots, et des techniques d acquisition sont comparées sur leur capacité à trouver les paires de paraphrases sous-phrastiques de la référence (rappel) et sur la qualité des paires qu elles prédisent (précision). La matrice d alignement de la Figure 6 illustre plusieurs paires de paraphrases atomiques présentes dans un alignement de référence. Nos expériences se sont initialement basées sur l étude d un corpus monolingue parallèle obtenu par traductions multiples depuis plusieurs langues [6]. Il ressort notamment de cette étude préliminaire que l utilisation de plusieurs hors-vocabulaire [28]. 10. L essentiel de ce travail est effectué dans le contexte de la thèse de Houda Bouamor au LIMSI. Aucun financement spécifique n a été alloué à cette Tâche pour la constitution de corpus. 9

11 the annual foreign investment actually used amounted to us$ 0.26 billion the amount of foreign capital actually utilized during the entire year reached capital investment utilized used during the entire year annual reached amounted million million billion us us dollars us$ dollars. Figure 6 Alignements de référence pour une paire de paraphrases issues du corpus présenté dans [12] et liste de paires de paraphrases sous-phrastiques atomiques extraites de ces alignements (les paires «identité» ne sont pas considérées). Il est à noter que l exemple présenté contient des alignements faux : ( ) et (million billion) auraient dû apparaître sous le seul alignement (260 million 0.26 billion). langues pour l origine des paraphrases mène à une plus grande variabilité lexicale des paraphrases obtenues, qui complique néanmoins la tâche des techniques d extraction. Nous avons identifié et évalué plusieurs techniques fondées sur des approches et connaissances différentes : 1. L extraction de bisegments monolingues guidée par des techniques statistiques d alignement de mots [33]. 2. L extraction de variantes de termes reposant sur des règles de correspondances et des ressources morphologiques et sémantiques [20]. 3. L extraction de bisegments alignés par fusion d arbres de constituants syntaxiques [35]. 4. L extraction de bisegments alignés par la transformation de séquences de mots guidée par une distance d édition [41]. Nos expériences ont porté sur des corpus d énoncés en français et en anglais et ont permis de mettre en évidence les résultats principaux suivants [8] : Les techniques essayées sont très sensibles au degré de parallélisme d un texte (mesuré comme une distance d édition sur les mots à l aide de la métrique TER [40]), à l exception de la technique d extraction de variantes de termes, qui se base sur des correspondances entre de courtes séquences 10

12 morphosyntaxiques. Ceci confirme l intuition que plus les textes à aligner sont différents et plus il sera difficile de réaliser des alignements. Il est possible de combiner utilement les résultats de plusieurs techniques. En particulier, nous avons montré des gains en performance lorsque le calcul de distance d édition sur les mots (tel qu implémenté par TERp [41]) exploite les correspondances sous-phrastiques produites par d autres techniques. Certains types de paraphrases sous-phrastiques semblent plus difficiles à extraire automatiquement. L étude des paraphrases atomiques qu aucune des techniques essayées n a pu extraire nous a permis d établir une typologie initiale : celle-ci est donnée Figure Contributions à la construction de corpus monolingues parallèles Nos expériences ont notamment mis en évidence la difficulté d acquérir automatiquement certains types de correspondances. Outre l amélioration des techniques d acquisition automatique depuis des corpus existants et la constitution de corpus d acquisition elle-même, nous pouvons considérer directement la question de l acquisition de correspondances sous-phrastiques. L acquisition massive de données langagières par des utilisateurs non experts connaît actuellement un engouement grandissant [9], qui autorise par exemple l acquisition manuelle de reformulations en langue source pour des segments identifiés comme difficiles à traduire par des contributeurs monolingues [37]. Ces travaux obtiennent de manière ciblée des reformulations pour des segments particuliers dans le contexte d une phrase à traduire, et ont recours à un travail rémunéré. Nous avons considéré la question de l acquisition de reformulations sous-phrastiques d un point de vue différent : Au moment où une reformulation d une phrase à traduire doit être essayée, il ne faut pas dépendre d un cycle d acquistion manuelle relativement long. On considère donc qu un répertoire de correspondances sous-phrastiques 12 est disponible, et que sa construction par divers moyens est un objectif continu. La constitution d une telle ressource sous forme d un travail rémunéré pose plusieurs difficultés. Il n est pas évident de cerner la compréhension de ce qui est attendu par les personnes prenant part à cette tâche. Dans le cadre de la reformulation ciblée pour l amélioration des traductions [37], les contributeurs ne peuvent avoir aucune idée immédiate de l utilité de leurs propositions. Un cadre qui nous semble plus naturel porte sur l amélioration de la qualité d un texte. Nous avons formulé ce problème sous forme d un jeu, approche motivée par l intérêt marqué que peuvent connaître certains jeux portant sur le langage (voir par exemple le succès du jeu en ligne décrit dans [24]). L interface de notre prototype est présentée dans la Figure 8. Dans un premier temps, des parties sont définies par annotation à la souris de segments à reformuler dans une page 11. Il est à noter que les paraphrases en anglais ont été obtenues par traduction multiple depuis le chinois (langues relativement éloignées), alors que les paraphrases en français ont été obtenues à partir de l anglais (langues proches). 12. L acquisition et l exploitation de patrons de correspondances font partie de nos perspectives. 11

13 Catégorie Exemples # % # % en en fr fr équivalences lexicales businesses entreprises et sous-phrastiques at a rapid rate fast conference general assembly basic installations infrastructure ignore be blind to stronger firmer variations to south korea home pragmatiques plans was considering investigation bureau department last few recent domestic made in China autres catégories in the of at in their the inclusions the hopewell group hopewell pfizer now is pfizer is now right now south korea korea variations hong kong hongkong typographiques 11 eleven 20 billion us dollars us$4.1 billion february feb. voice of america voa un united nations variations british by Great Britain morphosyntaxiques research of aids aids research indonesia s indonesian hong kong people honkongnese on the construction of constructing variations to resign resigning morphologiques iraqi iraq cooperating cooperative three third germany german variations temperature on the surface surface temperature syntaxiques it is an urgent task has become urgent xixia of henan henan xixia anaphores Pinochet he east timor it Total Figure 7 Catégories et exemples de paraphrases sous-phrastiques «difficiles» (i.e. n ayant été extraites par aucune des techniques essayées). Les catégories ont été ordonnées par fréquence décroissante en anglais. Web existante 13. Des joueurs proposent alors des reformulations pour l ensemble des segments à reformuler (partie haute de la figure) : leur score dépendra à la fois de l évaluation que recevront leurs propositions ainsi que de leur rareté relativement à l ensemble des propositions collectées. D autres joueurs n ayant pas pris part à la première phase de la partie considérée évaluent ensuite les propositions (partie basse de la figure) : une vue compacte obtenue par fusion syntaxique des propositions permet une évaluation par lots plus rapide Le fait que le jeu puisse porter sur une page existante permet de référencer le contenu originel, ce qui garantit la possibilité de citer les sources utilisées. 14. Notons qu à cette heure le jeu n a pas encore été mis en ligne, car nous cherchons encore à améliorer quelques aspects liés à son ergonomie et à sa jouabilité. Nous prévoyons de rendre 12

14 Le cadre proposé permet tout de même une acquisition ciblée si nécessaire : il suffit pour cela de créer des parties où le texte à reformuler a été préparé à l avance. Nous avons déjà exploité cette possibilité pour faire l acquisition de reformulations pour des segments d intérêt dans des contextes contrôlés pour nos expériences [7]. Figure 8 Interface de notre jeu sur le Web portant sur l acquisition de correspondances sous-phrastiques. L écran du haut de la figure illustre la phrase de proposition de reformulations en contexte pour des segments mis en évidence dans une page Web (ici, un article de la Wikipédia francophone). L écran du bas de la figure illustre le mode d évaluation au niveau des mots réalisée à l aide d une vue compacte d un sous-ensemble des propositions collectées précédemment. Nous continuous par ailleurs à nous intéresser au recueil de corpus permettant l acquisition automatique de reformulations sous-phrastiques. Un type de ressource qui nous a semblé particulièrement prometteur est l historique des traces d édition de l encyclopédie collaborative Wikipédia. Chaque modification dans l encyclopédie est mémorisée et peut être comparée avec d autres états d un même article. De la sorte, on peut collecter en grands nombres des modifications portant sur de courts segments, sur des données disponibles librement en de nombreuses langues et en croissance constante. Nous avons effectué ce travail de collection automatique sur le français et l avons rendu librement disponible via le corpus WiCoPaCo [30]. Une étude détaillée de son contenu [17] a révélé une présence importante de phénomènes de réécriture à faible variation sémantique, comme illustré Figure 9. L identification de paraphrases, par opposition à des réécritures à forte variation sémantique, s avère néanmoins être un problème compliqué dont nous comptons poursuivre l étude. librement disponibles les corpus collectés dans des conditions permettant leur diffusion, afin de contribuer aux recherches sur la paraphrase. Il est à noter que le jeu sera vraisemblablement mis en ligne dans plusieurs langues. 13

15 Reformulations lexicales L Autriche est membre de l [UE] L Autriche est membre de l [Union Européenne]... Reformulations syntaxiques [l Invention de l Europe d Emmanuel Todd Emmanuel Todd, L Invention de l Europe]. Un infomercial pseudo-scientifique [en exposant qui expose] grossièrement... Reformulations sémantiques Il fonde le [journal quotidien] francophone Le Tunisien en Ce vers de Nuit rhénane d Apollinaire [qui paraît presque sans structure rythmique dont la césure est comme masquée]... Figure 9 Exemples de reformulations à faible variation sémantique [17] 2.4 Perspectives en acquisition de reformulations locales Nos principaux objectifs, à plus ou moins long terme, sur cette tâche portent sur : Le passage à l acquisition de patrons d équivalences monolingues, par des techniques opérant au niveau des séquences morphosyntaxiques [44] ou des structures syntaxiques [14]. L amélioration des techniques d acquisition d équivalences par pivot, notamment par utilisation de connaissances spécialisées [23]. L extraction et l exploitation de connaissances utiles issues du corpus Wi- CoPaCo. 14

16 3 Sous-lot 4.2 : Identification de parties à réécrire et de réécritures en contexte Cette sous-tâche porte sur la détermination des unités source devant être paraphrasées, ainsi que des paraphrases appropriées pour les remplacer. Ce travail est donc dépendant de certains résultats de la Tâche 2 portant sur la détermination des unités difficiles à traduire, problème précédemment abordé dans des travaux peu nombreux [32, 37]. Nos contributions pour cette sous-tâche sont ici très préliminaires : elles portent sur une réflexion initiale sur la modélisation de la difficulté de traduction d un segment (3.1) et sur la substitution de paraphrases sous-phrastiques en contexte (3.2). 3.1 Modélisation de la difficulté de traduction d un segment Dans l approche que nous défendons dans ce travail, un système de traduction aura la possibilité lors de la construction de ses meilleures hypothèses de considérer plusieurs segments qui peuvent donc être considérés comme étant en compétition entre eux. Certains de segments source sont déjà naturellement en compétition dans le contexte standard : un segment et ses sous-segments correspondant à la plupart de ses sous-segmentations apparaissent fréquemment dans les tables de traduction 15 En outre, dans notre cas, de nouveaux segments pourront être traduits à la place d autres segments. On peut faire les remarques suivantes : 1. Il est préférable d utiliser des segments pour lesquels les traductions apprises sont fiables, ce qui nécessite un certains nombre d exemples d apprentissage. 2. Il est préférable d utiliser des segments pour lesquels une ou quelques traductions se dégagent nettement 16. Cela peut se représenter par l entropie des traductions d un segment source f, définie par : H(f) = e p(e f) log(p(e f)) (1) où la somme porte sur les traductions e de f. Intuitivement, si l on considère deux synonymes appropriés pour un contexte particulier, la traduction de celui affectant des probabilités plus fortes à une ou quelques traductions apporte une information plus sûre. 3. Il est préférable d utiliser des segments constituant de bonnes unités de traduction. Cela peut par exemple se représenter en tenant compte lors de l estimation des scores des traductions possibles des exemples d apprentissage pour lesquels aucun alignement ne permet l extraction d une traduction (ce que [26] appelle une estimation «cohérente»). 15. Par exemple, le fragment Monsieur le Président peut se traduire avec les segmentations suivantes : (Monsieur le président), (Monsieur le président), (Monsieur le président), (Monsieur le président). 16. Nous reviendrons plus loin dans nos perpectives sur le fait qu il est plus précis de dire qu on cherche essentiellement des segments dont un ou quelques groupes de sens de traductions se dégagent. 15

17 Nous nous sommes à ce stade essentiellement intéressé à la prise en compte des deux premières remarques ci-dessus, et avons essayé de les modéliser en ajoutant un nouveau score aux paires de bisegments présentes dans une table de traduction 17. Conceptuellement, nous souhaitons privilégier les segments source qui ont été le plus observés dans le corpus d apprentissage et dont l entropie des traductions est la plus faible possible. Les cas extrêmes sont donc : Un segment est très fréquemment observé et est toujours associé à la même traduction : son utilisation est donc fortement souhaitable. Un segment est peu observé ou il est fréquemment observé mais associé à de nombreuses traductions grossièrement équiprobables : son utilisation est donc plutôt à éviter si possible. Nous proposons donc un calcul inspiré de la notion de gain d information, correspondant à la réduction d entropie apportée par une connaissance particulière. Ici, nous souhaitons comparer deux circonstances : d une part, la circonstance «au pire» où tous les exemples d un segment dans un corpus bilingue correspondraient à une traduction différente : H pire (f) = e p(e f) log(p(e f)) (2) = #f ( 1 #f log( 1 )) #f (3) = log( 1 #f ) (4) et, d autre part, la circonstance effectivement observée. Nous utilisons donc le calcul suivant pour notre score additionnel : h segment (f) = H pire (f) H(f) + ɛ (5) = log( 1 #f ) + p(e f) log(p(e f) + ɛ e (6) où ɛ est une constante permettant de garantir que h segment (f) > Cette valeur est donc ajoutée à une table de bisegments existantes 19. Nous avons réalisé plusieurs expériences à l aide du système statistique fondé sur les segments moses [22] sur la paire de langue anglais-français. Notre corpus d apprentissage est consitué d environ 1,750 million de phrases de dépêches d agences et de transcriptions de débats parlementaires, et nos corpus de développement et de test sont constitués de dépêches d agences et ont respectivement une taille de 965 et 2349 phrases. La Figure 10 compare deux types de décodage : décodage par recherche approchée de l hypothèse de score maximal (MAP) et décodage par minimisation 17. Dans les faits, lorsque le système n utilise pas de treillis de paraphrases en entrée, ce nouveau modèle jouera essentiellement le rôle d un modèle de segmentation des énoncés à traduire. Nos travaux futurs auront également à considérer les liens possibles avec les techniques de filtrage des entrées des tables de traduction [21]. 18. On aurait par ailleurs pu simplement décider de filtrer les entrées des tables de traduction correspondant à des segments source pour lesquels chaque exemple d apprentissage est associé à une traduction différente. 19. Ce score est donc commun à tous les bisegments partageant le même segment source. 16

18 en fr fr en BLEU NIST TER METEOR BLEU NIST TER METEOR MAP MAP+seg MBR MBR 10 +seg MBR MBR 200 +seg Figure 10 Résultats selon plusieurs métriques automatiques de décodages MAP et MBR (sur des listes de 10 ou 200 meilleures hypothèses) utilisant ou non notre modèle de segment source. du risque bayésien (MBR) 20. Les scores obtenus ne permettent pas de dégager de résultats clairs, mais une tendance se dessine néanmoins dans les deux directions de traduction et sur la plupart des métriques : l utilisation de notre modèle de segments source améliore légèrement les performances. Par ailleurs, on note de très légères améliorations par l utilisation du décodage MBR sur notre tâche. Ces résultats, au plus encourageants, seront testés à nouveau dans le contexte où notre modèle se veut plus utile : lorsque l on met en compétition des paraphrases sous-phrastiques en source. 3.2 Substitution de paraphrases sous-phrastiques en contexte La grande majorité des travaux exploitant des paraphrases sous-phrastiques en source n évaluent pas directement le caractère approprié de l utilisation d une paraphrase dans le contexte particulier d un segment [10, 28, 16]. Une tentative notable est celle de [34], qui utilisent des scores basés sur des rapports de scores des modèles de langues avant et après paraphrasage pour caractériser les chemins dans les treillis source correspondant à des paraphrases : h l = lm(para) lm(orig) (7) h L = lm(para)1/length(para) lm(orig) 1/length(orig) (8) Nous nous sommes intéressé au problème suivant : étant donné un segment s dans un contexte C et une paraphrase sous-phrastique p, p peut-elle se substituer à s? Nous avons initialement abordé cette question comme une tâche de classification binaire [7], qui permet de déterminer si p est une paraphrase ou non, ce qui pourra ultérieurement nous servir pour motiver l ajout de paraphrases dans une treillis pour une phrase à traduire. Pour cela, nous avons construit des classifieurs de type SVM sur un corpus annoté constitué de la manière expliquée ci-après. Nous avons tout d abord identifié manuellement un certain nombre de réécritures locales en français dans le corpus WiCoPaCo [30] étant reconnues comme 20. Le résultat d un décodage MBR tel qu implémenté par moses correspond à l hypothèse du système parmi les N meilleures qui est la plus similaire (au sens de BLEU) à l ensemble des autres meilleures hypothèses. 17

19 Figure 11 Exemples de tentatives de substitution du segment est à l origine par diverses paraphrases candidates dans un contexte issu de Wikipédia.. des paraphrases. Pour chacun des segments avant réécriture, nous avons extrait automatiquement du Web des énoncés contenant ce segment. Cette sélection s opérant de façon neutre, il est attendu que les contextes d apparition collectés pour ce segment seront indifféremment compatibles ou incompatibles avec le contexte originel de WiCoPaCo. Pour l ensemble de ces segments dans leur contexte du Web, on procède alors à l acquisition de paraphrases par les moyens suivants : 1. En utilisant notre jeu en ligne présenté précédemment (cf. section 2.3), nous avons collecté deux paraphrases formulées par des humains. 2. Nous avons utilisé le système de traduction en ligne Google Translate 21 pour paraphraser par pivot le segment considéré, en pivotant par une langue proche (l espagnol) et par une langue plus éloignée (le chinois). 3. En outre, nous disposons bien évidemment de la paraphrase initialement présente dans WiCoPaCo. L ensemble des paraphrases collectées dans les contextes issus du Web sont alors évaluées manuellement dans le contexte WiCoPaCo d origine 22. Les résultats que nous présenterons ci-dessous ne porteront que sur les paraphrases faisant consensus entre deux juges humains 23, condition dans laquelle nous disposions de 287 exemples d apprentissage et 175 exemples de test. Le mode d annotation utilisé est illustré sur la Figure 11. La Figure 12 présente les résultats de correction pour chaque technique de paraphrasage. On constate tout d abord que, sans surprise, les paraphrases de WiCoPaCo sont très largement validées. Ensuite, les paraphrases proposées via le jeu reçoivent une évaluation moyenne, ce qui reflète que les contextes collectés automatiquement sur le Web sont parfois incompatibles avec le contexte d origine. Enfin, le paraphrasage reposant sur une traduction par pivot reçoit de mauvais scores, qui sont d autant plus mauvais que la langue pivot est éloignée de la langue paraphrasée. Nous avons implémenté plusieurs modèles, notamment : un modèle fondé sur La tâche modélisée ici est une aide à la rédaction : on suppose que l extrait avant modification dans Wikipédia doit être révisé, et qu on dispose d un répertoire de paraphrases sous-phrastiques pour un segment particulier. On cherche dont à évaluer quelles paraphrases sont acceptables dans ce contexte pour ne présenter que celles-ci à la personne effectuant la révision. 23. Les juges n ont pas eu à évaluer des paraphrases pour des segments qu ils auraient eux-mêmes eus à paraphraser lors de la phase d acquistion. 18

20 WiCoPaCo Joueurs Pivot es Pivot zh 86.03% 57.34% 37.71% 12.60% Figure 12 Scores de correction (consensuels entre deux juges humains) obtenus par les différentes techniques de paraphrasage essayées sur les contextes WiCoPaCo d origine. WebLM BoundLM ContDep classifieur 56.79% 51.41% 42.69% 62.85% Figure 13 Scores de correction (consensuels entre deux juges humains) obtenus par les différentes techniques élémentaires et notre classifieur sur les contextes WiCoPaCo d origine. un rapport de scores de modèles de langue construit sur un corpus du Web 24, des modèles thématiques dérivés de profils lexicaux issus du Web 25, et un modèle de distance d édition au niveau des mots portant sur les lemmes. Nous avons comparé nos résultats sur le corpus de test à ceux obtenus par trois techniques élémentaires : WebLM considère un énoncé candidat comme une paraphrase d un énoncé originel si son score de modèle de langue estimé sur le Web est plus important 26. BoundLM considère un énoncé candidat comme une paraphrase d un énoncé originel si les comptes sur le Web des bigrammes aux frontières gauche et droite après paraphrasage dépassent un seuil. ContDep considère un énoncé candidat comme une paraphrase d un énoncé originel si les dépendances syntaxiques entre les mots de la paraphrase et de son contexte sont les mêmes que celles qui existent entre le segment originel et son contexte. Les résultats que nous avons obtenus sur la tâche décrite sont présentés sur la Figure 13. Nous avons obtenus des résultats encourageants, mais dans le contexte d une comparaison peut-être trop simpliste. Il ressort quoi qu il en soit de cette étude préliminaire que le problème attaqué est un problème difficile, et que des informations issues du Web peuvent être exploitées de façon utile. 24. Nous avons utilisé pour cela le service de N-grams du Web en ligne de Microsoft : Nous avons utilisé pour cela l API d interrogation du moteur de Yahoo! : http: //developer.yahoo.com/search/boss 26. Ce choix peut être perçu comme très naïf, mais il faut toutefois considérer que les hypothèses considérées relèvent a priori d une intention de paraphrasage. 19

21 4 Sous-lot 4.3 : Réécriture automatique d énoncés Dans cette sous-tâche, nous nous intéressons à l exploitation de paraphrases pour l amélioration de la performance des systèmes de traduction automatique. Nous avons tout d abord considéré la possibilité d améliorer l estimation des traductions des segments en exploitant à la fois le contexte des segments à traduire et leur paraphrases (4.1), puis nous avons mené des expériences initiales en construction et traduction de treillis de paraphrases en source (4.2). 4.1 Réestimation des scores de traduction à l aide de paraphrases De nombreux travaux ont déjà démontré l importance de modéliser le contexte d apparition d un segment à traduire [11, 42, 19]. Pour cela, l approche généralement suivie consiste à associer une distribution de traductions pour chaque occurrence de segment dans le texte à traduire 27. Dans l approche standard implémentée dans le système moses, les scores de traduction sont estimés par simples fréquences relatives : p rel (e i f) = count(f, e i) j count(f, e j) ce qui attribue donc une importance égale à tous les exemples d un segment, qui incluent possiblement des instances contextuellement incompatibles avec un segment à traduire. Nous avons proposé une prise en compte très simple du contexte, où chaque exemple du corpus d apprentissage participe à hauteur de la similarité de son contexte avec celui du segment à traduire : f p cont (e i f) = k,e sim i cont(c(f), C(f k )) f k,e sim (10) j cont(c(f), C(f k )) où f est le segment à traduire et f k un exemple du corpus d apprentissage, C(f) représente le contexte du segment à traduire et C(f k ) celui de l exemple f k, et e j représente chaque traduction possible de f dans le corpus d apprentissage. Nous avons initialement retenu une définition très simple pour la similarité contextuelle fondée sur la présence de segments communs dans le voisinage immédiat de deux occurrences de segments. Nous mesurons la taille du plus grand segment commun à la gauche de deux segments en contexte (C(f) et C(f i )), length left, et à leur droite, length right. Considérant la phrase à traduire et l exemple issu du corpus d apprentissage suivants (le segment à traduire est en gras et les segments communs du contexte immédiat sont soulignés) : 1. the commission accepts the substance of the amendments@11257 proposed@11258 by@11259 the committee on fisheries Cela ne permet donc plus de factoriser les informations par type de segment source, et la taille des tables de traduction augmente alors de façon considérable, interdisant des expérimentations sur de larges textes. Dans les expériences dont nous rendrons compte plus bas, la table de traduction de notre système anglais français passe de 240Mo sur disque à 5Go. (9) 20

22 2. this is why we shall support all of the amendments put forward by the committee on agriculture and rural development... on obtient length left = 2 et length right = 3. La valeur utilisée est : length left + length right length = si length left > 0 et length right > 0 0 sinon (11) et on calcule finalement le score de similarité contextuelle suivant (dans nos expériences, le paramètre α vaut 1.5) : sim cont (C(f),C(f i )) = (1 + length) α (12) Nous avons également porté notre attention sur l exploitation de paraphrases pour affiner l évaluation d une traduction pour un segment en contexte en partant de l idée suivante : une paraphrase d un segment à traduire qui apparaît dans un contexte très similaire à celui du segment peut renforcer la traduction que partagerait le segment et la paraphrase. Cela est illustré par les exemples de la Figure 14. Dans l exemple du haut, on doit traduire le segment up to each, pour lequel on connaît la paraphrase potentielle the responsibility of each. L exemple présenté pour the responsibility of each est dans un contexte relativement similaire au segment à traduire, partageant avec lui le segment à gauche it is et le segment à droite member state to. La traduction associée à la paraphrase (la responsabilité de chaque) étant déjà connue pour le segment up to each, il est alors possible de la renforcer. Cette technique permet donc d utiliser davantage d exemples pour estimer les scores des traductions associées aux segments à traduire. De façon analogue au modèle contextuel précédent, on définit le modèle fondé sur l utilisation de paraphrases suivant : p p para (e i f) = k,e sim i para(c(f), C(p k )) p k,e sim (13) j para(c(f), C(p k )) où p k est une paraphrase de f, p k, e i est un bisegment du corpus d apprentissage tel que e i est également une traduction de f, C(f) est le contexte du segment à traduire et C(p k ) celui d un exemple p k, et e j représente chacune des traductions connues de f. La fonction de similarité utilisée est (β = 1.5) : sim para (C(f),C(p i )) = length β (14) laquelle permet de ne prendre en compte que les exemples de paraphrases pour lesquels length > 0, soit ceux apparaissant dans un contexte partageant un minimum de similarité avec le segment à traduire. Nous avons effectué des expériences en anglais français sur des données de débats parlementaires 28 pour évaluer l apport de nos modèles exploitant le 28. Pour des raisons d explosion de la taille des tables de traduction déjà évoquées, nous nous sommes à ce stade limité à une quantité de données d apprentissage relativement modeste, avec un corpus d apprentissage de 318,000 phrases. Nos perspectives incluent cependant l utilisation de techniques d échantillonage contextuel pour poursuivre nos expériences sur des tailles de données beaucoup plus importantes [26]. 21

Montrer encore