Recherche locale pour la traduction statistique à base de segments

Recherche locale pour la traduction statistique à base de segments Philippe Langlais, Alexandre Patry and Fabrizio Gotti Département d Informatique et de Recherche Opérationnelle Université de Montréal, C.P. 6128, succursale Centre-Ville H3C 3J7, Montréal, Québec, Canada {felipe,patryale,gottif}@iro.umontreal.ca Abstract Dans cette étude 1, nous nous intéressons à des algorithmes de recherche locale pour la traduction statistique à base de segments (phrase-based machine translation). Les algorithmes que nous étudions s appuient sur une formulation complète d un état dans l espace de recherche contrairement aux décodeurs couramment utilisés qui explorent l espace des préfixes des traductions possibles. Nous montrons que la recherche locale permet d obtenir des performances proches de celles qu obtiennent les décodeurs habituels, en un temps nettement inférieur et à un coût mémoire constant. Nous montrons également sur plusieurs directions de traduction qu elle permet d améliorer de manière significative les traductions produites par le système à l état de l art Pharaoh (Koehn, 2004). 1 Introduction Au début des travaux sur la traduction statistique (TS), plusieurs chercheurs se sont intéressés au problème de la recherche d une meilleure traduction, étant donné un modèle de traduction basé sur les mots (Berger et al., 1994; Tillmann et al., 1997; Wang and Waibel, 1997; Niessen et al., 1998; García and Casacuberta, 2001). Avec la montée en popularité des approches à base de segments (Koehn et al., 2003), des décodeurs dédiés ont commencé à voir le jour au sein de notre communauté, comme Pharaoh (Koehn, 2004), distribué sous forme d un exécutable, ainsi que différentes variantes logiciel-libre comme Moses 2 (Koehn et al., 2006), Ramses 3 (Patry 1 Version étendue d un article présenté à TMI, 2007. 2 http://www.statmt.org/moses/ 3 http://smtmood.sourceforge.net et al., 2006), Phramer 4 (Olteanu et al., 2006) ou Marie 5 (Crego and Marino, 2007) pour des modèles n-grammes bilingues. De nombreuses équipes utilisent ces boîtes à outils pour construire leurs propres systèmes de TS (lire par exemple (Déchelotte et al., 2007; Besacier et al., 2007)). Tous ces décodeurs partagent la propriété de s appuyer sur une fonction de score incrémentale de manière à pouvoir organiser l espace de recherche efficacement à l aide de la programmation dynamique (DP). Il n est pas difficile d imaginer des modèles de traduction où cette propriété n est pas appropriée. Le moteur de traduction ReWrite 6 (Germann et al., 2001), qui utilise un modèle de traduction mot-à-mot (Brown et al., 1993) est une exception notable dans ce paysage. Il s agit d un algorithme de recherche locale qui tente d améliorer de manière itérative une traduction courante, en lui faisant subir un ensemble de perturbations. À chaque itération, la meilleure traduction issue de ces perturbations devient l hypothèse courante. Le processus se termine lorsqu il n est plus possible d améliorer cette dernière, ce qui arrive typiquement après quelques itérations. Une version rapide de cet algorithme est décrite dans (Germann, 2003). Il est cependant accepté que cet algorithme produit des traductions de qualité moindre que les décodeurs DP faisant usage des mêmes modèles de traduction (Foster et al., 2003). À notre connaissance, personne n a fait l étude d algorithmes de recherche locale pour les modèles de traduction à base de segments. Cette étude est une réponse à cette lacune. Nous montrons qu une implémentation simple de cette idée permet d obtenir des traductions d une qualité proche de celles produites par les décodeurs stan- 4 http://www.phramer.org 5 http://gps-tsc.upc.es/soft/marie 6 http://www.isi.edu/publications/ licensed-sw/rewrite-decoder/index.html

dards à un coup mémoire constant (alors qu un décodeur standard requiert un espace mémoire à tout le moins linéaire avec la taille de la phrase à traduire) et en un temps de loin inférieur (quelques minutes contre quelques heures). Nous montrons également que lorsqu utilisé en cascade, à la sortie d un décodeur à l état de l art, notre algorithme permet d en améliorer les traductions. Différentes expériences illustrent à la fois la souplesse de l approche et son potentiel comme méthode de post-traitement. L article est organisé comme suit. Dans la section 2, nous décrivons précisément notre approche. Le protocole expérimental est ensuite présenté en section 3. Nous décrivons les expériences réalisées en section 4 puis concluons cette étude et proposons des pistes de recherche en section 5. 2 Algorithme glouton L algorithme de recherche (voir figure 1) que nous étudions est une forme particulièrement simple de recherche locale souvent nommée recherche gloutonne. Il utilise une formulation complète, ce qui signifie qu un état dans l espace de recherche est une traduction possible, à contrario des décodeurs standards qui parcourent plutôt l espace des préfixes de traductions possibles. Plus précisément, un état, que nous désignons de manière interchangeable par hypothèse, est la donnée d une traduction du texte source et d un alignement entre les segments (phrases) source et cibles. L algorithme (désigné par fegreedy dans la suite) dépend de la définition de trois opérateurs: le premier (seed) est en charge de produire la première hypothèse courante, le second (score) implémente la fonction de score que nous tentons d optimiser, le dernier (voisinage) propose les hypothèses voisines explorées à partir de l hypothèse courante. Ce type de recherche possède trois caractéristiques intéressantes. Premièrement, une quantité constante (et réduite) de mémoire est requise pour représenter l espace de recherche. Il s agit de l espace nécessaire à l encodage de l hypothèse courante 7. Deuxièmement, ce type d algorithme propose souvent des solutions raisonnables (en terme de la fonction de score que 7 Notre implémentation mémorise également l hypothèse en cours d évaluation dans le voisinage de l hypothèse courante. Require: source une phrase à traduire courant seed(source) loop s courant score(courant) s s courant for all h voisinage(courant) do c score(h) if c > s then s c meilleur h if s = s courant then return courant else courant meilleur Figure 1: Algorithme de recherche locale glouton. l on cherche à optimiser), en un temps habituellement très court, à des problèmes nécessitant une recherche combinatoire (Russell and Norvig, 1995). Troisièmement, aucune hypothèse n est nécessaire quant à la fonction de score optimisée. En particulier, elle n a pas besoin d être calculée de manière incrémentale. Bien sûr, cet inventaire de points positifs est contrebalancé par le fait que cet algorithme ne possède aucune propriété d optimalité. Nous verrons que ce défaut n est pas pénalisant dans notre cas. 2.1 La fonction de score Dans ce travail, nous cherchons à maximiser la combinaison habituellement utilisée en TS à base de segments. En particulier, nous nous intéressons dans un premier temps à maximiser la même fonction que celle que le décodeur à l état de l art Pharaoh (Koehn, 2004) maximise: Score(e, f) = λ lm log p lm (f) + i λ (i) tm log p(i) tm (f e) λ w f λ d p d (e, f) (1) où les λs sont des coefficients contrôlant la contribution de chaque modèle à la combinaison, p lm est un modèle de langue (n-gramme), p (i) tm représente différentes tables de transfert (qui dans nos expériences partagent les mêmes paramètres), f représente la longueur comptée en mots de la traduction et p d (e, f) est un modèle appelé généralement modèle de distorsion (nous utilisons le modèle simple décrit dans (Koehn et al., 2003)).

SRC: le groupe csu au parlement européen se réjouit que le présent projet de charte des droits fondamentaux rassemble et rende visibles les droits fondamentaux dont disposent les citoyens vis-àvis des organes et institutions de l ue. Pharaoh the csu group in the european parliament welcomes the draft charter of fundamental rights lumps together and make visible the fundamental rights enjoyed by the citizens towards the eu institutions and bodies that. (-43.8823) Figure 2: Exemple d une traduction produite par Pharaoh pour une phrase française. Deux segments sources adjacents sont traduits à tort de manière distante. 2.2 Fonction de voisinage Par inspection de traductions produites par Pharaoh, nous avons défini six familles de perturbation d une hypothèse courante. Cet ensemble n est en aucun cas exhaustif. En particulier, nous n autorisons pas encore qu un mot ou un segment soit inséré ou bien détruit; deux opérations considérées dans ReWrite. Move Pharaoh (comme nombreux de ses clones) s autorise à reporter à plus tard la traduction d un segment source pour traduire le segment qui le suit. Ce comportement est souhaitable pour rendre compte de certaines divergences locales entre deux langues. Il permet par exemple de tenir compte du fait qu en anglais l adjectif est antéposé au nom, alors qu il apparaît souvent après le nom qu il qualifie en français. Cependant, ce comportement introduit un problème fréquent que nous décrivons ici. Sur la recommandation du modèle de langue, le décodeur peut, à tort, préférer traduire le segment suivant et ne revenir à la traduction du segment écarté que plus tard; habituellement à la fin du processus, le décodeur étant forcé de traduire l ensemble des segments sources à sa disposition. Un exemple de ce phénomène est illustré en figure 2. Nous avons donc implémenté une opération qui autorise deux segments cibles distants 8 correspondant à la traduction de deux segments sources adjacents à être rapprochés (nous tentons tous les rapprochements possibles). Swap Il arrive souvent qu un segment du texte à traduire ne soit pas présent entier dans la table de transfert du modèle de traduction, auquel cas le segment est traduit de manière compositionnelle à l aide de segments plus petits. L ordre des segments traductions est alors souvent un compromis 8 Sont dits distants dans cette étude deux blocs séparés par au moins 3 mots. fragile entre les recommandations du modèle de langue et du modèle de distorsion habituellement biaisé en faveur de traductions monotones. Dans le but de corriger certains ordonnancements, nous autorisons deux segments cibles adjacents à être inversés. La complexité 9 de cette opération est linéaire avec le nombre N de segments sources dans l hypothèse courante. Replace Cette opération permet de changer la traduction choisie pour un segment source par une autre traduction validée par la table de transfert. Cette opération a une complexité en O(N T ), où T est le nombre maximum de traductions considérées pour une phrase source (valeur typique de 10). Bi-replace De la même manière, nous autorisons deux segments à changer simultanément de traduction avec l espoir que cela permettra à notre algorithme d échapper à certains maxima locaux. La complexité de cette opération est quadratique en T. Split Une tâche implicite effectuée par un décodeur consiste à découper la phrase source en segments. Nous autorisons notre algorithme à découper un segment source en deux parties, pour autant que les sous-parties soient présentes dans la table de transfert. Cette opération est d une complexité en O(N S T 2 ), où S est le nombre de segments sources dans l hypothèse courante. Merge Il s agit de l opération inverse de la précédente. Il convient de noter que ces deux opérations s accompagnent généralement d un changement lexical de la traduction courante (d où la dépendance à T ). 9 Nous mesurons le nombre d hypothèses voisines engendrées par une opération.

2.3 L opérateur d initialisation 2.3.1 Traduction gloss Dans ReWrite, l hypothèse courante est initialisée en collectant pour chaque mot sa traduction privilégiée selon le modèle lexical. Nous avons adapté cette idée aux modèles de segments. Une complication survient cependant dans notre cas, puisque la phrase à traduire S n est pas pré-découpée en segments. Plusieurs segmentations étant possibles, nous avons décidé de retenir celle qui minimise le nombre de segments sources de la table de transfert M, tout en couvrant complètement S. Notre espoir est ici que des segments longs captureront plus d information pertinente à leur traduction hors-contexte. Cette segmentation peut être implémentée efficacement par programmation dynamique (Langlais et al., 2007). Une fois la segmentation source effectuée, nous prenons simplement la traduction privilégiée (selon M) de chaque segment que nous concaténons pour former une traduction. Une illustration du processus de segmentation est produite en figure 3. 2.3.2 Initialisation par Pharaoh Nous avons testé une autre manière d initialiser la recherche. Elle consiste à partir de la meilleure traduction produite par Pharaoh 10. Cela revient à dire que nous faisons le pari que la recherche locale permet de corriger certaines erreurs faites par le premier décodeur. Nous appelons cette variante CASCADE dans la suite. L idée de composer des moteurs de traduction en cascade a été proposée initialement par (Berger et al., 1994) dans le cadre du système Candide; système à base de modèles de traduction mots à mots (Brown et al., 1993). Malheureusement, les auteurs ne décrivent ni leur algorithme de recherche locale, ni n en fournissent une évaluation. D autres travaux ont été menés sur cette idée. Notamment Marcu (2001) et Watanabe and Sumita (2003) où un algorithme de recherche locale tente d améliorer une traduction produite par un système de mémoires de traductions. Plus récemment, (Simard et al., 2007) et (Chen et al., 2007) présentaient simultanément la même idée qui consiste à entraîner un modèle de traduction statistique à partir d un bitexte dont la partie source est produite par un système natif 10 Pharaoh donne accès à l alignement ayant produit la meilleure traduction grâce à l option --trace. (le système Systran dans ces études) et la partie cible est une traduction de référence (manuelle); l espoir étant que le modèle de traduction résultant saura corriger des erreurs commises par le système natif. Il est important de souligner que notre approche, bien qu elle puisse être utilisée comme une étape de post-traitement, ne requiert aucun entraînement des modèles de traduction et offre un plus grand contrôle sur la nature des corrections apportées, même si à aucun moment nous ne contrôlons les opérations qui sont sélectionnées à chaque itération. 3 Protocole expérimental 3.1 Corpus Nous avons réalisé nos expériences en utilisant les ressources de la tâche partagée du workshop sur la traduction statistique qui s est tenu en 2006, en marge de l ACL (Koehn and Monz, 2006). Cette année, les systèmes participants avaient à traduire des textes en espagnol, en allemand et en français vers et depuis l anglais. Les textes disponibles pour l entraînement proviennent du corpus Europarl. Une portion d environ 700 000 paires de phrases dans chaque langue, train, constituait le matériel d entraînement; deux corpus de développement de 2 000 phrases chacun, dev et devtest, étaient destinés respectivement à ajuster les systèmes (les λs dans l équation 1) et à réaliser des tests à blanc; enfin le corpus de test officiel de la tâche partagée était constitué de 2 000 phrases extraites également du corpus Europarl (test-in) et de 1 034 11 phrases hors domain (test-out). La longueur moyenne des phrases à traduire, toutes langues confondues, est de 29 mots. 3.2 Système de référence Le système natif que nous utilisons dans cette étude est le système état-de-l art mis à disposition par les organisateurs. Il s agit d un système maintenant classique où le modèle de langue est un modèle trigramme entraîné à l aide de SRILM (Stolcke, 2002), les tables de traductions (avec des segments d au plus 7 mots) sont entraînées par les scripts fournis par les organisateurs. Chaque paire de segments dans cette table est notée par quatre scores recevant chacun leur coefficient de pondération (λ) ainsi 11 Nous avons écarté de cette étude 30 phrases présentant de sérieux problèmes d encodage.

F E S 0 T 0 de plus, nos systèmes administratifs doivent être modernisés. nous devons également donner le bon exemple. in addition, our administrative systems must be modernised, and it is our duty to lead by example. [de plus,] [nos systèmes administratifs] [doivent] [être modernisés] [. nous devons également] [donner le bon exemple.] [furthermore,] [our administrative systems] [must] [modernization] [and we also need] [set a good example.] -19.5068 S 1 [de plus,] [nos systèmes administratifs] [doivent] [être modernisés] [.] [nous devons également] [donner le bon exemple.] T 1 [furthermore,] [our administrative systems] [must] [modernization] [.] [we must also] [set a good example.] SPLIT -17.4382 S 2 [de plus,] [nos systèmes administratifs] [doivent] [être] [modernisés] [.] [nous devons également] [donner le bon exemple.] T 2 [furthermore,] [our administrative systems] [must] [be] [modernized] [.] [we must also] [set a good example.] SPLIT -15.8488 S 3 [de plus,] [nos systèmes administratifs] [doivent] [être] [modernisés] [.] [nous devons également] [donner] [le bon exemple.] T 3 [furthermore,] [our administrative systems] [must] [be] [modernized] [.] [we must also] [give] [a good example.] SPLIT -15.5885 S 4 [de plus,] [nos systèmes administratifs] [doivent] [être] [modernisés] [.] [nous devons également] [donner] [le bon exemple.] T 4 [in addition,] [our administrative systems] [must] [be] [modernized] [.] [we must also] [give] [a good example.] REPLACE -15.5199 Figure 3: Itérations impliquées dans la traduction par GLOSS d une phrase française (F) de traduction de référence (E). Une segmentation (S 0 ) est premièrement calculée à partir des 49 segments sources de M qui couvrent partiellement F. T 0 est la traduction associée. Les segments en gras sont impliqués dans l hypothèse recevant le meilleur score à chaque itération. Plus de 4,100 hypothèses ont été évaluées en un tiers de seconde. qu un score permettant de contrôler (de manière passive) la longueur des traductions produites (phrase penalty). Le modèle de distorsion natif à Pharaoh ainsi qu un second modèle de contrôle de la longueur des traductions (word penalty) reçoivent à leur tour un coefficient. Au total, ce sont huit coefficients qui sont ajustés sur dev en appliquant l algorithme de minimisation d erreur minimum-error-rate-training.perl. Dans presque toutes nos expériences, les seuils contrôlant l espace de recherche que Pharaoh explore ont été laissés à leurs valeurs par défaut. 3.3 Évaluation de la qualité Par simplicité nous mesurons la qualité des traductions produites à l aide des mesures automatiques WER (pour word error rate) et BLEU (Papineni et al., 2002) couramment employées au sein de la communauté. 4 Expériences 4.1 fegreedy avec ou sans Pharaoh Nous comparons dans un premier temps fegreedy et Pharaoh en leur demandant de maximiser la même fonction (équation 1). Les deux variantes du premier moteur (GLOSS et CAS- CADE) sont testées. Les résultats sont indiqués en table 1 pour le corpus de test test-in. La variante GLOSS enregistre des valeurs de BLEU inférieures à celles mesurées pour Pharaoh. Ceci est cohérent avec les observations faites par (Foster et al., 2003) et vient sans surprise puisque l espace de recherche parcouru par le premier moteur est bien moins grand que celui que le second parcourt. Plus surprenante est la faiblesse de la différence. En fait, les taux d erreurs au niveau des mots sont le plus souvent en faveur de GLOSS. Ceci est d autant plus remar-

en L L en Systems L WER BLEU WER BLEU Pharaoh fr 54.85 30.90 51.69 29.96 GLOSS fr 54.27 29.83 50.93 29.13 CASCADE fr 53.38 31.42 50.46 30.27 G-REV fr 53.49 31.52 50.48 30.25 G-BEAM-5 fr 53.46 31.26 50.40 30.13 G+B5 fr 53.43 31.28 50.36 30.17 Pharaoh es 54.23 29.64 51.04 30.54 GLOSS es 53.22 28.99 50.77 29.67 CASCADE es 52.77 30.14 50.02 30.87 G-REV es 52.67 29.79 50.07 30.84 G-BEAM-5 es 52.61 30.24 50.12 30.89 G+B5 es 52.61 30.25 50.11 30.93 Pharaoh de 62.32 17.68 60.54 24.45 GLOSS de 62.53 17.03 57.55 23.84 CASCADE de 61.73 17.88 58.85 24.66 G-REV de 61.77 17.89 58.48 24.82 G-BEAM-5 de 61.98 17.82 57.62 24.59 G+B5 de 61.95 17.84 57.62 24.58 Table 1: Performances de différents algorithmes de recherche mesurées sur test-in. Les données en gras sont significativement meilleures (à 99%) que celles associées à Pharaoh. quable que notre implémentation n encode qu un nombre restreint d opérations de voisinage. Nous observons également que l algorithme local permet d améliorer les traductions produites par Pharaoh, ce qui constitue également un résultat très satisfaisant et valide l idée que CAS- CADE offre une façon simple et efficace de corriger les traductions produites par un système natif. Cette observation semble cohérente pour toutes les directions de traduction et les deux mesures automatiques utilisées. Pour toutes les directions de traduction, les améliorations sont significatives 12 à un niveau de confiance de 99%. La table 2 permet d apprécier davantage ce que l algorithme local réalise. Nous observons premièrement que 40% des traductions produites par Pharaoh ont un meilleur score (équation 1) par fegreedy. Une explication de ce taux étonnamment élevé réside peut-être dans le fait que l espace visité par Pharaoh est limité par le nombre d hypothèses que chaque file de priorité peut maintenir (la limite par défaut de 100 12 Selon le test d échantillonnage multiple avec replacement (boostrap resampling) décrit dans (Zhang and Vogel, 2004), en évaluant 1 000 échantillons de 700 phrases chacun. fr en es en de en CAS GLO CAS GLO CAS GLO %up 42.6 93.5 37.1 90.8 42 95.8 log-s 3.6 2.9 2.7 1.7 1.8 2.9 %it. < 2 44.6 13.5 50.7 13.8 43.1 6.5 %it. < 3 66.2 29.7 74.4 31.6 65.7 17.2 %it. < 5 90.8 59.7 93.3 65.7 91.7 45.0 %it. < 10 98.8 95.0 100.0 97.8 100.0 87.5 MOVE 42.2 44.0 42.1 REPLACE 41.3 45.1 38.3 45.3 37.7 51.7 SPLIT 14.9 52.8 16.3 52.4 18.6 46.5 MERGE 0.9 1.7 0.8 1.8 1.0 1.1 SWAP 0.5 0.2 0.2 0.2 0.3 0.5 Table 2: Profil des deux variantes GLOSS (GLO) et CASCADE (CAS) mesuré sur devtest. %up désigne le pourcentage de phrases améliorées (en score) par la recherche locale; log-s indique le gain moyen en score; it. < n désigne le pourcentage de phrases améliorées pour lesquels moins de n itérations ont été nécessaires. La partie inférieure de la table représente le pourcentage des opérations remportant une itération de la recherche gloutonne. a été considérée ici). De manière moins surprenante, 90% des traductions initiales produite par GLOSS(section 2.3.1) sont améliorées par la recherche locale. Pas moins de 40% des opérations remportant une itération dans l algorithme local sont des opérations de remplacement (replace) d une traduction par une autre. L opération move est également productive et illustre bien le pouvoir de post-correction qu offre fegreedy. Une fois un problème identifié dans les traductions produites par un système natif, il suffit d encoder une opération spécifique visant à sa correction; ce que nous avons fait pour l opération move. Notons que le fait que GLOSS ne fasse pas usage de cette opération est tout simplement dû à notre encodage de l opération qui ne se déclenche que dans des configurations que seules Pharaoh peut produire (les traductions produites par GLOSS sont principalement monotones ou font intervenir occasionnellement des déplacements de blocs adjacents). Le fait que près de 15% des opérations gagnantes soient des opérations de segmentation peut sembler étonnant. Rappelons que cette opération s accompagne habituellement d un changement de matériel cible. D autres opérations sont

marginalement utiles. C est par exemple le cas de l opération swap ce qui s explique par le fait que la table de transfert capture déjà de nombreux réordonnancements locaux. En dernière observation, soulignons que CAS- CADE requiert beaucoup moins d itérations pour converger que GLOSS, ce qui semble normal. 70% des traductions effectuées par CASCADE nécessitent au plus 2 itérations, alors que seulement un peu plus de la moitié des traductions effectuées par GLOSS requièrent un maximum de 4 itérations. Dans les deux cas, les deux variantes requièrent habituellement moins de 10 itérations avant stabilisation. Nous tenons à souligner que bien que n ayant pas pris la peine d implémenter une version efficace de notre moteur de traduction, fegreedy requiert de l ordre de 4 minutes de calculs pour traduire 1 000 phrases 13, contre plus d une heure pour Pharaoh. Réduire les temps de calcul de notre implémentation serait facile puisqu à chaque opération de voisinage, une nouvelle hypothèse est temporairement construite puis évaluée au complet, alors qu une opération n introduit en général que peu de modifications dans le calcul de l équation 1. Récemment, (Moore and Quirk, 2007) présentait une manière intelligente d organiser les calculs qui rivalise en temps avec notre implémentation. Comparer cette approche à la notre fait partie des travaux futurs. D autres moyens d accélérer un algorithme DP ont été également proposés (Huang and Chiang, 2007). 4.2 Tentatives d amélioration de fegreedy Jusqu à présent, nous avons comparé notre approche à Pharaoh en optimisant la même fonction de score que Pharaoh maximise. Dans cette section, nous tentons d améliorer fegreedy en modifiant cette fonction de score. Notre point de départ est la configuration CASCADE; la meilleure des deux variantes de fegreedy. 4.2.1 Ajout de nouveaux modèles Une force de l approche locale est qu elle opère sur une représentation complète. Cela nous permet d optimiser une fonction de score qui n est pas nécessairement incrémentale. Afin d illustrer cette flexibilité, nous avons ajouté à l ensemble des 13 Ce temps ne tient pas compte du calcul de la première hypothèse courante. Temps approximatifs mesurés sur un ordinateur Pentium à 3 GHz disposant de 4Go de mémoire vive. modèles consultés dans l équation 1, un modèle de langue inversé. Notre modèle de langue inversé est un modèle trigramme qui prédit la probabilité d un mot étant donnés les deux mots qui le suivent: T p(t T 1 ) p(t i t i+1... t i+n 1 ) (2) i=1 Le gain qu un tel modèle peut apporter au système n est à première vue pas évident (la perplexité du modèle inverse est légèrement supérieure à celle du modèle direct). En fait, c est le modèle le plus simple auquel nous avons pensé qu il ne serait pas facile d intégrer dans un décodeur DP, puisque le suffixe d une hypothèse n est pas accessible à un tel décodeur au moment de l expansion d une hypothèse. Puisque nous ajoutons un modèle à la combinaison linéaire de l équation 1, les coefficients doivent être à nouveau ajustés sur le corpus de développement 14. Les résultats de cette expérience sont consignés en table 1 (variante G-REV). Pour toutes les directions de traduction, à l exception de la direction allemand anglais, les gains mesurés par WER sont mineurs, voire négatifs. Cependant, les améliorations du score BLEU sont cohérentes pour toutes les directions de traduction, bien qu en majorité non significatives. 4.2.2 Une variante en faisceau de fegreedy Comme nous l avons souligné, l un des avantages de la recherche locale que nous étudions est qu elle ne nécessite que la mémorisation de l hypothèse courante. C est certes un avantage indéniable de l approche, mais conserver un ensemble de plusieurs hypothèses courantes est une alternative qui peut s avérer offrir un meilleur rapport mémoire/performance. Cette variante appelée recherche locale en faisceau (Russell and Norvig, 1995) est celle que nous testons ici. Nous définissons les k meilleures hypothèses souches comme suit: l une est la meilleure traduction produite par Pharaoh (tel que décrit en section 2.3.2), les k 1 autres sont dérivées directement du calcul GLOSS décrit en section 2.3.1; la ième de ces traductions (lignes scratch-n dans la figure qui suit) étant construite en choisissant 14 Afin d épargner nos grappes de calcul, nous avons effectué une recherche des coefficients en limitant l espace de recherche aux seules valeurs proches de la configuration préalablement identifiée sans le nouveau modèle.

cette question est, bien sûr, parfaitement légitime, mais il faut y répondre de façon correcte et précise. (phrase source) this question is, of course, perfectly legitimate, but it must be answered properly and carefully. (Pharaoh, -16.11) subject is of course, perfectly legitimate, but we must respond to properly and carefully. (GLOSS-1, -18.22) subject is of course fully justified, but it must be answered properly and carefully. (GLOSS-3, -20.58) subject is of course perfectly quite legitimate, but it must be answered properly and carefully. (GLOSS-2, -21.57) Figure 4: Quatre traductions souches calculées pour une phrase française. pour chaque segment source la ième traduction validée par la table de transfert. Un exemple de ce processus est proposé en figure 4. Il y a bien sûr de nombreuses autres façons de procéder, comme par exemple l utilisation les k meilleures traductions produites par Pharaoh. Avec un faisceau de 5 hypothèses (ligne G- BEAM-5 de la table 1), aucune amélioration n est observée au-delà de la meilleure hypothèse identifiée par CASCADE. Ce constat décevant trouve une justification dans le fait que Pharaoh qui réalise un décodage à l état de l art fait déjà l objet d améliorations significatives par CAS- CADE. De manière plus intéressante, nous avons remarqué que G-BEAM produit des solutions mieux notées par l équation 1 que celles produites par fegreedy. Si ce constat est satisfaisant d un point de vue algorithme de recherche, il est cependant perturbant de constater que les erreurs de recherche faite par fegreedy sont bénéfiques à la qualité des traductions, telle que mesurée automatiquement. Bien sûr, nous pouvons mettre en cause l adéquation de mesures automatiques, surtout lorsqu il s agit d évaluer des variantes assez proches. Nous pensons que le problème est davantage lié à la pauvreté de la fonction de score que nous cherchons à maximiser, qui ne prend en particulier pas en compte, du moins explicitement, la qualité syntaxique des traductions. Toutes directions de traduction confondues, en moyenne 20% des traductions produites par G- BEAM-5 diffèrent de celles produites par CAS- CADE. Parmi celles-ci, 87% ont un score (équation 1) supérieur. Le fait que G-BEAM-5 rate des solutions que CASCADE trouve est simplement dû à l aspect glouton de notre algorithme et de la taille limitée du faisceau. En choisissant la traduction qui obtient le meilleur score par G-BEAM-5 ou CASCADE, nous ne parvenons pas à améliorer de manière significative les scores BLEU et WER (ligne G+B5). 4.3 Traduction hors-domaine Le résultat des différentes variantes sur le corpus hors-domaine test-out sont consignées en table 4. Les tendances observées sur le corpus test-in restent valides ici: GLOSS est très proche en performance de Pharaoh et CASCADE est significativement meilleur que Pharaoh. 34% des traductions produites par G-BEAM-5 obtiennent des scores (équation 1) supérieurs à ceux des traductions produites par CASCADE; 4% obtiennent un score inférieur. Ce taux de traductions ayant un score supérieur est de deux fois celui que nous avons mesuré sur test-in, ce qui est très encourageant, même si les mesures d évaluation n en rendent pas compte. Là encore, prendre la mieux notée des traductions produites par G-BEAM-5 ou GLOSS améliore légèrement les mesures (de manière non significative) pour presque toutes les directions de traduction. 4.4 Pharaoh versus CASCADE: prise 2 Nous concluons cette exploration de la recherche locale par une expérience où nous augmentons l espace de recherche que Pharaoh peut explorer. Ceci est fait en augmentant le nombre maximum d hypothèses contenues dans une pile. Les résultats de cette expérience sont consignés en table 3 pour des systèmes traduisant du français vers l anglais. Nous observons d une part qu augmenter l espace de recherche est payant, puisque plus d un point en WER peut être gagné de cette façon. Ce gain ne doit pas nous faire oublier cependant que le temps mis pour obtenir les traductions passe de 40 minutes à plus de 12 heures lorsqu on passe d une limite de 100 hypothèses par pile à 1 000. Nous constatons que CASCADE permet systématiquement d améliorer la meilleure traduction produite par Pharaoh, que l on mesure cette amélioration par WER ou par BLEU. L amélioration en score apportée par CASCADE à la meilleure traduction produite par

Pharaoh CASCADE pile WER BLEU temps WER BLEU temps 50 51.82 29.24 40min. 50.26 29.65 <5 min. 100 51.46 29.23 1h. 20min. 50.32 29.62 <5 min. 200 51.15 29.44 2h. 40min. 50.18 29.69 <5 min. 500 50.86 29.51 6h. 15min. 50.11 29.74 <5 min. 1000 50.64 29.54 12h. 15min. 50.04 29.74 <5 min. Table 3: Comparaison de Pharaoh et de GLOSS en fonction du nombre maximum d hypothèses stockées par Pharaoh dans une pile. en L L en Systems L WER BLEU WER BLEU Pharaoh fr 60.29 22.31 56.66 20.78 GLOSS fr 58.18 21.92 54.72 20.51 CASCADE fr 57.80 23.44 54.70 21.38 G-BEAM-5 fr 57.68 22.91 54.44 21.28 G+B5 fr 57.61 23.03 54.43 21.33 G-REV fr 58.12 23.25 54.66 21.37 Pharaoh es 57.07 24.20 51.11 25.17 GLOSS es 53.53 24.19 50.27 25.07 CASCADE es 54.83 25.09 49.77 25.59 G-BEAM-5 es 54.16 24.91 49.74 25.74 G+B5 es 54.11 24.95 49.72 25.69 G-REV es 53.46 26.33 49.80 25.64 Pharaoh de 67.09 11.00 65.62 16.00 GLOSS de 66.15 11.15 60.06 16.83 CASCADE de 65.79 11.49 63.51 16.38 G-BEAM-5 de 66.12 11.24 61.54 16.72 G+B5 de 66.10 11.33 61.53 16.74 G-REV de 65.93 11.40 62.96 16.38 Table 4: Performances des variantes sur test-out. Les données en gars sont significativement meilleures (à 99%) que celles associées à Pharaoh. la première version de Pharaoh (la plus rapide) est supérieure à celle enregistrée par la version la plus longue de Pharaoh (+.5 versus +.3). Moins de 5 minutes ont été nécessaires pour obtenir cette amélioration, contre presque 12 heures dans le second cas. 5 Conclusions Dans cette étude, nous avons développé un algorithme de recherche locale pour un système de traduction statistique basé sur les segments. Nous avons discuté les avantages de notre approche et avons réalisé une série d expériences validant qu elle était une approche viable à la traduction statistique. En particulier, nous avons montré qu une variante de cet algorithme permettait d améliorer les traductions produites par le système à l état de l art Pharaoh. Cette étude jette les bases de plusieurs travaux que nous souhaitons entreprendre. Dans un premier temps, une extension simple consistant à supprimer ou au contraire ajouter un segment cible à l hypothèse courante sera étudiée. Nous pensons qu à elle seule, cette famille d opérations permettra à fegreedy de produire des traductions de qualité égale à celles produites par Pharaoh, dans un temps bien sûr moindre. Notre motivation initiale dans cette étude était d explorer des approches souples à la post-édition de traductions qui peuvent identifier des erreurs systématiques dans les traductions produites par un système donné, à la façon de l apprentissage par transformation (Brill, 1995). Un pas dans cette direction consiste à augmenter le nombre de modèles utilisés actuellement et d en ajuster les contributions via les coefficients leur étant associés. C est cette idée que nous souhaitons développer. Remerciements Cette étude a été financée partiellement par le Conseil National de Recherche en Science et en Génie du Canada. References A. L. Berger, P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, J. R. Gillett, J. D. Lafferty, R. L. Mercer, H. Printz, and L. Ureš. 1994. The Candide system for machine translation. In HLT, pages 157 162, Morristown, NJ, USA. L. Besacier, A. Mahdhaoui, and V-B. Le. 2007. The LIG Arabic/English speech translation system at IWSLT 07. In 4th IWSLT, pages 137 140, Trento, Italy, Oct.

E. Brill. 1995. Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543 565. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, and R. L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263 311. Y. Chen, A. Eisele, C. Federmann, E. Hasler, M. Jellinghaus, and S. Theison. 2007. Multi-engine machine translation with an open-source SMT decoder. In 2nd Workshop on SMT, pages 193 196, Prague, Czech Republic, June. J. M. Crego and J. B. Marino. 2007. Extending MARIE: a N-gram-based smt decoder. In ACL, Demo and Poster Sessions, pages 213 216, Prague. D. Déchelotte, H. Swenk, H. Bonneau-Maynard, A. Allauzen, and G. Adda. 2007. A state-of-the-art statistical machine translation system based on moses. In XIth MT Summit, pages 127 133, Copenhagen, Denmark, Sept. G. Foster, S. Gandrabur, P. Langlais, P. Plamondon, G. Russel, and M. Simard. 2003. Statistical machine translation: Rapid development with limited resources. In MT Summit IX, pages 110 117, New Orleans. I. García and F. Casacuberta. 2001. Search algorithms for statistical machine translation based on dynamic programming and pruning techniques. In 8th MT Summit, pages 115 120, Santiago de Compostela, Spain. U. Germann, M. Jahr, K. Knight, D. Marcu, and K. Yamada. 2001. Fast decoding and optimal decoding for machine translation. In 39th ACL, pages 228 235, Toulouse, France. U. Germann. 2003. Greedy decoding for statistical machine translation in almost linear time. In HLT- NAACL, pages 72 79, Edmonton, Canada. L. Huang and D. Chiang. 2007. Forest rescoring : Faster decoding with integrated language models. In 45th ACL, pages 144 151, Prague, Czech Republic. P. Koehn and C. Monz. 2006. Manual and automatic evaluation of machine translation between European languages. In 1st Workshop on SMT, pages 102 121, New York City, June. P. Koehn, F. Joseph Och, and D. Marcu. 2003. Statistical Phrase-Based Translation. In HLT, pages 127 133. P. Koehn, M. Federico, W. Shen, N. Betoldi, H. Hoang, C. Callison-Burch, B. Cowan, R. Zens, C. Dyer, O. Bojar, C.Moran, A. Constantin, and E. Herbst. 2006. Open source toolkit for statistical machine translation: Factored translation models and confusion network decoding. University summer worskhop, Johns Hopkins University. P. Koehn. 2004. Pharaoh: a Beam Search Decoder for Phrase-Based SMT. In 6th AMTA, pages 115 124, Washington, DC. P. Langlais, A. Patry, and F. Gotti. 2007. A greedy decoder for statistical phrase-based machine translation. In 11th TMI, page 104=113, Skövde, Sweden. D. Marcu. 2001. Towards a unified approach to memory- and statistical-based machine translation. In 39th ACL, pages 378 385, Toulouse, France. R. Moore and C. Quirk. 2007. Faster beam-search decoding for phrasal statistical machine translation. In XIth MT Summit, pages 321 328, Copenhagen, Denmark, Sept. S. Niessen, S. Vogel, H. Ney, and C. Tillmann. 1998. A DP-based search algorithm for statistical machine translation. In 36th ACL and 17th COLING, pages 960 966, Montréal, Canada. M. Olteanu, C. Davis, I. Volosen, and D. Moldovan. 2006. Phramer an open source statistical phrasedbased translator. In 1st Workshop on SMT, pages 150 153, New York, USA. K. Papineni, S. Roukos, T. Ward, and W-J. Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th ACL, pages 311 318, Philadelphia, Pennsylvania. A. Patry, F. Gotti, and P. Langlais. 2006. Mood: A modular object-oriented decoder for statistical machine translation. In 5th LREC, pages 709 714, Genoa, Italy, May. S. Russell and P. Norvig. 1995. Artificial Intelligence. A Modern Approach. Prentice Hall. M. Simard, N. Ueffing, P. Isabelle, and R. Kuhn. 2007. Rule-based translation with statistical phrase-based post-editing. In 2nd Workshop on SMT, pages 203 206, Prague, Czech Republic, June. A. Stolcke. 2002. SRILM - an extensible language modeling toolkit. In ICSLP, Denver, Colorado, Sept. C. Tillmann, S. Vogel, H. Ney, and A. Zubiaga. 1997. A DP-based search using monotone alignments in statistical translation. In 35th ACL, pages 289 296, Madrid, Spain. Y-Y. Wang and A. Waibel. 1997. Decoding algorithm in statistical machine translation. In 35th ACL, pages 366 372, Madrid, Spain. T. Watanabe and E. Sumita. 2003. Example-based decoding for statistical machine translation. In MT Summit IX, pages 410 417, New Orleans, Louisiana. Y. Zhang and S. Vogel. 2004. Measuring confidence intervals for the machine translation evaluation metrics. In 10th TMI, pages 85 94, Baltimore, Maryland, USA.