Méthodes Mixtes pour la Traduction Automatique Statistique

Transcription

1 Laboratoire d informatique de Grenoble Équipe GETALP Université STENDHALGrenoble3 Méthodes Mixtes pour la Traduction Automatique Statistique Mémoire de Master 2 Mention Science du Langage, Spécialité Modélisation et traitements automatique en Industries De la Langue : parole, écrit, apprentissage Orientation Recherche Réalisé par Atef Ben Youssef Soutenu le 01 juillet 2008 Responsable externe Laurent Besacier Hervé Blanchon Responsable interne Georges Antoniadis Membres du jury Olivier Kraif Georges Antoniadis Laurent Besacier Hervé Blanchon

2 /Remerciements Résumé Le domaine du traitement automatique des langues naturelles a connu une révolution majeure ces dernières années dans la traduction automatique et de l autre côté, les besoins en matière de traducteurs automatiques fiables augmentent sans cesse. De ce fait, nous nous sommes intéressés à ce domaine afin de concevoir un traducteur automatique basé sur un modèle statistique. Ce travail présente une amélioration d un système de traduction automatique statistique par des modèles factoriels, c'est-à-dire qu on l entraîne avec des données enrichies par des informations morphosyntaxiques. Pour ce faire, on présente les outils utilisés pour enrichir nos corpus. On propose aussi une approche utilisée pour réaliser un étiqueteur sur le type de corpus oraux (IWSLT). On présente également le modèle de traduction statistique capable de tenir compte de telles informations. On présente finalement des analyses qualitatives et quantitatives des expériences réalisées qui montrent de premiers résultats encourageants. Mot-clé Traduction Automatique Statistique; Modèle de langage ; Modèles de traduction; Etiquetage ; Partie du discours Abstract Machine Translation witnessed a major revolution in the area of natural language processing and the needs for reliable automatic translators increase. Therefore, we were interested to this domain to design an automatic translator based on statistical models. This work presents an improvement of a statistical machine translation with morphsyntactic information. For this reason, we present the tools used to enrich our corpus. We propose an approach to product a POS Tagger. We present also the statistical machine translation able to account for corpus like that of such information. Finally, we present a qualitative and quantitative analyses of the different experiences that show the first encouraging results. Key word Statistical machine translation; language model; translation model; Part of Speech Tagger - 2 -

3 /Remerciements Remerciements J ai une vive dette envers tous ceux qui m ont aidé à rassembler les faits qui constituent l indispensable fondation de ce travail. Je remercie tout particulièrement : Mr. Laurent BESACIER et Mr Hervé BLANCHON, de m avoir accueilli au sein du GETALP (LIG), et d offrir ainsi la possibilité de travailler dans un laboratoire de linguistique informatique de renommée mondiale. Ils ont toujours été disponibles, malgré de nombreuses occupations, pour m aider dans mon travail par leurs précieux conseils qui m ont été d une grande aide au cours de ce mémoire. Qu ils trouvent ici le témoignage de toute mon reconnaissance et mon profond respect. Mr. George ANTONIADIS mon encadreur à l université Stendhal Grenoble3 pour l intérêt qu il m a manifesté. Qu il trouve ici l expression de ma profonde gratitude. Mes enseignants pour la qualité de l enseignement qu ils m ont disposé durant mes études, surtout monsieur Olivier KRAIF qui m a fait l honneur d accepter la tâche d être rapporteur. Mes amis : Ammar Mahdhaoui, Mourad Mars, Mohamed Belgacem, Mohamed Bouallegue pour leur amabilité et leur soutien. Je remercie également mon ami de bureau Najeh Hajlaoui. Par la même occasion, je tiens à remercier infiniment tous les membres de l équipe GETALP qui m ont accueilli de manière très chaleureuse. Enfin, je garde une place toute particulière à mon père Habib qui est toujours à mes cotés, à ma tendre et affectueuse mère Naziha pour tout l amour qu elle me donne, à mes chers frères Jihed, Nizar, Mourad et son épouse Wided et sa petite Wijden, à ma sœur Hanen et à la grande famille BEN YOUSSEF. En exprimant toutes mes reconnaissances pour leurs sacrifices, leurs patiences compréhensives et leurs encouragements au-delà de toutes limites.. Atef - 3 -

4 /Remerciements Table des matières Remerciements Liste de figures... 6 Introduction... 7 Chapitre 1. Etude bibliographique... 8 Introduction Langue arabe Morphologie arabe Structure d un mot Catégories des mots a) Les verbes b) Les noms c) Les adjectifs d) Les particules Problèmes du traitement automatique de l arabe Segmentation des phrases Détection de racine Etude théorique de la Traduction Statistique Modèle de langue (LM) Modèles n-grammes Modèles n-classes Modèles de traduction Notion d alignement Les modèles «IBM» a) Modèle de traduction probabiliste IBM b) Modèle de traduction probabiliste IBM c) Modèle de traduction probabiliste IBM d) Modèles de traduction probabiliste IBM4 et IBM Décodage Tuning: Réglage des paramètres par minimisation du taux d erreur (minimumerror-rate-training) Systèmes fondés sur des séquences de mots : phrase-based approach Conclusion Chapitre 2. Mes contributions Introduction Etiquetage morphosyntaxique (POS Tagger) Etude de l existant TreeTagger a) Description b) Etiquetage c) Evaluation ASVM : Etiqueteur de Columbia University a) Description

5 // Liste de figures b) Etiquetage c) Evaluation Approche utilisé pour construire notre propre étiqueteur arabe Correction manuelle Apprentissage Etiquetage Evaluation de notre étiqueteur Enrichissement de l'information lexicale Ajout des étiquettes (POS) dans le cadre de modèles factoriels Principe d utilisation des étiquettes dans les modèles factoriels Les différentes stratégies testées Conditions expérimentales et outils Bitexte Préparation des données Boite à outil de traduction probabiliste utilisée L alignement automatique (GIZA++) Amélioration avec les étiquettes syntaxiques sous forme factorisée Le décodage (Moses) Modèle Méthodes d'apprentissage pour la traduction de phrase Stratégie de recherche Evaluation (outils de scoring NIST) Expériences et résultats Les étapes de réalisation Nettoyage / Alignement de corpus parallèles anglais / arabe Développement du système état de l art et son amélioration Utiliser les étiquettes syntaxiques sous forme factorisée Résultats Amélioration des sorties du système de traduction : analyse qualitative Amélioration des sorties du système de traduction : analyse quantitative42 Conclusion Chapitre 3. Conclusion Bilan d étude Bilan personnel Bibliographie Annexe

6 // Liste de figures Liste de figures Figure 1 : Le triangle dit «de Vauquois» pour la traduction Figure 2 : Exemple d alignement entre deux phrases Figure 3 : Exemple d alignement autorisé par les modèles IBM-2 à IBM Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation Figure 6 : exemple d un modèle factoriel Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires de phrases Figure 8 : Machine de traduction automatique statistique Arabe/Anglais Figure 9 : bitexte étiqueté aligné par phrase Figure 10 : schéma représente l alignement des mots avec les lemmes et l alignement des catégories Figure 11 : schéma représente l alignement des mots avec les mots et les lemmes et l alignement des catégories Figure 12 : exemples de table de traduction d un modèle classique (non factoriel) Figure 13 : exemples de table de traduction d un modèle factoriel Figure 14 : le score BLEU obtenue sur les différents modèles testés

7 Introduction Introduction Le multilinguisme est au cœur des enjeux actuels concernant les échanges culturels et économiques qui sont désormais mondialisés. Ainsi, les individus sont de plus en plus amenés à évoluer dans des environnements multilingues, comme le montrent certaines tendances récentes du monde et de la société : importance croissante d organisations internationales ou transnationales, augmentation des échanges culturels et des voyages, regain d intérêt pour les langues régionales qui cohabitent désormais avec les langues nationales. Le développement de services et d interfaces adaptés à ce contexte peut donner lieu à de nouveaux problèmes dans le domaine de traduction automatique. En ce qui concerne la communication homme / homme médiatisée par la machine, les recherches en traduction automatique de parole sont centrales. Pour illustrer cela, on peut notamment citer les projets CSTAR 1 et NESPOLE 2 de traduction automatique dans lesquels le laboratoire LIG a été impliqué. Notre volonté est d aller au delà des méthodes purement statistiques utilisées actuellement en reconnaissance automatique de la parole ou en traduction automatique qui, bien qu ayant montré leur efficacité dans le domaine, montrent également leurs limites. Notre travail s intéresse essentiellement aux systèmes probabilistes (Statistical Machine Translation : SMT). La SMT repose essentiellement sur l apprentissage de paramètres de différents modèles à partir d une grande quantité de textes bilingues (corpus d entraînement). Les modèles classiques ne prennent en compte que les mots eux-mêmes. Par contre, les modèles factoriels s intéressent à leur sens et à leur catégorie morphosyntaxique. Pour utiliser ces modèles factoriels, on s intéresse en premier lieu à l étiquetage de chaque mot des phrases source et cible avec la classe morphosyntaxique (POS) des occurrences dans le but d aller vers des systèmes statistiques qui ne se contentent pas de manipuler uniquement des suites de mots mais des mots qui sont de plus en plus riches pour améliorer les résultats de la traduction automatique. Notre travail porte sur le développement d un traducteur de parole automatique statistique de l arabe vers l anglais. Vu la particularité de notre langue source, nous commençons, dans la première partie, par la présentation des caractéristiques morphologiques de la langue arabe avec une étude théorique de la traduction statistique. Dans la deuxième partie, nous nous intéressons à l amélioration du système état de l art en expliquant en premier lieu l existant des étiqueteurs utilisés comme TreeTagger et l étiqueteur de l université de Columbia. Nous décrivons aussi l approche suivie pour construire un étiqueteur arabe pour le type de corpus oraux sur lesquels nous travaillons. En deuxième lieu, nous enrichissons les données avec les POS en expliquant le principe d utilisation de ces derniers dans les modèles factoriels, ainsi que les différentes stratégies testées. Puis, nous présentons les outils «open source» utilisés pour développer notre système de traduction statistique en décrivant les conditions expérimentales et les résultats préliminaires trouvés. Enfin, nous terminons ce travail par une conclusion

8 Etude bibliographique Chapitre 1. Etude bibliographique Introduction Avec la diffusion de la langue arabe sur le Web et la disponibilité des moyens de manipulation de textes arabes, les travaux de recherche ont abordé des aspects plus variés comme la syntaxe, la traduction automatique, l'indexation automatique des documents, la recherche d'information, etc. Au cours de ce chapitre, nous présenterons certaines propriétés morphologiques et syntaxiques de la langue arabe, ainsi que quelques problèmes du traitement automatique de l'arabe. Ensuite, nous exposons une brève étude théorique sur la traduction automatique statistique Langue arabe La langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du traitement automatique de la langue. L'arabe doit sa formidable expansion à partir du 7 ième siècle à la propagation de l'islam et à la diffusion du Coran. Les recherches sur le traitement automatique de l'arabe ont débuté vers les années Les premiers travaux concernaient notamment les lexiques et la morphologie. A la différence des autres langues comme le français ou l anglais, dont les étiquettes grammaticales proviennent d une approche distributionnelle caractérisée par une volonté "d écarter toute considération relative au sens", les étiquettes de l arabe viennent d une approche où le sémantique côtoie le formel lié à la morphologie du mot, sans référence à la position de ce dernier dans la phrase [Débili F., Achour H., Souici E, 2002]. Ce phénomène se manifeste par les notions de schèmes et de fonctions qui occupent une place importante dans la grammaire de l'arabe. Par exemple la forme graphique du mot français ferme est, hors contexte, un substantif, un adjectif, un adverbe ou un verbe. Alors que le mot arabe voyellé غ غ غك est un verbe à la 3 ième personne masculin singulier de l accompli actif, par contre sa forme non voyellée ك admet quatre interprétations grammaticales : Substantif masculin singulier. Verbe à la 3 ième personne masculin singulier de l accompli actif. Verbe à la 3 ième personne masculin singulier de l accompli. Verbe à l impératif 2 ième personne masculin singulier. Les voyelles jouent un rôle proche des accents en français pour un mot comme peche qui peut être interprété comme pêche, pèche et péché. Par contre, en arabe chaque lettre de chaque mot devrait posséder sa voyelle courte ce qui n est en général pas le cas dans les textes écrits que l on rencontre. On constate donc l'étendue du rôle que jouent les voyelles courtes dans les mots arabes, non seulement parce qu'elles enlèvent l'ambiguïté, mais aussi parce qu elles donnent l étiquette grammaticale d'un mot indépendamment de sa position dans la phrase

9 Etude bibliographique Morphologie arabe Le lexique arabe comprend trois catégories de mots : verbes, noms, adjectifs et particules. Les verbes et les noms sont le plus souvent dérivés d une racine trilitère ou quadrilatère. Une famille de mots peut être générée à partir d'un même concept sémantique d une seule racine à l'aide de différents schèmes. Ce phénomène est caractéristique de la morphologie arabe. On dit donc que l arabe est une langue à racines réelles à partir desquelles on déduit le lexique arabe selon des schèmes qui sont des adjonctions de voyelles et des manipulations de la racine. Le tableau suivant donne quelques exemples de schèmes appliqués au mot ح «Hml : porter». On peut ainsi dériver un grand nombre de noms, de formes et de temps verbaux. حمل» «Hml فعل» porter Racine : notion de «غحب» «Hamilon فبع Porteur غح غ غ» Hamala «ف غع a porté غ غ» mahmalon «فع Brancard ح غ» Homila «ف ع غ a été porté Tableau 1 : Schèmes de dérivés du mot حمل «Hml». La majorité des verbes arabes ont une racine composée de 3 consonnes. L'arabe comprend environ 150 schèmes ou patrons dont certains plus complexes, tel le redoublement d'une consonne ou l'allongement d'une voyelle de la racine, l adjonction d'un ou de plusieurs éléments ou la combinaison des deux. Une autre caractéristique est le caractère flexionnel des mots : les terminaisons permettent de distinguer le mode des verbes et la fonction des noms Structure d un mot En arabe un mot peut signifier toute une phrase grâce à sa structure composée qui est une agglutination de «morphes» (racines, préfixes, affixes, suffixes, schèmes). La représentation suivante schématise une structure possible d un mot. Notons que la lecture et l'écriture d'un mot se fait de droite vers la gauche. Post fixe Suffixe Corps schématique Préfixe Antéfixe Les antéfixes sont des prépositions ou des conjonctions. Les préfixes et les suffixes expriment les traits grammaticaux et indiquent les fonctions: cas du nom, mode du verbe et autres catégories d actualisation (nombre, genre, personne, ) Les post fixes sont des pronoms personnels. Exemple: أ غر غز غ غزو ش غ غب» Atatadhakkaronana «Ce mot exprime la phrase en français : "Est ce que vous vous souvenez de nous? La segmentation de ce mot donne les constituants suivants : أ غ "A" غد "ta" ر غ غزو ش "tadhakkar" غ "ona" غب "na" Antéfixe : conjonctionأ d interrogation Préfixe : د préfixe verbal du temps de l inaccompli رفع selon le schème رو ش racine: dérivé de la رزو ش : schématique Corps Suffixe : suffixe verbal exprimant le pluriel Post fixe : ب pronom suffixe complément du nom - 9 -

10 Etude bibliographique Catégories des mots L arabe considère les catégories de mots suivants Le verbe : entité exprimant un sens dépendant du temps, c est un élément fondamental auquel se rattachent directement ou indirectement les divers mots qui constituent l ensemble. Le nom : l élément désignant un être ou un objet qui exprime un sens indépendamment du temps. L adjectif : entité se place toujours après le nom qu il qualifie. Il s accorde en genre et en nombre avec lui ; les règles de formation de féminin et de pluriel des adjectifs sont les mêmes que celles des noms. Les particules : entités qui servent à situer les événements et les objets par rapport au temps et l'espace, et permettent un enchaînement cohérent du texte. a) Les verbes La plupart des mots en arabe, dérivent d'un verbe de trois lettres. Chaque verbe est donc la racine d'une famille de mots. Comme en français, le mot en arabe se déduit de la racine en rajoutant des suffixes ou des préfixes. La conjugaison des verbes dépend de plusieurs facteurs : Exemple: Le temps (accompli, inaccompli). Le nombre du sujet (singulier, duel, pluriel). Le genre du sujet (masculin, féminin). La personne (première, deuxième et troisième) Le mode (actif, passif). (écrire). وزت donne le verbe ک + د + ة Dans tous les mots qui dérivent de cette racine, on trouvera ces trois lettres. La conjugaison des verbes se fait en ajoutant des préfixes et des suffixes, un peu comme en français. La langue arabe dispose de trois temps : L'accompli : il correspond au passé et se distingue par des suffixes (par exemple pour le pluriel féminin on a,وزج elles ont écrit et pour le pluriel masculin on a ilsوزج ا ont écrit. L'inaccompli présent: présente l'action en cours d'accomplissement, ses éléments sont préfixés ىزت il écrit;,رىزت elle écrit. L'inaccompli futur : correspond à une action qui se déroulera au futur et est marqué par س ف ىزت écrira, il س ىزت au verbe س ف ou س l'antéposition de b) Les noms il va écrire. Les substantifs arabes sont de deux catégories, ceux qui sont dérivés de la racine verbale et ceux qui ne le sont pas comme les noms propres et les noms communs. Dans le premier cas, par le fait que le nom est dérivé d'un verbe, celui-ci exprime une certaine sémantique qui pourrait avoir une influence dans la sélection des phrases saillantes d'un texte pour le résumé

11 Etude bibliographique La déclinaison des noms se fait selon les règles suivantes: Le féminin singulier : on ajoute le,ح exemple صغ ش petit devient صغ شح petite,اد Le féminin pluriel : de la même manière, on rajoute pour le pluriel les deux lettres exemple صغ ش petit devient صغ شاد petites Le masculin pluriel : pour le pluriel masculin on rajoute les deux lettres ou en fonction de la position du mot dans la phrase (sujet ou complément d objet), Exemple : ا شاجع revenant devient ا شاجع ou ا شاجع revenants. Le pluriel irrégulier : il suit une diversité de règles complexes et dépend du nom ; exemple : طف un enfant devient أطفبي des enfants. Le phénomène du pluriel irrégulier dans l'arabe pose un défi à la morphologie, non seulement à cause de sa nature non concaténative, mais aussi parce que son analyse dépend fortement de la structure comme pour les verbes irréguliers. Certains dérivés nominaux associent une fonction au nom : Agent (celui qui fait l action), Objet (celui qui a subit l action), Instrument (désignant l instrument de l action), Lieu. Pour les pronoms personnels, le sujet est inclus dans le verbe conjugué. Il n'est donc pas nécessaire (comme c'est le cas en français) de faire précéder le verbe conjugué par son pronom. On distinguera entre singulier, duel (deux) et pluriel (plus de deux) ainsi qu'entre le masculin et le féminin. c) Les adjectifs Un adjectif s'accorde au nom en détermination. Donc si le nom qu'il qualifie est déterminé, il devra être déterminé de la même manière. Exemple : (el-radjul el-yamin, l'homme juste, l'homme qui est juste). Pour qualifier une ا شج ا.عبدي personne de juste, on peut également employer l'adjectif De même pour le féminin, اإل شأح ا خ (el-'imra el-yaminah, la femme juste, la femme qui est juste). De plus, on trouve à côté de l adjectif l'annexion. C est quand un nom est suivi de son complément, on dit que les deux termes sont en annexion. Dans ce cas, deux points sont à observer : 1. Le premier terme ne peut être défini par l'article.اي Il l'est par son complément. 2. Rien ne doit séparer un nom de son complément. Si on doit qualifier le nom, l'adjectif se met après le complément. Exemple : Pour "le grand bateau de la princesse", on dira : شوت األ شح ا ىج ش««markab alamira alkabir

12 Etude bibliographique d) Les particules Ce sont principalement les mots outils comme les conjonctions de coordination et de subordination. Les particules sont classées selon leur sémantique et leur fonction dans la phrase, on en distingue plusieurs types (introduction, explication, conséquence). Elles jouent un rôle important dans l interprétation de la phrase. Elles servent à situer des faits ou des objets par rapport au temps ou au lieu, elles jouent également un rôle clé dans la cohérence et l'enchaînement d'un texte. ثعذ Comme exemple de particules qui désignent un temps, on trouve avant, pendant, un lieu ح ث où, ou de référence ا ز ceux,. Ces particules seront très utiles à deux niveaux : après, لج ز Elles font partie de l'anti-dictionnaire qui regroupe les termes à ne pas prendre en considération lors du calcul de fréquence de distribution des mots, Elles identifient des propositions composant une phrase. Les particules peuvent avoir des préfixes et suffixes ce qui rajoute une complexité quant à leur identification Problèmes du traitement automatique de l arabe Un des aspects complexes de la langue arabe est l'absence fréquente des voyelles courtes dans le texte, ce qui risque de générer une certaine ambiguïté à deux niveaux : Sens du mot Difficulté à identifier sa fonction dans la phrase (différence entre le sujet et le complément, ). Cela peut influencer les fréquences des mots étant donné qu'elles sont calculées après la détection de la racine ou la lemmatisation des mots qui est basée sur la suppression de préfixes et suffixes. Lors du calcul des scores à partir des titres, il peut arriver que des mots soient considérés comme dérivant d'un même concept alors qu'ils ne le sont pas. Dans l'exemple suivant (tableau 2), en utilisant la distribution des mots ou le titre avec ou sans lemmatisation, la phrase 3 aura un score plus important alors que les phrases 1 et 2 semblent plus intéressantes, ce qui n'aurait pas été le cas avec un texte voyellé. Tableau 2 : effet du mot non voyellé العلم sur les extraits. L ambiguïté vient du mot ا ع la science ou drapeau alors que voyellé on aura ا ع pour la science et ا غع pour le drapeau

13 Etude bibliographique Cette ambiguïté pourrait, dans certains cas, être levée soit par une analyse plus profonde ا ع de la phrase ou des statistiques de cooccurrences (par exemple il est plus probable d'avoir nationale). le drapeau national que la science ا ط De plus, la capitalisation n'est pas employée dans l'arabe ce qui rend l'identification des noms propres, des acronymes, et des abréviations encore plus difficiles. Enfin, comme la ponctuation est rarement utilisée, on doit ajouter une phase de segmentation en phrases pour l analyse d'un texte Segmentation des phrases La reconnaissance de la fin de phrase est délicate car la ponctuation n est pas systématique et parfois les particules délimitent les phrases. Pour la segmentation de texte [Ouersighni, 2001] utilise : Une segmentation morphologique basée sur la ponctuation, Une segmentation basée sur la reconnaissance de marqueurs morphosyntaxiques ou.حزى, ى, أي, : comme des particules fonctionnelles Cependant, ces particules peuvent jouer un autre rôle que celui de séparer les phrases Détection de racine Pour détecter la racine d un mot, il faut connaître le schème par lequel il a été dérivé et supprimer les éléments flexionnels (antéfixes, préfixes, suffixes, post fixes) qui ont été ajoutés. Le tableau suivant liste les préfixes et les suffixes. Plusieurs d'entre eux ont été utilisés par [Chen et Gey, 2002] pour la lemmatisation de mots arabes; ils ont été déterminés par un calcul de fréquence sur une collection d'articles arabes de l'agence France Press (AFP). Préfixes ال ف و ث د ثذ اي ثب ا ف سز ز فبي فب ا ز ز ثبي Suffixes ا ح خ ر بد ره ر ا ا ي خ ب ب و ر Tableau 3 : Liste des préfixes et suffixes les plus fréquents L analyse morphologique devra donc séparer et identifier des morphèmes semblables aux mots préfixés comme les conjonctions et ف des prépositions préfixées comme ة et,ي l'article défini,ا des suffixes de pronom possessif. La phase d analyse morphologique détermine un schème possible. Les préfixes et suffixes sont trouvés en enlevant progressivement des préfixes et des suffixes et en essayant de faire correspondre toutes les racines produites par un schème afin de retrouver la racine

14 Etude bibliographique Lorsqu un mot peut être dérivé de plusieurs racines différentes, la détection de la racine est encore plus difficile, en particulier en absence de voyelles. Par exemple, pour le mot arabe ا ب les préfixes possibles sont : " ", "ا" et " "ا et les suffixes possibles sont : " " et " "ا sans compter que ce mot peut aussi représenter un nom.إ ب propre Stem Préfixe Schème Suffixe Racine signification Croyance ا Ø ف عبي Ø إ ب Ø convenant فعبي ا ب Va-t-il approvisionner ب Ø فع أي ب Deux veuves ا Ø فع Ø ا إيمان Tableau 4 : Les radicaux possibles pour le mot Certains verbes sont considérés comme irréguliers, ce sont ceux qui portent des ي, ا, consonnes particulières dites faibles ( ). Ils sont appelés ainsi parce que, lors de leur déclinaison, chacune de ces lettres est soit conservée, soit remplacée ou éliminée. Le Tableau 4 donne un exemple de dérivation du mot لبي dire. Caractère ««ا est remplacé par لبي dire ا لبي Il a dit م ي Il dit ي ل Il a été dit Ø ل dis Tableau 5 : Exemple de déclinaison du verbe irrégulier قال dire Une difficulté en traitement automatique de l arabe est l agglutination par laquelle les composantes du mot sont liées les unes aux autres. Cela complique la tâche de l analyse morphosyntaxique pour identifier les vrais composants du mot. Par exemple, le mot أ غ غ ('alamuhurn leur douleur) dans sa forme voyellée n'accepte qu une seule segmentation + أ غ غ ('alamu+hum). Dans sa forme non voyellée ا ('lmhm), le même mot accepte par contre les trois segmentations suivantes : ramassés) ('+lmm+hm les a-t-il ا + + souffrir) ('lm+hm leur douleur llm+hm il les a fait ا + l'important) ('l+mhm اي + L'amplification de l ambiguïté de segmentation s opère selon deux façons :

15 Etude bibliographique Il y a plus d unités ambiguës dans un texte non voyellé que dans son correspondant voyellé. Les unités ambiguës acceptent plus de segmentations dans le texte non voyellé. De plus, le fait de faire précéder la lemmatisation par la troncature des préfixes avant les suffixes (et réciproquement) peut influencer les résultats. En considérant ce qui précède, sur un texte où la notion de douleur est importante, le fait d'ajouter un suffixe aux mots exprime toute une autre notion, comme par exemple l ajout de suffixe «ا» à أ leur douleur pour le pluriel rend le mot أ ب leur douleur pour le duel. Grâce à une structure composée qui est une agglutination d éléments de la grammaire, un mot en arabe peut encapsuler la signification de toute une phrase. La richesse de la morphologie de la langue arabe pose le problème des ambiguïtés aux différents niveaux de TALN. En abordant ce problème au niveau morphosyntaxique, la différenciation des appartenances grammaticales des mots est nécessaire. Un autre point important est que, pour deux corpus de taille donnée en arabe et en anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces deux corpus, sera beaucoup plus importante pour l anglais que pour le français, en raison de la riche morphologie de l arabe. Cela a une implication importante pour la modélisation statistique du langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque d être trop importante pour estimer des statistiques robustes, si la quantité de données disponible pour l apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une solution à ce problème Etude théorique de la Traduction Statistique Le nombre d approches en traduction automatique s est multiplié dans les dernières années. Il existe entre autres la traduction par les règles, la traduction statistique et la traduction guidée par l exemple. Un système de traduction automatique a pour fonction de traduire un texte S dans une langue source en un texte T dans une langue cible. Le triangle présenté à la figure 1 est attribué à Vauquois [1968]. Il présente de manière synthétique une analyse du processus de traduction encore pleinement pertinente et employée de nos jours. Figure 1 : Le triangle dit «de Vauquois» pour la traduction

16 Etude bibliographique Au premier niveau (le plus bas), on trouve la traduction directe comme première génération, elle se base sur des équivalences de termes, traduit mot à mot à partir de la consultation d'un dictionnaire. Les systèmes de première génération ne font aucune analyse. La deuxième génération de traduction correspond au second niveau, une analyse syntaxique de la phrase source simplifie le transfert vers la langue cible. Au niveau sémantique, avec une analyse plus approfondie de la phrase source, le transfert devient uniquement sémantique et plus simple. En revanche, la génération des mots après le transfert est plus complexe qu au niveau inférieur. Enfin, une analyse totale de la phrase source peut aboutir à une représentation de son sens dans une «inter-langue» artificielle, de laquelle on dérive ensuite les mots cible. La traduction automatique à base d exemples («Example-Based Machine Translation» ou EBMT) repose sur un ensemble «d exemples» préalablement traduits : un corpus parallèle de phrases traductions l une de l autre. [Nagao, 1984] est considéré être à l origine de la traduction automatique à base d exemples, et [Somers, 1999] présente un tour d horizon approfondi de cette approche. Lorsqu on lui présente une phrase à traduire, le système parcourt sa base d exemples et produit trivialement une traduction si la phrase s y trouve. Dans le cas général, la phrase n apparaît pas dans la base et le système s emploie alors à rassembler des exemples qui contiennent des fragments communs (des groupes de mots) avec la phrase à traduire. Pour chaque fragment d exemple dans la langue source, il s agit ensuite de retrouver sa traduction dans la langue cible : c est la phase d alignement. Enfin, la phase de génération assemble les fragments dans la langue cible et produit la traduction. À chacune des trois étapes, il est possible d utiliser des sources externes de connaissances, telles que des lexiques bilingues, des listes de synonymes, des étiquettes ou des arbres syntaxiques, etc. [Nakazawa et al., 2006] est un exemple de développement récent dans le domaine, et emploie entre autres un lexique bilingue et un analyseur morphologique pour déterminer les structures de dépendance dans les phrases anglaises et japonaises. La traduction automatique par méthodes statistiques («Statistical Machine Translation» ou SMT) se base sur la théorie mathématique de distribution et d estimation probabiliste développée par Frederick Jelinek au IBM T.J. Watson Research Center et en particulier, sur un article de [Brown et al., 1990], [Carl, 2003]. Les systèmes statistiques apprennent un modèle probabiliste de traduction P(t/s) à partir d un texte bilingue et un modèle probabiliste de la langue cible P(t) à partir d un texte monolingue. En général, la qualité des traductions générées par un tel système croît avec la quantité des données sur lesquelles les paramètres du système sont estimés. Par opposition à l approche traditionnelle de «système expert», l approche statistique de la traduction automatique est capable de s améliorer avec des nouvelles données d entraînement. Typiquement, la traduction statistique génère la phrase cible à partir des traductions des fragments (chunkes). La «meilleure» traduction est déterminée dans la traduction automatique statistique par les probabilités P(s t) et P(t) qui sont générées indépendamment l une de l autre et représentent le modèle de traduction et le modèle de langue. En pratique, les deux modèles, de langue et de traduction, sont représentées par des ensembles de tables contenant les valeurs de probabilité de certains paramètres. Dans cette étude, nous adoptons une approche statistique utilisant deux corpus parallèles où l un des textes est la traduction de l autre, souvent appelé bi-textes

17 Etude bibliographique L approche probabiliste Il pourrait paraître surprenant au premier abord de vouloir traiter un processus linguistique comme la traduction par des méthodes statistiques. Toutefois, la traduction d un texte nécessite la prise de décisions : choisir un mot, une locution ou tournure de phrase en prenant en considération de dépendances souvent difficiles à quantifier. L approche probabiliste rend compte de ces dépendances floues et est en mesure de les combiner de façon multiplicative ou additive. En outre, le traitement statistique permet de garantir que pour toute phrase source, une phrase traduite sera générée, même si la syntaxe de cette phrase n est pas correcte. On peut résumer la traduction statistique comme la combinaison d une modélisation linguistique et d une prise de décision statistique. Parmi les caractéristiques de la traduction automatique, notons la nécessité de disposer de grandes quantités de textes bilingues alignés nécessaires pour l entraînement, le décodage et le réordonnancement des hypothèses de traduction. Relation de Bayes : La traduction statistique se définit par la recherche du document cible ayant la plus grande probabilité d être la traduction d un document source. En appliquant le théorème de Bayes sur les paires des textes (s, t) où le texte t de la langue cible est la traduction du texte s de la langue source, on obtient pour chacune des paires une probabilité Pr(t s) que la machine produise le mot t comme traduction du mot s : Équation 1-1 Pr t s = Pr s t Pr t Pr s Puisque Pr(t) est indépendant de s, en utilisant seulement le produit Pr(s t) Pr(s) on arrive à l équation fondamentale en traduction automatique : Équation 1-2 t = argmax e Pr t s = argmax e Pr s t Pr t Dans cette équation, argmax e représente l'algorithme de recherche de la traduction optimale, Pr(t) le modèle de langage et Pr(s t) le modèle de traduction. Modèle log-linéaire En pratique, il est souvent bénéfique de pondérer les différentes sources d information que sont le modèle de langage Pr(t) et le modèle de traduction Pr(s t). La quantité à maximiser devient ainsi : Équation 1-3 argmax e Pr t s = argmax e Pr t Pr s t (1 ) avec un α [0, 1] à choisir judicieusement. En outre, si le modèle de traduction Pr(t s) est le produit de plusieurs composantes, cellesci peuvent être pondérées de la même façon. L expression maximisée par le traducteur peut alors s écrire sous la forme suivante :

18 Etude bibliographique Équation 1-4 argmax e Pr t s = argmax e Pr t α Pr s t 1 α Équation 1-5 = argmax e λ i log h i s, t L équation I-2 pourrait sembler contraignante : le principe «source/canal de transmission» justifiait chacun des deux termes et n en autorisait a priori aucun autre. Avec l équation I-5, il s agit maintenant de caractériser le processus de traduction au moyen d une combinaison log-linéaire de fonctions caractéristiques h i (t, s). Toute fonction aidant à produire une traduction correcte peut être incluse, sans autre justification théorique. Les fonctions caractéristiques usuelles peuvent inclure un ou plusieurs modèles de langage h(t, s) = Pr(t) et tout modèle de traduction h(t, s) = max A Pr(s, A t) (l alignement A faisant partie des variables internes maintenues par le traducteur). Un système de traduction compte en général entre cinq et une douzaine de ces fonctions caractéristiques Modèle de langue (LM) La modélisation du langage revient à trouver le mot le plus probable sachant ceux qui le précèdent. Cette tâche est réalisée lors de la phase d'entraînement (ou d'apprentissage) sur des corpus de la langue cible. On suppose que la phrase S est représentée par une séquence de mots m 1, m 2,..., m n. La probabilité de l'avoir est donnée par l'équation suivante : Équation 1-6 P S = m 1, m 2,..., m n = P( m 1 ) x P( m 2 m 1 ) x... x P( m n m 1, m 2,..., m n 1 ) Pour le calcul des probabilités, il y a différentes méthodes. Ces probabilités sont estimées sur des corpus d'apprentissage de grande taille. Il existe de nombreuses variantes, qui utilisent différentes informations, depuis le simple graphème (pour certaines langues) jusqu'à des classes ou des séquences de mots Modèles n-grammes Il semble impossible d'avoir un corpus grand, qui représente toute les cooccurrences possibles et tout le vocabulaire d'un certain langage. Pour résoudre ce problème, on calcule les probabilités en fonction d'un historique de taille réduit appelé le modèle n-gramme. Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. À partir d'une séquence de mots donnée il est possible d'obtenir la fonction de vraisemblance de l'apparition du mot suivant. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour le prochain mot avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction du mot suivant. Ainsi un bi-gramme est un modèle de Markov d'ordre 2. i

19 Etude bibliographique Ce type de modèle de langage est souvent utilisé sous sa forme 3-gramme qui ne compte que 2 mots comme historique. Le calcul de la probabilité d apparition du mot m sachant les n mots qui le précèdent (historique h) en utilisant une fonction N qui, pour une séquence de mots, donne le nombre de fois où cette séquence a pu être observée dans le corpus d apprentissage, s exprime sous la forme suivante : Équation 1-7 P m h = N h, m N h Il existe beaucoup de variantes du modèle n-grammes, qui ne prennent pas en compte les n mots strictement précédents mais qui sautent certains mots pour ne pas prendre en compte un adverbe par exemple en français Modèles n-classes Le modèle n-classes est fondé sur le même principe que celui des modèles n-grammes sauf qu au lieu de traiter les mots, cette technique traite les classes des mots. Ceci apparaît très efficace dans certains cas surtout lorsque le mot interrogé n existe pas dans le corpus d apprentissage mais sa classe d appartenance existe, ce qui élimine les probabilités nulles. Une telle approche est aussi efficace du point de vue de la mise à jour du modèle puisqu'on peut ajouter un mot au vocabulaire sans devoir ré-estimer la probabilité, si la classe existe déjà (on affecte au mot directement la probabilité de sa classe d appartenance). Dans ce modèle on aura une classe de mots en fonction des n-1 classes qui le précèdent au lieu d'un mot en fonction des n-1 mots le précédant. L'équation du modèle trigramme (3- grammes) se transforme, pour un modèle tri-classe (3-classes) : Équation 1-8 P C i C i 2 C i 1 = N C i 2, C i 1, C i N C i 2, C i 1 On peut considérer les mots au sein d 'une même classe comme équiprobables ou non. Si on souhaite estimer la probabilité d un mot au sein d une classe, on peut le faire, en utilisant la fonction C(m) qui pour un mot m renvoie sa classe, de la façon suivante : Équation 1-9 P m C m = N m N C m Avec C(m) : la fonction qui pour un mot m renvoie sa classe. La probabilité d'un mot au sein d'une séquence est alors obtenue par la formule : Équation 1-10 P m h = P m C m x P C m h(c m ) Il existe plusieurs variantes du modèle n-classes qui visent surtout à résoudre le problème d appartenance d un mot à une certaine classe

20 Etude bibliographique Modèles de traduction Le modèle de traduction donne la probabilité qu un mot ou un groupe de mots dans la langue source soient traduits par un autre dans la langue cible. Nous nous intéressons ici au problème de calcul de P(t/s), la probabilité d'une phrase cible t = t 1... t J étant donnée une phrase de la langue source s = s 0... s I. On appelle la méthode qui permet de calculer cette distribution «un modèle de traduction» Notion d alignement L alignement décrit la correspondance entre les mots d une phrase de la langue source et les mots de la phrase de la langue cible qui est sa traduction possible. La plupart des modèles statistiques existant l utilisent. La figure 2 montre un exemple d un tel alignement. Les alignements de groupes de mots à d autres groupes de mots sont a priori autorisés, de même que l alignement à un mot spécial appelé NULL utilisé lorsqu un ou plusieurs mots d une phrase n ont pas de correspondance dans l autre phrase (formellement, il y a un mot NULL dans chacune des langues). Je ne le pense pas, vraiment Les modèles «IBM» I do not think so NULL Figure 2 : Exemple d alignement entre deux phrases [Brown et al., 1993] ont défini cinq modèles statistiques de traduction de complexité croissante et proposé un algorithme pour leur apprentissage. Il s agit de modèles à base de mots, c est-à-dire que l unité de traduction qui apparaît dans les lois de probabilité est le mot. Nous tentons de faire une synthèse dans les paragraphes suivants de ces cinq différents modèles de traduction. a) Modèle de traduction probabiliste IBM1 Le modèle «IBM-1» est une exception : c est le seul modèle à ne pas aligner les mots source aux mots cible. Plus exactement, il considère que tous les mots source peuvent être alignés à tous les mots cible avec la même probabilité. Le modèle IBM-1 repose sur une seule loi de probabilité, une loi lexicale notée T(t s). La seule raison d être de ce modèle est de permettre l entraînement des modèles suivants. b) Modèle de traduction probabiliste IBM2 Ce modèle et les suivants imposent des restrictions sur l alignement A entre les mots des phrases source et cible. Au lieu d être aussi général qu à la figure 2, il doit être de la forme A = a 1... a J, où, pour tout j de l intervalle [1, J], a j est inclus dans l intervalle [0, I]. a j = i > 0 signifie que le mot cible t j est aligné à s i, tandis que a j = 0 signifie que t j n est pas aligné, ou est aligné au mot NULL. Ainsi, un alignement de cette forme autorise l alignement de plusieurs t j à un seul s i, mais pas l inverse : un mot cible t j est aligné à 0 ou 1 mot source. Le modèle IBM-2 et les

21 Etude bibliographique suivants sont donc asymétriques. La figure 3 présente un exemple d alignement respectant les contraintes ci-dessus. Notons qu il est acceptable qu un s i n ait généré aucun t j. En plus de la loi de traduction lexicale T(t s), le modèle IBM-2 dispose d une loi d alignement ou de distorsion de la forme p(a j j). c) Modèle de traduction probabiliste IBM3 Ce modèle de traduction intègre en plus une loi de fertilité, de la forme N(ф e). Pour chaque position source i de l intervalle [1, I], ф i est le nombre de mots cible alignés à s i, soit ф i = Card {j a j = i}. Le modèle IBM-3 considère que les mots cible t alignés à aucun mot source apparaissent spontanément entre les autres mots cible. Le modèle définit ainsi une probabilité p 1 = 1 p 0 de génération spontanée d un mot cible aligné à s 0 après toute génération de mot cible aligné à un mot source. La loi T(t s 0 ) détermine alors quel mot cible sera généré. Ces mots «spontanés» ne portent pas de sens ; en pratique, ils sont insérés de façon à respecter la grammaire de la langue cible. d) Modèles de traduction probabiliste IBM4 et IBM5 Dans les modèles 3,4 et 5 de IBM, on développe la phrase cible par étape. Tout d abord pour chaque mot dans la phrase source (s), on regarde le nombre de mots dans la phrase cible (t) qui lui correspond, puis on essaye de définir la structure de ces mots, enfin, après avoir connecté les mots dans les deux phrases on cherche les bonnes positions des mots dans la phrase cible, c est le travail de l algorithme de réordonnancement. Dans la phase de réordonnancement, on définit réellement les connexions entre les mots. Ces trois derniers modèles diffèrent dans la façon de connecter les mots. Pour le modèle 3, comme dans le modèle 2, la probabilité de connexion Pr(t/s) dépend des positions des mots et de la longueur des deux phrases source et cible. Par contre, dans le modèle 4, la probabilité de connexion dépend des structures (généralement structure syntaxique) des mots liés et aussi des positions des autres mots cibles connectés avec le même mot source. Malgré toute cette précision, les modèles 3 et 4 ont des limites, le modèle 5 reste toujours le plus utilisé. Les modèles 1-4 peuvent être des moyens d initialisation pour le modèle 5. Langue source : s 0 s 1 s i s I Langue cible : t 1 t 2 t j t J Figure 3 : Exemple d alignement autorisé par les modèles IBM-2 à IBM Décodage Le décodage en SMT comprend la recherche des hypothèses t ayant les plus grandes probabilités pour être considérées comme étant les traductions de la phrase source en question, suivant le modèle de traduction P(t/s). Le modèle de traduction est une combinaison log-linéaire de quatre principaux composants : un ou plusieurs modèles trigramme de la langue cible, un ou plusieurs modèles de traduction basés sur les groupes de mots, un modèle de distorsion qui rend compte des différences dans l ordre des mots en langues source et cible, et un modèle de longueur qui rend compte des différences de longueur entre les deux langues

22 Etude bibliographique Le modèle trigramme de langue a été implanté en utilisant le programme SRILM [Stolcke, 2002]. Le modèle de traduction basé sur les groupes de mots utilise les modèles symétriques IBM. Les modèles de distorsion et ceux de longueur sont similaires à ceux de [Koehn, 2004]. Pour établir les poids des composants dans le modèle log-linéaire, l implémentation de l algorithme de [Och, 2003] implique essentiellement la génération des N meilleures hypothèses de traduction dans un processus itératif, représentant l espace entier de recherche pour un ensemble donné de phrases sources du corpus de développement. Une variante de l algorithme de Powell est utilisée pour trouver les poids qui optimisent le score BLEU sur ces hypothèses, comparés aux traductions de référence du corpus de développement. Ces opérations de décodage sont accomplies par le décodeur Moses, qui implémente un algorithme de recherche en faisceau en programmation dynamique (dynamic-programming beam search algorithm), comme l algorithme décrit par [Koehn, 2004] avec quelques extensions comme la capacité de décoder vers l avant et/ou vers l arrière Tuning: Réglage des paramètres par minimisation du taux d erreur (minimumerror-rate-training) Le décodage nous permet d insérer un poids à chacun des modèles pour permettre l utilisation astucieuse de ceux-ci et ainsi générer la meilleure traduction possible. Le tunning consiste alors à tester toutes les combinaisons de poids permettant d obtenir les meilleures traductions possibles avec nos modèles. Cette étape se fait sur un fichier tune qui est disjoint du corpus d entraînement et du fichier test. Une fois que les meilleurs poids sont trouvés, ils seront utilisés pour toutes les traductions. L outil MERT (pour Minimum Error Rate Training, entraînement minimisant le taux d erreur) est distribué au sein de la boîte à outils Moses. Il met en oeuvre l optimisation de la façon suivante. MERT lance le décodeur Moses avec un premier jeu de λ i et récupère ses n meilleures hypothèses. MERT détermine alors un autre jeu de λ i, qui permette de maximiser Bleu. Il est à noter que pour ce faire, MERT connaît la forme particulière de la fonction donnant le score Bleu en fonction des λ i : c est une fonction constante par morceaux, du fait du caractère discret des listes de n-meilleures hypothèses [Och, 2003, Papineni, 1999]. Si les nouveaux λ i sont différents des anciens, MERT relance Moses. Une douzaine de lancements de Moses est en général nécessaire pour atteindre la stabilisation. Par ailleurs, les différents optimums obtenus au cours du développement du système sont conservés et comparés, car il arrive que MERT s égare dans un maximum local Systèmes fondés sur des séquences de mots : phrase-based approach Nombreux sont les systèmes de traduction automatique statistique d aujourd hui qui dépendent de modèles «fondés sur des séquences de mots». Un système fondé sur des séquences de mots comprend généralement un ou plusieurs modèles de traduction de séquences de mots et un ou plusieurs modèles linguistiques à n-grammes. Bien qu un système de ce type comporte normalement d autres éléments (par exemple, un modèle de réordonnancement), ce sont les modèles de traduction et les modèles de langage qui occupent le plus de mémoire système. Les diverses composantes sont habituellement combinées de façon log-linéaire. En

23 Etude bibliographique règle générale, il est souhaitable d entraîner les deux modèles de traduction et celui de langage au moyen de la plus grande quantité de données possible, même s ils risquent d occuper ensuite plusieurs giga-octets de mémoire. Comme leur nom l indique, l unité de traduction de ces modèles est le groupe de mots (phrase en anglais). Un groupe de mots peut compter un ou plusieurs mots. Les groupes de mots sont symbolisés avec un tilde : par exemple, ŝ = s i,, s i+l 1 regroupe l mots, avec l 1. Nous décrivons ici les principes communs à tous les systèmes de traduction par séquences de mots. Phrase source : Je ne le pense pas s1 s2 s3 s4 Phrase cible : t1 t2 t3 t4 I do not think so Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles Le processus de traduction est illustré à la figure 4. La phrase source s est d abord segmentée en K groupes de mots : s = ŝ 1... ŝ K. Chaque groupe de mots source ŝ K est ensuite traduit en un groupe de mots cible K. Ces groupes de mots sont éventuellement réordonnés selon une permutation p( ) de [1, K] puis sont simplement accolés pour constituer la phrase cible finale t = t p t 1 p. Utiliser des groupes de mots comme unité de traduction permet d aligner n K mots source à m mots cible et d éviter les alignements parfois peu satisfaisants qu imposaient les modèles à base de mots. Dans l exemple de la figure 4, ne pas est aligné à do not. Par ailleurs, un autre alignement valide pour cette paire de phrases pourrait aligner les quatre mots ne le pense pas à do not think so et éviter ainsi tout réordonnement. Ceci est une propriété importante des modèles par séquences de mots : ils sont en mesure de traduire directement, par exemple, des groupes nominaux ou des ensembles nom+adjectif observés sur l ensemble d apprentissage et ainsi parvenir à préserver certaines contraintes locales sur l ordre des mots. Nous allons utiliser ce type de modèle pour notre étude. Nous pensons qu elle nous apporte plus d avantages que le simple modèle de mots. Nous utilisons pour créer ces modèles une ressource disponible gratuitement qui est GIZA++ [Och & Ney, 2000] ainsi qu une série de scripts disponibles sur le web 3. Ce programme va nous permettre de créer automatiquement notre modèle. Les modèles sont appris sur un bitexte d entraînement constitué bien sûr de la langue source et de la langue cible. Les alignements automatiques obtenus par les modèles IBM, dans les deux sens de traduction (source-cible et cible-source) sont ensuite fusionnés pour construire la table de traduction (phrase table). 3 voir

24 Etude bibliographique Conclusion Dans cette partie, nous avons commencé par présenter notre langue source (la langue arabe) et ses problèmes au niveau de son traitement automatique. Grâce à une structure composée qui est une agglutination d éléments de la grammaire, un mot en arabe peut encapsuler la signification de toute une phrase. La richesse de la morphologie de cette langue pose le problème des ambiguïtés aux différents niveaux de TALN. En abordant ce problème au niveau morphosyntaxique, la différenciation des appartenances grammaticales des mots est nécessaire. Un autre point important est que, pour deux corpus de taille donnée en arabe et en anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces deux corpus, sera beaucoup plus importante pour l arabe que pour l anglais, en raison de la riche morphologie de l arabe. Ceci a une implication importante pour la modélisation statistique du langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque d être trop importante pour estimer des statistiques robustes, si la quantité de données disponible pour l apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une solution à ce problème dans nos travaux. Ensuite, nous avons présenté la traduction automatique en nous intéressant à la traduction statistique et en présentant les principaux concepts comme les modèles de langage, modèles de traduction proposés par IBM et les systèmes fondés sur des séquences de mots. Ces modèles seront adoptés pour toutes nos expérimentations

25 Mes contributions Chapitre 2. Mes contributions Introduction Nous avons abordé dans le chapitre précédent une étude bibliographique en présentant la langue source de notre système de traduction automatique ainsi que les différents composants d un système de traduction automatique statistique. Dans ce chapitre, nous allons mettre en œuvre et expérimenter un système de traduction automatique qui manipule des données enrichies avec des informations morphosyntaxiques pour la traduction arabe / anglais et proposer quelques solutions originales en vue de l amélioration du système de référence. Tous les travaux expérimentaux ont été réalisés sur un serveur de calcul de l équipe GETALP dans l environnement LINUX Etiquetage morphosyntaxique (POS Tagger) Un tel outil (POS Tagger), consiste à donner une étiquette morphosyntaxique à un mot. Cette étiquette représente la catégorie du mot, ce sera par exemple NN pour nom, PP pour préposition. Ces étiquettes seront plus ou moins précises selon l étiqueteur. En effet, certains pourront contenir une centaine d étiquettes alors que d autres n en n auront qu une dizaine. Nous retrouvons tout de même une similarité entre les étiqueteurs les plus utilisés ce qui permet une meilleure comparaison. Les étiqueteurs sont utilisés dans plusieurs applications liées au langage comme la recherche d informations. Ils permettent d avoir une information syntaxique qui peut être utile dans le traitement d une phrase. Dans notre cas, un tel étiqueteur peut être considéré comme une aide à la désambiguïsation, en effet, il nous permet d avoir une information supplémentaire dans le choix d un sens. Par exemple, le mot livre peut être un nom commun dans "Paul pose le livre sur la table", un verbe dans "Paul livre la pizza", donc si nous pouvons savoir la catégorie du mot nous pouvons savoir partiellement son sens. Cette information n est bien sûr utile pour la désambiguïsation que s il n y a qu un sens par étiquette POS. Plusieurs méthodes sont proposées pour annoter automatiquement les mots par des étiquettes morphosyntaxiques. Plusieurs outils sont fondés sur des systèmes à base de règles [Greene and Rubin, 1971], [Brill, 1992]. D autres implémentent des méthodes probabilistes [Bahl and Mercer, 1976], [Schmid, 1994], [Church, 1988], [Cutting et al., 1992], [DeRose, 1988], [Kempe, 1993]. Les réseaux de neurones ont aussi été testés dans l étiquetage POS [Frederici and Pirrelli, 1994] Etude de l existant Dans notre étude nous nous sommes intéressés à deux étiqueteurs (POS Tagger) pour enrichir nos corpus : TreeTagger [Schmid, 1994] pour l anglais et ASVM l étiqueteur fourni par l université de Columbia pour l arabe. Ces derniers utilisent une méthode probabiliste. Nous avons donc évalué ces deux ressources avant de réaliser notre étude

26 Mes contributions TreeTagger a) Description TreeTagger 4 est un outil gratuit développé par Helmut Schmidt, à l'université de Stuttgart permettant de réaliser un étiquetage syntaxique de textes rédigés en anglais, allemand, italien, français, et néerlandais. La version anglaise a été entraînée sur le corpus PENN treebank 5. Après une segmentation du texte, TreeTagger assigne l étiquette syntaxique et le lemme pour chaque mot en utilisant des arbres de décision pour estimer les probabilités trigramme de transition. TreeTagger a beaucoup de points communs avec les étiqueteurs conventionnels n-gram [Church, 1988], [Kempe, 1993]. Le choix se fait à partir des probabilités, plus exactement en maximisant la probabilité que l étiquette tag apparaisse à la position i sachant un historique. Pour faire cela, il utilise la formule suivante : Équation 2-1 La spécificité de cette méthode se trouve dans le calcul de la probabilité de transition P(t n /t n-1 ), qui n est autre que la probabilité d une étiquette par rapport aux étiquettes précédentes. En effet dans cette méthode, cette probabilité est calculée à partir d un arbre de décision binaire [Quinlan, 1986]. Cet arbre est construit récursivement à partir d un ensemble de trigrammes connus (suites de trois étiquettes grammaticales consécutives constituant l ensemble d apprentissage). Nous retrouvons dans le paragraphe suivant un exemple de phrase étiquetée par TreeTagger. b) Etiquetage TreeTagger utilise 36 étiquettes (tagset) pour l anglais suivant Penn Treebank qui sont :

27 Mes contributions Pour un texte anglais segmenté, TreeTagger donne une liste de tous les mots avec leurs catégories et leurs lemmes, l une est au dessous de l autre, comme l indique l exemple d étiquetage suivant: L entrée : It's just down the hall. I'll bring you some now. If there is anything else you need, just let me know. La sortie : It PP it 's VBZ be just RB just down RB down the DT the hall NN hall. SENT. I PP I 'll MD will bring VV bring you PP you some DT some now RB now. SENT. If IN if there EX there is VBZ be anything NN anything else RB else you PP you need VVP need,,, just RB just let VV let me PP me know VV know. SENT. c) Evaluation D après [Schmid, 1994], l étiqueteur TreeTagger a été testé sur des données du corpus Penn-Treebank. Environs 2 millions de mots ont été utilisés pour l'apprentissage et mots d'une autre partie du corpus Penn-Treebank pour le test. Les résultats de ce test donnent un taux d étiquettes correctes de 97.53% ce qui est acceptable ASVM : Etiqueteur de Columbia University a) Description L'outil d'étiquetage grammatical utilisé pour l'arabe est ASVM 6 (nommé aussi SVM ou SVM-POS) un logiciel libre, développé en Perl par l'équipe de Mona Diab 7 à la Leland Stanford Junior University en Il s'agit d'une adaptation à l'arabe du système anglais YamCha 8 basé sur les séparteurs à vast marge (ou Support Vector Machines en anglais, SVM). Les données probabilistes ont été acquises pendant une phase d'entrainement sur un corpus annoté nommé Arabic TreeBank. ASVM n'est pas qu'un étiqueteur. Il peut aussi produire une analyse syntaxique partielle du texte. Pour obtenir une sortie le plus possible semblable à celles des étiquetages des autres langues, nous n'utilisons pas le module d'analyse syntaxique. Les modules à lancer sont donc les suivants:

28 Mes contributions TOKrun.pl pour la tokenisation LEMrun.pl pour la normalisation des mots féminins uniquement (ce n'est pas une vraie lemmatisation) POSrun.pl pour l'étiquetage. Le patron morphosyntaxique extrait en arabe est le même qu'en français: Nom-Adj, ce qui correspond, dans la sortie de l'étiqueteur ASVM, aux étiquettes NN-JJ. NN pour nom, JJ pour adjectif. Il n'y a pas d'inversion par rapport au français. b) Etiquetage Le texte à analyser doit être translitéré avec le codage nommé Buckwalter, qui est une table de correspondance biunivoque entre les caractères arabes et l'ascii. Voici un exemple de translitération suivant Buckwalter : زست ا ى ا جشي سب ذ س ث ي سو خ جزاء ص خ اثش عشل خ سىى داخ ا طمخ لج ا سب ذس سزب. wlm yhtsb AlHkm Almjry sandwr bwl rklp jza' SHyHp Avr Erqlp hysky daxl AlmnTqp mn qbl AlysAndrw nsta. Dans le fichier de sortie, on retrouve une phrase par ligne, chaque mot étant suivi d'un slash et de sa catégorie. w/cc lm/rp yhtsb/vbp Al/DT Hkm/NN Al/DT mjry/jj sandwr/nnp bwl/nnp rklp/nn jza'/nn SHyHp/JJ Avr/IN Erqlp/NN hysky/nnp daxl/in Al/DT mntqp/nn mn/in qbl/nn Al/DT ysandrw/nnp nsta/nn./punc Les mots clitiques s'écrivant attachés à leur hôte - comme les conjonctions de coordination "ف" (fa-) et " " (wa-), la préposition "ة" (bi-) etc. - sont étiquetés indépendamment, ce qui simplifie l'extraction de patrons. Par contre l'article "اي" est toujours attaché au mot qu'il détermine. Et ce qui complique encore la tâche est que les mots ne sont pas lemmatisés. Sachant que la formation du pluriel affecte la structure interne de la plupart des noms et des adjectifs arabes et ceci de façon difficilement prédictible, la lemmatisation ne pourra pas être effectuée par des simples expressions régulières. c) Evaluation Le TreeBank arabe se compose de 4519 phrases. L'ensemble de développement, d'apprentissage et de test sont les mêmes pour toutes les expériences reportées dans [Diab, Hacioglu et Jurafsky, 2004]. Le corpus est distribué comme suit : 119 phrases pour le développement, 400 phrases pour le test et 4000 phrases d'apprentissage. Les performances des SVM-POS sont de 95,49% d étiquettes corrects. On notera cependant que 50% des erreurs rencontrées résulte de la confusion des noms, NN, avec des adjectifs, JJ, ou inversement

29 Mes contributions "اي" Le problème de l'article mérite cependant quelques remarques. En effet l'article arabe (al-) fait partie des mots clitiques s'écrivant attachés à leur hôte, avec les conjonctions de coordination "ف" (fa-) et " " (wa-), la préposition "ة" (bi-) etc. Mais tandis que les autres clitiques ont été séparés par ASVM lors de la tokenisation, l'article fait toujours partie du mot qui le suit - choix tout à fait discutable. D'une part ceci simplifie la recherche des patrons, car si l'article était traité comme un mot à part entière il faudrait chercher, en plus du couple Nom-Adj, le patron Dét-Nom-Dét-Adj. D'autre part la présence de l'article fausse les calculs statistiques en créant une distinction entre un mot déterminé et le même mot non déterminé. C'est pourquoi il applique aux résultats de l'extraction de patrons arabes un nettoyage spécial qui consiste à supprimer la sous-chaîne mot. en début de "اي" La non lemmatisation d'asvm génère d'autres nombreux problèmes de ce type, qui ne peuvent pas être résolus par des traitements aussi simples. En étiquetant nos corpus, nous avons obtenu des résultats décevants ; cela est notamment dû à la spécificité de notre corpus par rapport au corpus d apprentissage utilisé pour entrainer ASVM. En fait, nos corpus sont des transcriptions de la parole arabe dans le domaine de tourisme ce qui est de nature très différente de l information journalière qui représente le domaine où ASVM a été entraîné Approche utilisé pour construire notre propre étiqueteur arabe Afin d'améliorer notre système de traduction probabiliste, nous avons besoin d'un bi-texte étiqueté de bonne qualité. Nous espérions que l'étiqueteur ASVM nous fournirait un corpus étiqueté de qualité comparable à l'étiqueteur TreeTagger, mais malheureusement nous avons trouvé des résultats décevants, comme expliqué dans le paragraphe précédent. Pour améliorer la qualité d étiquetage de notre corpus arabe, nous avons en premier lieu corrigé manuellement une partie du corpus et, en utilisant cette correction, nous avons reentraîné un nouvel étiqueteur Correction manuelle Pour aller plus vite dans la correction, nous avons utilisé des expressions régulières pour former un script et éviter de recorriger les erreurs identiques. Notre corpus d'apprentissage contient lignes, mots dont mots différents. Par contre, les corpus de développement et de test contiennent au total 2501 lignes mots dont 4380 sont différents. Nous avons vérifié les corpus de développement, de test et les 1200 premières lignes du corpus d'apprentissage ce qui représente en pourcentage 20% de la totalité des phrases 9. Vu le temps imparti pour le stage, il n était pas raisonnable de corriger l étiquetage de la totalité du corpus d apprentissage, nous avons donc décidé de construire notre propre étiqueteur statistique à partir des 20% du corpus d apprentissage manuellement corrigé. 9 Cette vérification manuelle nous a pris environ 58 heures soit 50s/ligne, et nous avons obtenu un script contenant 1407 expressions régulières

30 Mes contributions Apprentissage Il est possible d'entraîner un étiqueteur sur tout type de corpus étiqueté; à partir du souscorpus étiqueté vérifié manuellement, le système crée sa base de connaissances. Deux fichiers serviront de paramètres dans la commande d'étiquetage, le premier présente le modèle de langage qui créé en utilisant la commande ngram-count de l outil SRILM 10 qui est un ensemble d'outils permettant de construire ce type de modèle. Le deuxième présente un tableau d étiquettes (tags) associé à un lexique et détermine la probabilité qu un mot corresponde à une étiquette donnée, de telle façon que la somme des probabilités de tous les tags associés à un seul mot soit égale à 1. Une fois le modèle de langage et le tableau d étiquettes préparés, nous utilisons la fonction disambig de SRI-LM qui attribue dans notre cas pour une séquence de mots la séquence de catégories correspondantes, ayant la plus grande probabilité calculé à l'aide du modèle de langage et du tableau d étiquettes. Cette fonction donc présente le processus d'étiquetage qui associe à une séquence M = m 1, m 2...m n de n mots une suite C = c 1, c 2...c n de catégories ayant la probabilité maximale. Le choix de cette séquence C est fondé sur la formule suivante : n où : C = argmax Ci P m i C i i=1 P C i C i 1 C i 2 P m i C i désigne la probabilité que le mot m i possède la catégorie C i P C i C i 1 C i 2 représente la probabilité de la catégorie C i de m i connaissant les deux catégories attribuées précédemment. Puisque notre tableau d étiquettes n est pas assez grand, nous pensons qu'il serait utile de rajouter une telle fonction. Un post-traitement du texte consisterait à rechercher tous les mots inconnus du lexique, et à les attribuer les étiquettes fournis déjà par ASVM Etiquetage L étiqueteur réalisé utilise donc les mêmes jeux d étiquette que l étiqueteur ASVM. Les 24 Balises (Tagset) qui sont disponibles dans la distribution de TreeBank arabe «CC, CD, CONJ+NEG PART, DT, FW, IN, JJ, NN, NNP, NNPS, NNS, NOFUNC, NUMERIC COMMA, PRP, PRP$, PUNC, RB, UH, VBD, VBN, VBP, WP, WRB» Exemple de phrase étiqueté avec ASVM kyf/rp ymknny/nofunc AstxdAm/NN Sndwq/NN wda}e/nn mn/jj?/punc Cette phrase étiquetée contient 2 étiquettes fausses parmi les 7 étiquettes. La première faute est non seulement une faute d étiquetage mais aussi une faute de segmentation. Avec l étiqueteur réalisé ces 2 erreurs n apparaissent plus :

31 Mes contributions Exemple de phrase étiquetée avec notre étiqueteur kyf/wrp ymkn/vbp ny/prp AstxdAm/NN Sndwq/NN wda}e/nns mn/jj?/punc Evaluation de notre étiqueteur Pour évaluer notre étiqueteur, on a adopté l approche de comparaison entre les résultats fournis par les deux étiqueteurs arabes utilisés. Le test est fait sur les 100 dernières phrases du corpus d apprentissage. Avec l étiqueteur ASVM, ces 100 phrases contiennent 857 mots étiquetés (w/pos) parmi lesquels il y a 77 étiquettes fausses c'est-à-dire 9.0% d erreur. Par contre, L étiqueteur que nous avons réalisé nous les fournis avec 877 mots étiquetés parmi lesquels il y a que 15 étiquettes fausses c'est-à-dire 1.7% d erreur. Comme c est déjà mentionné précédemment, les erreurs de segmentations dans ASVM qu on a réparé expliquent la différence entre les nombres de mots étiquetés. Donc, notre étiqueteur segmente mieux. Pour ces 100 phrases de test, les deux étiqueteurs ont fait cinq erreurs identiques. Mais si on compare les autres fautes, il apparu que 10 étiquètes été erronées avec notre étiqueteur ce qu ils étaient correctes dans la sortie de ASVM. Par contre, ce dernier a fait 72 méprises qui ont été réparé avec notre étiqueteur. En général, ASVM a donné 75 phrases erronées ce qui est réduit avec notre étiqueteur à seulement 14 phrases Enrichissement de l'information lexicale Ajout des étiquettes (POS) dans le cadre de modèles factoriels L'état de l'art actuel en traduction automatique statistique (phrase-based models), se limite à des modèles qui représentent des groupes de mots (phrase en anglais), sans utilisation explicite de l'information linguistique, comme les informations syntaxiques, morphologiques ou sémantique. Une telle intégration de l'information linguistique dans le modèle de traduction est souhaitable pour deux raisons : Les modèles de traduction qui opèrent sur les représentations plus générales, telles que les lemmes au lieu de la forme de surface (mots), peut s'appuyer sur des statistiques plus riches et de surmonter le problème des données clairsemées (data sparseness problem). De nombreux aspects de la traduction peuvent être mieux expliqués au niveau syntaxique, morphologique ou sémantique. Avoir de telles informations disponibles dès l'apprentissage du modèle de traduction permet la modélisation directe de ces aspects. Pour cela, nous allons représenter ces informations (mots + étiquettes POS) sous la forme de facteurs, c'est-à-dire de vecteurs contenant plusieurs flux d information (plusieurs niveaux d annotation), comme l illustre la figure

32 Mes contributions Langue source Langue cible Mot Lemme POS Mot Lemme POS Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation Principe d utilisation des étiquettes dans les modèles factoriels Chaque mot est considéré comme un vecteur composé de la forme de surface, le lemme et l analyse morphosyntaxique et morphologique [Koehn et Hoang, 2007]. La production de formes de surface est décomposée en trois étapes. La première étape est la traduction de lemmes puis la traduction des parties de discours et les informations morphologiques pour enfin produire les formes de surface. Langue source Langue cible Mot Lemme POS Morphologie Mot Lemme POS Morphologie Figure 6 : exemple d un modèle factoriel Les différentes stratégies testées La traduction des facteurs représentés dans la langue source par les facteurs représentés dans la langue cible est décomposée en une série d étapes. Rappelons l'exemple d un modèle factoriel motivé par l information syntaxique et de génération. Dans ce modèle, les processus de traduction sont divisés en trois étapes: Traduire les lemmes d'entrée par les lemmes de sortie Traduire les informations morphosyntaxique (POS) et morphologiques. Générer les formes de surface en tenant compte des facteurs linguistiques traduits. Les modèles factoriels en traduction sont fondés sur des séquences de mots. Notre mise en œuvre actuelle de ces modèles est la décomposition supplémentaire de la phase de traduction en une séquence d étapes. Étant donné que toutes les étapes de cartographie fonctionnent sur la même segmentation de paires de phrase d'entrée et de sortie, nous les appelons ainsi les modèles factoriels synchrones

33 Mes contributions Exemple des trois étapes de mise en correspondance dans la traduction du mot maison du français vers l anglais : Traduction du lemme maison -> house, home, building, shell Haus Traduction de l information morphosyntaxique et morphologique NN pluriel -> NN plural NN singulier -> NN singular Generation de formes de surface house NN plural -> houses house NN singular -> house Nous appliquons ces mesures de cartographie à une phrase en entrée. Étant donné les réponses à choix multiples pour chaque étape (reflétant l'ambiguïté dans la traduction), chaque expression d entrée est étendue à une liste des options de traduction. La première étape consiste à traduire les lemmes, voici un exemple de traduction du lemme maison :? house??? home??? building??? shell?? La deuxième étape consiste à traduire la catégorie du mot :? house NN plural? home NN plural? building NN plural? shell NN plural? house NN singular Finalement, on génère les formes de surface (mot) suivant les informations traduites : houses house NN plural homes home NN plural buildings building NN plural shells shell NN plural house house NN singular 2.3. Conditions expérimentales et outils Bitexte Le point de départ de l entraînement du système de traduction est ce que l on désigne par bitexte. Un bitexte est un corpus bilingue parallèle (un texte dans une langue de départ et sa traduction) où les liens de traduction entre les phrases ou groupes de phrases sont explicites. On peut obtenir un bitexte à partir d un corpus bilingue en alignant le corpus au niveau des phrases. Pour y arriver, deux types d information sont exploités dans les algorithmes d alignement :

34 Mes contributions - Les informations métriques : utilisent la longueur des phrases (comptée en nombre de caractères ou mots) comme critère de mise en correspondance. Les auteurs ont en effet montré qu il existe un rapport de proportionnalité entre la longueur d'une phrase en langue de départ et la longueur de sa traduction. - Les informations à caractère linguistique : proposent d aligner des corpus bilingues en exploitant le fait que deux phrases en relation de traduction partagent souvent des mots communs ou proches, «les cognâtes», comme des données chiffrées, des noms propres, ou encore des mots partageant la même racine. Par exemple : accès/access, activité/activity, parlement/parliament sont communs aux langues française et anglaise mais ce n est pas forcément le cas entre la langue arabe et l anglais sauf dans le cas des noms propres et des sigles. On a utilisé dans notre étude une collection de corpus parallèles arabe/anglais pour entraîner les paramètres des modèles de traduction. D abord le corpus d entraînement composé des textes arabe et anglais est dédié à l entraînement de modèles de traduction, et sa partie anglaise sert à la création du modèle de langue. Le deuxième corpus est celui de développement composé des textes arabe et anglais et sert à la configuration et à l optimisation des différents paramètres du décodeur. On l a utilisé aussi pour tester une configuration particulière de notre décodeur. Corpus d entraînement Corpus de développement ARABE ANGLAIS ARABE ANGLAIS Nombre de paires de phrases Nombres de mots Nombre de mots différents Préparation des données Tableau 6 : données utilisée Pour préparer les données, on a utilisé un petit script clean-corpus-n.perl qui nettoie le corpus parallèle, de sorte qu'il fonctionne bien avec l apprentissage. Ce script effectue les étapes suivantes: Supprime les lignes vides Supprime les espaces redondants Supprime les lignes qui sont trop courtes ou trop longues par rapport à leur ligne correspondante. Pour la préparation d un corpus bilingue au format requis par GIZA++ à partir du bitexte, on a besoin d un outil qui prend en charge la tache de transformation. Il calcule les fréquences de chaque mot puis associe un indice à chacun, il produit alors un texte formé d une suite d indexes. Cet outil permet entre autre de spécifier laquelle des deux langues sera la langue source (dans notre cas est l arabe), et gère également des options qui peuvent influer sur la qualité des modèles produits, comme la longueur maximale des phrases que l on veut conserver à l entraînement, ou encore la fréquence minimale d un mot en dessous de laquelle un mot sera associé à une forme inconnue (UNK). Il permet enfin d extraire du bitexte initial une petite collection de phrases pour le test

35 Mes contributions Le format d entrée est un bitexte où les phrases sont reliées une à une : Corpus en langue cible : Anglais (en) 1- Do you do alterations? 2- The light was red. 3- We want to have a table near the window. Corpus en langue source : Arabe (ar) 1- رم ثع رعذ الد 2- اإلشبسح وب ذ ح شاء. 3- ش ذ بئذح ثجب ت ا بفزح. Tableau 7 : exemple de Bitexte Pour adapter ce deux corpus d apprentissage au format requis par GIZA++ qui les aligne, on génère deux fichiers de vocabulaire ar.vcb et en.vcb puis on transforme les corpus d apprentissage en remplaçant les mots par leurs nombres associés. Fichier de vocabulaire anglais (en.vcb) 1 UNK 0 2 I the to a you is have 3860 Fichier de vocabulaire arabe (ar.vcb) 1 UNK أ 5247 ف 3086 إ ى 2928 زا 2833 أس ذ Tableau 8 : exemple du fichier de vocabulaire Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires de phrases. Dans chaque ligne des corpus de vocabulaire (tableau 8), on trouve chaque mot, sa fréquence d apparition dans le corpus d entraînement et son ordre. Dans la figure 7 chaque paire de phrase est présentée sur trois lignes, la première ligne représente la fréquence d apparition généralement égale à 1, dans la deuxième et troisième ligne chaque mot dans la paire de phrase est remplacé par son ordre dans le fichier de vocabulaire. Enfin, GIZA++ exige de regrouper tous les mots par classes, pour cela on fait appel au script mkcls 11 distribué gratuitement, dans notre cas tous ces scripts sont regroupés dans le script train-factored-phrase-model.perl

36 Mes contributions Boite à outil de traduction probabiliste utilisée On rappelle que l approche de la traduction automatique statistique est la suivante. Étant donné une phrase arabe s, nous cherchons la traduction anglaise t qui maximise p(t/s), la probabilité qu une phrase t soit la traduction de s (on traduira toujours du l arabe s vers l anglais t dans ce qui suit) : Figure 8 : Machine de traduction automatique statistique Arabe/Anglais La figure 8 représente les principales composantes du système de traduction automatique probabiliste. Le décodeur prend en entrée le texte source, le modèle de traduction et le modèle de langue pour fournir en sortie le texte traduit. Notons que la langue vers laquelle on veut traduire sera appelée «langue cible» L alignement automatique (GIZA++) GIZA++ 12 est une mise en œuvre de modèles IBM disponible librement. Nous l avons besoin comme une première étape pour établir l alignement de corpus. Notons que chaque mot anglais n est aligné qu à plusieurs mots arabe, mais chaque mot arabe est seulement aligné au plus un mot anglais. Ce type d alignement 1-N est exécuté dans les deux sens dans la phase d apprentissage. GIZA++ possède deux modules d alignement l un de la langue source vers la langue cible et l autre inversement. L idée est de collecter les comptes normalisés par la probabilité de chaque alignement. Dans notre cas, on a entraîné les cinq modèles IBM, ce qui correspond à initialiser récursivement les paramètres de IBM5 à partir des paramètres de IBM4, de IBM4 à partir de IBM3, de IBM3 à partir de IBM2 et de IBM2 à partir de IBM1. Les résultats de l alignement sont stockés sous forme de matrice creuse binaire. Une table de transfert (T-table) qui contient les probabilités de traduction des mots de la langue source vers les mots de la langue cible et des tables d alignement correspondent aux probabilités que le mot anglais d une position i soit à la position j dans une paire de phrases de longueur différent. Il est possible aussi d'utiliser des fertilités uniformes lors de l'entraînement du modèle IBM3 à partir

Montrer encore