Laboratoire d Informatique de Grenoble Equipe GETALP Université Stendhal Laurent Besacier Hervé Blanchon Réalisé par Atef Ben Youssef Sous la direction de Georges Antoniadis 1
Plan La traduction statistique 2
La traduction statistique Objectifs : Améliorer un système état de l art en enrichissant les données. Comparer les performances de 2 systèmes : Système construit sur des données brutes Système construit sur des données enrichies Enrichir les données : Ajouter des classes morphosyntaxiques aux données. Deuxième niveau (aller plus loin) Ajouter le sens aux données. 3
La La traduction statistique Étiquetage POS Tagger (POS Anglais Tagger) et Arabe Données Perspective et outils Expériences Conclusion et évaluation Riche morphologie Problèmes du traitement automatique de la langue arabe Absence des voyelles Ambiguïté Sens de mot Fonction de mot Détection de racine Problème de segmentation 4
Traduction Probabiliste La traduction prbabiliste La traduction statistique se résume à trouver le document cible ayant la plus grande probabilité d être la traduction d un document source. Le théorème de Bayes : s est le mot à traduire t est une traduction possible du mot s Pr(t s) est la valeur assignée pour chaque paire de mots (t,s) Puisque le dénominateur est indépendant de t, s est fixe t = argmax t Pr(t) Pr(s t) Les trois défis informatiques présentés par la traduction statistique : Le modèle de langage Pr(t). Le modèle du traduction Pr(s t). L algorithme de recherche (argmax t ). 5
Modèles de langue La traduction prbabiliste Un modèle statistique de langue donne la probabilité d observer un mot sachant ceux qui le précèdent. Ces modèles sont obtenus à partir de données d entraînement (ou d apprentissage) sur des corpus de la langue cible. Les systèmes à base de modèles de langue statistiques permettent d estimer la probabilité a priori de la séquence de mots S = m 1, m 2,..., m n selon l'équation suivante : P( S ) = P(m 1 ) x P( m 2 m 1 ) x... x P( m n m 1, m 2,..., m n-1 ) 6
Modèles de traduction La traduction prbabiliste Le modèle de traduction donne la probabilité qu un mot ou un groupe de mots dans la langue source soit traduit par un autre dans la langue cible. Un modèle de traduction est vu comme un modèle d alignement de mots. The program has been implemented Le programme a été mis en application Nous nous intéressons ici au problème du calcul de P(s I t J ) Brown et al, propose cinq modèles IBM de traduction pour : Modéliser P(S=s I T=t J ) Chaque modèle diffère de l autre par la façon de calculer la probabilité de traduction Pr(s t). 7
Machine de traduction La traduction prbabiliste Texte source Phase d entraînement (réalisée une seule fois) Décodeur Argmax p(e)*p(f/e) t s P(s t) P(t) Modèle de traduction Modèle de langage Corpus Arabe Corpus Anglais Texte cible Machine de traduction statistique : Arabe/Anglais 8
Modèle factoriel La traduction prbabiliste les processus de traduction sont divisés en trois étapes [Koehn et Hoang, 2007]. : Traduire les lemmes d'entrée par les lemmes de sortie Traduire les informations morphosyntaxiques (POS) et morphologiques. Générer les mots en tenant compte des facteurs linguistiques traduits. Exemple d un modèle factoriel 9
POS Tagger : Anglais Utilisation de 36 balises (Tagset) Are these all your personal effects? Étiqueteur TreeTagger : Are VBP be these DT these all PDT all your PP$ your personal JJ personal effects NNS effect? SENT? Évaluation [Schmid, 1994] : 97.53% 10
POS Tagger : Arabe Préparation des données : translitération Buckwalter Un caractère arabe = une lettre latine. À chaque caractère arabe distinct correspond une lettre latine distincte, et vice versa. La translittération est réversible : on peut reconstituer exactement l original arabe à partir de la forme latine. Exemple : hl h*h kl mtelqatk Al$xSyp? هل هذه كل متعلقاتك الشخصية 11
POS Tagger : Arabe Etiqueteur de Columbia University ASVM (SVM-POS) L entrée de ASVM est: Un texte arabe de gauche à droite translittéré en Buckwalter Les sorties de ASVM sont trois textes : Tokenisé : L analyse des mots : mot = préfixe racine suffixe Étiqueté : Utilisation de 24 balises (Tagset) disponibles dans la distribution de Arabic TreeBank : CC, CD, CONJ+NEG PART, DT, FW, IN, JJ, NN, NNP, NNPS, NNS, NOFUNC, NUMERIC COMMA, PRP, PRP$, PUNC, RB, UH, VBD, VBN, VBP, WP, WRB Étiqueté à base de phrase (Base Phrase Chunkers) 12
POS Tagger : Arabe Évaluation de ASVM [Diab, Hacioglu et Jurafsky, 2004] : Les phrases sont distribuées au hasard : 4000 phrases pour l apprentissage 119 phrases pour le développement 400 phrases pour le test Système Score % TOK. Résultat de comparaison entre SVM-TOK et RULE+DICT (approche utilisé par BASELINE) POS. Résultat de comparaison entre SVM-POS et BASELINE en étiquetage du texte arabe TOK POS SVM-TOK 99.12 RULE+DICT 93.71 SVM-POS 95.49 BASELINE 92.2 Réf. Automatic Tagging of Arabic Text: From Raw Text to Base Phrase Chunks, M. Diab, K. Hacioglu, D. Jurafsky 13
POS Tagger : Arabe La qualité d'étiquetage sur nos données (corpus oraux) est très décevante beaucoup d erreurs Nous décidons de : Corriger manuellement une partie du corpus (20%) Utilisation des expressions régulières (gain de temps) Script contenant 1407 Expressions Régulières 13.05% des mots différents sont erronés Temps mis = 58 heures pour 3700 lignes Impossible de tout corriger manuellement! Utilisation des 20% corrigés pour apprendre un étiqueteur plus robuste (SRI-LM) 14
POS Tagger : Arabe Le nouvel étiqueteur arabe réalisé est formé par: Corpus d entrainement : la partie vérifiée manuellement de IWSLT07 Préparation des données : # phrases # mots # mots différents Corpus Arabe 3681 37170 5307 Un modèle de langage 3-gramme (commande ngram-count de l outil SRILM ) Un tableau d étiquettes (tags) associé au lexique : w t1 p1 t2 p2 Le processus d étiquetage : Attribuer à une séquence de mots, la séquence de catégories la plus probable (commande disambig de SRI-LM ) 15
POS Tagger : Arabe Les différentes étapes de notre étiqueteur Application des expressions régulières (correction) Utilisation de la tokenisation de SVM-POS Etiquetage par notre système re-entraîné Pour les mots non traîtés par notre système, prendre les étiquettes données par l étiqueteur SVM-POS Évaluation sur les données d apprentissage : 99.4% 16
POS Tagger : Arabe Évaluation :Test fait sur les 100 dernières phrases du corpus L étiqueteur ASVM: 857 mots étiquetés (w/pos) Il y a 77 étiquettes fausses 9.0% des étiquettes sont fausses. 75 phrases erronées Notre étiqueteur : 877 mots étiquetés (w/pos) Il y a 15 étiquettes fausses 1.7% des étiquettes sont fausses. 14 phrases erronées 17
Données : Bitexte Le point de départ de l entraînement du système est ce que l on désigne par bitexte. Un bitexte est un corpus bilingue parallèle. On a utilisé dans notre étude une collection de corpus parallèles arabe/anglais : IWSLT07 (un corpus de 20k paires de phrases). Corpus IWSLT est sous forme de transcriptions de la parole dans le domaine du tourisme Corpus Arabe Corpus Anglais Nombre de phrases 19972 19972 Nombre des mots 131472 153066 Nombre des mots différents 24901 13337 18
Outils Utilisation des données enrichies (+étiquettes) pour construire un système amélioré. Outils disponibles : SRILM : compatible avec les données enrichies. GIZA++ : compatible avec les données enrichies. Moses : compatible avec les données enrichies. BLEU : calcule les scores des deux systèmes Système construit sur des données brutes Système construit sur des données enrichies 19
Éxperiences Première expérience : Traduire les mots arabes par les lemmes anglais Traduire les catégories Générer les formes de surface Pour les lemmes inconnus, TreeTagger attribue l étiquette <unknown> au lemme. (Exemple : Health-Sports <unknown> NP) Fausse génération du mot en utilisant uniquement les informations syntaxiques (POS) 20
Éxperiences Deuxième expérience : Traduire les mots arabes par les mots et les lemmes anglais Traduire les catégories Générer les formes de surface Pour le lemme inconnu, on fait appel au mot. 21
Éxperiences Utiliser les étiquettes syntaxiques (POS) sous forme factorisée (Factored Models) pour améliorer Les alignements EN/AR Le décodage Utiliser les étiquettes syntaxiques (POS) en langue cible seulement (EN) pour améliorer la sortie de traduction Modèle de langage «POS» en langue cible pour réordonner les hypothèses de traduction Un tel modèle préfère la séquence (NNP VBZ NNS) nom_propre verbe_singulier nom_pluriel que la séquence (NNS VBZ NNP). nom_pluriel verbe_singulie nom_propre 22
Évaluation qualitative Source : نعم لقد حجزت مقعدين مسبقا» avance «Oui, j ai réservé deux places en 1- طبعا سأضع عليها عالمة هنا موافق» OK «Bien sûr, je vais signer ici 2- Modèle non factoriel (classique) : 1- Yes, I reserved seats in advance? 2- Of course. put on it موافق sign here. Modèles factoriels : 1- Yes, I reserved two seats in advance? 1- Yes, I have two a reservation in advance? 2- Of course. put on it. Okay. Sign here. 2- Of course. Put it okay to sign here Références : 1- Yes, I have already reserved two seats. 1- Sure. Two seats are booked. 1- Yes. We have reserved two seats already. 2- Sure. I'll mark it here, OK? 2- No problem. Let me mark here. Okay? 2- OK. I'll put a mark here then. Alright? 23
Évaluation qualitative Exemples de faux alignements qui existaient dans le table de traduction du modèle classique (non factoriel) et n existaient plus dans le table de traduction du modèle factoriel 0.333333 0.243902 0.0149254 0.0117647 2.718 (0) (0) ordered لقد 0.00049334 0.0010086 0.0298507 0.0082353 2.718 (0) (0) the لقد 0.0138889 0.135135 0.111111 0.454545 2.718 (0) (0) seats مقعدين 0.00325733 0.0194553 0.111111 0.454545 2.718 (0) (0) two مقعدين 0.00628931 0.0020921 0.0588235 0.003096 2.718 (0) (0) all نعم Exemples d alignements correctes qui n existaient pas dans le modèle classique et qui existaient dans le table de traduction du modèle factoriel 0.0075188 0.0078125 0.003663 0.0062305 2.718 (0) (0) okay okay نعم 0.0217391 0.0167785 0.014652 0.0155763 2.718 (0) (0) well well نعم 1 1 0.003663 0.0031153 2.718 (0) (0) yeeeah <unknown> نعم 1 1 0.003663 0.0031153 2.718 (0) (0) yep <unknown> نعم 24
Évaluation qualitative L utilisation des informations morphosyntaxique Enlève les faux alignements qui existaient dans le modèle classique Filtre le modèle de traduction Génère plus de possibilités correctes qui n existaient plus dans le modèle classique Modèle de traduction plus flexible dans les modèles factoriels 25
Évaluation quantitative Les résultats sont plus intéressants en utilisant la désambiguïsation lexicale 26
Conclusion & perspective Nous avons au cours de ce stage : Réalisé un analyseur syntaxique robuste de l arabe pour le type de données IWSLT (oral) Essayé d insérer les informations morphosyntaxiques dans notre traducteur automatique Enrichissement du corpus d apprentissage par des catégories, via un formalisme de modèles factorisés Les analyses qualitatives et quantitatives ont montré des premiers résultats encourageants. Il serait intéressant de mettre en parallèle un analyseur sémantique (ontologie, synonymie, métonymie ) 27
Merci 28