Traduction Automatique Introduction

Documents pareils

1.The pronouns me, te, nous, and vous are object pronouns.

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Apprentissage Automatique

Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues

Le verbe avoir (to have) infinitif = avoir. j ai nous avons tu as vous avez. Exemples: J ai une copine à Montréal.

Module Title: French 4

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Revision time. 1. I m cooking. 4. You re babysitting. 2. She s swimming. 5. They re working. 3. We re practising.

Differential Synchronization

Les transports en commun Vocabulaire Mots 1

THE FRENCH EXPERIENCE 1

SYSTRAN 7 Guide de démarrage

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Application d un algorithme de traduction statistique à la normalisation de textos

Dis où ces gens vont d après les images / Tell where these people are going based on the pictures.

part de mon expérience.

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Dans une agence de location immobilière...

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Once the installation is complete, you can delete the temporary Zip files..

APPENDIX 6 BONUS RING FORMAT

Mesure agnostique de la qualité des images.

Perl Console. Votre compagnon pour développer en Perl. Les Journées du Perl , 17 novembre, Lyon. Alexis Sukrieh

Les probabilités. Chapitre 18. Tester ses connaissances

Laboratoire 4 Développement d un système intelligent

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Cours Informatique 1. Monsieur SADOUNI Salheddine

Logiciel Libre Cours 3 Fondements: Génie Logiciel

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?

MODERN LANGUAGES DEPARTMENT

Application Form/ Formulaire de demande

Object Removal by Exemplar-Based Inpainting

L ABC de l acquisition de petites entreprises

I. Présentation générale des épreuves écrites

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

L informatique en BCPST

Évaluation et implémentation des langages

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Ce que vaut un sourire

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

How to Login to Career Page

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Instructions Mozilla Thunderbird Page 1

PRESENT SIMPLE PRESENT PROGRESSIF

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Present Tense (1) masc = masculine fem = feminine sing = singular pl = plural

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

DOCUMENTATION - FRANCAIS... 2

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Les Portfolios et Moodle Petit inventaire

DOCUMENTATION - FRANCAIS... 2

Les nombres entiers. Durée suggérée: 3 semaines

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Évaluation de G-LexAr pour la traduction automatique statistique

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

MAQUETTE M2 PRO ILTS

Stakeholder Feedback Form January 2013 Recirculation

Exemple PLS avec SAS

INF6304 Interfaces Intelligentes

Quantification Scalaire et Prédictive

Introduction au Data-Mining

Eléments de statistique

Transmission d informations sur le réseau électrique

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Questionnaire pour connaître ton profil de perception sensorielle Visuelle / Auditive / Kinesthésique

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Compréhension de l oral

Indications pour une progression au CM1 et au CM2

PHOTO ROYAUME DE BELGIQUE /KINDOM OF BELGIUM /KONINKRIJK BELGIE. Données personnelles / personal data

N SIMON Anne-Catherine

M. Jean-Yves Le Drian, Ministre de la défense. Discours pour les vingt ans du lancement du satellite Hélios IA

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

Créé par Goldfing & Pblabla Créé le 02/05/ :49:00. Guide pour la déclaration d impôt

Algorithme. Table des matières

Offre active de services dans les deux langues officielles

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Nouveautés printemps 2013

Le livre blanc de la traduction

Cambridge International Examinations Cambridge International Advanced Subsidiary Level

POLITIQUE RELATIVE AUX SERVICES DE TRADUCTION

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

CHAPITRE 12 Nom: Date: 1

PARIS ROISSY CHARLES DE GAULLE

ROYAUME DE BELGIQUE / KINGDOM OF BELGIUM / KONINKRIJK BELGIE

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Tutoriel de formation SurveyMonkey

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

Transcription:

à la.@lium.univ-lemans.fr Laboratoire LIUM Université du Maine 23 janvier 2007 Plan au domaine en traduction Tâches et corpora Principes de l approche statistique Structure d un système de traduction Optimisation d un système de traduction Intégration de connaissances linguistiques Interaction reconnaissance / traduction Contexte : Tâche scientifique complexe faisant intervenir pratiquement tous les aspects du traitement du langage naturel Domaine de recherche ancien Initialement plutôt approches classiques, TAL Parsers, règles développées par des humains,... Au début : traduction de textes Depuis quelques années : traduction de la parole Applications : Grande quantité de pages internet non-anglaises inaccessibles sans traduction automatique Communauté européenne : nombre croissant de langues officielles grand effort de traduction Applications dans le domaine du tourisme Applications humanitaires et militaires dans des pays étrangers (il n est pas toujours facile de trouver de traducteurs) Traduction automatique est une des technologies émergentes

Pourquoi la traduction est compliquée? L ordre des mots varie entre les langues Les mots peuvent avoir plusieurs sens Expressions idiomatiques Utilisation des pronoms Morphologie Variation dans l ordre des mots Anglais : adjectif-noun etsujet-verb-objet Français : noun-adjectif Japonais : sujet-objet-verb Allemand : position du verbe inhabituelle Il faut réordonner les mots Exemples : Anglais : Japonais : Français : IBM bought Lotus Reporters said IBM bought Lotus IBM Lotus bought Reporters IBM Lotus bought said une nouvelle voiture versus une voiture nouvelle Différents sens des mots Anglais : plant (arbre ou entreprise) Anglais : bank (banque ou bord d une rivière) Souvent les différents sens correspondent à des traductions différentes Expressions idiomatiques Dans chaque langues il y a de nombreuses expressions qu il ne faut surtout pas traduire mot par mot Se retrouver au pied du mur To be at the foot of the wall? tenir sa langue keep his tongue? Ne pas mâcher ses mots to not eat his words?

Utilisation des pronoms Dans certaine langues comme l espagnol on peut omettre les pronoms Souvent la forme verbale détermine le bon pronom Mais on ne sait pas s il faut utiliser he, she ou it Morphologie He is nice Il est beau She is nice Elle est belle Traitement des accords en français Arabe : singulier, pluriel et dual Approches : Traduction mot par mot Transfer syntaxique Approche Interligua Approches utilisant des textes déjà traduits Utiliser l expertise contenue dans des traductions effectuées par des humains Minimiser le problème d acquisition de connaissances Exemple base machine translation (EBMT) Corpus-, memory- similarity-based MT Approche statistique Systèmes hybrides En général, il est plus difficile de traduire vers une langue morphologiquement riche (donc autre que l anglais) Traduction mot par mot Utilisation d un dictionnaire bilingue pour traduire chaque mot dans un texte (de façon indépendante) Facile à mettre en place Le résultat donne une vague idée du sujet du texte Problèmes avec l ordre, le sens de mots, les expressions,... Fonctionne très mal Transfer syntactique 1 Analyse morpho-syntaxique de la phrase source 2 Rearrangement des composantes 3 Traduction des mots 4 Génération de la phrase source Aborde le reordonnement des mots Il faut construire des règles de transfer pour chaque paire de langue Tâche fastidieuse, nécessite des linguistes bi-lingues Peut être performant, mais très lourd à développer et à maintenir

Approche Interligua Utiliser une langue intermédiaire pour le transfer Traitement de plusieurs paires de langues est facilité Example-based machine translation Nous ne faisons pas d analyse linguistique poussée pour traduire un texte Plutôt : décomposition du texte en fragments qui sont traduits et recomposés Traduction d un nouveau texte en utilisant des exemples de phrases déjà traduites Défis Localiser des phrases/fragments similaires dans un corpus Alignement des fragments Choisir les bons fragments Combinaison des fragments dans la phrase cible Sélection parmi plusieurs solutions Motivation : Il faut un critère d évaluation pour juger des systèmes de traduction automatique (développement du système, évaluations internationales,...) Initialement Jugement humains selon trois axes : l adéquation, la fidélité et le caractère naturel de la traduction (anglais : Adequacy, Fidelity et Fluency) Très coûteux Complique le développement rapide de systèmes (on ne peut les tester systématiquement!) Il faut un critère automatique similaire au taux d erreur de mots en reconnaissance Problème d un Critère Automatique La traduction d une phrase n a pas de solution unique! Exemple : At the order of the president the Parliament has been dissolved. Sur ordre du président le parlement a été dissout. Le parlement a été dissout sur ordre du président. Le président a donné l ordre de dissoudre le parlement. La distance d éditions n est pas satisfaisante (taux d erreur de mots) Il faudrait tolérer des différences dans l ordre des mots

- Score BLEU - Score BLEU Principes : On utilise plusieurs traduction de références provenant de différents traducteurs professionnels Exemple : je me sens très bien Ref1: je vais bien Précision = nombre de mots de l hypothèse qui apparaissent dans une des références divisé par le nombre de mots dans l hypothèse. Faire ce calcul pour des blocs de mots de différentes tailles Précision n-grammes, n=1..4 Moyenne géométrique des précisions Ref2: p 1 = 4 5 p 2 = 2 4 p 3 = 1 3 p 4 = 0 2 Autres Détails : je me sens bien Une phrase source peut être traduite en plusieurs phrases cible Calculer le score BLEU pour un document de test entier - Score BLEU - Score BLEU Exemple : Hyp : the the the the the the the Réf1 : The cat is in the mat Réf2 : There is a cat on the mat Précision unigrammme = 7/7!? Utiliser chaque mot de référence une seul fois Algorithme : Compter combien de fois chaque mot apparait dans une seule référence Limiter les comptes de chaque mots dans l hypothèse par ces comptes Précision unigrammme modifiée = 2/7 Un Autre Exemple : Hyp : Cette reforme Réf1 : Le parlement attache beaucoup d importance à cette reforme Réf1 : Cette reforme est très important pour le parlement Précision unigrammme modifiée = 2/2 Précision bi-grammme modifiée = 1/1 Il faut pénaliser des hypothèse trop courtes Faut-il aussi pénaliser des hypothèses trop longues?

- Score BLEU - Score BLEU Vérification Expérimentale : Classement avec BLEU semble bien corrélé avec classement utilisant des jugements par des humains Comparaison d une traduction par machine avec un humain Comparaison de différentes traductions par des êtres humains (traducteur professionel, personne bilingue,...) Amélioration d un système de traduction statistiques Il n est pas clair si on peut comparer différentes approches de traduction par machine (statistique, par règles,...) Est-ce qu il y a un biais pour les approches statistiques? Résumé : Les scores BLEU varient entre 0 et 1 (habituellement multiplié par 100 pour avoir des pourcent ) Un score plus élevé signifie une meilleure traduction La valeur absolue est difficile à interpréter Comparaison entre différentes tâches difficile Le score est calculé sur un corpus de test entier, pas une seule phrase Il faut plusieurs traductions de référence (Le score BLEU augmente avec le nombre de références) automatique est très importante pour faire avancer les recherches - d autres critères NIST même principe que BLEU, mais différentes pondérations mwer taux d erreur de mots avec de références multiples mper taux d erreur de mots indépendant de la position avec de références multiples (sac de mots) Résumé IWSLT/BTEC domaine touristique, très peu de données, arabe, mandarin, japonais et italien vers l anglais, texte et (parole) traduction de débats parlementaires, espagnol/anglais, texte et parole Version de P. Koehn, 11 langues européennes, texte uniquement NIST broadcast news, beaucoup de données, arabe, mandarin anglais Gale broadcast news et conversations, extension de la tâche NIST

Tâches et corpora IWSLT/BTEC Tâches et corpora IWSLT/BTEC Caractéristiques Initialement, une initiative de ATR au Japon Corpus BTEC : Basic Traveling Expression Corpus (japonais / anglais, 200k phrases, 1.2/1.7M mots) Questions typiques du domaine touristique Consortium informel C-Star ( 12/2006) : traduction du corpus dans la langue du partenaire Membres : ATR (Japon), CAS (Chine), KTR (Coré), ISL (USA, arabe), CLIPS (France), IRST (Italie) s organisées dans le cadre du workshop annuel IWSLT (International Workshop on Spoken Language Translation) Données d apprentissage Transl. dir.: Ma/En Ja/En Ar/En It/En Train sent. 40k 40k 20k 20k mots 314.4k 390.2k 183.3k 155.4k anglais 326k 324.8k 166.3k 166.3k Tâches très spécifique avec un vocabulaire et un jargon particulier Ressources extrêmement limitées développement de techniques particulières? Développement très rapide d un système complet ( 1h) Tâches et corpora Tâches et corpora Caractéristiques Traduction de débats parlementaires anglais/espagnol Projet (4/2003 4/2007) Texte et parole, trois conditions (env. 35M mots) : FTE Final Text Edition résumés officiels des débats parlementaires Verbatim mêmes textes dans le style ASR (nombre et dates en mots, sigles épelés,...) ASR Traduction de la sortie ASR (1-best, n-best, réseau CN,...) Étude de l impact/dégradation dues aux erreurs ASR Interaction étroite reco/traduction? Caractéristiques Données collectées et mises à disposition librement par P. Koehn Traduction de débats parlementaires, en principe mêmes sources que (actuellement V3) Uniquement du texte (FTE, 38-43M de mots) 22 langues officielles : anglais, français, allemand, espagnol, italien,... annuelles dans le cadre du workshop on Projet EuroMatrix (9/2006-2/2009) : faire des systèmes pour toutes les paires de langues (déjà fait : 11 2 11 = 110 systèmes)

Tâches et corpora Tâches et corpora NIST / Gale Caractéristiques s annuelles organisées par NIST depuis 2001 Guidées et financées par la DARPA Traduction de textes, Broadcast News, conversations, newswires and newsgroups Langues : arabe et mandarin vers l anglais Tâches et corpora NIST / Gale Tâches et corpora Données d apprentissage Bitexts : environ 240M mots Textes monolingues supplémentaires (anglais) : LDCnews : 5G mots WEBnews : 31G mots WEG Google : 1.8T mots Nécessite d importants moyens informatiques Données de développement et de test Environ 40k mots des quatre domaines (Broadcast News, BN conversations, newswires and newsgroups) Résumé Tâche Langues Type Bitextes Monolingue #réfs évals BTEC Ar,Ma,Ja,It texte 400k 3400k 6 oui An parole TC-STAR An / Es texte 34M < 100M 2 terminé parole 11 texte 40M 40M 1 oui NIST/Gale Ar/Ma An texte (parole) 240M >> 5G 4 oui Quatre références de traduction

Motivations : Pourquoi aborder un problème linguistique avec des approches statistiques? La traduction automatique nécessite la prise de décisions (choix d un mot, d une phrase par rapport un autre) Dépendances non-binaires, imprécises et floues Problèmes propres à la traduction de la parole : Erreurs du système de reconnaissance Particularités de la parole libre/spontanée Hésitations, reprises, erreurs grammaticales,... Production d une traduction pour toutes les phrases Interaction reconnaissance/traduction? Traduction par approche statistique = Modélisation linguistique + Prise de décision par des méthodes statistiques Principe [Brown 90] : Traduction français vers l anglais (f e) Langue source (français) f = f m 1 = f 1..f j..f m Langue cible (anglais) e = e l 1 = e 1..e i..e l Rechercher la meilleure traduction : ê = arg max Pr(e f) e Loi de Bayes pour introduire un ML cible P(e) ê = arg max e Pr(e)Pr(f e) Pr(f) = arg max Pr(e)Pr(f e) e Principe (suite) : Approche statistique de la traduction : ê = arg max Pr(e)Pr(f e) e P(f e) : modèle de traduction, P(e) : ML cible Similarité avec la reconnaissance de la parole : ŵ = arg max Pr(w)Pr(x w) w Pourquoi on ne modélise pas directement P(e f)? P(f e) : modèle de traduction

Modélisation directe de P(e f)? Séparation des phrases anglaises et françaises en bien et mal formées (notion imprécise) Traduction d une phrase française bien formée en anglais Large choix de phrases anglaises bien formées On espère d en trouver la bonne... Ceci ne peut fonctionner si P(e f) concentre sa masse de probabilité sur des phrases bien formées Mais cet espace est très grand! Modèles actuels distribuent leur masse de probabilité partout Difficile de trouver une phrase anglaise bien formée qui est une bonne traduction de la phrase française Modélisation de Pr(e)P(f e) : Le modèle de langage cible Pr(e) décide si une phrase est bien formée ou pas Le modèle Pr(f e) n a pas besoin de concentrer sa masse de probabilité sur des phrases bien formées Les modèles Pr(f e) et Pr(e) coopèrent : La probabilité de Pr(f e) est grande pour toutes les phrases anglaises qui contiennent les bons mots (traduction de f), a peu près au bon endroit La probabilité de Pr(e) est grande pour des phrases anglaises bien formée, sans se soucier de la connexion avec la phrase source française Ensemble les deux modèles produisent des phrases anglaises bien formées qui correspondent bien à la phrase française Quelques types d alignement Formulation Mathématique : «Général» e 1 e 2 e 3 e 4 Rappel : f = f1 m = f 1..f j..f m, e = e1 l = e 1..e i..e l On somme sur tous les alignements : Par syntagmes (US: «phrases») f 1 f 2 f 3 f 4 e 1 e 2 e 3 e 4 f 1 f 2 f 3 f 4 e 1 e 2 e 3 e 4 : Pr(f e) = a Pr(f, a e) a m 1 = a 1..a m avec a j = i j = 1..m, i = 0..l; Par mots f 1 f 2 f 3 f 4 Le mot français à la position j est connecté au mot anglais à la position i (valeur 0 si aucun alignement)

Différents Modèles Formulation Mathématique (suite) : : The proposal will not now be implemented Les propositions ne a j = i seront pas mises en application j = 1..m, i = 0..l; maintenant Alignement asymétrique : Un mot anglais peut se traduire en plusieurs mots français Plusieurs mots anglais ne peuvent être traduits en 1 seul mot français (il y a des mots anglais non alignés) Production spontanée de mots français (a j = 0) Combinaison log-linéaire des Modèles Les différents modèle probabiliste (fertilité, lexical, distorsion et production spontanée) ne sont pas très précis Pondération de leur influence : e = arg max p i (f, e) λ i e i e = arg max λ i log p i (f, e) e Les coefficients λ i sont déterminés en minimisant un critère de qualité sur les données de développement i Différents Modèles Exemples de Textes Alignés Améliorations : Le modèle lexical t(f e) n utilise pas de contexte Choix de la traduction est sous-optimal Un modèle lexical du style t(f j e i 2 e i 1 e i ) nécessiterait beaucoup de données d apprentissage dont on ne dispose pas Aligner des blocs de mots (syntagmes) Différents algorithmes ont été proposés dans la littérature Principalement statistiques Phrases Anglaises : I was reading reports from the united states To this first group of figures let us quickly add a second one One of my colleagues says that i have not had an answer yet Phrases Françaises : Je lisais des rapports qui nous parviennent des États-Unis A cette première vague de chiffres ajoutons rapidement une seconde L un de mes collègues dit que je n ai pas encore eu de réponse

Apprentissage des Modèles d un Système complet Extraction de syntagmes Alignement dans le deux sens f e et e f Extraction de syntagmes ( f i, ẽ i ) Création d une matrice avec les mots source et cible Marquer toutes les cases des mots possedant des alignements bidirectionnels Trouver tous les blocs contigues Calcul de scores/probabilités pour chaque syntagme : P( f ẽ), P(ẽ f), P(f e), P(e f) Toutes ces probabilités sont estimées par des fréquences relatives Giza++ Phrase extraction Moses SRILM Phrase table 3g LM 4g CSLM Src Corpus parallèle n bests Corpus monolingue LM rescoring λi CSLM Condor Trg Scoring BLEU optimisation Dev trg d un Système complet d un Système complet Étapes de développement 1 Normalisation éventuelle des textes 2 Filtrage des textes parallèle (phrases trop longues) 3 Création du modèle de langage 4 Alignement automatique 5 Extraction et scoring des syntagmes 6 Décodage 7 Optimisation des coefficients Tous les outils sont librement disponibles (http://www.statmt.org/moses/) Combinaison log-linéaire des modèles Les différents modèles probabilistes ne sont pas très précis Pondération de leur influence : e = arg max p i (f, e) λ i e i e = arg max λ i log p i (f, e) e Comment déterminer les coefficients λ i? i

d un Système complet : Modèle log-linéaire d un Système complet : Modèle log-linéaire Comment déterminer les coefficients λ i? A la main? Boucle exploratoire: 1 Choisir λ i initiaux 2 Faire un décodage avec ces valeurs 3 Obtenir une solution et calculer son score BLEU 4 Modifier les λ i et recommencer à l étape 2) 5 Terminer si le score BLEU ne s améliore plus Il n est pas possible d utiliser des algorithmes du type descente de gradient Algorithmes itératifs de type Simplexe Modèles fréquemment utilisés Modèle de traduction : P( f ẽ) traduction syntagmes e f P(f e) traduction de mots e f (modèle lexicale type IBM1) P(ẽ f) traduction syntagmes f e P(e f) traduction de mots e f (modèle lexicale type IBM1) e constante pénalité sur le nombre de syntagme Toutes ces valeurs sont stockées dans la table de syntagmes Modèle de langage : P(e) constante 1 pénalité de longueur d un Système complet : Modèle log-linéaire d un Système complet : Modèle log-linéaire Exemples de la table de syntagmes Système anglais/français appris sur 35M de mots de bitexts Fichier compressé de 1.6Go avec 78M de lignes (3.2G ASCII) On ne peut charger le modèle complet en mémoire Mais beaucoup de syntagmes ne s appliquent pas aux données de test Filtrage : fichier de 122M avec 7.4M de lignes (575M ASCII) Exemples de la table de syntagmes Scores : P( f ẽ), P(e f), P(ẽ f), P(f e) et e A big Le grand 0.0106383 0.000152962 0.166667 0.00405915 2.718 A big Un des principaux 0.0434783 0.0005689 0.166667 1.56536e- A big Un grand 0.00961538 0.00957428 0.166667 0.0300893 2.718 A big Une grande 0.0108696 0.00360665 0.166667 0.0208976 2.718 A big ont une grande 0.0217391 1.12938e-05 0.166667 3.79597e-0 A big une grande 0.000256345 1.12938e-05 0.166667 0.00211983 2

d un Système complet : Modèle log-linéaire d un Système complet : Modèle log-linéaire 467 traductions de European Commission European Commission Commission européenne 0.752696 0.812097 0.749849 0.455413 2.718 European Commission Commission 0.00265859 0.00194196 0.0511501 0.952132 2.718 European Commission la Commission européenne 0.0426116 0.812097 0.0352603 0.0174883 2.718 European Commission Commission européenne, 0.17041 0.812097 0.0195218 0.0364258 2.718 European Commission de la Commission européenne 0.0625 0.812097 0.0160412 0.00229579 Tâches et 2.718 Corpora 38 traductions inverses de Commission européenne European Commission Commission européenne 0.752696 0.812097 0.749849 0.455413 2.718 Commission Commission européenne 0.116208 0.490344 0.00548883 0.00587199 2.718 the European Commission Commission européenne 0.0095701 0.0437849 0.0119704 0.455413 2.718 Commission s Commission européenne 0.00592435 0.00389219 0.0137227 0.00378834 2.718 Commission is Commission européenne 0.00303813 0.000335368 0.0036914 4.97013e-05 2.718 Exemples de la table de syntagmes!!!! 0.375 0.588351 0.000338181 0.462852 2.718!!! 0.153846 0.588351 0.000225454 0.598358 2.718!! 0.534388 0.588351 0.731372 0.773536 2.718! : non! 0.5 0.588351 0.000112727 2.60435e-07 2.718...!, dit-on partout! 1 0.588351 0.000112727 4.76404e-12 2.718!, exigez que 0.5 5.69e-05 0.000112727 1.92463e-10 2.718!, exigez 0.333333 5.69e-05 0.000112727 1.20609e-08 2.718!, il est primordial que la 0.333333 5.69e-05 0.000112727 3.20037e-15 2.718!, il est primordial que 0.0277778 5.69e-05 0.000112727 8.33407e-14 2.718...! Messieurs, il est primordial que la 1 5.69e-05 0.000112727 4.92856e-19 2.718! Messieurs, il est primordial 1 5.69e-05 0.000112727 8.04285e-16 2.718... Au total 672 traductions de! Optimisation des coefficients Décodage en passes multiples Exemples d optimisation BLEU 33 32 31 30 29 28 27 26 25 0 5 10 15 20 25 Nombre d iterations Souvent plutôt une dizaine d itérations Améliorations d environ 5 points BLEU par rapport aux poids uniformes Cmert Motivation Certains modèles sont difficiles à appliquer pendant la phase de décodage Des modèles de langage avec un ordre élevé Des modèles de phrases Diverses analyses morpho-syntaxiques... Utiliser une approche en deux passes : 1 Décodage et création d un ensemble de solutions plausibles 2 Ajout de connaissances supplémentaires et sélection de la meilleure hypothèse

Décodage en passes multiples Décodage en passes multiples Comment représenter les solutions plausibles? Lattices / treillis Utilisés en reconnaissance de la parole A priori très compacts Moins adaptés à la traduction (ordre de mots variables) Listes n-best Moins compacts qu un lattice (redondance) Il est facile de gérer des solutions très variables Permettent l application de modèle de phrases Il faut écrire un nouveau outil Exemple d une n-best liste 0 Notre déclaration des droits est la première de ce millénaire. lm: -53.1725 tm: -8.54868-8.36703-6.29597-9.46295 8.99907 w: -11-2.01804 0 Notre déclaration des droits n est la première de ce millénaire. lm: -55.9546 tm: -4.29181-8.36703-5.70585-16.96 7.99917 w: -13-2.10735 0 Notre déclaration des droits est le premier de ce millénaire.# lm: -52.6802 tm: -8.68783-8.73413-7.26683-10.4078 8.99907 w: -11-2.11691 0 Notre déclaration des droits est la première de ce nouveau millénaire. lm: -53.4205 tm: -10.6899-9.05756-9.47818-12.9981 8.99907 w: -12-2.21531 0 Notre déclaration des droits n est le premier de ce millénaire. lm: -55.7673 tm: -4.43096-8.73413-6.67671-17.9048 7.99917 w: -13-2.22684 0 Notre déclaration de droits est la première de ce millénaire. lm: -59.4228 tm: -3.32516-8.27583-5.18753-8.48052 7.99917 w: -11-2.2324 0 La déclaration des droits est la première de ce millénaire. lm: -47.5985 tm: -14.3938-14.2576-9.5678-12.6795 8.99907 w: -11-2.29651 0 Notre déclaration des droits n est la première de ce nouveau millénaire. lm: -56.2027 tm: -6.43302-9.05756-8.88807-20.4951 7.99917 w: -14-2.30462 0 Notre déclaration des droits, c est la première de ce millénaire. lm: -54.6978 tm: -9.60467-8.81344-10.844-16.6753 8.99907 w: -13-2.30946 0 Notre déclaration des droits est la première de millénaire. lm: -53.9945 tm: -7.78823-12.0139-4.39036-8.23918 6.99927 w: -10-2.31331 Remarque : les scores du modèle de distorsion ont été omis Décodage en passes multiples Quelques Exemples de Systèmes Système 2007 Quelques chiffres Système anglais/français Génération de 1000-best listes avec un 3-gramme En moyenne, 904 hypothèses différentes Bilan des résultats Traduction de débats parlementaires, espagnol/anglais, texte et parole Environ 1.2M de phrases parallèles Score automatique BLEU (grande valeur = bon résultat) IBM Khe / CMU RWTH UPC IRST LIMSI An/Es 48.1 49.8 49.3 48.7 49.5 51.0 Es/An 49.6 49.3 48.1 48.5 48.9 49.2 Très bonnes performances du système du LIMSI

Quelques Exemples de Systèmes Système 2007 Quelques Exemples de Systèmes Système 2007 Modèle de langage dans l espace continu Bilan des résultats français/anglais BLEU espagnol anglais 53 52 51 50 49 48 47 46 45 Develop +0.62 sans avec Eval +0.52 sans avec BLEU anglais espagnol 53 52 51 50 49 48 47 46 45 Develop +0.76 sans avec Eval +0.82 Gains significatifs dans la qualité de traduction Très bonne généralisation Modélisation linguistique est plus importante pour l espagnol sans avec Système BLEU Adeq. Fluency Rank Const. LIMSI 33.2 0.634 0.618 0.458 0.290 Edinb. 31.8 0.616 0.635 0.514 0.283 NRC 31.2 0.553 0.551 0.404 0.253 UPC 31.9 0.616 0.619 0.448 0.267 Systran 21.1 0.494 0.484 0.286 0.202 Systran-NRC 31.3 0.604 0.600 0.503 0.267 Quelques Exemples de Systèmes Système 2007 Quelques Exemples de Systèmes Système 2007 Bilan des résultats anglais/français Système BLEU Adeq. Fluency Rank Const. LIMSI 30.6 0.635 0.627 0.505 0.259 Edinb. 26.2 0.620 0.608 0.485 0.273 NRC 29.4 0.517 0.518 0.359 0.206 UPC 29.9 0.599 0.566 0.450 0.256 Systran 23.3 0.574 0.526 0.353 0.179 Systran-NRC 30.1 0.575 0.580 0.512 0.225 Exemple de traductions (score BLEU = 0) Source :The rapporteurs have already stressed the quality of the debate and the need to progress further, and I can only agree with them. Trad. : Les rapporteurs ont déjà souligné la qualité du débat et la nécessité de progresser, et je ne peux qu être d accord avec eux. Réf. : Les rapporteurs ont souligné la qualité de la discussion et aussi le besoin d aller plus loin. Bien sûr, je ne peux que les rejoindre.

Quelques Exemples de Systèmes Système 2007 Quelques Exemples de Systèmes Système 2007 Exemple de traductions (score BLEU = 33) Source : It is very important, and therefore I am pleased that the Commission is working on an information campaign which Commissioner Verheugen wishes to make both extensive and decentralised. Trad. : Il est très important, et je suis donc heureux que la Commission travaille sur une campagne d information que le commissaire Verheugen souhaite apporter à la fois vaste et décentralisée. Réf. : C est très important et, de ce point de vue, je suis heureux que la Commission travaille à une campagne d information que le commissaire Verheugen veut à la fois large et décentralisée. Exemple de mauvaises traductions (selon scores) Source : This is, of course, a perfectly legitimate question, but it is one that must be answered quite properly and precisely. Trad. : C est, bien sûr, une question parfaitement légitime, mais qui doit être une réponse tout à fait correctement et précisément. Réf. : Cette question est, bien sûr, parfaitement légitime, mais il faut y répondre de façon correcte et précise. Quelques Exemples de Systèmes Système 2007 Incorporation de Motivation Exemple de mauvaises traductions (selon scores) Source : There is hardly a fish in it which is permanently domiciled. Trad. : Il y a à peine un poisson qui est domicilié en permanence. Réf. : Je pense ici aux poissons migrateurs. Motivation Les méthodes statistiques sont très prometteurs Mais la traduction ne correspond pas toujours à un texte grammaticalement correct, facile à comprendre ou bien structuré Il faut plus de recherches pour une application réelle Directions de Recherche Meilleurs modèles statistiques Incorporation de connaissances linguistiques

Incorporation de Incorporation de Possibilités Idées : Incorporation de connaissances dans le modèle de langage Incorporation de connaissances dans le modèle de traduction Utilisation d autres ressources, p.ex. des dictionnaires bilingues Modèle de Langage Traitement en deux passes (traduction avec trigrammes standard + rescoring) Modèles de langage n-grammes de catégories morpho-syntaxiques Modèles de langage factorisés Modèles de langage fondés sur la syntaxe Pour l instant, peu d améliorations observées Modèle de Traduction lexicale Modèle de traduction factorisé Intégration de connaissances linguistiques Intégration de connaissances linguistiques lexicale : An : You must make the first move. PP MD VV DT JJ NN Fr : Tu dois faire le premier pas. Algorithme : Étiqueter les textes parallèles avec des informations morpho-syntaxiques (les deux côtés) Enrichir les mots avec les catégories lexicales : You P must V make V the D first Adj move N. Tu P dois V faire V le D premier Adj pas N. An : You must first move the car. PP MD RB VV DT NN Fr : Tu dois d abord déplacer la voiture. pas Comment traduire le mot move? déplacer Construire un système statistique complet sur ce vocabulaire En sortie : Suppression des étiquettes Réutilisation des étiquettes (ML morpho-syntaxique)

Intégration de connaissances linguistiques Incorporation de Modèle de Traduction Factorisé : Méthode a été utilisée dans le système TC-STAR (anglais espagnol) Amélioration de 0.5 points BLEU sur les données de développement Mêmes performances en évaluation humaine : meilleure structure des phrases et accords Motivation Actuellement on utilise une liste avec tous les syntagmes connus et leurs traductions Exemple Il n y a pas de généralisation La voiture rouge est belle The red car is nice Les vélos rouges sont beaux The red bikes are nice Les voitures rouges sont belles Traduction de cette phrase sachant les deux autres? Incorporation de Modèle de Traduction Factorisé Incorporation de Modèle de Traduction Factorisé Principe L approche actuelle de traduction par syntagmes traite un mot comme unité Savoir traduire un mot, ne permet pas de traduire son pluriel, sa conjugaison,... Décomposer les mots en lemme, genre, nombre,... Traduire ces facteurs séparément Recomposer le mot dans la langue cible à partir de la traductions des facteurs Processus de génération Principe mots lemme genre morpho syntaxe source traduction directe traduction des facteurs traduction