Quelques citations. Traduction automatique statistique. Communication Langagière Ingénierie des langues et de la parole

Documents pareils
DOCUMENTATION - FRANCAIS... 2

Évaluation de G-LexAr pour la traduction automatique statistique

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Apprentissage Automatique

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Paxton. ins Net2 desktop reader USB

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Once the installation is complete, you can delete the temporary Zip files..

DOCUMENTATION - FRANCAIS... 2

Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Monitor LRD. Table des matières

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Application Form/ Formulaire de demande

DOSSIER DE CANDIDATURE APPLICATION FORM

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Technologies quantiques & information quantique

Université de XY University of XY. Faculté XY Faculty of XY

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Accident automobile en Europe : comment réagir? Le guide du consommateur européen. Finances. Achats. e-commerce. Santé. Tourisme.

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

How to Login to Career Page

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

ARCHIVES NATIONALES. Versement

Editing and managing Systems engineering processes at Snecma

Forthcoming Database

Object Removal by Exemplar-Based Inpainting

Application d un algorithme de traduction statistique à la normalisation de textos

Practice Direction. Class Proceedings

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

SYSTRAN 7 Guide de démarrage

Initiation à l algorithmique

Bill 69 Projet de loi 69

1.The pronouns me, te, nous, and vous are object pronouns.

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Stakeholder Feedback Form January 2013 Recirculation

Voici les textes des fichiers associés au bulletin CA. Notez que vous retrouverez dans ces textes les nouvelles de toutes les régions.

Jeudi 30 avril L art de bien référencer son site Internet

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Lycée Français de Hong Kong French International School

Gestion des prestations Volontaire

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Quels noms de domaine doit on obtenir pour maximiser l'impact de ses marques de commerce? Comment gérer les conflits?

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Elle accompagne les entrepreneurs, les gestionnaires et les équipes pour résoudre les défis liés à leur rôle.

Improving the breakdown of the Central Credit Register data by category of enterprises

Archived Content. Contenu archivé

Nouveautés printemps 2013

Cours d algorithmique pour la classe de 2nde

Cours 1 : Qu est-ce que la programmation?

COPYRIGHT 2014 ALCATEL-LUCENT. ALL RIGHTS RESERVED.

Loi sur l aide financière à la Banque Commerciale du Canada. Canadian Commercial Bank Financial Assistance Act CODIFICATION CONSOLIDATION

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Plus courts chemins, programmation dynamique

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

STATUS VIS-Av -VIS THE HOST STATE OF A DIPLOMATIC ENVOY TO THE UNITED NATIONS (COMMONWEALTH OF DOMINICA v. SWITZERLAND)

WEB page builder and server for SCADA applications usable from a WEB navigator

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Quantification Scalaire et Prédictive

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Dis où ces gens vont d après les images / Tell where these people are going based on the pictures.

Tex: The book of which I'm the author is an historical novel.

Algorithmique I. Algorithmique I p.1/??

Garage Door Monitor Model 829LM

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

GUIDE D UTILISATION: Indicateur Trading Central pour la plateforme MT4

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

CATALOGUE DE PRESTATIONS D ACCOMPAGNEMENT METIER DES CENTRES DE CONTACTS

Discours de Eric Lemieux Sommet Aéro Financement Palais des congrès, 4 décembre 2013

APPENDIX 6 BONUS RING FORMAT

L exclusion mutuelle distribuée

MANUEL MARKETING ET SURVIE PDF

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Manuel de référence des commandes SMS Advisor Advanced

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Experian Marketing Services. S appuie sur l analyse des données pour engager les consommateurs où qu ils soient CONNECTER. ENGAGER. INTERAGIR.

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Algorithmique des Systèmes Répartis Protocoles de Communications

Rapport de stage d initiation

UMANIS. Actions UMANIS(code ISIN FR /mnémo UMS)

Instructions Mozilla Thunderbird Page 1

Aspects de droit anglais


F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

AFFAIRE RELATIVE À DES QUESTIONS D'INTERPRÉTATION ET D'APPLICATION DE LA CONVENTION DE MONTRÉAL DE 1971 RÉSULTANT DE L'INCIDENT AÉRIEN DE LOCKERBIE

RAPID Prenez le contrôle sur vos données

Support pour les langues s écrivant de droite à gauche

Perl Console. Votre compagnon pour développer en Perl. Les Journées du Perl , 17 novembre, Lyon. Alexis Sukrieh

1 Introduction et installation

Guide utilisateur Performance

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Indications pour une progression au CM1 et au CM2

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

INSERTION TECHNIQUES FOR JOB SHOP SCHEDULING

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

Transcription:

Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3 Quelques applications du traitement automatique du langage naturel 2.3.1 Dictionnaires et étiquetage de surface 2.3.2 Traduction automatique statistique 3. Ingénierie de la parole 3.1 Rappels de traitement numérique du signal 3.2 Le signal de parole : analyse, unités pertinentes et variabilité 3.3 Codage et compression de la parole 3.4 Reconnaissance automatique de la parole 3.5 Synthèse de la parole Quelques citations It must be recognized that the notion probability of a sentence is an entirely useless one, under any known interpretation of this term. Noam Chomsky, 1969 Whenever I fire a linguist our system performance improves. Frederick Jelinek, 1988 Traduction automatique statistique

Le triangle de Vauquois Méthodes à base de mots Premiers modèles pour la TA statistique [Brown et al., 1993] Méthodes à base de séquences Une entrée est segmentée en séquences Chaque séquence est traduite Les séquences sont ré-ordonnées

Modèles fondés sur la syntaxe Systèmes de traduction en ligne Exemple 1 : google Exemple 2 : système du LIG Evaluation automatique Pourquoi une évaluation automatique? Evaluation manuelle trop lente Doit être faite sur de larges ensembles de test Permet un tuning automatique des systèmes de TA Historique Word Error Rate BLEU depuis 2002 BLEU : Recouvrement avec des traductions de référence

Evaluation automatique Reference Translation the gunman was shot to death by the police Vert : 4-gram match => bien Rouge : no match => mauvais BLEU! La formule Problème de l évaluation automatique Source : The rapporteurs have already stressed the quality of the debate and the need to progress further, and I can only agree with them. Trad. Auto. Les rapporteurs ont déjà souligné la qualité du débat et la nécessité de progresser, et je ne peux qu être d accord avec eux. Réf. Les rapporteurs ont souligné la qualité de la discussion et aussi le besoin d aller plus loin. Bien sûr, je ne peux que les rejoindre.

Problème de l évaluation automatique Source : The rapporteurs have already stressed the quality of the debate and the need to progress further, and I can only agree with them. Trad. Auto. Les rapporteurs ont déjà souligné la qualité du débat et la nécessité de progresser, et je ne peux qu être d accord avec eux. Réf. Les rapporteurs ont souligné la qualité de la discussion et aussi le besoin d aller plus loin. Bien sûr, je ne peux que les rejoindre. => BLEU proche de 0!!! Correlation ou pas avec des jugements humains Correlation ou pas avec des jugements humains

Campagnes d évaluation NIST/DARPA: Campagnes annuelles : Arabic-English, Chinese- English, nouvelles, depuis 2001 IWSLT: Campagnes annuelles : Chinois, Japonais, Italien, Arabe => Anglais, domaine «tourisme» depuis 2003 WPT/WMT: Langues européennes, archives du parlement européen, depuis 2005 Euromatrix 110 systèmes!! Traduire depuis/vers une langue Difficile de traduire vers les langues à riche morphologie (Allemand, Finnois)

Données disponibles Corpus parallèles Europarl: 30 millions de mots en 11 langues http://www.statmt.org/europarl/ Acquis Communitaire: 8-50 million mots (20 langues EU) Canadian Hansards: 20 million mots Chinese/Arabic to English: plus de 100 million mots (LDC) Corpus monolingues 2.8 milliards de mots (Anglais, LDC) Web Plus de données parallèles Plus de données en langue cible

Exemple de sortie d un système chinois/anglais Systèmes de TA statistique à base de mots Traduire un mot Dictionnaires bilingues Exemple Haus house, building, home, household, shell. Traduction multiples Collecter des statistiques Maximum likelihood estimation (Maximum de vraisemblance)

Alignement Fonction d alignement : mot anglais cible en position i associé à mot étranger source en position j par la fonction a: i->j Exemples d alignement (1) Exemples d alignement (2)

Modèle IBM-1 Exemple Apprendre un tel modèle (IBM-1) A partir d un corpus parallèle Sans avoir les alignements Algorithme EM

Algorithme EM Au départ, tous les alignements sont equi-probables Algorithme EM

Pseudo-code Modèles suivants (IBM-2,3,4) IBM-2 intègre une loi de distorsion de la forme p(aj/j) : proba. que le mot cible fj soit aligné à ei avec i=aj IBM-3 intègre une loi de fertilité qui modélise le nombre de mots dans la phrase cible connectés à un mot dans la phrase source IBM-4 intègre un modèle de distorsion plus fin Il existe un outil (GIZA++) pour entraîner les paramètres de ces modèles Les paramètres d un modèle permettent d initialiser l apprentissage du modèle suivant Approche à base de séquences (phrasebased approach) Entrée en langue source ségmentée en séquences (phrase en anglais) Chaque séquence est traduite en anglais Les séquences sont réordonnées

Table de traduction (phrase table) Table pour la séquence allemande «den Vorschlag» Obtention de la table Obtenue à partir d alignements bidirectionnels de mots (obtenus avec GIZA++) Obtention de la table Expansion [Och and Ney, CompLing2003]

Expansion : algo Obtention de la table Collecter les paires de séquences consistantes avec l alignement Obtention de la table

Obtention de la table Obtention de la table Obtention de la table

Obtention de la table Obtention de la table Calculer aussi Garder aussi les probabilités lexicales (au niveau mot) Modèle de traduction par séquences

Modèles log-linéaires Apprendre les poids Décodage

Processus de décodage Construit la traduction de gauche à droite Sélectionne les mots source à traduire Processus de décodage Construit la traduction de gauche à droite Sélectionne les mots source à traduire Trouve la séquence anglais correspondante Ajoute la séquence anglais à la fin de la traduction partielle courante Processus de décodage Construit la traduction de gauche à droite Sélectionne les mots source à traduire Trouve la séquence anglais correspondante Ajoute la séquence anglais à la fin de la traduction partielle courante Marque les mots sources «traduits»

Processus de décodage Processus de décodage Options de traduction -différentes façons de segmenter une phrase source en séquences -différentes façons de traduire chaque séquence

Expansion d hypothèses Expansion d hypothèses Expansion d hypothèses

Expansion d hypothèses Expansion d hypothèses Expansion d hypothèses

Explosion de l espace de recherche Le nombre d hypothèses croit exponentiellement avec le nombre de mots dans la phrase source Le processus de décodage est un problème NPcomplet [Knight, 1999] Besoin de réduire l espace de recherche Recombinaison d hypothèses Elagage (pruning) Recombinaison d hypothèses Différents chemins mènent à la même hypothèse partielle Supprimer le chemin le moins probable Recombinaison d hypothèses Les chemins n ont pas besoin d être strictement identiques On peut supprimer un chemin si Les 2 derniers mots cible (anglais) correspondent (ML) La couverture en mots source correspond (futurs chemins)

Elagage (pruning) Organiser les hypothèses en piles par mêmes mots sources couverts même nombre de mots sources couverts même nombre de mots cibles traduits Comparer les hypothèses dans les piles, supprimer les mauvaises histogram pruning: garder les n meilleures hypothèses pour chaque pile (e.g., n=100) threshold pruning: garder les hypothèses qui ont au plus un score égal à x fois le score de la meilleure hypothèse (e.g. x= 0.001) Exemple Piles fondées sur le nombre de mots étrangers traduits Comparer les hypothèses Une hypothèse qui couvre une partie «facile» risque d être préférée au détriment d une bonne traduction partielle =>Il faut considérer les coût futur des parties non traduites

Estimer les score futur -Utiliser le score futur pour élaguer les hypothèses -Ajouter score futur & score passé pour décider d élaguer une hypothèse ou pas Outils disponibles GIZA++ Moses SRI-LM Voir TP : http://www-clips.imag.fr/geod/user/laurent.besacier/new-tps/tp-cl/tp6.html Outils commerciaux