Réutilisation de traducteurs gratuits pour développer des systèmes multilingues



Documents pareils
SYSTRAN 7 Guide de démarrage

COMMENT TRADUIRE ET OPTIMISER UN SITE PRESTASHOP? CAS PRATIQUE SOLUTION CLÉ EN MAIN

et instanciation sur des sites i MAG concrets a interactive Multilingual Access Gateway

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Outils de traitements de logs Apache

GUIDE DES RESSOURCES ELECTRONIQUES

cbox VOS FICHIERS DEVIENNENT MOBILES! INTERFACE WEB MANUEL D UTILISATION

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

MAQUETTE M2 PRO ILTS

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Fichiers, dossiers, enregistrer et arborescence

A la conquête des marchés internationaux

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Support pour les langues s écrivant de droite à gauche

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

INFORM :: DEMARRAGE RAPIDE A service by KIS

Module BD et sites WEB

Livre Blanc WebSphere Transcoding Publisher

FORMATION PcVue. Mise en œuvre de WEBVUE. Journées de formation au logiciel de supervision PcVue 8.1. Lieu : Lycée Pablo Neruda Saint Martin d hères

YOUR TACTICS TO PROSPER IN CHINA?

Refonte front-office / back-office - Architecture & Conception -

Aucune limite de taille de fichier et publicit superpose - un convertisseur en ligne gratuit et simple qui transforme vos fichiers Word en PDF.

Les Traducteurs et la veille médias : méthodes et exemples

Sommaire. 1. Présentation de WordPress. 2. Hébergement et installation. 3. Prise en main, ajouter des contenus

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

BTS MUC Le système d information commerciale dans l épreuve d ACRC

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Documentation d information technique spécifique Education. PGI Open Line PRO

Internet, de l'impensable à l'indispensable

Manuel d'utilisation du navigateur WAP Palm

Présentation du modèle OSI(Open Systems Interconnection)

Extension WebEx pour la téléphonie IP Cisco Unified

Sessions en ligne - QuestionPoint

Article I. DÉFINITIONS

FINANCES TOP. 1 ) Gérer un fichier de prospects et de clients. 2 ) Produire des dossiers d'analyse patrimoniale.

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

La solution pour gérer vos connaissances techniques et scientifiques

Architectures web/bases de données

Réflexion sur la mise en place d'un système mobile d'aide à la navigation destiné aux services d'urgence basée sur une solution libre.

Les enjeux de l internationalisation e-commerce. Table ronde d expert

TecLocal 4.0. Nouveautés de la version 4.0 (notes de mise à jour)

Keyyo Guide de mise en service CTI / API / TAPI Keyyo

TEXT MINING von 7

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

TRANSLATION & INTERPRETATION

Cours / Formation pour débutant en informatique, bureautique, Internet etc... (pour débutants)

Table des matières. Qui sommes-nous? Nos services. Pourquoi ETN? Nos tarifs. Contact

RECOPLUS LOGICIEL DE GESTION DES RECOMMANDES NOTICE D UTILISATION DE RECOPLUS RESEAU. N de série

MASTER LANGUES, LITTÉRATURES ET CIVILISATIONS ETRANGÈRES ET RÉGIONALES. Parcours Langues et Technologies (LT)

BNP Paribas Personal Finance

Repérer et utiliser différents types de documents

Politique en matière de cookies

Synodiance. 10 tendances SEO & SEA 19/02/2014

Comment Créer une Base de Données Ab Initio

Guide de la documentation des produits BusinessObjects XI

La GEIDE. Dans une solution GEIDE, il est possible d'associer au sein même d'un dossier:

BIRT (Business Intelligence and Reporting Tools)

Introduction aux concepts d ez Publish

Création de sites internet : Grille des prestations et tarifs

Xavier Masse PDG IDEP France

Suite IBM Tivoli IT Service Management : comment gérer le système d information comme une véritable entreprise

UN EXEMPLE DE CYBERENSEIGNEMENT EN CHIMIE

SITE INTERNET BLOG SITE E-COMMERCE GRILLE D ANALYSE / AUDIT PREMIERE ANALYSE. Entreprises. o Public spécialisé o Etudiants o Enfants

Sécurité des sites Web Pas un cours un recueil du net. INF340 Jean-François Berdjugin

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

Une méthode d apprentissage pour la composition de services web

LA VEILLE MULTILINGUE ET LE PROCESSUS DE TRADUCTION. Marilena MILCU, Assistant Professor, PhD, Lucian Blaga University of Sibiu

Assistance à distance sous Windows

NOUVEAUTES de Microsoft Dynamics CRM 2011 REF FR 80342A

GESTION D UNE BASE BIBLIOGRAPHIQUE

Business Intelligence avec SQL Server 2012

Logiciel Libre Cours 3 Fondements: Génie Logiciel

3 Les premiers résultats des plans d'actions

Guide pour bien débuter avec

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

Visualizing Start-up Firm Trajectories on Kohonen Maps

La post-édition : l'avenir incontournable du traducteur?

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Administration Centrale : Opérations

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Gestion des utilisateurs : Active Directory

INTERNET, C'EST QUOI?

Formation SharePoint Server 2013

Portail collaboratif Intranet documentaire Dématérialisation de processus

TAGREROUT Seyf Allah TMRIM

II-Solution technique pour le développement du site de l'urma

Création d une base terminologique juridique multilingue à l aide de la plateforme générique Jibiki : le projet LexALP

Termes de référence pour le recrutement d un Assistant pour la gestion des bases de données

SUPPLÉMENT À LA DÉCLARATION SUR LA PROTECTION DES RENSEIGNEMENTS PERSONNELS EN LIGNE

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Guide d utilisation. Version 1.1

COMMANDE D UN ARTICLE DE REVUE DANS LE CATALOGUE NEBIS RECHERCHE

Communiqué de lancement. Sage 100 Entreprise Edition Etendue Module CRM inclus

Spécifications de raccordement au service de Téléphonie sur IP (ToIP) de RENATER

Forge. Présentation ( )

LES MÉMOIRES DE TRADUC- TION : OUTIL NÉCESSAIRE OU SOURCE DE PROBLÈMES POUR LES TRADUCTEURS?

Transcription:

RECITAL 2004, Fès, 21 avril 2004 Réutilisation de traducteurs gratuits pour développer des systèmes multilingues VO TRUNG Hung Institut National Polytechnique de Grenoble GETA, CLIPS, IMAG - campus 385, rue de la Bibliothèque, BP 53-38041 Grenoble Cedex 9, France Tél : +33 4 76 51 43 55, Fax : +33 4 76 51 44 05 Mail : Hung.Vo-Trung@imag.fr Résumé Abstract Nous présentons ici une méthode de réutilisation de systèmes de traduction automatique gratuits en ligne pour développer des applications multilingues et évaluer ces mêmes systèmes. Nous avons développé un outil de traitement et de traduction de documents hétérogènes (multilingues et multicodage). Cet outil permet d'identifier la langue et le codage du texte, de segmenter un texte hétérogène en zones homogènes, d'appeler un traducteur correspondant avec une paire de langue source et cible, et de récupérer les résultats traduits dans la langue souhaitée. Cet outil est utilisable dans plusieurs applications différentes comme la recherche multilingue, la traduction des courriers électroniques, la construction de sites web multilingues, etc. We present here a method of the reuse of the free on line automatic translation systems to develop multilingual applications and to evaluate translators. We developed a tool for treatment and translation of the heterogeneous documents (multilingual and multicoding). This tool makes it possible to identify the language and the coding of the text, to segment a heterogeneous text in homogeneous zones, to call a translator corresponding with a fair of languages and to recover the results translated into desired language. We can use this tool in several different applications as multilingual research, the translation of the e-mail, the construction of the multilingual Web, etc. Keywords Mots Clés Traduction Automatique, Traducteur Multilingue, Multilinguisme, Document Multilingue Machine Translation, Multilingual Translator, Multilingualism, Multilingual Document

VO TRUNG Hung 1 Introduction Actuellement, il existe plusieurs versions de traducteurs automatiques non commerciaux en ligne, comme Systran, WorldLingo, Reverso, avec la limitation générale de la longueur du texte à moins de 50-150 mots. En outre, ces traducteurs ne permettent que de traduire des textes ou des pages web monolingues et monocodage avec une paire de langues déterminées à l avance. Avec l'utilisation répandue d'internet, nous recevons régulièrement des informations écrites en plusieurs langues (par exemple, courriers électroniques, catalogues, notices techniques, sites web, etc) et le besoin de la traduction de ces textes en langue d'utilisateur se pose naturellement. De plus, nous recevons des informations dont nous ne pouvons pas savoir quelles langues contenues. La réutilisation de traducteurs gratuits pour développer des applications multilingues est donc une solution utile. L idée est d appeler des traducteurs existants pour traduire des textes dans la langue souhaitée. L'intégration des traducteurs dans les systèmes multilingues permet de traduire automatiquement des textes ou des messages à l exécution et d'éviter par ailleurs le stockage d'une même donnée en plusieurs langues. Nous présentons ici une méthode de réutilisation des systèmes de traduction automatique gratuits en ligne pour développer les applications multilingues et évaluer des traducteurs. Nous combinons plusieurs traducteurs et utilisons l anglais comme pivot de langue pour obtenir un maximum de paires de langue. Nous avons développé un outil de traitement et de traduction des documents hétérogènes (multilingues et multicodage). Cet outil permet d'identifier la langue et le codage du texte, de segmenter un texte hétérogène en zones homogènes, d'appeler un traducteur correspondant avec une paire de langue et récupérer les résultats traduits en langue souhaitée. Ce système peut s adapter pour plusieurs systèmes de codage différents comme BIG-5, GB-2312 (chinois), Shift-JIS (japonais), EUC-kr (coréen), KOI-8, CP 1251 (russe), etc. Nous pouvons utiliser cet outil dans plusieurs applications comme la recherche multilingue, la traduction des courriers électroniques, la construction des sites web multilingues, etc. 2 Objectifs Notre premier objectif est la construction d'un outil d appeler des traducteurs gratuits, disponibles sur le Web et de récupérer leurs résultats. Nous pouvons utiliser les paramètres tels que les langues (source et cible), le codage, le nom de traducteur d'obtenir des résultats traduits différents pour une même entrée. Le deuxième objectif est l'utilisation de ces traducteurs pour développer des applications multilingues. Nous pouvons intégrer ces traducteurs dans des systèmes multilingues pour traduire des textes, des messages en exécutant du programme. Nous avons développé un site web pour traduire des textes hétérogènes (multilingues et multilicodage) dans la langue souhaitée, même si nous ne savons pas la langue du texte d'entrée. Cet outil permet de traduire un texte quelconque dans la langue souhaitée. Si ce texte est hétérogène, notre système segmentera et identifiera quel segment est écrit en quelle langue

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues et quel codage pour déterminer un traducteur correspondant. Par exemple, nous pouvons copier/coller des textes en plusieurs langues (anglais, chinois, japonais, etc) et choisir le français comme langue cible. Ou, nous recherchons des sites contenant un mot (en particulier des mots techniques) de "segment" par google, le résultat comprend des sites en français, anglais, allemand, etc, et nous pouvons utiliser cet outil pour lire les résultats dans une même langue. Nous pourrions aussi intégrer cet outil dans plusieurs applications différentes comme la traduction des courriers électroniques, la génération d'un message en plusieurs langues, l'évaluation de qualité des traducteurs, etc. 3 État de l'art Cette session aborde quelques systèmes récents de traduction automatique et de traitement des documents hétérogènes en ligne. Nous pouvons appeler ces systèmes pour traiter et traduire des textes dans les systèmes multilingues. 3.1 Systran Actuellement, SYSTRAN est un traducteur très connu et sa technologie alimentent des solutions de traduction pour Internet, PC et infrastructures de réseau avec 36 paires de langue et 20 domaines spécialisés différents. La version en ligne permet de traduire pour 34 paires de langue sur l'adresse http://www.systranbox.com/. 3.2 Reverso online C'est un outil de chez Softissimo pour la traduction automatique en ligne de textes ou pages web. Cet outil peut fonctionner en PC, Internet, Intranet soit sous la forme d'une application autonome. L'adresse de traducteur est http://www.reverso.net/textonly/default.asp. 3.3 Sandoh SANDOH (Système d'analyse des DOcuments Hétérogène) est un outil permettant analyse d'un document hétérogène en zones homogènes. Nous avons développé cet outil pour analyser un texte hétérogène selon la méthode du diagnostic de la langue et du codage n-grammes et la méthode de la segmentation progressive pour segmenter un texte hétérogène en zones homogènes. Le résultat de l analyse est le nom d un couple <langue, codage> si ce document est homogène, sinon, les zones et le couple <langue, codage> utilisé dans chaque zone {zone- 1, langue-1, codage-1}, {zone-2, langue-2, codage-2},, {zone-n, langue-n, codage-n}. Cet outil se trouve sur le site web http://www-clips.imag.fr/geta/user/hung.votrung/id_langue/web_fr/index.htm.

VO TRUNG Hung 4 Construction d outil de traduction automatique multilingue 4.1 Architecture du système Nous avons développé un outil pour traduire automatiquement des textes (multilingues ou monolingues) à partir de traducteurs existants en ligne. L'architecture du système est la suivante : Moteur de traduction Texte traduisible - Diagnostic et segmentation - Sélection des traducteurs - Envoi des requêtes - Traitement et visualisation Texte traduit dans la langue souhaitée Figure 1. Système de la traduction automatique multilingue 4.2 Diagnostic et segmentation Le texte d entrée peut-être un texte multilingue ou multicodage (on peut copier/coller à partir de plusieurs sites web différents, ou bien les textes reçus peuvent être hétérogènes). Nous extrayons chaque paragraphe pour diagnostiquer la langue et le codage et envoyer aux serveurs de traduction parce que ces serveurs n acceptent souvent que des textes de longueur inférieure à 150 mots. Si le paragraphe est monolingue, nous l envoyons immédiatement au serveur, sinon il faut segmenter en zones monolingues dont chacune correspond à une ou plusieurs phrases. Après le diagnostic de la langue et du codage, il faut éventuellement convertir le codage du texte vers le système de codage accepté par le serveur de traduction. 4.3 Sélection des traducteurs Nous réutilisons les traducteurs gratuits en ligne et composons deux traducteurs si le couple source-cible direct n existe pas en prenant l anglais comme pivot. En effet, si un système comme Systran, Gist-in-Time, Reverso, a un traducteur pour la langue L, il en a toujours un entre L et l anglais. Certainement les traductions double sont de qualité nettement inférieure aux traductions simples. Mais nous sommes en contexte d accès à l information et les résultats restent le plus souvent utilisables. Par exemple, pour traduire un texte français en japonais, nous pouvons composer deux traducteurs français anglais et anglais japonais (du serveur de traduction Systran). De même, pour traduire un texte arabe en français, nous pouvons composer le moteur bilingue arabe anglais (du serveur de FreeLanguageTranslation) et anglais français (du serveur de Systran). Avec l'outil Sandoh, nous pouvons traduire un texte dans la langue souhaitée même si nous ne savons pas quelle est la langue du texte source. Sandoh diagnostiquera la langue du texte, puis

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues le système déterminera un traducteur pour la paire de langues correspondante. Cette fonction est très confortable pour traduire des courriers, des sites web, des documents qu on n a pas marqués la langue utilisée. 4.4 Envoi des requêtes Après avoir déterminé le serveur de TA adéquat, nous lui envoyons une requête au serveur de traduction. Le résultat obtenu est un fichier sous la forme HTML. Cela est réalisé par la fonction get_doc(), que nous avons écrite en Perl. Pour traduire un texte, le programme appelle cette fonction sur chaque unité de traduction déterminée par la segmentation avec en paramètres l URL du site web de traduction, le contenu du segment à traduire, la paire de langues source et cible. Par exemple, pour traduire un texte sur le serveur Systran, nous appelons get_doc() de la façon suivante : @res = get_doc("www.systranbox.com/systran/box? systran_text=$phrase[$j]&systran_lp=$ls_lc"); Les serveurs de TA acceptent souvent des codages différents pour les mêmes langues (par exemple, EUC_jp ou Shift-JIS pour le japonais, ISO-8958-1 ou Unicode pour le Français). Il faut convertir le codage du texte en codage accepté du serveur avant l envoi d une requête de la traduction. 4.5 Expérimentation Nous avons développé un site web qui permet de traduire automatiquement 11 langues avec 55 paires de langues différentes en traduction simple. Cet outil permet de traduire des textes entrés directement dans une boîte de texte, ou contenus dans des fichiers sur le disque local. La longueur du texte à traduire n est pas limitée. Ce texte peut être monolingue ou multilingue. 5 Applications possibles L application des systèmes de traduction automatique à la multilinguïsation des logiciels. Nous pensons à appliquer ces systèmes à deux niveaux. Au premier niveau, il s agira de traduire des messages, des fichiers de messages, des menus, des fichiers d aide, des documents en localisation des logiciels (par exemple, transcrire les fichiers de messages en Ariane G5). Au deuxième niveau, on l utilisera comme un module interne dans des systèmes multilingues, pour traduire directement à l exécution des messages d une langue dans une autre. L application des traducteurs au deuxième niveau permettra de gérer facilement l interface d utilisateur. Nous pourrons alors construire un logiciel multilingue qui comprend un seul code de programme, les catalogues de messages, et un module de traducteur. L'intégration dans les systèmes de communication sur Internet. Nous prévoyons aussi d utiliser cet outil dans les systèmes de courrier électronique (pour traduire automatiquement les courriers reçus dans la langue d'utilisateur), les systèmes de dialogue multilingue en ligne (pour dialoguer en plusieurs langues), les systèmes de commerce électronique, etc.

VO TRUNG Hung Le traitement de corpus multilingues. Cet outil servira enfin à produire des corpus en nouvelle langue (ou au moins à produire un premier jet, comme cela commence dans le projet TraCorpEx), à évaluer des corpus (grâce aux corpus testés), etc. 6 Perspectives Dans le projet TraCorpEx, qui vise à évaluer la qualité de traducteurs à partir des corpus multilingues existants (par exemple, le corpus BTEC avec les langues comme anglais, français, japonais, ) et ajouter des langues à des corpus multilingues d exemples. Nous avons commencé à traduire la partie anglaise de ce corpus en français par des traducteurs différents (Systran, WorlLingo, ). Nous évaluerons ensuite ces traductions par diverses méthodes. À court terme, nous allons aussi étendre notre système par une interface permettant de lui déclarer des traducteurs disponibles sur le web, avec toutes les informations nécessaires (couples de langue, codages, formats, paramétrabilité). Nous étendrons aussi la fonction getdoc() pour permettre d appeler des traducteurs Pro installés sur notre serveur, car ils sont bien plus rapides et paramétrables que les versions web. Références BLANCHON H., BOITET C. & CAELEN J. (1999), Participation francophone au consortium C- STAR II, La Tribune des Industries de la Langue et du Multimédia, Vol. 31-32 (August- December 1999) : pp. 15-23. BOITET C., BLANCHON H. (1995), Multilingual Dialogue-Based MT for monolingual authors: the LIDIA project and a first mockup, Machine Translation, Vol. 9, pp 99-132. HUTCHINS J. (2001), Machine Translation Over Fifty Years, Revue HEL (Histoire Epistemologie Langage), publié par la Société d'histoire et d'épistémologie des sciences du langage (SHESL), Université de Paris VII, Vol. 23. HUTCHINS J. (1999), The development and use of machine translation systems and computerbased translation tools, International Symposium on Machine Translation and Computer Language Information Processing, Beijing, Chine. LAROSSE L. (1998), Méthodologie de l'évaluation des traductions, Meta, Vol. 43, N 2, Presses de l'université de Montréal. VO TRUNG H. (2003), Évaluation des méthodes et outils pour identifier automatiquement la langue et le codage d'un texte homogène, Actes de la conférence MAJECSTIC'03, octobre 2003, Marseille, France. VO TRUNG H. (2004), SANDOH - un système d'analyse de documents hétérogènes, Actes de la conférence JADT 2004 (Journées internationales d'analyse statistique des Données Textuelles), mars 2004, Louvain-la-Neuve, Belgique.