Standards basés sur XML pour la traduction et la localisation



Documents pareils
SDL Trados Studio 2011 Gestion des mémoires de traduction

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

WEB page builder and server for SCADA applications usable from a WEB navigator

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

KIT DE DÉMARRAGE SHAREPOINT DANS MICROSOFT AZURE

L'assurance qualité automatisée en agence de traduction (QA Distiller, Xbench et SDLX QA Check)

Le nouveau visage de la Dataviz dans MicroStrategy 10

OUTIL DE TRAVAIL COLLABORATIF

DOCUMENTATION - FRANCAIS... 2

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

L'assurance qualité automatisée; pertinence pour le traducteur indépendant

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

LES MÉMOIRES DE TRADUC- TION : OUTIL NÉCESSAIRE OU SOURCE DE PROBLÈMES POUR LES TRADUCTEURS?

How to Login to Career Page

DOCUMENTATION - FRANCAIS... 2

Tutoriel de formation SurveyMonkey

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

AutoCAD Petit exercice sous

GUIDE D UTILISATION DE LA PLATEFORME D ENVOI DE COURRIELS

SERVEUR DÉDIÉ DOCUMENTATION

Differential Synchronization

WDpStats Procédure d installation

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Les Portfolios et Moodle Petit inventaire

Instructions Mozilla Thunderbird Page 1

Introduction de la journée

Completed Projects / Projets terminés

FOURTH SESSION : "MRP & CRP"

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Package Contents. System Requirements. Before You Begin

Adeunis-RF Softwares. Stand-Alone configuration Manager V2. User guide version V1 FRANCAIS ENGLISH

Localisation. Cours 1 Généralités. E. Planas, UCO

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Contents Windows

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Procédure d installation de la Sauvegarde de Windows Server

Contrôle d accès Access control MOD-TCPIP-AI. Notice technique / Technical Manual

France SMS+ MT Premium Description

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Consultants en coûts - Cost Consultants

Procédures Stockées WAVESOFT ws_sp_getidtable Exemple : ws_sp_getnextsouche Exemple :... 12

Sommaire. Introduction. Nouveautés d Adobe InDesign CS3. Visite guidée d Adobe InDesign

Conserver les Big Data, source de valeur pour demain

Paxton. ins Net2 desktop reader USB

Galigeo G14: Location Intelligence

Gestionde la conformité des licenses

Guide d installation de SugarCRM Open Source version 4.5.1

EMC Forum EMC ViPR et ECS : présentation des services software-defined

RTDS G3. Emmanuel Gaudin

VMware : De la Virtualisation. au Cloud Computing

BIRT (Business Intelligence and Reporting Tools)

Module Title: French 4

GEDEXPERT. La Gestion Electronique de Documents des PME PMI. VOTRE NOUVEL ASSISTANT pour. Pour partager l information au sein de l entreprise

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

Title Text. Gestion de données de mobilité Mobility data management

Montée de Version SAP en environnement Solaris 10 TEMOIGNAGE Client

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

MANUEL MARKETING ET SURVIE PDF

1.The pronouns me, te, nous, and vous are object pronouns.

Fiche produit ifinance v4

Guide de récupération de Windows Server 2003 R2 pour serveurs Sun x64

SunATM 4.0 Release Notes

Petit guide pour l installation de CVW sous Linux

Application Form/ Formulaire de demande

Module BDR Master d Informatique (SAR)

DOCUMENTATION - FRANCAIS... 2

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

Vanilla : Virtual Box

Guide d'installation rapide TFM-560X YO.13

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

CLOUD COMPUTING et Relation Client/Fournisseur Une Révolution culturelle?

MATRICE DES FONCTIONNALITES

SDL Trados Studio 2014 : traduction et relecture des documents Innovation. Guide de démarrage rapide

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Annexe : La Programmation Informatique

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Google Tag Manager Optimisez le tracking de votre site web

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Offre INES CRM + BI MyReport. Logiciels pour une meilleure performance commerciale

Thank you for choosing the Mobile Broadband USB Stick. With your USB Stick, you can access a wireless network at high speed.

Les technologies de gestion de l identité

Déployer les Fonts, Icones, et Images avec Forms Services 11G

Java et les bases de données

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Publier dans la Base Documentaire

Configurer la supervision pour une base MS SQL Server Viadéis Services

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Transcription:

Standards basés sur XML pour la traduction et la localisation Andrei Popescu-Belis TIM / ETI, Université de Genève Cours n 13 16.6.2005 Plan du cours 1. Format d échange pour les mémoires de traduction : TMX 2. Encodage normalisé des conventions de segmentation : SRX 3. Format XML des données pour la localisation des programmes : XLIFF 2 1

TMX : Translation Memory exchange Définition format de stockage et d échange des mémoires de traduction indépendant d un système particulier «open-source», basé sur XML Application mémoires de traduction (e.g., Trados, SDLX) outils de localisation Objectifs faciliter l échange des données entre les outils ou entre les professionnels de la traduction réduire le monopole des grands systèmes en permettant le transfert des mémoires http://www.lisa.org/tmx 3 Organisation TMX conçu par le groupe OSCAR Open Standards for Container/Content Allowing Re-use un Special Interest Group de LISA LISA = Localisation Industry Standards Assocation Membres du comité de pilotage d OSCAR représentants de : Brigham Young University, GlobalSight, IBM, JDEdwards, RWS Group, Sun Microsystems, Star Group, SDL, SAP, Trados, Welocalize assurance que les «grands» systèmes utiliseront TMX 4 2

Etat actuel Disponibilité plusieurs systèmes acceptent TMX, dont : TRADOS, Transit, SDLX, Déjà Vu fonctions d importation/exportation de mémoires de traduction car chaque logiciel utilise surtout son format propriétaire tout n est pas respecté «à la lettre» Version actuelle du standard 1.4 a, publiée en juillet 2002 5 Aperçu du format sur un exemple (1) <?xml version="1.0"?> <!-- Example of TMX document --> <tmx version="1.4"> <header creationtool="xyztool" creationtoolversion="1.01-023" datatype="plaintext" segtype="sentence" adminlang="en-us" srclang="en" o-tmf="abctransmem" creationdate="20020101t163812z" creationid="thomasj" changedate="20020413t023401z" changeid="amity" o-encoding="iso-8859-1"> <note>this is a note at document level.</note> <prop type="rtfpreamble">{\rtf1\ansi\tag etc...{\fonttbl}</prop> <ude name="macroman" base="macintosh"> <map unicode="#xf8ff" code="#xf0" ent="apple_logo" subst="[apple]"/> </ude> </header> 6 3

Aperçu du format sur un exemple (2) <body> <tu tuid="0001" datatype="text" usagecount="2" lastusagedate="19970314t023401z"> <note>text of a note at the TU level.</note> <prop type="x- Domain">Computing</prop> <prop type="x- Project">Pægasus</prop> <tuv xml:lang="en" creationdate="19970212t153400z" creationid="bobw"> <seg>data (with a non-standard character: ).</seg> </tuv> <tuv xml:lang="fr-ca" creationdate="19970309t021145z" creationid="bobw" changedate="19970314t023401z" changeid="manond"> <prop type="origin">mt</prop> <seg>données (avec un caractère non standard: ).</seg> </tuv> </tu> 7 Aperçu du format sur un exemple (3) <tu tuid="0002" srclang="*all*"> <prop type="domain">cooking</prop> <tuv xml:lang="en"> <seg>menu</seg> </tuv> <tuv xml:lang="fr-ca"> <seg>menu</seg> </tuv> <tuv xml:lang="fr-fr"> <seg>menu</seg> </tuv> </tu> </body> </tmx> 8 4

Exemple 2 : localisation d un manuel Supposons qu un manuel technique contienne la phrase: «If you click the button, APPLICATION will not respond; instead it displays the following message: Application error. Please ask for further instruction.» Noter la présence : d un bouton (objet non linguistique) du formatage interne à un segment : le mot APPLICATION du formatage recouvrant deux segments : le message d erreur en italiques Source : Multilingual Computing & Technology, 14(2), 2003. 9 Stockage de l exemple dans une mémoire de traduction Objectif : stocker le maximum d information pour avoir des match à 100% sans perdre ou déformer le formatage graphique et les codes Utilisation des balises TMX par les systèmes : explications <tu> : translation unit, contient des <tuv> (t.u. variants) <ph> : place holder, contient du code non linguistique indépendant <bpt> : begin paired tag, code non linguistique, balise ouvrante <ept> : end paired tag, code non linguistique, balise fermante <it> : isolated tag, code non linguistique, balise ouvrante/fermante isolée dans un segment (l autre balise étant dans un segment différent) <ut> : unknown tag NOTE : puisque TMX est du XML, < et > en dehors des balises, sont remplacés par < et > sauf dans ce qui suit, pour la lisibilité 10 5

TRADOS 5.5 TMX v. 1.1 <tuv lang="en-us"> <seg> If you click the <ut>{\pict}</ut> button, <ut>{\scaps </ut> Application <ut>}</ut> will not respond; instead it displays the following message: <ut>{\i </ut> Application error. <ut>}</ut> </seg> </tuv> 11 Transit XV SP1 TMX v. 1.1 <tuv lang="en-us"> <seg> <ph type="image"><object id="0" type="unknown" amount="9"/></ph> If you click the <ph type="image"><object id="1" type="picture" amount="2"/></ph> button, <ph type="image"><object id="13" type="unknown"/></ph> <bpt i="1" type="font"><f id="1"></bpt> Application <ph type="image"><object id="14" type="unknown"/></ph> <ept i="1"></f></ept> will not respond; instead it displays the following message: <ph type="image"><object id="15" type="unknown"/></ph> <bpt i="2" type="italic"><i></bpt> Application error. <ept i="2"></i></ept> </seg> </tuv> 12 6

SDLX 4.2.1 TMX v. 1.4 <tuv xml:lang="en-us"> <seg> <bpt i="1" x="1"><1></bpt> If you click the <ept i="1"></1></ept> <ph x="2"><2/></ph> <bpt i="2" x="3"><3></bpt> button, <ept i="2"></3></ept> <bpt i="3" x="4"><4></bpt> Application <ept i="3"></4></ept> <bpt i="4" x="5"><5></bpt> will not respond; instead it displays the following message: <ept i="4"></5></ept> <bpt i="5" x="6"><6></bpt> Application error <ept i="5"></6></ept> <it pos="begin" x="7"><7></it>. </seg> </tuv> 13 Déjà Vu X TMX v. 1.4 <tuv xml:lang="en-us"> <seg> If you click the <ph x="1">{1}</ph> button, <ph x="2">{2}</ph> Application <ph x="3">{3}</ph> will not respond; instead it displays the following message: <ph x="4">{4}</ph> Application error <ph x="5">{5}</ph>. </seg> </tuv> 14 7

Vérification de la compatibilité d un outil avec TMX (1) Objectif : exporter des mémoires conformes à TMX Difficulté : le marquage éventuel entre les mots Level 1 (texte simple) seulement le contenu, pas l information de formatage ce niveau est en fait suffisant pour des textes qui n ont pas de codes insérés (i.e. balises, instruction logicielles, etc.) Level 2 (marquage du contenu) contenu textuel + instructions de formatage la conformité permet ici à d autres outils de niveau 2 utilisant la mémoire de recréer le format original du document 15 Vérification de la compatibilité d un outil avec TMX (2) Note la conformité ne tient pas compte du problème (difficile) de la segmentation i.e. : si deux logiciels segmentent différemment une phrase, même s ils respectent TMX, le résultat pourra ne pas être le même en sortie avec la même mémoire Vérification de la conformité outils disponibles sur Internet http://www.lisa.org/tmx/tmxcompliancekit.zip mais certification officielle délivrée seulement par LISA 16 8

Application pratique APPLIQUER LES INSTRUCTIONS DE WWW.LISA.ORG POUR VERIFIER LA CONFORMITE A TMX Objectifs Vérifier que le format d exportation et d importation d un logiciel de mémoire de traduction est conforme au standard TMX Méthode choisir un logiciel de TM construire des mémoires de traduction simples suite de tests : importation, exécution, comparaison du résultat avec ce que TMX prévoit ; idem pour l exportation DEMONSTRATION (si l heure le permet) 18 9

Procédure (1) Téléchargez le fichier: http://www.lisa.org/tmx/tmxcompliancekit.zip Décompressez-le dans un répertoire nouveau par exemple H:\...\tmx Quels documents se trouvent dans l archive? 19 Procédure (2) Regardez rapidement la spécification TMX fournie ainsi que la documentation de la procédure de vérification de la conformité Choisissez SDLX ou Trados en fonction de vos connaissances (si besoin, demandez un dongo) Appliquez point par point la procédure et noter à chaque étape la conformité essayez d utiliser le programme de vérification/validation à votre avis, quelles opérations XML effectue-t-il? 20 10

Plan du cours 1. Format d échange pour les mémoires de traduction : TMX 2. Encodage normalisé des conventions de segmentation : SRX 3. Format XML des données pour la localisation des programmes : XLIFF 21 SRX : Segmentation Rules exchange Version 1.0 avril 2004 : officiellement accepté comme norme de LISA/OSCAR http://www.lisa.org/srx 22 11

Aperçu de SRX (1) SRX complémente la norme TMX permet de rendre explicites les règles de segmentation de phrases utilisées pour créer une mémoire de traduction faciliter l échange de mémoires de traduction Deux parties les règles de segmentation les correspondances langues/règles (simple) Règles de segmentation utilisent les «expressions régulières» intuitivement : expressions avec «jokers» 23 Aperçu de SRX (2) Document TMX + document SRX permettent d expliquer comment le texte a été segmenté avant d être introduit dans une mémoire de traduction État actuel : segmentation en phrases les mémoires de traduction courantes sont aussi basées sur les phrases surtout celles qui gèrent le format TMX à l avenir : segmentation plus complexe, en syntagmes et termes SRX est implémenté en XML les documents SRX sont bien formés et valides la norme fournit une DTD et un schéma 24 12

Texte à segmenter : The U.K. Prime Minister, Mr. Blair, was seen out with his family today. Rule set <rule break"yes"> <beforebreak>[\.\?!]+</beforebreak> <afterbreak>\s</afterbreak> </rule> Result ( 1) The U.K. (2) Prime Minister, Mr. ( 3) Blair, was seen out with his family today Not es The sim ple full-stop followed by a space rule here showing its limitations <rule break="no"> <beforebreak>u.k.</beforebreak> <afterbreak>\s</afterbreak> </rule> <rule break="yes"> <beforebreak>[\.\?!]+</beforebreak> <afterbreak>\s</afterbreak> </rule> ( 1) The U.K. Prime Minister, Mr. ( 2) Blair, was seen out with his family today Partially corrected with an exception for "U.K." <rule break="no"> <beforebreak>u.k.</beforebreak> <afterbreak>\s</afterbreak> </rule> <rule break="no"> <beforebreak>mr.</beforebreak> <afterbreak>\s</afterbreak> </rule> <rule break="yes"> <beforebreak>[\.\?!]+</beforebreak> <afterbreak>\s</afterbreak> </rule> ( 1) The U.K. Prime Minister, Mr. Blair, was seen out with his family today Sufficient exceptions to prevent segm entation on "U.K." and "Mr." 25 Plan du cours 1. Format d échange pour les mémoires de traduction : TMX 2. Encodage normalisé des conventions de segmentation : SRX 3. Format XML des données pour la localisation des programmes : XLIFF 26 13

Utilisation de TMX pour la localisation Séparation langue vs. code en TMX 1.4a Exemple : élément d un document HTML avec du texte dans une valeur d attribut See the <A TITLE="Go to Notes" HREF="notes.htm">Notes</A> for more details. Codage en TMX avec marquage du contenu See the <bpt i="1" type="link"><a TITLE="<sub> Go to Notes</sub> " HREF="notes.htm"></bpt> Notes <ept i="1"></a></ept> for more details. Séparation correcte, mais difficulté de préciser quels sont les segments à cause de l insertion de Go to Notes qui doit être traduit aussi 27 OpenTag et XLIFF Objectifs séparer, dans une application : le texte qui doit être localisé (menus, boutons, aide, infos, etc.) les éléments de programme qui ne doivent pas changer fusionner ensuite la traduction avec le programme OpenTag et XLIFF même objectif, mais XLIFF est plus précis & interopérable "XML Localization Interchange File Format" Traduction du texte séparé : avec un outil qui ne change pas les balises (ex.: Trados TagEditor) 28 14

OpenTag N est plus mis à jour, mais simple à comprendre Application capable d extraire et de fusionner des fichiers OpenTag définit seulement le format, pas la technique d extraction la technique dépend du format du fichier à localiser 1. Extraction à partir du fichier initial partie localisable : fichier OpenTag (.OTF) partie non linguistique : fichier «squelette» (.SKL) le SKL contient des liens vers les items correspondants dans le OTF 2. Traduction / localisation du OTF 3. Fusion on obtient un programme localisé autonome 29 Objectifs les mêmes que OpenTag, mais avec une inspiration de TMX Organisation depuis 2001 : comité technique de OASIS membres : Oracle, Novell, IBM/Lotus, Sun MicroSystems, Alchemy Software, Berlitz, Moravia-IT, et RWS Group Spécification http://www.oasis-open.org/committees/xliff/documents/xliffspecification.htm Version 1.0, «committee specification», début 2002 Version 1.1, «committee specification», mai 2003 Voir aussi http://www.xliff.org http://www.opentag.com/xliff.htm 30 15

Différences avec OpenTag et TMX XLIFF vs. OpenTag : même objectif OpenTag est plus ancien, XML était nouveau à l'époque XLIFF est plus structuré XLIFF peut incorporer le fichier «squelette» dans le fichier à localiser (autonomie) XLIFF offre un mécanisme développé pour la pré-traduction, la révision, l enregistrement des versions XLIFF seulement deux langues dans chaque document OpenTag et TMX : autant de langues qu on veut choix de fixer deux langues : pour simplifier le modèle XLIFF vs. TMX et OpenTag TMX peut encapsuler du code-machine dans le fichier à traduire OpenTag utilise un système d ancres et de liens XLIFF peut faire les deux 31 Exemple A en XLIFF (1/2) [fichier squelette externe] <?xml version="1.0"?> <xliff version="1.0"> <file original="graphic Example.psd" source-language="en-us" targetlanguage="ja-jp" tool="rainbow" datatype="photoshop"> <header> <skl> <external-file uid="3bb236513bb24732" href="graphic Example.psd.skl"/> </skl> <phase-group> <phase phase-name="extract" process-name="extraction" tool="rainbow" date="20010926t152258z" company-name="neverland Inc." job-id="123" contact-name="peter Pan" contact-email="ppan@xyzcorp.com"> <note>make sure to use the glossary I sent you yesterday. Thanks.</note> </phase> </phase-group> </header> 32 16

Exemple A en XLIFF (2/2) <body> <trans-unit id="1" maxbytes="14"> <source xml:lang="en-us">quetzal</source> <target xml:lang="ja-jp">quetzal</target> </trans-unit> <trans-unit id="3" maxbytes="114"> <source xml:lang="en-us">an application to manipulate and process XLIFF documents</source> </target> </trans-unit> <trans-unit id="4" maxbytes="36"> <target xml:lang="ja-jp">xliff <source xml:lang="en-us">xliff Data Manager</source> <target xml:lang="ja-jp">xliff </target> </trans-unit> </body> </file> </xliff> 33 Exemple B en XLIFF (1/2) [fichier squelette interne] <?xml version="1.0" encoding="windows-1252"?> <xliff version="1.0" xml:lang='en'> <file source-language='en' target-language='fr' datatype="winres" original="sample1.rc"> <header> <skl> <internal-file crc="64a2b9b0"><![cdata[ <OKFSKL100:RES:964008261> #include "resource.h" IDD_DIALOG1 DIALOG DISCARDABLE 0, 0, 186, 57 STYLE DS_MODALFRAME WS_POPUP WS_CAPTION WS_SYSMENU CAPTION "<xref$1>" FONT 8, "MS Sans Serif" BEGIN LTEXT "<xref$2>",idc_static,8,4,18,8 EDITTEXT IDC_EDIT1,8,16,100,14,ES_AUTOHSCROLL CONTROL "<xref$3>",idc_check1,"button", BS_AUTOCHECKBOX WS_GROUP WS_TABSTOP,8,40,41,10 DEFPUSHBUTTON "<xref$4>",idok,129,7,50,14,ws_group PUSHBUTTON "<xref$5>",idcancel,129,24,50,14 END]]></internal-file> </skl> </header> 34 17

Exemple B en XLIFF (2/2) <body> <group restype="dialog" resname="idd_dialog1"> <trans-unit id="1" restype="caption"> <source>title</source> </trans-unit> <trans-unit id="2" restype="label" resname="idc_static"> <source>&path:</source> </trans-unit> <trans-unit id="3" restype="check" resname="idc_check1"> <source>&validate</source> </trans-unit> <trans-unit id="4" restype="button" resname="idok"> <source>ok</source> </trans-unit> <trans-unit id="5" restype="button" resname="idcancel"> <source>cancel</source> </trans-unit> </group> </body></file></xliff> 35 Outils pour XLIFF Suivre les liens à www.opentag.com XLIFF Settings Files (07/2001) pour traduire des documents XLIFF avec SDLX ou TagEditor outils Rainbow (famille d'outils RWS pour la localisation) filtres XLIFF (extracteurs) pour différents formats de fichiers ressources La traduction de fichiers XLIFF simplifie le travail de localisation 36 18