La traduction automatique pour l entreprise

Documents pareils
SYSTRAN 7 Guide de démarrage

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

La post-édition : l'avenir incontournable du traducteur?

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

La traduction automatique des articles de l anglais au français

GUIDE DES RESSOURCES ELECTRONIQUES

Livre Blanc WebSphere Transcoding Publisher

mieux développer votre activité

Financial Insurance Management Corp.

IBM Rational Application Developer pour WebSphere Software V8.5 accélère le développement d'applications de haute qualité.

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Focus messagerie. Entreprises Serveur de messagerie Logiciel client. Particuliers

fourniture de ressources à tous les terminaux en tant que services

Cloud computing Votre informatique à la demande

Le référencement naturel

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Zotero : petit guide d installation et d utilisation

CATALOGUE Formations courtes PARCOURS TRADUCTION

Introduction aux concepts d ez Publish

IBM Workplace : Live!

METIERS DE L INFORMATIQUE

Devenez un véritable développeur web en 3 mois!

TP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?

GESTION D UNE BASE BIBLIOGRAPHIQUE

Le bénéfice maximal de votre documentation

Business & High Technology

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

Créer un fichier PDF/A DÉPÔT ÉLECTRONIQUE

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

Informatique. Les réponses doivent être données en cochant les cases sur la dernière feuille du sujet, intitulée feuille de réponse

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Développer des Applications Internet Riches (RIA) avec les API d ArcGIS Server. Sébastien Boutard Thomas David

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Click to edit Master title style

Pratiques et usages du web, la «culture internet» moderne

Fiche Technique. Présentation du problème. Les sites de stockage. Les sites applicatifs avec possibilité de stockage

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

FORMATIONS LINGUISTIQUES DIPLOMES, TESTS & EXAMENS D ESPAGNOL COCEF

Qu est-ce que ArcGIS?

Cycle de conférences sur Cloud Computinget Virtualisation. Le Cloud et la sécurité Stéphane Duproz Directeur Général, TelecityGroup

L asbl Microbus vous propose sa nouvelle collection de formations à destination des personnes travaillant dans les secteurs non marchands.

Suite bureautique, les enjeux d'une alternative.

Parcours DIWEB : (Données, Interaction et Web)

Un métier, une passion : la traduction

Insight Software Live

Formations et Certifications. Serveur Infrastructure

ENDNOTE WEB POWERED BY THOMSON REUTERS WEB OF KNOWLEDGE SM

Modèle de Cahier des charges. Consultation pour la Conception et réalisation d un site internet

POLITIQUE RELATIVE AUX SERVICES DE TRADUCTION

IBM Business Process Manager

Préconisations Portail clients SIGMA

LIVRE BLANC Décembre 2014

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

Tarifs et services Dynamic Intranet

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

étendre l authentification unique Web à des environnements Cloud et mobiles agility made possible

Notre équipe est toujours à l écoute de nos clients afin de répondre à leurs besoins spécifiques.

FileMaker Pro 12. Utilisation d une Connexion Bureau à distance avec FileMaker Pro 12

BES WEBDEVELOPER ACTIVITÉ RÔLE

Plan de formation des Personnels en CUI-CAE Année

Avertissement. Copyright 2014 Accenture All rights reserved. 2

Livre blanc. L impact de la sécurité de la virtualisation sur votre environnement VDI

Stage Ingénieur en développement logiciel/modélisation 3D

Conférence sur les meilleures pratiques dans l administration publique, Lisbonne, 10 au 12 Mai 2000

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Norme de qualité. Catégorie 3 : Services de traduction juridique (de l anglais au français ou du français à l anglais)

LA SOLUTION WEB POUR VOTRE COMPAGNIE

1. Permettre au gouvernement du Nunavut d offrir ses services et ses communications dans toutes les langues officielles du Nunavut.

En faisant confiance à Synoptic Productions, vous êtes sur d avoir :

Présentation du logiciel Lotus Sametime 7.5 IBM

GUIDE D UTILISATION DE ZOTERO

Louis Naugès Paris, 17 juin 2013 Louis Naugès - Chief Cloud Evangelist Revevol

LES MÉMOIRES DE TRADUC- TION : OUTIL NÉCESSAIRE OU SOURCE DE PROBLÈMES POUR LES TRADUCTEURS?

Droits d'usage et mises à jour des logiciels Microsoft - renouvellement - autorisation de signer -

Ceano. Un Partenariat plus simple. 1 plateforme unique pour une IT facile. 1 collaboration d équipe facilitée

En garantissant les performances de MICROSOFT Lync et de SharePoint, Marel a reduit ses frais de deplacement

XML pour la mise en valeur des informations

Cas d application client

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Portail Vocal d Entreprise

SUPPORTDEFORMATION SUGARCRM. Guideutilisateur SugarCRMPro

Agence Saison d Or :: Activités de l entreprise. Identité Visuelle. Editions. Site Internet. Marketing. Référencement.

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

Système d Information Géographique (SIG) : quels apports dans les métiers de l assurance?

FileMaker Pro 13. Utilisation d une Connexion Bureau à distance avec FileMaker Pro 13

RELEASE NOTES. Les nouveautés Desktop Manager 2.8

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

L externalisation de vos logiciels entreprises : une solution aux problèmes de coûts, de sécurités et de réactivités

REFERENTIEL DE CERTIFICATION

TEXT MINING Tour d Horizon

Problématiques de recherche. Figure Research Agenda for service-oriented computing

GEDEXPERT. La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables VOTRE NOUVEL ASSISTANT POUR

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Catalogue des formations pour vos collaborateurs, pour vos clients,

Open Source Professional Training

Transcription:

La traduction automatique pour l entreprise Livre blanc

Qu est-ce que la traduction automatique? Le terme de traduction automatique désigne une technologie qui permet de traduire automatiquement par ordinateur un texte d une langue vers une autre, dans le but de le rendre compréhensible aux locuteurs de la langue de destination. Pourquoi la traduction automatique? Les raisons pour une entreprise de recourir à la traduction automatique sont multiples : apparition de nouveaux contenus dans l environnement professionnel, entreprise en voie de globalisation avec de nouveaux interlocuteurs internationaux, nombreux contenus dont on a besoin de saisir le sens sans nécessairement en saisir tous les détails («gisting»), intranet régulièrement mis à jour, contenu hautement confidentiel ne pouvant être externalisé pour traduction, parmi d autres. On peut en général classer les usages de la traduction automatique en deux grandes catégories : assimilation (comprendre un texte dans une langue que l on ne connaît pas) et dissémination (communiquer avec des locuteurs de langues différentes).

Les grands types de traduction automatique La traduction automatique basée sur des règles (rule-based, RBMT) Technologie de traduction automatique apparue historiquement la première, utilisant des règles grammaticales d analyse et de transformation, associées à des dictionnaires bilingues ou multilingues, afin d élaborer un moteur de traduction. Les applications qui l utilisent comprennent en général des outils comme des éditeurs de dictionnaires et de règles, permettant de personnaliser les traductions. D une conception basée sur la grammaire, elle est relativement simple à mettre en œuvre, et son optimisation passe avant tout par la construction de dictionnaires personnalisés ciblant le ou les domaines métier de l entreprise. L optimisation des outils RBMT se fait également par l élaboration de règles syntaxiques ou de normalisation du texte. De ce fait, si la traduction automatique basée sur les règles produit en général des traductions plutôt littérales, la terminologie et la structure grammaticale des phrases employées y sont scrupuleusement respectées. Parmi les concepteurs de ce type de technologie on trouve notamment Systran, ProMT, Linguatec.

Les grands types de traduction automatique La traduction automatique statistique Technologie de traduction automatique utilisant des algorithmes et d importants corpus bilingues pour élaborer un moteur de traduction. Les règles de traduction sont générées par calcul («pattern matching») au terme d un processus d analyse des corpus bilingues appelé entraînement. La qualité du résultat est en relation directe avec la qualité des corpus sur lequel le moteur est entraîné : grammaire et orthographe correctes, adéquation du contenu du corpus vis-à-vis des textes à traduire, style, cohérence terminologique L optimisation de tels systèmes passe par l ajout et l amélioration de nouveaux corpus spécialisés («in-domain»), ce qui peut paraître de prime abord plus simple qu un système basé sur les règles où il s agit d ajouter des mots au dictionnaire, mais il demeure plus complexe à paramétrer dans le détail, et ces corpus doivent aussi être préparés spécifiquement pour cet usage. Son mode de fonctionnement amène logiquement une traduction stylistiquement plus fluide, mais grammaticalement plus hasardeuse et avec une terminologie qui n est pas toujours prévisible. Il existe des moteurs déjà entraînés sur des corpus génériques ou multi-domaines, accessibles en ligne lorsqu ils sont ouverts au public, selon différentes modalités commerciales ou de sécurité, et des systèmes à construire soi-même à partir d éléments open source comme Moses pour un usage propriétaire. La traduction automatique statistique est représentée commercialement notamment par Google Translate, Morphologic ou IBM WebSphere.

Les grands types de traduction automatique Les traductions automatiques hybrides : convergence des technologies Depuis quelques années sont apparues des technologies dites «hybrides», qui tentent de prendre le meilleur de chacune des deux technologies décrites précédemment Elles peuvent, selon les cas, être conçues sur une technologie basée sur des règles à laquelle est ajoutée une couche de correction automatique de type statistique, utilisant de larges corpus, ou bien consister d abord en une technologie statistique dans laquelle sont instillés des éléments d analyse grammaticale. Systran, Microsoft Translator (Bing) et AppTek font partie des tenants de cette perspective. Principes de base Mise à jour Traduction TA basée sur des règles règles d analyse syntaxique règles de transformation dictionnaires multilingues ajout de termes aux dictionnaires ajout de règles littéralité cohérence de la terminologie présente dans les dictionnaires TA statistique corpus pattern matching ajout de nouveaux corpus préparés et validés entraînement fluidité cohérence et syntaxe variable

Produits open source Il existe des produits «open source», permettant de construire son système de traduction propriétaire, pour les deux grands types de technologie. On citera par exemple, Open Logos et Apertium pour la traduction automatique basée sur des règles. De son côté, la technologie statistique a beaucoup bénéficié du «kit» de développement Moses sur lequel beaucoup de produits professionnels se sont développés, comme ceux d Asia Online, Kantan MT ou Safaba. Toutefois il s agit dans sa version open source d outils très généraux et de données brutes, qui demandent un développement conséquent, tant au niveau du moteur lui-même qu au niveau de l interface, pour aboutir à un résultat performant. Produits de traduction sur Internet La première chose qui vient souvent à l esprit lorsque l on parle de traduction automatique, sont les services disponibles gratuitement en ligne, et qui sont relativement bien développés comme Google Translate ou Microsoft Bing. Ces outils se présentent en général sous forme de fenêtres de saisies de texte, mais ils peuvent être disponibles également via des plugins dans la barre d outils des navigateurs, ou des widgets directement sur les pages internet ou intranet. Non basés sur un domaine précis, mais sur l ensemble des données disponibles sur l internet, la qualité du résultat n est pas prévisible. Cependant, des possibilités de personnalisation plus ou moins élaborées existent, selon les moteurs. Produits pour LSP (Language Service Provider) La plupart des produits de traduction automatique existants trouvent un débouché logique dans la fourniture de services de traduction automatique aux sociétés de traduction disposant des compétences techniques nécessaires pour les mettre en oeuvre. Ils leur permettent ainsi de construire des moteurs personnalisés destinés à leurs clients finaux, qui sont utilisés pour pré-traduire en traduction automatique des textes à post-éditer ensuite par des linguistes professionnels, permettant ainsi d augmenter leur productivité, et de réduire les délais sur les volumes importants. Cela leur permet également de répondre aux besoins croissants de leurs clients finaux dans la diffusion des contenus à courte durée de vie à un coût de traduction compétitif.

Produits d entreprise intégrés Certains éditeurs ont développé leurs produits de manière à les intégrer dans les outils de l entreprise (bureautique, courriel etc.), pour permettre aux utilisateurs travaillant à l international de traduire par traduction automatique les textes qu ils écrivent ou qu ils veulent lire. Toutefois, avec l émergence du cloud computing, cette tendance va sans doute refluer au profit de l intégration de la technologie linguistique dans des solutions SaaS. Produits intégrés à la bureautique : Systran Server et Desktop Applications : plugins dans MS Office et dans les navigateurs Web. Microsoft Translator : plugin dans MS Office Word, widget insérable sur des pages Web. Reverso de Softissimo (basé sur ProMT), et sa barre d outils pour navigateurs. Autres solutions pour l entreprise Une autre solution pour l entreprise consiste à mettre en œuvre, à partir de produits existants, une solution personnalisée composée en deux niveaux distincts : d une part, le développement d un ou plusieurs moteurs de traduction personnalisés parmi les technologies et les fournisseurs disponibles, selon les paires de langues requises, et le matériel existant chez le client (glossaires, mémoires de traduction, corpus de textes). Ces moteurs personnalisés devant nécessairement s accompagner de dispositifs de mesure du niveau de qualité de traduction obtenue et de sa pertinence vis-à-vis du besoin. d autre part, l utilisation de «connecteurs», pour intégrer les moteurs de traductions dans l infrastructure de l entreprise, là où se trouve le besoin : par exemple des plugins dans les applications de messagerie ou de bureautique, un widget sur les pages de l Intranet, ou encore une fenêtre de saisie pour une traduction «à la volée» etc., selon les besoins spécifiques identifiés.

Glossaire Construction de dictionnaires (dictionary building) Processus d élaboration d un modèle de traduction basé sur des règles, utilisant des outils tels que l extraction terminologique, l extraction de mots inconnus ou la normalisation. Corpus (corpus) Ensemble textuel constitué d un nombre important de phrase. Peut être monolingue ou bilingue. Corpus d entraînement (training corpus) Corpus bilingue utilisé pour l élaboration d un moteur de traduction automatique statistique. Corpus de test (testing corpus) Partie du corpus d entraînement utilisé pour calculer la qualité de traduction obtenue par comparaison entre la traduction de référence et la traduction automatique des mêmes phrases. Corpus générique (out-of-domain corpus) En traduction automatique statistique, corpus textuel bilingue général, destiné dans un entraînement, à servir de base pour la syntaxe et le vocabulaire courants. Corpus spécialisé (in-domain corpus) En traduction automatique statistique, corpus textuel bilingue relatif à un domaine précis, destiné dans un entraînement, à appliquer une terminologie et une phraséologie spécifique. Dictionnaire de normalisation (normalization dictionary) Dans un modèle de traduction basé sur des règles, glossaire monolingue utilisé soit pour corriger le texte source, soit pour modifier la traduction obtenue, selon la langue à laquelle il s applique. Dictionnaire de traduction (translation dictionary) Dans un modèle de traduction basé sur des règles, glossaire bilingue ou multilingue comportant un encodage d informations morphologiques et sémantiques. Entraînement (training) Processus d élaboration d un moteur de traduction automatique statistique à partir de corpus bilingues.

Glossaire Modèle de langue (language model) Élément logiciel constitué d un ensemble de règles monolingues crée par un entraînement statistique et destiné à normaliser un texte d une langue donnée. Modèle de traduction (translation model) Élément logiciel constitué d un ensemble de règles syntaxiques ou statistiques bilingues destiné à traduire un texte d une langue dans une autre. Moteur de traduction (translation engine) Voir Modèle de traduction Normalisation (normalization) Action de modifier un texte monolingue à partir de règles syntaxiques, généralement en vue de le simplifier ou de le rendre plus adapté à la traduction automatique. Post-édition (Post-Editing Machine Translation PEMT or PE) Processus de correction et d amélioration d une traduction obtenue avec un système de traduction automatique. Pré-édition (pre-editing) Action de normalisation d un texte source, effectuée automatiquement ou manuellement, en vue de le rendre plus adapté à la traduction automatique. Traduction automatique (Machine Translation MT) Technologie permettant de traduire automatiquement un texte d une langue donnée dans une autre langue. Traduction automatique basée sur des règles (Rule-Based Machine Translation RBMT) Traduction automatique utilisant des règles de transformation et des dictionnaires multilingues pour construire un moteur de traduction. Traduction automatique hybride (Hybrid Machine Translation HMT) Traduction automatique utilisant plusieurs technologies, tant basée sur des règles que statistique. Traduction automatique statistique (Statistical Machine Translation SMT) Traduction automatique utilisant des algorithmes et d importants corpus bilingues pour construire un moteur de traduction.

À propos de Lexcelera Lexcelera, société de traduction fondée en 1986 à Paris, a toujours allié l excellence de la traduction humaine à la productivité des technologies d automatisation. Pionnier dans la recherche et l utilisation de la traduction automatique, elle est l un des leaders des solutions d ingénierie linguistique. Lexcelera a également été la première société de traduction en France à recevoir la certification ISO 9001 :2000 pour la gestion de la qualité.