Corpus parallèles et comparables : introduction. Pierre Zweigenbaum. LIMSI, CNRS pz@limsi.fr http://www.limsi.fr/~pz/ CRIM, INALCO 1 / 14



Documents pareils
21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

TEXT MINING von 7

POLITIQUE RELATIVE AUX SERVICES DE TRADUCTION

Réaliser un journal scolaire

Serrer les fesses du bébé contre votre corps avec le côté de votre avant-bras (celui du petit doigt)

Atelier Entreprises et Médias du 2 juillet 2014 sur les process de conception du Rapport Annuel

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

OASIS Date de publication

Enjeux de traduction de votre entreprise

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

N SIMON Anne-Catherine

Grammaires d unification

1 Année LMD-STSM Algorithmique et Programmation. Série de TD 2

Norme de qualité. Catégorie 3 : Services de traduction juridique (de l anglais au français ou du français à l anglais)

Votre partenaire en services de traduction

WordPress : principes et fonctionnement

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Les masters en langues

5 semaines pour apprendre à bien jouer un morceau de piano

INALCO Master Langues, littératures, cultures étrangères et régionales. UE3 : Traduction littéraire

Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues

L'assurance qualité automatisée en agence de traduction (QA Distiller, Xbench et SDLX QA Check)

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

TPE et PME : comment me situer et justifier de mon statut?

DEPARTEMENT ARTS, LETTRES ET LANGUES ANNEE UNIVERSITAIRE

DEPARTEMENT ARTS, LETTRES ET LANGUES ANNEE UNIVERSITAIRE

Construction d ontologies à partir de textes

1 Description générale. Résumé

Initiation à la recherche documentaire

LA RECHERCHE DOCUMENTAIRE

Projets Professionnels - Master IdL

Concevoir sa stratégie de recherche d information

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

V. L ÉVALUATION SOMMATIVE

Personnalisation Fiche Annuaire

Gestion collaborative de documents

GUIDE DES RESSOURCES ELECTRONIQUES

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

La traduction automatique des articles de l anglais au français

Guide d autoformation. Mon Gestionnaire de formation Un petit guide de survie devant toutes les formations individuelles sur Internet

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Co-diplôme de master "Traduction et interprétation juridique"

SYSTRAN 7 Guide de démarrage

Lexicologie Terminologie Traduction

TUTORIEL SIMPLIFIE de QuizFaber Un éditeur de Quiz et autres exercices simple, complet, original et en freeware!

MAQUETTE M2 PRO ILTS

NIGHT VISION STUDIOS GUIDE DU LOGICIEL. Produit Voyance. Version 1.5

Livre blanc Mesure des performances sous Windows Embedded Standard 7

Le rôle d'une banque de terminologie au service de la traduction

METS. Nouvelle offre de formation IPLV-UCO ANGERS

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

CONTRAT DE CESSION DE BREVET TABLE DES MATIÈRES

Rapport de stage. Création d un site web. Stage du 20/01/2013 au 21/02/2013

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

LIVRE BLANC LOGICIELS DE TRADUCTION INSTANTANEE

DOCADOCT 2014/2015 MOTEURS DE RECHERCHE SPECIALISES

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

«Une bonne thèse répond à une question très précise!» : comment l enseigner?

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

Le mécanisme du processus de traduction *

Baccalauréat technologique

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

Conception de circuits numériques et architecture des ordinateurs

Développement et applications de la base de données terminologiques de Matra Marconi Space

Création de Sous-Formulaires

I/ CONSEILS PRATIQUES

DCS-933L. Cloud Camera 1150 Caméra réseau à vision diurne et nocturne. Guide d installation rapide

RECOMMANDATION UIT-R SM (Question UIT-R 68/1)

Rédiger et administrer un questionnaire

TECHNIQUES DE SURVIE ÉCRITURE Leçon de littératie 2.6

VERSION ENRICHIE DU STANDARD SUR LE CLAVIER QUÉBÉCOIS (SGQRI 001)

Comment interroger PubMed pour accéder aux revues en ligne AP-HP sur Intranet

Comment traduire le non-dit culturel?

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

LFRA12 RECHERCHE DOCUMENTAIRE APPLIQUEE A LA TRADUCTION

Qu est-ce qu une problématique?

Société française des intérêts des auteurs de l écrit

Dans la série Les tutoriels libres présentés par le site FRAMASOFT. <Handbrake> <Utilisation d'handbrake pour les débutants> Par <OLIVIER LECLERCQ>

VILLE DE FREDERICTON

ANIMER UNE COMMUNAUTÉ CONSTRUCTION21

Une plateforme de recherche et d expérimentation pour l édition ouverte

Dans la série. présentés par le site FRAMASOFT

Évaluation et implémentation des langages

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

Participer à l activité en ligne d un groupe. Michel Futtersack, Faculté de Droit, Université Paris Descartes, Sorbonne Paris Cité

Plateforme STAR CLM. Gestion intégrée des réseaux multilingues d entreprise

Master européen en traduction spécialisée. Syllabus - USAL

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Pour un usage plus sûr du téléphone portable

Fiche animateur : module écriture collaborative

PREMIERS PAS SUR PUBMED

Transcription:

Corpus parallèles et comparables : introduction Pierre Zweigenbaum LIMSI, CNRS pz@limsi.fr http://www.limsi.fr/~pz/ CRIM, INALCO 1 / 14

Éléments de bibliographie Jean Véronis (rédacteur). Parallel Text Processing. Kluwer. 2000. Elliott Macklovitch & Philippe Langlais. Le bitexte et ses applications. Tutoriel à TALN 2004. http: //www.iro.umontreal.ca/~felipe/publis-main.html 2 / 14

Aide à la traduction et lexiques Traduction et ressources lexicales et terminologiques Tâches Aide à la traduction humaine Traduction automatique Recherche d'information translangue Traducteurs automatiques en ligne Ces tâches ont besoin d'une Ressource cruciale Lexique / terminologie bilingue Modèles statistiques de traduction 3 / 14

Aide à la traduction et lexiques Terminologie bilingue Domaine spécialisé Importance des termes polylexicaux Évolution potentiellement rapide code anglais français C0733758 FOLLITROPIN Folliculostimuline C0733758 FOLLITROPIN Gonadostimuline A C0733758 FOLLITROPIN FSH C0740329 OSMOLAR GAP Trou osmolaire C0740329 SUBSTANCE ABUSED Abus de substances C0740329 SUBSTANCE ABUSED Abus de substances toxiques C0817096 THORACIC AREA Thorax C0817096 THORACIC AREA Cage thoracique C0863146 XANTHOCHROMIA Xanthochromie 4 / 14

Aide à la traduction et lexiques Limitations des lexiques et terminologies Les lexiques et terminologies bilingues existants ont des limitations : Couverture Pertinence Correction Niveau de langue, registre Fréquence de mise à jour 5 / 14

Une astuce (utilisée par Champollion) : S'appuyer sur le travail du traducteur humain : Des textes déjà traduits : bi-texte (Brian Harris, 1988) Deux documents parallèles où les alignements (relations de traduction) sont explicitement marqués (habituellement au niveau de la phrase) 6 / 14

Une astuce (utilisée par Champollion) : S'appuyer sur le travail du traducteur humain : Des textes déjà traduits : bi-texte (Brian Harris, 1988) Deux documents parallèles où les alignements (relations de traduction) sont explicitement marqués (habituellement au niveau de la phrase) Exemple des mémoires de traduction (textes, phrases) Pousser le principe jusqu'aux mots et aux termes Des trésors dorment sous nos yeux! Ils ne demandent qu'à être exploités 6 / 14

Corpus parallèles Corpus parallèle = ensemble de bitextes Parallélisme (jusqu'à un certain point) textes phrases mots Corpus parallèles, alignés au niveau des textes, des phrases, des mots 7 / 14

Applications des corpus parallèles Applications nombreuses Ressources textuelles Enseignement d'une langue seconde Concordancier bilingue Ressources (pour le traitement automatique des langues) Constitution de lexiques et terminologies bilingues Constitution de ressources par transfert pour des langues peu dotées Apprentissage de modèles de langage traduction automatique recherche d'information translangue Aide à la désambiguïsation monolingue automatique 8 / 14

Enjeux Quels corpus parallèles existent? Peut-on en constituer? Peut-on aligner les phrases d'un bitexte? Peut-on aligner les mots de deux phrases traduction l'une de l'autre? Peut-on se contenter de corpus moins parallèles (corpus comparables )? 9 / 14

Plan du cours 1 Aide à la traduction et lexiques 2 Plan du cours 3 Corpus parallèles et comparables Corpus parallèles Corpus comparables 10 / 14

Plan du cours Plan du cours 1 Introduction limsi-introduction-corpus-paralleles.pdf 2 Constituer un corpus parallèle limsi-constitution-corpus-parallele.pdf 3 Méthodes et outils d'alignement de phrases limsi-alignement-phrases.pdf 4 Méthodes et outils d'alignement de mots limsi-alignement-mots.pdf 5 Corpus comparables limsi-corpus-comparables.pdf 11 / 14

Corpus parallèles et comparables 1 Aide à la traduction et lexiques 2 Plan du cours 3 Corpus parallèles et comparables Corpus parallèles Corpus comparables 12 / 14

Corpus parallèles et comparables Corpus parallèles Corpus parallèles Un corpus de textes et le corpus de leurs traductions source cible texte s 1 texte c 1 texte s 2 texte c 2 texte s 3 texte c 3 texte s n texte c n Deux corpus parallèles? Un corpus parallèle? (un corpus de bitextes ) 13 / 14

Corpus parallèles et comparables Corpus comparables Corpus comparables Deux corpus de textes de même domaine, genre, etc. source texte s 1 texte s 2 texte s 3 texte s n cible texte c a texte c b texte c m Dans des langues diérentes (?) 14 / 14