Corpus parallèles et comparables : introduction Pierre Zweigenbaum LIMSI, CNRS pz@limsi.fr http://www.limsi.fr/~pz/ CRIM, INALCO 1 / 14
Éléments de bibliographie Jean Véronis (rédacteur). Parallel Text Processing. Kluwer. 2000. Elliott Macklovitch & Philippe Langlais. Le bitexte et ses applications. Tutoriel à TALN 2004. http: //www.iro.umontreal.ca/~felipe/publis-main.html 2 / 14
Aide à la traduction et lexiques Traduction et ressources lexicales et terminologiques Tâches Aide à la traduction humaine Traduction automatique Recherche d'information translangue Traducteurs automatiques en ligne Ces tâches ont besoin d'une Ressource cruciale Lexique / terminologie bilingue Modèles statistiques de traduction 3 / 14
Aide à la traduction et lexiques Terminologie bilingue Domaine spécialisé Importance des termes polylexicaux Évolution potentiellement rapide code anglais français C0733758 FOLLITROPIN Folliculostimuline C0733758 FOLLITROPIN Gonadostimuline A C0733758 FOLLITROPIN FSH C0740329 OSMOLAR GAP Trou osmolaire C0740329 SUBSTANCE ABUSED Abus de substances C0740329 SUBSTANCE ABUSED Abus de substances toxiques C0817096 THORACIC AREA Thorax C0817096 THORACIC AREA Cage thoracique C0863146 XANTHOCHROMIA Xanthochromie 4 / 14
Aide à la traduction et lexiques Limitations des lexiques et terminologies Les lexiques et terminologies bilingues existants ont des limitations : Couverture Pertinence Correction Niveau de langue, registre Fréquence de mise à jour 5 / 14
Une astuce (utilisée par Champollion) : S'appuyer sur le travail du traducteur humain : Des textes déjà traduits : bi-texte (Brian Harris, 1988) Deux documents parallèles où les alignements (relations de traduction) sont explicitement marqués (habituellement au niveau de la phrase) 6 / 14
Une astuce (utilisée par Champollion) : S'appuyer sur le travail du traducteur humain : Des textes déjà traduits : bi-texte (Brian Harris, 1988) Deux documents parallèles où les alignements (relations de traduction) sont explicitement marqués (habituellement au niveau de la phrase) Exemple des mémoires de traduction (textes, phrases) Pousser le principe jusqu'aux mots et aux termes Des trésors dorment sous nos yeux! Ils ne demandent qu'à être exploités 6 / 14
Corpus parallèles Corpus parallèle = ensemble de bitextes Parallélisme (jusqu'à un certain point) textes phrases mots Corpus parallèles, alignés au niveau des textes, des phrases, des mots 7 / 14
Applications des corpus parallèles Applications nombreuses Ressources textuelles Enseignement d'une langue seconde Concordancier bilingue Ressources (pour le traitement automatique des langues) Constitution de lexiques et terminologies bilingues Constitution de ressources par transfert pour des langues peu dotées Apprentissage de modèles de langage traduction automatique recherche d'information translangue Aide à la désambiguïsation monolingue automatique 8 / 14
Enjeux Quels corpus parallèles existent? Peut-on en constituer? Peut-on aligner les phrases d'un bitexte? Peut-on aligner les mots de deux phrases traduction l'une de l'autre? Peut-on se contenter de corpus moins parallèles (corpus comparables )? 9 / 14
Plan du cours 1 Aide à la traduction et lexiques 2 Plan du cours 3 Corpus parallèles et comparables Corpus parallèles Corpus comparables 10 / 14
Plan du cours Plan du cours 1 Introduction limsi-introduction-corpus-paralleles.pdf 2 Constituer un corpus parallèle limsi-constitution-corpus-parallele.pdf 3 Méthodes et outils d'alignement de phrases limsi-alignement-phrases.pdf 4 Méthodes et outils d'alignement de mots limsi-alignement-mots.pdf 5 Corpus comparables limsi-corpus-comparables.pdf 11 / 14
Corpus parallèles et comparables 1 Aide à la traduction et lexiques 2 Plan du cours 3 Corpus parallèles et comparables Corpus parallèles Corpus comparables 12 / 14
Corpus parallèles et comparables Corpus parallèles Corpus parallèles Un corpus de textes et le corpus de leurs traductions source cible texte s 1 texte c 1 texte s 2 texte c 2 texte s 3 texte c 3 texte s n texte c n Deux corpus parallèles? Un corpus parallèle? (un corpus de bitextes ) 13 / 14
Corpus parallèles et comparables Corpus comparables Corpus comparables Deux corpus de textes de même domaine, genre, etc. source texte s 1 texte s 2 texte s 3 texte s n cible texte c a texte c b texte c m Dans des langues diérentes (?) 14 / 14