Annexe technique. Développement de corpus pour l évaluation de systèmes de traduction automatique. Avis de publicité CNRS N 41204

Annexe technique Développement de corpus pour l évaluation de systèmes de traduction automatique Avis de publicité CNRS N 41204

Ce document a pour objet la production de corpus pour l évaluation de systèmes de traduction automatique, tel que décrit dans le Cahier des charges joint et relatif à l avis de publicité CNRS N 41204 Les données à traduire pourront être mises à disposition du titulaire dès notification du bon de commande, considérée comme la date T0 de démarrage des travaux. La livraison aura lieu dans un délai de 3 mois à partir de T0. Types et sources des données Les données à traiter sont des textes monolingues en, allemand, et arabe. Il s agit d éditoriaux issus du site web Project Syndicate (http://www.project-syndicate.org/). En tout, 3 jeux d évaluation seront produits dans ce bon de commande. Leurs caractéristiques sont décrites dans le tableau ci-dessous. Langue source Langue cible Type de données Volume approximatif Nombre de traduction allemand allemand arabe Format d entrée Chacun de ces corpus sera fourni par l Administration sous la forme de fichiers XML. Chaque corpus est déjà segmenté en phrases ou paragraphes courts. Cette segmentation doit être conservée. Description des travaux Chaque corpus devra être traduit une fois conformément aux indications données dans le tableau précédent. Les documents à traduire ayant déjà fait l objet d une traduction publiée sur le site Project Syndicate, la traduction demandée ne devra pas être une copie de la traduction préexistante. Dans la mesure du possible, le traducteur devra éviter de s en inspirer. Toutes les traductions seront produites en conformité avec les exigences générales données dans le Cahier des charges joint. Un guide explicitant les conventions et normes de traduction attendu sera fourni au titulaire au démarrage de l'étude, et éventuellement affiné au fur et à mesure de l'avancement des travaux. En particulier, on rappelle que «la traduction doit, dans la mesure du possible, contenir le même nombre de phrases que le texte source, [que] le découpage en phrases et en unités syntaxiques de la traduction doit correspondre de près à celui du texte source [et que] les traductions devront être alignées avec leur document source phrase par phrase.». Pour cela, le titulaire conservera, dans la mesure du possible, la segmentation en unités élémentaires des textes sources. Le titulaire effectuera des contrôles de qualité des traductions produites : utilisation de tournures idiomatiques, soin apporté à la rédaction, respect des normes de traduction, absence de coquilles. Pour l'ensemble de ces contrôles, il faudra préciser s ils sont effectués sur l'ensemble du matériau ou sur des échantillons, et s'ils sont effectués de manière automatique, semi-automatique, ou manuelle.

L Administration se réserve le droit de demander de nouvelles révisions si la qualité des traductions livrées n est pas jugée satisfaisante. Fournitures attendues Les fournitures attendues sont : d une part les fichiers de traduction au format XML, sur support informatique (CDROM ou DVDROM), conformes aux exigences fonctionnelles indiquées ci-dessus, accompagnées d un descriptif de leur contenu, et des conventions de traductions utilisées. Les fichiers de traductions seront accompagnés des fichiers sources originaux pour faire apparaître l alignement phrase par phrase. Chacun des jeux de test sera contenu dans une archive unique. et d autre part le rapport des révisions et post-traitements effectués lors de la phase de vérification.

Annexe 1 : Format des fichiers utilisés dans les corpus 1. Formats utilisés pour les corpus textuels : a. Format des fichiers d entrée Chaque corpus sera fourni par l Administration sous la forme d un fichier XML unique dont le format est décrit ci-dessous : <srcset setid="sample_set" srclang="arabic"> <seg id="1">arabic SENTENCE #1</seg> <seg id= 2 >ARABIC SENTENCE #2</seg> <seg id="12">arabic SENTENCE #1</seg> </srcset> Chaque fichier est nommé en fonction de son identifiant et des codes bigrammes de la paire de langue considérée : [identifiant du corpus]_ar-fr.src par exemple pour un corpus en arabe à traduire en. b. Format des fournitures Les fichiers traduits reprendront le format des fichiers d entrée. Ils respecteront la même nomenclature et seule l extension correspondant au type de fichier sera modifiée pour prendre la valeur «.ref» (pour référence). Par exemple : [identifiant du corpus]_ar-fr.ref pour la traduction en d un corpus initialement en arabe. Pour le fichier source : <srcset setid="sample_set" srclang="arabic"> <seg id="1">arabic SENTENCE #1</seg> <seg id= 2 >ARABIC SENTENCE #2</seg> <seg id="12">arabic SENTENCE #12</seg> </srcset>

Pour le fichier de traduction : <tstset setid="sample_set" srclang="arabic" trglang="english" sysid="system ID"> <seg id="1">french TRANSLATION #1</seg> <seg id="2">french TRANSLATION #2</seg> <seg id="12">french TRANSLATION #12</seg> </tstset>