Annexe technique. Développement de corpus pour l évaluation de systèmes de traduction automatique. Avis de publicité CNRS N 41204



Documents pareils
Objet du Marché. PRESTATIONS de SERVICES MUTUELLE DE GROUPE

CAHIER DES CLAUSES PARTICULIERES (C.C.P.)

Règlement de la Consultation

Contrat de creation de site web et de maintenance

Règlement de la Consultation

Les Bases de données de presse. Recherche documentaire

Prestations de nettoyage et d entretien des locaux, y compris la vitrerie de la Maison des Services Publics (MSP)

Fourniture de matériels pour la plomberie et le chauffage

FOURNITURE DE MATERIEL DE SERRURERIE. Marché à bons de commande C.C.A.P.

PRESTATIONS DE NETTOYAGE DES LOCAUX COMMUNAUX DE COUPVRAY CAHIER DES CLAUSES ADMINISTRATIVES PARTICULIÈRES (C.C.A.P)

Les frais d accès au réseau et de recours à la signature électronique sont à la charge de chaque candidat.

OFFICE DE TOURISME DE L OISE : «JE VEUX FAIRE/REFAIRE UN SITE INTERNET EN UTILISANT LE SRIT»

Règlement de la Consultation

SERVICE PATRIMOINE CONSULTATION POUR DEMANDE DE DEVIS

CAHIER DES CLAUSES ADMINISTRATIVES PARTICULIÈRES. Observatoire de la Côte d' Azur

Cahier des Clauses Particulières (CCP)

REGLEMENT DE CONSULTATION LOCATION ET MAINTENANCE D UNE MACHINE A AFFRANCHIR ET D UNE MACHINE A METTRE SOUS PLI POUR LE SERVICE DU COURRIER

1.1 Les conditions suivantes s appliquent à l étendue de la prestation, sauf stipulation contraire, convenue par écrit.

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

COMMUNE DE MONTAMISE CONSTRUCTION D UN DAB POUR LE CREDIT AGRICOLE A MONTAMISE

PARAMETRAGE DU STOCKAGE/DESTOCKAGE DES ARTICLES & MOUVEMENTS DE STOCKS

Objet de la consultation. Missions de vérifications et contrôles périodiques obligatoires MARCHES PUBLICS DE FOURNITURES COURANTES ET SERVICES

Cahier des Clauses Administratives Particulières

Cahier des Clauses Administratives Particulières

Marché Public de Prestations de Services Acte d'engagement (A.E.)

REGLEMENT DE LA CONSULTATION

CAHIER. DES CLAUSES TECHNIQUES PARTICULIERES N du 16 avril 2007 ORDINATEURS. C.I.E.P 1, Avenue Léon JOURNAULT SEVRES

Cahier des clauses techniques particulières (C.C.T.P.)

Dans la série LES TUTORIELS LIBRES présentés par le site FRAMASOFT. Premiers pas avec WinPT (cryptographie sous Win) EITIC

Excellence durable des entreprises de la Somme Opération de communication. Acte d engagement - bordereau de prix

Règlement de la Consultation

B2i Brevet Informatique. Internet. Livret de l enseignant

Création du nouveau site internet de la communauté de communes et des communes membres

Autorité de Régulation des Communications électroniques et des Postes

CAHIER DES CHARGES GMao

Règlement de la Consultation N MR

Marché Public de Fournitures Courantes et Services. Date et heure limite de remise des offres : Vendredi 9 janvier 2015 à 12h00

VILLE DE MONTRICHARD MARCHES PUBLICS PRESTATIONS D'ASSURANCES ACTE D ENGAGEMENT. Lot 2 Responsabilité civile

VOIES NAVIGABLES DE FRANCE Direction interrégionale du Sud-Ouest 2, port Saint-Étienne BP Toulouse Cedex 7

N d adhérent CONDITIONS PARTICULIÈRES

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

FABRICATION DE LA PUBLICATION INTERNE «SIGAL»

Acquisition de Micro-ordinateurs, Micro-ordinateurs Portables, prestations informatiques. Cahier des Clauses Particulières & Techniques

DOCUMENT VALANT ACTE D ENGAGEMENT ET CAHIER DES CLAUSES PARTICULIERES (AE-CCP)

Contrat relatif à la Déclinaison Régionale de la réglementation relative à la réalisation d'étude d'incidence au titre de Natura 2000

SEVRES ESPACE LOISIRS

REGLEMENT DE CONSULTATION

TRAVAUX D ELECTRICITE POUR LA LEVEE DES OBSERVATIONS DU RAPPORT DE CONTROLE DES INSTALLATIONS ELECTRIQUES

DISPOSITIONS-CADRES POUR LE SYSTÈME D ACCÈS CENTRALISÉ AUX RESULTATS DE LA RECHERCHE ET DE L EXAMEN (CASE)

MARCHES PUBLICS DE FOURNITURES COURANTES ET SERVICES

MARCHE N MARCHE A PROCEDURE ADAPTEE RELATIF AU NETTOYAGE DU GYMNASE D AMBLAINVILLE CAHIER DES CLAUSES TECHNIQUES PARTICULIERES CCTP

Cahier des Clauses Administratives Particulières

Programme-cadre européen pour la recherche et l innovation. Horizon Lignes directrices pour la gestion des données dans Horizon 2020

CAHIER DES CLAUSES PARTICULIERES

SYSTRAN 7 Guide de démarrage

«FLOTTE AUTOMOBILE & AUTO-MISSION»

C.C.T.P. DE MISE EN CONCURRENCE

MARCHE N 2015 URB PRESTATIONS DE TRADUCTION ET DE RELECTURE POUR LE PROGRAMME EUROPEEN URBACT CAHIER DES CLAUSES PARTICULIERES C.C.P.

LA COMPTABILITÉ DU COMITÉ D ENTREPRISE : DE NOUVELLES OBLIGATIONS DE TRANSPARENCE À PARTIR DU 1 er JANVIER 2015

Yphise optimise en Coût Valeur Risque l informatique d entreprise

QUALITE DE SERVICE DES ENTREPRISES DE TRADUCTION

Rapport de stage. Création d un site web. Stage du 20/01/2013 au 21/02/2013

MARCHE PUBLIC DE PRESTATIONS INTELLECTUELLES MAPA DOSSIER DE CONSULTATION DES ENTREPRISES

ACQUISITION DE DEUX VEHICULES

MARCHE DE L ESPCI PARISTECH n b Etabli en application du décret n du 01 août 2006 Portant code des marchés publics

Présentation du cadre technique de mise en œuvre d un Service d Archivage Electronique

Cahier des charges Remontée des ventes

OBJET : Mise en œuvre du décret n du 26 octobre 2004 relatif à l'exécution des marchés publics par carte d'achat.

et instanciation sur des sites i MAG concrets a interactive Multilingual Access Gateway

Hôtel de Ville Place du Général De Gaulle BP Verlinghem cédex Téléphone : Fax :

CAHIER DES CHARGES POUR FOURNITURES PLOMBERIE-ROBINETTERIE-SANITAIRE

CIRCULAIRE AUX INTERMEDIAIRES AGREES N

L'assurance maladie de la sécurité sociale

Service Déposant: Procédure d installation. Page 1. Service déposant. Procédure d installation Version 2.3

Apprentissage Automatique

Microsoft Office 365 Famille Premium

Marché n : 2014/ 003/0103/ /DCTSDR0086

CAHIER DES CHARGES MAINTENANCE DU SYSTEME DES ALARMES INTRUSION ET TECHNIQUES DU LYCEE SCHUMAN

ACT Nano Action Collective Transrégionale

Date limite de réception des offres : Lundi 29 juin 2015 à 16H00

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Acquisition de matériels informatiques

F-Marseille: Services d'assurance dommages ou pertes 2012/S Avis de marché. Services

MARCHE DES ASSURANCES DE LA COMMUNE DE VOURLES

Dématérialisation des factures du Secteur Public

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

MARCHÉ PUBLIC DE FOURNITURES

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

ROYAUME DU MAROC PROJET E-RH DANS L ADMINISTRATION PUBLIQUE MAROCAINE - PREMIÈRE PHASE

Cycle III Brevet Informatique & Internet Niveau 1. "Je pense être capable

Appel d offres ouvert n AO2011/07/002 relatif à l acquisition d une infrastructure de stockage de type «NAS» («Network Attached Storage»

REGLEMENT DE CONSULTATION (RC)

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

Ministère de la culture & de la communication Département de l'information & de la communication

La solution pour gérer vos connaissances techniques et scientifiques

! Text Encoding Initiative

SYNDICAT MIXTE D ELECTRICITE DE LA MARTINIQUE

Cahier des Clauses Administratives Particulières

Transcription:

Annexe technique Développement de corpus pour l évaluation de systèmes de traduction automatique Avis de publicité CNRS N 41204

Ce document a pour objet la production de corpus pour l évaluation de systèmes de traduction automatique, tel que décrit dans le Cahier des charges joint et relatif à l avis de publicité CNRS N 41204 Les données à traduire pourront être mises à disposition du titulaire dès notification du bon de commande, considérée comme la date T0 de démarrage des travaux. La livraison aura lieu dans un délai de 3 mois à partir de T0. Types et sources des données Les données à traiter sont des textes monolingues en, allemand, et arabe. Il s agit d éditoriaux issus du site web Project Syndicate (http://www.project-syndicate.org/). En tout, 3 jeux d évaluation seront produits dans ce bon de commande. Leurs caractéristiques sont décrites dans le tableau ci-dessous. Langue source Langue cible Type de données Volume approximatif Nombre de traduction allemand allemand arabe Format d entrée Chacun de ces corpus sera fourni par l Administration sous la forme de fichiers XML. Chaque corpus est déjà segmenté en phrases ou paragraphes courts. Cette segmentation doit être conservée. Description des travaux Chaque corpus devra être traduit une fois conformément aux indications données dans le tableau précédent. Les documents à traduire ayant déjà fait l objet d une traduction publiée sur le site Project Syndicate, la traduction demandée ne devra pas être une copie de la traduction préexistante. Dans la mesure du possible, le traducteur devra éviter de s en inspirer. Toutes les traductions seront produites en conformité avec les exigences générales données dans le Cahier des charges joint. Un guide explicitant les conventions et normes de traduction attendu sera fourni au titulaire au démarrage de l'étude, et éventuellement affiné au fur et à mesure de l'avancement des travaux. En particulier, on rappelle que «la traduction doit, dans la mesure du possible, contenir le même nombre de phrases que le texte source, [que] le découpage en phrases et en unités syntaxiques de la traduction doit correspondre de près à celui du texte source [et que] les traductions devront être alignées avec leur document source phrase par phrase.». Pour cela, le titulaire conservera, dans la mesure du possible, la segmentation en unités élémentaires des textes sources. Le titulaire effectuera des contrôles de qualité des traductions produites : utilisation de tournures idiomatiques, soin apporté à la rédaction, respect des normes de traduction, absence de coquilles. Pour l'ensemble de ces contrôles, il faudra préciser s ils sont effectués sur l'ensemble du matériau ou sur des échantillons, et s'ils sont effectués de manière automatique, semi-automatique, ou manuelle.

L Administration se réserve le droit de demander de nouvelles révisions si la qualité des traductions livrées n est pas jugée satisfaisante. Fournitures attendues Les fournitures attendues sont : d une part les fichiers de traduction au format XML, sur support informatique (CDROM ou DVDROM), conformes aux exigences fonctionnelles indiquées ci-dessus, accompagnées d un descriptif de leur contenu, et des conventions de traductions utilisées. Les fichiers de traductions seront accompagnés des fichiers sources originaux pour faire apparaître l alignement phrase par phrase. Chacun des jeux de test sera contenu dans une archive unique. et d autre part le rapport des révisions et post-traitements effectués lors de la phase de vérification.

Annexe 1 : Format des fichiers utilisés dans les corpus 1. Formats utilisés pour les corpus textuels : a. Format des fichiers d entrée Chaque corpus sera fourni par l Administration sous la forme d un fichier XML unique dont le format est décrit ci-dessous : <srcset setid="sample_set" srclang="arabic"> <seg id="1">arabic SENTENCE #1</seg> <seg id= 2 >ARABIC SENTENCE #2</seg> <seg id="12">arabic SENTENCE #1</seg> </srcset> Chaque fichier est nommé en fonction de son identifiant et des codes bigrammes de la paire de langue considérée : [identifiant du corpus]_ar-fr.src par exemple pour un corpus en arabe à traduire en. b. Format des fournitures Les fichiers traduits reprendront le format des fichiers d entrée. Ils respecteront la même nomenclature et seule l extension correspondant au type de fichier sera modifiée pour prendre la valeur «.ref» (pour référence). Par exemple : [identifiant du corpus]_ar-fr.ref pour la traduction en d un corpus initialement en arabe. Pour le fichier source : <srcset setid="sample_set" srclang="arabic"> <seg id="1">arabic SENTENCE #1</seg> <seg id= 2 >ARABIC SENTENCE #2</seg> <seg id="12">arabic SENTENCE #12</seg> </srcset>

Pour le fichier de traduction : <tstset setid="sample_set" srclang="arabic" trglang="english" sysid="system ID"> <seg id="1">french TRANSLATION #1</seg> <seg id="2">french TRANSLATION #2</seg> <seg id="12">french TRANSLATION #12</seg> </tstset>