Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues
|
|
|
- Didier Fortier
- il y a 10 ans
- Total affichages :
Transcription
1 TALN 2010, Montréal, juillet 2010 Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues Résumé. Holger Schwenk LIUM, Université du Maine, Le Mans cedex, France [email protected] Les performances d un système de traduction statistique dépendent beaucoup de la qualité et de la quantité des données d apprentissage disponibles. La plupart des textes parallèles librement disponibles proviennent d organisations internationales. Le jargon observé dans ces textes n est pas très adapté pour construire un système de traduction pour d autres domaines. Nous présentons dans cet article une technique pour adapter le modèle de traduction à un domaine différent en utilisant des textes dans la langue source uniquement. Nous obtenons des améliorations significatives du score BLEU dans des systèmes de traduction de l arabe vers le français et vers l anglais. Abstract. The performance of a statistical machine translation system depends a lot on the quality and quantity of the available training data. Most of the existing, easily available parallel texts come from international organizations and the jargon observed in those texts is not very appropriate to build a machine translation system for other domains. In this paper, we present a technique to automatically adapt the translation model to a new domain using monolingual data in the source language only. We observe significant improvements in the BLEU score in statistical machine translation systems from Arabic to French and English respectively. Mots-clés : Traduction statistique, adaptation du modèle de traduction, corpus monolingue, apprentissage non-supervisé. Keywords: Statistical machine translation, translation model adaptation, monolingual data, unsupervised training. 1 Introduction La traduction automatique statistique est aujourd hui considérée comme une alternative sérieuse aux systèmes de traductions à base de règles. Ces derniers effectuent d abord une analyse de la phrase source, puis une étape de transfert et ensuite la génération de la phrase dans la langue cible. Le développement et le maintien d un tel système nécessite généralement un travail humain important par des spécialistes (bilingues). Un système statistique, en revanche, peut en principe être développé sans connaissance des langues traitées. Considérons la traduction d une phrase en français f vers l anglais e : e = arg max e p(e f) = arg max p(f e)p (e) (1) e
2 HOLGER SCHWENK Le modèle de traduction p(f e) est appris à partir d exemples de traductions, c est-à-dire des textes en langue source et les traductions correspondantes, alignés au niveau de la phrase. Ces textes sont communément appelés «textes parallèles» ou «bitextes». Le modèle de langue P (e) est construit à partir de textes dans la langue cible. Cet apprentissage automatique à partir d exemples est généralement avancé comme un grand avantage des systèmes de traduction statistique. Ceci a notamment permis de construire rapidement des systèmes de traduction pour toutes les combinaisons de 22 langues européennes (Koehn et al., 2009), grâce à l utilisation des textes traduits par la Commission Européenne. Ce corpus parallèle est connu sous le nom d Europarl. En même temps, il est clair que les performances de toute approche d apprentissage automatique dépendent largement de la quantité et de la qualité des données d apprentissage disponibles. On constate souvent que les performances s améliorent lorsque l on utilise davantage de données d apprentissage bien que cet effet s accentue rapidement. D autre part, il s avère souvent que le domaine des données d apprentissage correspond peu ou pas au domaine d utilisation prévu du système de traduction. Pour citer un exemple, on comprend aisément que les traductions apprises automatiquement à partir des exemples de traductions dans le domaine de la finance conviennent mal pour traduire des textes médicaux. En effet, les vocabulaires risquent d être différents et il y a des mots qui se traduisent différemment en fonction du domaine. Malheureusement, il se trouve que pratiquement tous les bitextes librement disponibles proviennent du domaine parlementaire ou politique : le corpus Europarl, les comptes rendus en français et en anglais du parlement canadien ( «Hansard» ) ou des textes des Nations Unies. Le modèle de traduction appris sur ces données risque donc de favoriser des traductions spécifiques de ce domaine. On constate aussi que la première personne n est pas fréquemment utilisée dans ces textes. Cependant, on peut supposer qu il y ait suffisamment de textes monolingues pour une grande variété de langues et domaines. Ces textes peuvent souvent être trouvés sur Internet ou sont disponibles auprès de l utilisateur du système de traduction. Il est donc nettement plus facile de construire un modèle de langue spécifique à un domaine. Dans ce travail, nous proposons une méthode qui permet d adapter un modèle de traduction générique à un domaine particulier en utilisant des données monolingues dans la langue source. Cet article est organisé comme suit. Dans la section suivante, nous résumons d abord d autres recherches qui abordent le problème de ressources insuffisantes. La section 3 présente les systèmes de traduction de référence et la section 4 résume nos expériences. L article termine avec une conclusion et une discussion de futures directions de recherche. 2 Recherches précédentes Plusieurs techniques ont été proposées dans la littérature pour aborder le problème de ressources bilingues insuffisantes. On pourrait notamment essayer d extraire des textes parallèles à partir de corpora comparables. Un corpus comparable bilingue peut être défini comme une collection de textes dans deux langues qui traitent le même sujet sans être des traductions parfaites. Wikipedia constitue un exemple bien connu d un grand corpus comparable. Une autre piste consiste à adapter le modèle de traduction à la tâche sans utiliser des ressources bilingues supplémentaires. On peut distinguer deux façons d effectuer cette adaptation : premièrement, on ajoute de nouveaux mots en langue source ou de nouvelles traductions ; et deuxièmement, on modifie les distribu-
3 ADAPTATION EN TRADUCTION AUTOMATIQUE STATISTIQUE tions de probabilité du modèle existant pour qu elles conviennent mieux au domaine. Ces deux directions sont complémentaires et peuvent être effectuées simultanément. Une technique classique pour adapter un modèle statistique consiste à utiliser un mélange de plusieurs modèles et à optimiser les coefficients d interpolation à la tâche. Ceci a été étudié par plusieurs auteurs dans le cadre de la traduction statistique, par exemple pour l alignement des mots (Civera & Juan, 2007), pour la modélisation linguistique (Zhao et al., 2004; Koehn & Schroeder, 2007), et pour le modèle de traduction (Foster & Kuhn, 2007; Chen et al., 2008). L avantage de cette approche consiste dans le fait que peu de paramètres sont modifiés, i.e. les coefficients des mélanges. Cependant, beaucoup de probabilités sont modifiées en même temps et il n est pas possible de modifier sélectivement la probabilité d une traduction particulière. L extraction de textes alignés à partir de corpora comparables se fait souvent avec des techniques de recherche d information, voir par exemple (Hildebrand et al., 2005). Récemment, une technique similaire a été mise en œuvre pour adapter le modèle de traduction et de langage avec des textes monolingues dans la langue source (Snover et al., 2008). Les auteurs ont utilisé une recherche d information interlingue pour trouver des textes dans la langue cible qui correspondent au domaine des textes dans la langue source. Cependant, il est difficile de trouver les alignements entre les phrases en langue source et cible, et un simple modèle de type IBM-1 a été utilisé. Une autre direction de recherche consiste dans l auto-amélioration du modèle de traduction. Ceci a été proposé la première fois par (Ueffing, 2006). L idée consiste à traduire les données de test, à filtrer les traductions avec une mesure de confiance et à utiliser les meilleures traductions pour entraîner un nouveau (petit) modèle de traduction qui est utilisé conjointement avec la table de traduction générique. Ceci est en fait une approche par mélange de modèles dont un modèle est construit explicitement pour chaque jeu de test. En pratique, ceci est uniquement possible lorsqu une certaine quantité de données est disponible pour être traduite en une seule fois. Ceci est typiquement le cas lors des évaluations du style NIST ou WMT avec des jeux de test d environ mots, mais l utilisation de cette méthode semble être plus difficile dans le cadre d un service de traduction sur Internet. Dans une telle application, on ne demande habituellement que la traduction de quelques phrases. Cette approche a été améliorée par la suite (Ueffing, 2007) et appliquée aux autres modèles statistiques dans un système de traduction (Chen et al., 2008). Une autre approche comparable est l apprentissage légèrement supervisé (Schwenk, 2008). Dans ce travail, un système de traduction statistique est utilisé pour traduire de grandes quantités de données en langue source. Ces traductions sont ensuite filtrées et les meilleures sont ajoutées aux bitextes existants. Cette technique semble être très similaire à l auto-amélioration telle que proposée par (Ueffing, 2006), mais il y a plusieurs différences conceptuelles. Premièrement, nous n utilisons à aucun moment le jeu de test pour adapter le modèle de traduction, mais un grand corpus monolingue. Deuxièmement, nous créons un tout nouveau modèle qui peut être appliqué sur tout corpus de test sans modification supplémentaire. Ainsi, il est possible d utiliser un système adapté de cette façon dans un service de traduction sur Internet. Dans cet article, nous étudions l utilité de cette approche pour adapter des systèmes de traduction de l arabe vers l anglais et vers le français. La traduction de l arabe est intéressante puisqu il s agit d une langue morphologiquement riche. Ainsi, le texte en arabe est habituellement décomposé pour séparer les affixes et les suffixes d un mot ce qui permet de diminuer considérablement la taille du vocabulaire de traduction. Plusieurs auteurs signalent une amélioration de la qualité des traductions grâce à cette décomposition morphologique, par exemple (Habash & Sadat, 2006). Elle donne également beaucoup de groupes de mots peu fréquents, ce qui peut entraîner une mauvaise estimation des probabilités de
4 HOLGER SCHWENK traduction par fréquence relative. Notre but est d améliorer l estimation de ces probabilités par l utilisation de textes monolingues. 3 Systèmes de traduction de référence Dans cet article, un système de traduction statistique basé sur les segments est utilisé (en anglais «phrasebased statistical machine translation system» ) pour les deux paires de langues, en utilisant le logiciel libre Moses (Koehn et al., 2007). L équation 1 peut être réécrite afin de faire apparaître des fonctions caractéristiques f i (e, f) : e = arg max e p(f e)p (e) = arg max e i f i (e, f) λ i = arg max e λ i log f i (e, f) (2) i Nous utilisons quatorze fonctions caractéristiques : les probabilités de traduction et lexicales dans les deux directions, sept fonctions pour le modèle de distorsion lexicalisé, une pénalité sur les mots et les groupes de mots, et une fonction pour le modèle de langue. Les systèmes sont construits de la façon suivante : d abord le logiciel GIZA++ est utilisé afin d obtenir les alignements mot à mot dans les deux directions. Il existe une version qui permet d accélérer le calcul sur des machines multi-cœurs (Gao & Vogel, 2008). 1 Ensuite les groupes de mots et les réordonnements sont extraits, avec les valeurs de défaut de l outil Moses. Finalement, les coefficients des fonctions caractéristiques sont optimisés par l outil CMERT. Les modèles de langage sont des quadri-grammes à repli, construits avec l outil SRILM (Stolcke, 2002). Les données d entraînement correspondent au côté anglais des bitextes plus une importante collection de textes de journaux. Ces textes sont disponibles auprès du LDC sous le nom corpus Gigaword. Dans la plupart des études des outils tels que l analyseur de Buckwalter et les outils MADA et TOKAN de l université de Columbia sont utilisés pour effectuer la décomposition morphologique des textes en arabe (Habash & Sadat, 2006). Dans le présent travail, nous utilisons le module d analyse du système de traduction de l entreprise SYSTRAN pour effectuer ce travail. Des règles de décomposition sont d abord appliquées, assistées par un dictionnaire. La décomposition la plus probable des mots absents du dictionnaire est effectuée. De façon générale, toutes les décompositions possibles sont envisagées et puis filtrées en utilisant le contexte dans la phrase. Cette étape se base sur une analyse globale de la phrase ainsi que des connaissances lexicales. Les textes français ont été tokénisés avec les outils de Moses. La casse et les ponctuations sont préservées. 3.1 Traduction arabe/anglais Le National Institute of Standards and Technology (NIST) organise depuis quelques années des campagnes d évaluations internationales des systèmes de traduction automatique. Ces évaluations sont communément considérées comme la référence dans le domaine. Le système de traduction arabe/anglais décrit ici fait partie des meilleurs systèmes de l évaluation organisée en Les conditions et résultats détaillés sont disponibles sur le site Internet de NIST. 2 1 Les sources sont disponibles à 2
5 ADAPTATION EN TRADUCTION AUTOMATIQUE STATISTIQUE Le modèle de traduction est appris sur divers textes parallèles disponibles auprès du LDC dans le cadre de l évaluation NIST pour un total d environ 56 millions de mots arabes. Nous avons également ajouté 133M de mots du corpus des Nations Unies. Le modèle de langue est appris sur un total de plus de 3 milliards de mots. Ces ressources étaient les mêmes pour tous les participants à cette évaluation ( «condition contrainte» ). L optimisation des paramètres a été effectuée sur les données d évaluation de Nous donnons également des résultats sur les données d évaluation de 2008 qui ont été utilisées comme jeu de test interne. Dans les deux cas, il s agit de données du domaine des actualités radio et télévisées et des discussions sur Internet. Quatre références de traduction sont disponibles et la casse et la ponctuation sont préservées. Bitextes Taille des Dev Test bitextes Nist06 Nist08 News + ISI bitextes 56M 42,69 42,06 + données ONU 189M 43,51 42,19 TAB. 1 Scores BLEU du système de référence arabe/anglais. Les scores BLEU de ces systèmes de référence sont donnés dans le tableau 1. On note que les données de l ONU apportent un faible gain du score BLEU malgré une taille considérable. Ceci s explique par le fait qu il s agit de données hors domaine. Bien que ce bitexte apporte beaucoup de traductions, il entraîne également une modification des probabilités de traduction calculées par fréquence relative. Les traductions du domaine «ONU» semblent donc dominer les traductions plus adaptées des bitextes du domaine. Nous montrerons dans cet article que ceci peut être «corrigé» en adaptant le modèle de traduction avec des données monolingues. 3.2 Traduction arabe/français Nous considérons également la traduction de l arabe vers le français. Cette paire de langues nous semble intéressante pour plusieurs raisons. Premièrement, il s agit de deux langues morphologiquement riches, par rapport à la traduction habituelle vers l anglais. Deuxièmement, il y a peu de bitextes bien adaptés au domaine de traduction et un grand corpus hors domaine. Ce sont exactement les conditions qui ont motivé notre approche d adaptation du modèle de traduction. Finalement, on peut facilement identifier des applications d un système de traduction de l arabe vers le français. Le développement des premiers systèmes de traduction statistiques pour cette paire de langues a probablement débuté avec le projet DGA TRAMES 3 dont le but était la traduction de la parole arabe vers le français. Dans le cadre de ce projet, environ 90 heures de discours radio et télévisés ont été enregistrés, transcrits et ensuite traduits en français. La DGA nous a donné accès à ces textes parallèles d environ 260 mille mots. Ces données sont parfaitement adaptées au domaine mais sont bien sûr de taille trop limitée pour entraîner un modèle de traduction statistique performant. Ainsi, nous les avons complétés par 1,1 million mots de textes téléchargés du site Internet du projet Syndicate 4 et par environ 200 millions de mots de données de l ONU. Ce dernier corpus a été collecté par l entreprise SYSTRAN. 3 Traduction Automatique par Méthodes Statistiques 4
6 HOLGER SCHWENK La DGA a également produit un jeu de test avec 4 traductions de référence. Ce corpus a été aléatoirement divisé en jeu de développement et test de 10 mille mots chacun environ. Les performances des systèmes de référence sont données dans le tableau 2. Le modèle de langue est un quadri-grammes entraîné sur un peu plus de 1,3 milliard de mots (côté français des bitextes, corpus Gigaword français et d autres journaux). Bitexts #mots Dev Test TRAMES + Syndicate 858k 36,68 35,45 ONU 203M 40,02 37,91 TRAMES + Syndicate + ONU 204M 41,88 40,04 TAB. 2 Scores BLEU du système de référence arabe/français. A notre connaissance, un seul autre système de traduction statistique arabe/français a été développé, précisément dans le cadre du projet TRAMES (Hasan & Ney, 2008). Dans ce travail, le même jeu de test a été utilisé, mais les bitextes sont différents : les textes parallèles du projet TRAMES, des données de l ONU de la période 2001 à avril 2007, les archives de Amnesty International et des articles du Monde Diplomatique. Les auteurs donnent un score BLEU de 41,1 sur le jeu de test complet d environ vingt milles mots. Ce système utilise donc d autres ressources que le nôtre et il n est pas possible de comparer directement les performances. Cependant, on peut probablement conclure que des scores BLEU supérieurs à 40 points semblent correspondre à l état de l art pour cette paire de langues. Ceci correspond également aux résultats observés dans les évaluations NIST pour la paire de langues arabe/anglais (cf. tableau 1). Dans les deux cas il s agit de la traduction de textes radio et télévisés et quatre références de traductions sont disponibles. 4 Adaptation du modèle de traduction Le but de ce travail est l adaptation du modèle de traduction sans bitextes supplémentaires, mais avec des données monolingues dans la langue source. Habituellement, il est bien plus facile de trouver de tels textes, en particulier lorsqu il s agit de textes du domaine des actualités comme dans ce travail. Nous utilisons ici des parties du corpus Gigaword en arabe du LDC. Ces textes sont traduits par les systèmes de référence décrits ci-dessus. Ensuite, les traductions automatiques sont filtrées afin de ne garder que les «meilleures». Cette sélection pourrait être basée sur des scores de confiance au niveau des mots (Ueffing, 2007). Dans notre cas, nous avons utilisé le logarithme de la vraisemblance fourni par le décodeur, normalisé par le nombre de mots dans chaque phrase. Les traductions filtrées sont ajoutées aux bitextes existants et la procédure complète de construction d un système de traduction statistique est effectuée, c est-à-dire l alignement des mots par GIZA++, l extraction des groupes de mots et l optimisation des coefficients λ i. Alternativement, on pourrait réutiliser les alignements déterminés par le décodeur Moses. Ceci pourrait accélérer le processus puisque nous omettons l étape effectuée par GIZA++. Les caractéristiques des corpora Gigaword de LDC sont données dans le tableau 3. Le système arabe/ français n a été adapté que sur le corpus AFP alors que nous avons utilisé les corpora AFP, XIN et NHR pour le système arabe/anglais. Notons que les textes de LDC en anglais et français sont utilisés lors de la construction du modèle de langue P (e). On peut supposer que ces textes contiennent les traductions de quelques phrases des textes en arabe, ce qui devrait aider à produire de bonnes traductions automatiques. Ainsi nous parlons d un apprentissage légèrement supervisé par le modèle de langue (Schwenk, 2008).
7 ADAPTATION EN TRADUCTION AUTOMATIQUE STATISTIQUE source arabe anglais français AFP 145M 527M 570M APW M 200M ASB 7M - - HYT 175M - - NHR 188M - - UMH 1M - - XIN 58M 280M - TAB. 3 Caractéristiques des corpora Gigaword de LDC (nombre de mots). 4.1 Adaptation du système arabe/anglais Les scores BLEU après adaptation du système arabe/anglais aux textes en arabe de l AFP, XIN et HYT respectivement sont donnés dans le tableau 4. Bien que les scores BLEU sur les données de développement ne changent que peu, on constate une nette amélioration des performances sur les données de test. On note aussi que les systèmes adaptés utilisent moins de bitextes que le système de référence. Ceci s explique par le fait que les données de l ONU ne sont plus utilisées dans les systèmes adaptés puisque ces données hors-domaine sont remplacées par les traductions automatiques des corpora arabes du domaine. Pour chaque corpus, nous avons essayé différents seuils sur la vraisemblance normalisée du décodeur. Le choix du meilleur seuil était bien sûr basé uniquement sur les performances obtenues sur les données de développement. Adaptation Taille des Dev Test bitextes Nist06 Nist08 Aucune 189M 43,51 42,19 AFP 81M 43,64 43,10 XIN 48M 43,36 43,06 HYT 49M 43,77 43,00 Combinaison - 43,98 43,28 TAB. 4 Adaptation du système arabe/anglais. Finalement, nous avons effectué une simple combinaison des trois systèmes adaptés indépendamment : les listes des n meilleures hypothèses sont concaténées et la meilleure hypothèse est extraite. Ceci a permis d obtenir un faible gain supplémentaire (dernière ligne du tableau 4). Ce système a été très bien placé lors des évaluations NIST de Le système officiel inclut une autre composante que nous avons omise ici par manque de place (la modélisation linguistique dans l espace continu (Schwenk, 2010)). 4.2 Adaptation du système arabe/français Les performances du système arabe/français adapté sont résumées dans le tableau 5. Ici, nous constatons un gain en score BLEU très appréciable de plus de 3,5 points BLEU sur les données de test. Cette amélioration importante pourrait s expliquer par le faible nombre de bitextes du domaine par rapport aux données 5
8 HOLGER SCHWENK #mots arabe Dev Test Référence 217M 41,88 40,04 Adapté 48M 45,44 43,68 TAB. 5 Adaptation du système de traductions arabe/français. de l ONU, très volumineuses mais hors domaine. Ce rapport était plus équilibré pour la paire de langues arabe/anglais. Nous avons analysé la table de traduction pour ce système adapté et le système de référence qui a été entraîné sur plus de 200M de mots. Ceci est résumé dans le tableau 6. La table de traduction initiale avait 329M de lignes dont 22,9M pouvaient être potentiellement appliquées aux données de test. La table de traduction du système adapté, d autre part, n utilise que 700k d un total de 8,6M d entrées. Il paraît clair que la table de traduction obtenue en entraînant sur les données de l ONU contienne beaucoup d entrées qui ne sont pas utilisées, voire même fausses. Il est surprenant de voir que la table de traduction du système adapté soit plus petite et qu elle contienne 11% de segments de la langue source en plus (18029 par rapport à 16263). Toutes ces entrées correspondent aux nouvelles séquences de mots puisque l apprentissage nonsupervisé ne permet pas d augmenter le vocabulaire des mots source. Référence Adapté Nombre d entrées 22,9M 700k Nombre d entrées différentes côté source Nombre moyen de traductions 1406,4 38,8 Longueur moyenne d une entrée côté source 2,65 2,81 TAB. 6 Caractéristiques de la table de traduction des deux systèmes. Dans les deux cas, la table a été filtrée pour ne contenir que les groupes de mots qui peuvent être appliqués aux données de test. Nous supposons que ceci est particulièrement important avec la décomposition morphologique de l arabe. Cette décomposition permet de réduire considérablement le vocabulaire, mais produit également beaucoup de séquences de tokens. Il semble être important d inclure dans la table de traduction des séquences qui apparaissent dans les textes du domaine. Comme effet de bord, la plus petite table de traduction entraîne un gain de vitesse de la traduction d environ 40%. Nous avons comparé les traductions du système avant et après adaptation : le TER 6 est à environ 30. Les deux traductions diffèrent donc significativement. Quelques exemples de traductions sont reproduits dans la figure 1. Le système adapté produit manifestement de meilleures traductions pour ces exemples. Il reste bien sûr quelques erreurs dans ces phrases, mais la qualité des traductions permet largement de comprendre le sens des phrases. 6 Translation Edit Rate (Snover et al., 2006)
9 ADAPTATION EN TRADUCTION AUTOMATIQUE STATISTIQUE ا ل محك م ة الع راق ي ة ب د أ ت منذ ق ل يل ب ت و جيه لئ حة ت ه م ضد ا ل رئ يس ا لع راق ي ال ساب ق. Source: Base: Adapt: le tribunal irakien a commencé depuis peu par la direction du règlement des accusations contre l'ancien président irakien. le tribunal irakien a commencé depuis peu une liste d'accusations contre l'ancien président irakien. م ة ش ي خ ح ض Ref: La Cour irakienne a commencé à dresser la liste des inculpations de l'ancien président irakien. Source: ن ال جي ال س رائ يل ا عت ق ل ل يل ن ا شطا ف ي رام ا لل ه ف ي ف اد ت صاد ر ع سك ر ي إ س رائ يل ي ة أ أ ال ضف ة الغ رب ي ة ك ما ت م اعت ق ا ل ن ا شط ي ن آ رين ك ان وا ي رو ن Base: Adapt: Ref: De source militaire israélienne a indiqué que l'armée israélienne a arrêté dans la nuit militants à Ramallah en Cisjordanie ont été arrêtés autres militants qui... Selon des sources militaires israéliennes, l'armée israélienne a arrêté dans la nuit de militants à Ramallah, en Cisjordanie, a également été arrêté deux autres activistes qui... Des sources militaires israéliennes ont indiqué que l'armée israélienne a arrêté de nuit un activiste à Ramallah en Cisjordanie, ainsi que deux autres activistes qui... م ح مد الغ ب ار ي جول ة ال ص حاف ة ا لي من. Source: Base: Adapt: Mohammed du brouillard, le cycle de la presse, au Yémen. Mohammed, une tournée de la presse le Yémen. م Ref: Mohamed Al-Ghobari, tour de la presse, Yémen. Source: يضا ف ي سح ب جن ود ه ا ن الع راق. من جه ة أ خ رى ش رع ت ت اي لند أ Base: Adapt: Ref: d'autre part commencé aussi embarrassée à retirer ses troupes d'irak. D'autre part, la Thaïlande a commencé à retirer ses troupes d'irak. D'autre part, la Thaïlande a également commencé à retirer ses troupes d'irak. FIG. 1 Exemples de traductions automatiques tirés du jeux de test (système de référence, système adapté et référence de traduction humaine). 5 Conclusion L approche statistique à la traduction automatique est aujourd hui utilisée pour construire rapidement des systèmes de traduction pour de nombreuses paires de langues. En général, on se contente de prendre tous les textes parallèles disponibles pour entraîner le modèle de traduction. La plupart de ces textes proviennent cependant d un domaine bien spécifique les discours parlementaires ce qui les rend peu appropriés pour d autres domaines. D autre part, des textes monolingues existent généralement dans la plupart des domaines d intérêt. Dans ce travail, nous avons proposé une approche qui utilise des textes monolingues en langue source pour adapter un modèle de traduction générique. Pour cela les textes sont traduits par un système générique initial, filtrés et les plus fiables sont ajoutés aux textes parallèles. Après un nouveau cycle d apprentissage, nous obtenons un système adapté. Cette technique a permis d obtenir des améliorations significatives du score BLEU dans des systèmes de traduction arabe/anglais et arabe/français. Plusieurs extensions de l approche sont actuellement étudiées, notamment d autres scores de confiance pour filtrer les traductions automatiques, le traitement des n meilleures hypothèses au lieu de la traduction la plus probable, et l utilisation des alignements fournis par le décodeur au lieu de relancer GIZA++.
10 HOLGER SCHWENK Remerciements Ces recherches ont été partiellement financées par le gouvernement français sous le projet INSTAR (ANR JCJC06_143038) et la Commission Européenne sous le projet EuromatrixPlus. Le corpus parallèle arabe/ français de données radio et télévisées ainsi que les données de test correspondantes ont été mises à disposition par la DGA. Une partie de ces travaux a été effectuée en collaboration avec l entreprise SYSTRAN. Références CHEN B., ZHANG M., AW A. & LI H. (2008). Exploiting n-best hypotheses for SMT self-enhancement. In ACL, p CIVERA J. & JUAN A. (2007). Domain adaptation in statistical machine translation with mixture modelling. In Second Workshop on SMT, p FOSTER G. & KUHN R. (2007). Mixture-model adaptation for SMT. In EMNLP, p GAO Q. & VOGEL S. (2008). Parallel implementations of word alignment tool. In Software Engineering, Testing, and Quality Assurance for Natural Language Processing, p , Columbus, Ohio : Association for Computational Linguistics. HABASH N. & SADAT F. (2006). Arabic preprocessing schemes for statistical machine translation. In NAACL, p HASAN S. & NEY H. (2008). A multi-genre SMT system for Arabic to French. In LREC, p HILDEBRAND A. S., ECK M., VOGEL S. & WAIBEL A. (2005). Adaptation of the translation model for statistical machine translation based on information retrieval. In EAMT, p KOEHN P., BIRCH A. & STEINBERGER R. (2009). 462 machine translation systems for Europe. In MT Summit. KOEHN P., HOANG H., BIRCH A., CALLISON-BURCH C., FEDERICO M., BERTOLDI N., COWAN B., SHEN W., MORAN C., ZENS R., DYER C., BOJAR O., CONSTANTIN A. & HERBST E. (2007). Moses : Open source toolkit for statistical machine translation. In ACL, demonstration session. KOEHN P. & SCHROEDER J. (2007). Experiments in domain adaptation for statistical machine translation. In Second Workshop on SMT, p SCHWENK H. (2008). Investigations on large-scale lightly-supervised training for statistical machine translation. In IWSLT, p SCHWENK H. (2010). Continuous space language models for statistical machine translation. The Prague Bulletin of Mathematical Linguistics, (93). SNOVER M., DORR B. & SCHWARTZ R. (2008). Language and translation model adaptation using comparable corpora. In EMNLP. SNOVER M., DORR B., SCHWARTZ R., MICCIULLA L. & MAKHOUL J. (2006). A study of translation edit rate with targeted human annotation. In ACL. STOLCKE A. (2002). SRILM - an extensible language modeling toolkit. In ICSLP, p. II : UEFFING N. (2006). Using monolingual source-language data to improve MT performance. In IWSLT, p UEFFING N. (2007). Transductive learning for statistical machine translation. In ACL, p ZHAO B., ECK M. & VOGEL S. (2004). structured query models. In Coling. Language model adaptation for statistical machine translation with
Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales
Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Haithem AFLI Loïc BARRAULT Holger SCHWENK Laboratoire d Informatique
Évaluation de G-LexAr pour la traduction automatique statistique
TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)
Application d un algorithme de traduction statistique à la normalisation de textos
Application d un algorithme de traduction statistique à la normalisation de textos Gabriel Bernier-Colborne 1 (1) Observatoire de linguistique Sens-Texte Université de Montréal [email protected]
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Traitement automatique des entités nommées en arabe : détection et traduction
Traitement automatique des entités nommées en arabe : détection et traduction Souhir Gahbiche-Braham Hélène Bonneau-Maynard François Yvon Université Paris Sud & LIMSI-CNRS BP 133-91403 ORSAY Cedex - France
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
Formula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Classification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
SYSTRAN 7 Guide de démarrage
1 SYSTRAN 7 Guide de démarrage Réf : DSK-7-QSG-HO-FR Bienvenue SYSTRAN 7 Guide de démarrage Félicitations! Nous vous remercions d avoir choisi SYSTRAN V7 la version la plus récente et la plus puissante
Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus
JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence
Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar [email protected]
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar [email protected] Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Une méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia [email protected],
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France [email protected] 2 Normandie Université,
AGROBASE : un système de gestion de données expérimentales
AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.
IBM Software Business Analytics. IBM Cognos FSR Automatisation du processus de reporting interne
IBM Software Business Analytics IBM Cognos FSR Automatisation du processus de reporting interne 2 IBM Cognos - FSR Automatisation des processus de reporting interne IBM Cognos Financial Statement Reporting
Chapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Expériences de formalisation d un guide d annotation : vers l annotation agile assistée
Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de
Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches
Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes
IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels
IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels Yann-Gaël Guéhéneuc Professeur adjoint [email protected], local 2345 Département d informatique et de recherche
Modélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat
CONSEIL D ORIENTATION DES RETRAITES Séance plénière du 10 avril 2014 à 9 h 30 «Carrières salariales et retraites dans les secteurs et public» Document N 9 Document de travail, n engage pas le Conseil Simulation
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
Les Traducteurs et la veille médias : méthodes et exemples
Les Traducteurs et la veille médias : méthodes et exemples Lynne Franjié Université Stendhal-Grenoble 3 Colloque «Traduction et veille multilingue» ETI, 28-29 mai 2008 Introduction Une terminologie propre
Ressources lexicales au service de recherche et d indexation des images
RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)
Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Nom de l application
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne
LECTURE CRITIQUE Accompagner les enseignants et formateurs dans la conception d une formation en ligne Christian Ernst E-learning. Conception et mise en œuvre d un enseignement en ligne Guide pratique
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Exemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS
ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN
SQL Parser XML Xquery : Approche de détection des injections SQL
SQL Parser XML Xquery : Approche de détection des injections SQL Ramahefy T.R. 1, Rakotomiraho S. 2, Rabeherimanana L. 3 Laboratoire de Recherche Systèmes Embarqués, Instrumentation et Modélisation des
Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions
Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces
Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, 20137 Porto-Vecchio
Touch N Invent! Utilisation du TNI en classe d anglais PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, 20137 Porto-Vecchio Sylvie Chiariglione, Brigitte Collomb, Régine
Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Etab=MK3, Timbre=G430, TimbreDansAdresse=Vrai, Version=W2000/Charte7, VersionTravail=W2000/Charte7 Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels
Information utiles. [email protected]. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : [email protected] webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Rédiger et administrer un questionnaire
Rédiger et administrer un questionnaire Ce document constitue une adaptation, en traduction libre, de deux brochures distinctes : l une produite par l American Statistical Association (Designing a Questionnaire),
Apport de l information temporelle des contextes pour la représentation vectorielle continue des mots
22 ème Traitement Automatique des Langues Naturelles, Caen, 2015 Apport de l information temporelle des contextes pour la représentation vectorielle continue des mots Résumé. Killian Janod 2, Mohamed Morchid
Livre Blanc WebSphere Transcoding Publisher
Livre Blanc WebSphere Transcoding Publisher Introduction WebSphere Transcoding Publisher vous permet d'offrir aux utilisateurs des informations Web adaptées à leurs besoins. Il vous permet, par exemple,
TEXT MINING. 10.6.2003 1 von 7
TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre
Ingénierie et gestion des connaissances
Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE [email protected] 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie
Vérifier la qualité de vos applications logicielle de manière continue
IBM Software Group Vérifier la qualité de vos applications logicielle de manière continue Arnaud Bouzy Kamel Moulaoui 2004 IBM Corporation Agenda Analyse de code Test Fonctionnel Test de Performance Questions
WHITE PAPER Une revue de solution par Talend & Infosense
WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION
Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
ÉPREUVE COMMUNE DE TIPE 2008 - Partie D
ÉPREUVE COMMUNE DE TIPE 2008 - Partie D TITRE : Les Fonctions de Hachage Temps de préparation :.. 2 h 15 minutes Temps de présentation devant le jury :.10 minutes Entretien avec le jury :..10 minutes GUIDE
Reconnaissance automatique de la parole à l aide de colonies de fourmis
Reconnaissance automatique de la parole à l aide de colonies de fourmis Benjamin Lecouteux Didier Schwab Groupe d Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole Laboratoire
LIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes
303 Schedae, 2007 Prépublication n 46 Fascicule n 2 Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes Samya Sagar, Mohamed Ben Ahmed Laboratoire
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier
Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration
Les Bases de données de presse. Recherche documentaire
Les Bases de données de presse Recherche documentaire - nuage de mots réalisé avec http://wordle.net Bases de données de presse La presse à la bibliothèque Accéder aux bases de données Choix de la base
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
POSITION DESCRIPTION DESCRIPTION DE TRAVAIL
Supervisor Titre du poste de la superviseure ou du superviseur : Coordinator, Communications & Political Action & Campaigns Coordonnatrice ou coordonnateur de la Section des communications et de l action
Dafoe Présentation de la plate-forme UIMA
Laboratoire d Informatique de l université Paris-Nord (UMR CNRS 7030) Institut Galilée - Université Paris-Nord 99, avenue Jean-Baptiste Clément 93430 Villetaneuse, France 11 juillet 2007 Plates-formes
d évaluation Objectifs Processus d élaboration
Présentation du Programme pancanadien d évaluation Le Programme pancanadien d évaluation (PPCE) représente le plus récent engagement du Conseil des ministres de l Éducation du Canada (CMEC) pour renseigner
Présentation du Modèle de Référence pour les Bibliothèques FRBR
Submitted on: 03.08.2015 Présentation du Modèle de Référence pour les Bibliothèques FRBR French translation of the original paper: Introducing the FRBR Library Reference Model. Traduit par : Mélanie Roche,
Cours n 3 Valeurs informatiques et propriété (2)
Cours n 3 Valeurs informatiques et propriété (2) - Les Bases De Données - Le multimédia - Les puces et topographies - La création générée par ordinateur 1 LES BASES DE DONNEES Depuis 1998, les Bases De
FOIRE AUX QUESTIONS PAIEMENT PAR INTERNET. Nom de fichier : Monetico_Paiement_Foire_aux_Questions_v1.7 Numéro de version : 1.7 Date : 2014-05-29
FOIRE AUX QUESTIONS PAIEMENT PAR INTERNET Nom de fichier : Monetico_Paiement_Foire_aux_Questions_v1.7 Numéro de version : 1.7 Date : 2014-05-29 FOIRE AUX QUESTIONS Confidentiel Titre du document : Monetico
Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,[email protected]
Passage des documents de compte électroniques à la norme ISO 20022
Passage des documents de compte électroniques à la norme ISO 20022 Avec nos documents de compte électroniques reposant sur la norme ISO 20022, vous profitez d une gestion financière plus rapide, plus simple
ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results
ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results Soraya Amarouche Armelle Picau Olivier Pierson Raphaël Deal Laboratoire National de Métrologie
Les Autorisations de Mise sur le Marché (AMM) délivrées au titre du Règlement (UE) n 528/2012 (dit BPR)
Les mardis de la DGPR 17/09/2013 Les Autorisations de Mise sur le Marché (AMM) délivrées au titre du Règlement (UE) n 528/2012 (dit BPR) Direction générale de la prévention des risques Service de la prévention
Et si vous faisiez relire et corriger vos textes par un professionnel?
Le Robert lance Et si vous faisiez relire et corriger vos textes par un professionnel? dossier de presse - 2014 L avis des Français Étude Ipsos pour Le Robert réalisée sur un échantillon de 1 001 Français
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
N 334 - SIMON Anne-Catherine
N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,
La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal
La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal
Date : 18.11.2013 Tangram en carré page
Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches
Poker. A rendre pour le 25 avril
Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles
1 Description générale de VISFIELD
Guide d utilisation du logiciel VISFIELD Yann FRAIGNEAU LIMSI-CNRS, Bâtiment 508, BP 133 F-91403 Orsay cedex, France 11 décembre 2012 1 Description générale de VISFIELD VISFIELD est un programme écrit
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
DIFFICULTÉS D ÉTUDIANTS À TROUVER DES ARCHÉTYPES DE MACHINES LORS D UNE RECHERCHE DANS UN HYPERTEXTE
Cinquième colloque hypermédias et apprentissages 283 DIFFICULTÉS D ÉTUDIANTS À TROUVER DES ARCHÉTYPES DE MACHINES LORS D UNE RECHERCHE DANS UN HYPERTEXTE Yves CARTONNET et Michaël HUCHETTE École Normale
Efficace et ciblée : La surveillance des signaux de télévision numérique (2)
Efficace et ciblée : La surveillance des signaux de télévision numérique (2) La première partie de cet article publié dans le numéro 192 décrit la méthode utilisée pour déterminer les points de surveillance
FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet
Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirilet RÉSUMÉÑÓ Ñ ºÑÓÖ ÙÒ Ú¹ Ú ÒÓÒº Ö ÓÖ ºÐ Ò Ö ÙÒ Ú¹ Ú ÒÓÒº Ö Mohamed Morid 1 Georges Linarès 1 (1) LIA-CERI, Université d Avignon
et les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
L ATTRIBUTION EN MARKETING DIGITAL
Online Intelligence Solutions L ATTRIBUTION EN MARKETING DIGITAL Par Jacques Warren WHITE PAPER WHITE PAPER A Propos de Jacques Warren Jacques Warren évolue en marketing digital depuis 1996, se concentrant
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) LAGGOUNE Radouane 1 et HADDAD Cherifa 2 1,2: Dépt. de G. Mécanique, université de Bejaia, Targa-Ouzemour
Trois approches du GREYC pour la classification de textes
DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd
Sujet de thèse CIFRE RESULIS / LGI2P
Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Sujet de thèse CIFRE RESULIS / LGI2P Titre Domaine De l ingénierie des besoins à l ingénierie des exigences
ANNEXE RELATIVE AUX CONDITIONS GENERALES D UTILISATION DES FICHIERS GEOGRAPHIQUES
ANNEXE RELATIVE AUX CONDITIONS GENERALES D UTILISATION DES FICHIERS GEOGRAPHIQUES Préambule La Poste est propriétaire de fichiers informatiques de données géographiques. Lesdits fichiers permettent de
La nouvelle plateforme communautaire dédiée à l enseignement en ligne
FUTUR EN SEINE 2013 Dossier de Presse La nouvelle plateforme communautaire dédiée à l enseignement en ligne Futur en Seine 2013 AAP 1 Intitulé du projet Résumé du projet ou du prototype (3 lignes max)
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
choisir H 1 quand H 0 est vraie - fausse alarme
étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques
Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...
La promotion de la pluralité linguistique dans l usage des nouvelles technologies de l information et de la communication
Intervention de M. Khamsing Sayakone, Président de la section Lao de l APF à la 32 ème session de l APF (30juin-3 juillet 2006, Rabat, Maroc) (31 La promotion de la pluralité linguistique dans l usage
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Chapitre 5 LE MODELE ENTITE - ASSOCIATION
Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous
Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques?
DOSSIER SOLUTION Programme de rationalisation des logiciels pour mainframe (MSRP) Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques? agility made possible Le programme
