Méthodes Mixtes pour la Traduction Automatique Statistique
|
|
|
- Anaïs Bossé
- il y a 10 ans
- Total affichages :
Transcription
1 Laboratoire d informatique de Grenoble Équipe GETALP Université STENDHALGrenoble3 Méthodes Mixtes pour la Traduction Automatique Statistique Mémoire de Master 2 Mention Science du Langage, Spécialité Modélisation et traitements automatique en Industries De la Langue : parole, écrit, apprentissage Orientation Recherche Réalisé par Atef Ben Youssef Soutenu le 01 juillet 2008 Responsable externe Laurent Besacier Hervé Blanchon Responsable interne Georges Antoniadis Membres du jury Olivier Kraif Georges Antoniadis Laurent Besacier Hervé Blanchon
2 /Remerciements Résumé Le domaine du traitement automatique des langues naturelles a connu une révolution majeure ces dernières années dans la traduction automatique et de l autre côté, les besoins en matière de traducteurs automatiques fiables augmentent sans cesse. De ce fait, nous nous sommes intéressés à ce domaine afin de concevoir un traducteur automatique basé sur un modèle statistique. Ce travail présente une amélioration d un système de traduction automatique statistique par des modèles factoriels, c'est-à-dire qu on l entraîne avec des données enrichies par des informations morphosyntaxiques. Pour ce faire, on présente les outils utilisés pour enrichir nos corpus. On propose aussi une approche utilisée pour réaliser un étiqueteur sur le type de corpus oraux (IWSLT). On présente également le modèle de traduction statistique capable de tenir compte de telles informations. On présente finalement des analyses qualitatives et quantitatives des expériences réalisées qui montrent de premiers résultats encourageants. Mot-clé Traduction Automatique Statistique; Modèle de langage ; Modèles de traduction; Etiquetage ; Partie du discours Abstract Machine Translation witnessed a major revolution in the area of natural language processing and the needs for reliable automatic translators increase. Therefore, we were interested to this domain to design an automatic translator based on statistical models. This work presents an improvement of a statistical machine translation with morphsyntactic information. For this reason, we present the tools used to enrich our corpus. We propose an approach to product a POS Tagger. We present also the statistical machine translation able to account for corpus like that of such information. Finally, we present a qualitative and quantitative analyses of the different experiences that show the first encouraging results. Key word Statistical machine translation; language model; translation model; Part of Speech Tagger - 2 -
3 /Remerciements Remerciements J ai une vive dette envers tous ceux qui m ont aidé à rassembler les faits qui constituent l indispensable fondation de ce travail. Je remercie tout particulièrement : Mr. Laurent BESACIER et Mr Hervé BLANCHON, de m avoir accueilli au sein du GETALP (LIG), et d offrir ainsi la possibilité de travailler dans un laboratoire de linguistique informatique de renommée mondiale. Ils ont toujours été disponibles, malgré de nombreuses occupations, pour m aider dans mon travail par leurs précieux conseils qui m ont été d une grande aide au cours de ce mémoire. Qu ils trouvent ici le témoignage de toute mon reconnaissance et mon profond respect. Mr. George ANTONIADIS mon encadreur à l université Stendhal Grenoble3 pour l intérêt qu il m a manifesté. Qu il trouve ici l expression de ma profonde gratitude. Mes enseignants pour la qualité de l enseignement qu ils m ont disposé durant mes études, surtout monsieur Olivier KRAIF qui m a fait l honneur d accepter la tâche d être rapporteur. Mes amis : Ammar Mahdhaoui, Mourad Mars, Mohamed Belgacem, Mohamed Bouallegue pour leur amabilité et leur soutien. Je remercie également mon ami de bureau Najeh Hajlaoui. Par la même occasion, je tiens à remercier infiniment tous les membres de l équipe GETALP qui m ont accueilli de manière très chaleureuse. Enfin, je garde une place toute particulière à mon père Habib qui est toujours à mes cotés, à ma tendre et affectueuse mère Naziha pour tout l amour qu elle me donne, à mes chers frères Jihed, Nizar, Mourad et son épouse Wided et sa petite Wijden, à ma sœur Hanen et à la grande famille BEN YOUSSEF. En exprimant toutes mes reconnaissances pour leurs sacrifices, leurs patiences compréhensives et leurs encouragements au-delà de toutes limites.. Atef - 3 -
4 /Remerciements Table des matières Remerciements Liste de figures... 6 Introduction... 7 Chapitre 1. Etude bibliographique... 8 Introduction Langue arabe Morphologie arabe Structure d un mot Catégories des mots a) Les verbes b) Les noms c) Les adjectifs d) Les particules Problèmes du traitement automatique de l arabe Segmentation des phrases Détection de racine Etude théorique de la Traduction Statistique Modèle de langue (LM) Modèles n-grammes Modèles n-classes Modèles de traduction Notion d alignement Les modèles «IBM» a) Modèle de traduction probabiliste IBM b) Modèle de traduction probabiliste IBM c) Modèle de traduction probabiliste IBM d) Modèles de traduction probabiliste IBM4 et IBM Décodage Tuning: Réglage des paramètres par minimisation du taux d erreur (minimumerror-rate-training) Systèmes fondés sur des séquences de mots : phrase-based approach Conclusion Chapitre 2. Mes contributions Introduction Etiquetage morphosyntaxique (POS Tagger) Etude de l existant TreeTagger a) Description b) Etiquetage c) Evaluation ASVM : Etiqueteur de Columbia University a) Description
5 // Liste de figures b) Etiquetage c) Evaluation Approche utilisé pour construire notre propre étiqueteur arabe Correction manuelle Apprentissage Etiquetage Evaluation de notre étiqueteur Enrichissement de l'information lexicale Ajout des étiquettes (POS) dans le cadre de modèles factoriels Principe d utilisation des étiquettes dans les modèles factoriels Les différentes stratégies testées Conditions expérimentales et outils Bitexte Préparation des données Boite à outil de traduction probabiliste utilisée L alignement automatique (GIZA++) Amélioration avec les étiquettes syntaxiques sous forme factorisée Le décodage (Moses) Modèle Méthodes d'apprentissage pour la traduction de phrase Stratégie de recherche Evaluation (outils de scoring NIST) Expériences et résultats Les étapes de réalisation Nettoyage / Alignement de corpus parallèles anglais / arabe Développement du système état de l art et son amélioration Utiliser les étiquettes syntaxiques sous forme factorisée Résultats Amélioration des sorties du système de traduction : analyse qualitative Amélioration des sorties du système de traduction : analyse quantitative42 Conclusion Chapitre 3. Conclusion Bilan d étude Bilan personnel Bibliographie Annexe
6 // Liste de figures Liste de figures Figure 1 : Le triangle dit «de Vauquois» pour la traduction Figure 2 : Exemple d alignement entre deux phrases Figure 3 : Exemple d alignement autorisé par les modèles IBM-2 à IBM Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation Figure 6 : exemple d un modèle factoriel Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires de phrases Figure 8 : Machine de traduction automatique statistique Arabe/Anglais Figure 9 : bitexte étiqueté aligné par phrase Figure 10 : schéma représente l alignement des mots avec les lemmes et l alignement des catégories Figure 11 : schéma représente l alignement des mots avec les mots et les lemmes et l alignement des catégories Figure 12 : exemples de table de traduction d un modèle classique (non factoriel) Figure 13 : exemples de table de traduction d un modèle factoriel Figure 14 : le score BLEU obtenue sur les différents modèles testés
7 Introduction Introduction Le multilinguisme est au cœur des enjeux actuels concernant les échanges culturels et économiques qui sont désormais mondialisés. Ainsi, les individus sont de plus en plus amenés à évoluer dans des environnements multilingues, comme le montrent certaines tendances récentes du monde et de la société : importance croissante d organisations internationales ou transnationales, augmentation des échanges culturels et des voyages, regain d intérêt pour les langues régionales qui cohabitent désormais avec les langues nationales. Le développement de services et d interfaces adaptés à ce contexte peut donner lieu à de nouveaux problèmes dans le domaine de traduction automatique. En ce qui concerne la communication homme / homme médiatisée par la machine, les recherches en traduction automatique de parole sont centrales. Pour illustrer cela, on peut notamment citer les projets CSTAR 1 et NESPOLE 2 de traduction automatique dans lesquels le laboratoire LIG a été impliqué. Notre volonté est d aller au delà des méthodes purement statistiques utilisées actuellement en reconnaissance automatique de la parole ou en traduction automatique qui, bien qu ayant montré leur efficacité dans le domaine, montrent également leurs limites. Notre travail s intéresse essentiellement aux systèmes probabilistes (Statistical Machine Translation : SMT). La SMT repose essentiellement sur l apprentissage de paramètres de différents modèles à partir d une grande quantité de textes bilingues (corpus d entraînement). Les modèles classiques ne prennent en compte que les mots eux-mêmes. Par contre, les modèles factoriels s intéressent à leur sens et à leur catégorie morphosyntaxique. Pour utiliser ces modèles factoriels, on s intéresse en premier lieu à l étiquetage de chaque mot des phrases source et cible avec la classe morphosyntaxique (POS) des occurrences dans le but d aller vers des systèmes statistiques qui ne se contentent pas de manipuler uniquement des suites de mots mais des mots qui sont de plus en plus riches pour améliorer les résultats de la traduction automatique. Notre travail porte sur le développement d un traducteur de parole automatique statistique de l arabe vers l anglais. Vu la particularité de notre langue source, nous commençons, dans la première partie, par la présentation des caractéristiques morphologiques de la langue arabe avec une étude théorique de la traduction statistique. Dans la deuxième partie, nous nous intéressons à l amélioration du système état de l art en expliquant en premier lieu l existant des étiqueteurs utilisés comme TreeTagger et l étiqueteur de l université de Columbia. Nous décrivons aussi l approche suivie pour construire un étiqueteur arabe pour le type de corpus oraux sur lesquels nous travaillons. En deuxième lieu, nous enrichissons les données avec les POS en expliquant le principe d utilisation de ces derniers dans les modèles factoriels, ainsi que les différentes stratégies testées. Puis, nous présentons les outils «open source» utilisés pour développer notre système de traduction statistique en décrivant les conditions expérimentales et les résultats préliminaires trouvés. Enfin, nous terminons ce travail par une conclusion
8 Etude bibliographique Chapitre 1. Etude bibliographique Introduction Avec la diffusion de la langue arabe sur le Web et la disponibilité des moyens de manipulation de textes arabes, les travaux de recherche ont abordé des aspects plus variés comme la syntaxe, la traduction automatique, l'indexation automatique des documents, la recherche d'information, etc. Au cours de ce chapitre, nous présenterons certaines propriétés morphologiques et syntaxiques de la langue arabe, ainsi que quelques problèmes du traitement automatique de l'arabe. Ensuite, nous exposons une brève étude théorique sur la traduction automatique statistique Langue arabe La langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du traitement automatique de la langue. L'arabe doit sa formidable expansion à partir du 7 ième siècle à la propagation de l'islam et à la diffusion du Coran. Les recherches sur le traitement automatique de l'arabe ont débuté vers les années Les premiers travaux concernaient notamment les lexiques et la morphologie. A la différence des autres langues comme le français ou l anglais, dont les étiquettes grammaticales proviennent d une approche distributionnelle caractérisée par une volonté "d écarter toute considération relative au sens", les étiquettes de l arabe viennent d une approche où le sémantique côtoie le formel lié à la morphologie du mot, sans référence à la position de ce dernier dans la phrase [Débili F., Achour H., Souici E, 2002]. Ce phénomène se manifeste par les notions de schèmes et de fonctions qui occupent une place importante dans la grammaire de l'arabe. Par exemple la forme graphique du mot français ferme est, hors contexte, un substantif, un adjectif, un adverbe ou un verbe. Alors que le mot arabe voyellé غ غ غك est un verbe à la 3 ième personne masculin singulier de l accompli actif, par contre sa forme non voyellée ك admet quatre interprétations grammaticales : Substantif masculin singulier. Verbe à la 3 ième personne masculin singulier de l accompli actif. Verbe à la 3 ième personne masculin singulier de l accompli. Verbe à l impératif 2 ième personne masculin singulier. Les voyelles jouent un rôle proche des accents en français pour un mot comme peche qui peut être interprété comme pêche, pèche et péché. Par contre, en arabe chaque lettre de chaque mot devrait posséder sa voyelle courte ce qui n est en général pas le cas dans les textes écrits que l on rencontre. On constate donc l'étendue du rôle que jouent les voyelles courtes dans les mots arabes, non seulement parce qu'elles enlèvent l'ambiguïté, mais aussi parce qu elles donnent l étiquette grammaticale d'un mot indépendamment de sa position dans la phrase
9 Etude bibliographique Morphologie arabe Le lexique arabe comprend trois catégories de mots : verbes, noms, adjectifs et particules. Les verbes et les noms sont le plus souvent dérivés d une racine trilitère ou quadrilatère. Une famille de mots peut être générée à partir d'un même concept sémantique d une seule racine à l'aide de différents schèmes. Ce phénomène est caractéristique de la morphologie arabe. On dit donc que l arabe est une langue à racines réelles à partir desquelles on déduit le lexique arabe selon des schèmes qui sont des adjonctions de voyelles et des manipulations de la racine. Le tableau suivant donne quelques exemples de schèmes appliqués au mot ح «Hml : porter». On peut ainsi dériver un grand nombre de noms, de formes et de temps verbaux. حمل» «Hml فعل» porter Racine : notion de «غحب» «Hamilon فبع Porteur غح غ غ» Hamala «ف غع a porté غ غ» mahmalon «فع Brancard ح غ» Homila «ف ع غ a été porté Tableau 1 : Schèmes de dérivés du mot حمل «Hml». La majorité des verbes arabes ont une racine composée de 3 consonnes. L'arabe comprend environ 150 schèmes ou patrons dont certains plus complexes, tel le redoublement d'une consonne ou l'allongement d'une voyelle de la racine, l adjonction d'un ou de plusieurs éléments ou la combinaison des deux. Une autre caractéristique est le caractère flexionnel des mots : les terminaisons permettent de distinguer le mode des verbes et la fonction des noms Structure d un mot En arabe un mot peut signifier toute une phrase grâce à sa structure composée qui est une agglutination de «morphes» (racines, préfixes, affixes, suffixes, schèmes). La représentation suivante schématise une structure possible d un mot. Notons que la lecture et l'écriture d'un mot se fait de droite vers la gauche. Post fixe Suffixe Corps schématique Préfixe Antéfixe Les antéfixes sont des prépositions ou des conjonctions. Les préfixes et les suffixes expriment les traits grammaticaux et indiquent les fonctions: cas du nom, mode du verbe et autres catégories d actualisation (nombre, genre, personne, ) Les post fixes sont des pronoms personnels. Exemple: أ غر غز غ غزو ش غ غب» Atatadhakkaronana «Ce mot exprime la phrase en français : "Est ce que vous vous souvenez de nous? La segmentation de ce mot donne les constituants suivants : أ غ "A" غد "ta" ر غ غزو ش "tadhakkar" غ "ona" غب "na" Antéfixe : conjonctionأ d interrogation Préfixe : د préfixe verbal du temps de l inaccompli رفع selon le schème رو ش racine: dérivé de la رزو ش : schématique Corps Suffixe : suffixe verbal exprimant le pluriel Post fixe : ب pronom suffixe complément du nom - 9 -
10 Etude bibliographique Catégories des mots L arabe considère les catégories de mots suivants Le verbe : entité exprimant un sens dépendant du temps, c est un élément fondamental auquel se rattachent directement ou indirectement les divers mots qui constituent l ensemble. Le nom : l élément désignant un être ou un objet qui exprime un sens indépendamment du temps. L adjectif : entité se place toujours après le nom qu il qualifie. Il s accorde en genre et en nombre avec lui ; les règles de formation de féminin et de pluriel des adjectifs sont les mêmes que celles des noms. Les particules : entités qui servent à situer les événements et les objets par rapport au temps et l'espace, et permettent un enchaînement cohérent du texte. a) Les verbes La plupart des mots en arabe, dérivent d'un verbe de trois lettres. Chaque verbe est donc la racine d'une famille de mots. Comme en français, le mot en arabe se déduit de la racine en rajoutant des suffixes ou des préfixes. La conjugaison des verbes dépend de plusieurs facteurs : Exemple: Le temps (accompli, inaccompli). Le nombre du sujet (singulier, duel, pluriel). Le genre du sujet (masculin, féminin). La personne (première, deuxième et troisième) Le mode (actif, passif). (écrire). وزت donne le verbe ک + د + ة Dans tous les mots qui dérivent de cette racine, on trouvera ces trois lettres. La conjugaison des verbes se fait en ajoutant des préfixes et des suffixes, un peu comme en français. La langue arabe dispose de trois temps : L'accompli : il correspond au passé et se distingue par des suffixes (par exemple pour le pluriel féminin on a,وزج elles ont écrit et pour le pluriel masculin on a ilsوزج ا ont écrit. L'inaccompli présent: présente l'action en cours d'accomplissement, ses éléments sont préfixés ىزت il écrit;,رىزت elle écrit. L'inaccompli futur : correspond à une action qui se déroulera au futur et est marqué par س ف ىزت écrira, il س ىزت au verbe س ف ou س l'antéposition de b) Les noms il va écrire. Les substantifs arabes sont de deux catégories, ceux qui sont dérivés de la racine verbale et ceux qui ne le sont pas comme les noms propres et les noms communs. Dans le premier cas, par le fait que le nom est dérivé d'un verbe, celui-ci exprime une certaine sémantique qui pourrait avoir une influence dans la sélection des phrases saillantes d'un texte pour le résumé
11 Etude bibliographique La déclinaison des noms se fait selon les règles suivantes: Le féminin singulier : on ajoute le,ح exemple صغ ش petit devient صغ شح petite,اد Le féminin pluriel : de la même manière, on rajoute pour le pluriel les deux lettres exemple صغ ش petit devient صغ شاد petites Le masculin pluriel : pour le pluriel masculin on rajoute les deux lettres ou en fonction de la position du mot dans la phrase (sujet ou complément d objet), Exemple : ا شاجع revenant devient ا شاجع ou ا شاجع revenants. Le pluriel irrégulier : il suit une diversité de règles complexes et dépend du nom ; exemple : طف un enfant devient أطفبي des enfants. Le phénomène du pluriel irrégulier dans l'arabe pose un défi à la morphologie, non seulement à cause de sa nature non concaténative, mais aussi parce que son analyse dépend fortement de la structure comme pour les verbes irréguliers. Certains dérivés nominaux associent une fonction au nom : Agent (celui qui fait l action), Objet (celui qui a subit l action), Instrument (désignant l instrument de l action), Lieu. Pour les pronoms personnels, le sujet est inclus dans le verbe conjugué. Il n'est donc pas nécessaire (comme c'est le cas en français) de faire précéder le verbe conjugué par son pronom. On distinguera entre singulier, duel (deux) et pluriel (plus de deux) ainsi qu'entre le masculin et le féminin. c) Les adjectifs Un adjectif s'accorde au nom en détermination. Donc si le nom qu'il qualifie est déterminé, il devra être déterminé de la même manière. Exemple : (el-radjul el-yamin, l'homme juste, l'homme qui est juste). Pour qualifier une ا شج ا.عبدي personne de juste, on peut également employer l'adjectif De même pour le féminin, اإل شأح ا خ (el-'imra el-yaminah, la femme juste, la femme qui est juste). De plus, on trouve à côté de l adjectif l'annexion. C est quand un nom est suivi de son complément, on dit que les deux termes sont en annexion. Dans ce cas, deux points sont à observer : 1. Le premier terme ne peut être défini par l'article.اي Il l'est par son complément. 2. Rien ne doit séparer un nom de son complément. Si on doit qualifier le nom, l'adjectif se met après le complément. Exemple : Pour "le grand bateau de la princesse", on dira : شوت األ شح ا ىج ش««markab alamira alkabir
12 Etude bibliographique d) Les particules Ce sont principalement les mots outils comme les conjonctions de coordination et de subordination. Les particules sont classées selon leur sémantique et leur fonction dans la phrase, on en distingue plusieurs types (introduction, explication, conséquence). Elles jouent un rôle important dans l interprétation de la phrase. Elles servent à situer des faits ou des objets par rapport au temps ou au lieu, elles jouent également un rôle clé dans la cohérence et l'enchaînement d'un texte. ثعذ Comme exemple de particules qui désignent un temps, on trouve avant, pendant, un lieu ح ث où, ou de référence ا ز ceux,. Ces particules seront très utiles à deux niveaux : après, لج ز Elles font partie de l'anti-dictionnaire qui regroupe les termes à ne pas prendre en considération lors du calcul de fréquence de distribution des mots, Elles identifient des propositions composant une phrase. Les particules peuvent avoir des préfixes et suffixes ce qui rajoute une complexité quant à leur identification Problèmes du traitement automatique de l arabe Un des aspects complexes de la langue arabe est l'absence fréquente des voyelles courtes dans le texte, ce qui risque de générer une certaine ambiguïté à deux niveaux : Sens du mot Difficulté à identifier sa fonction dans la phrase (différence entre le sujet et le complément, ). Cela peut influencer les fréquences des mots étant donné qu'elles sont calculées après la détection de la racine ou la lemmatisation des mots qui est basée sur la suppression de préfixes et suffixes. Lors du calcul des scores à partir des titres, il peut arriver que des mots soient considérés comme dérivant d'un même concept alors qu'ils ne le sont pas. Dans l'exemple suivant (tableau 2), en utilisant la distribution des mots ou le titre avec ou sans lemmatisation, la phrase 3 aura un score plus important alors que les phrases 1 et 2 semblent plus intéressantes, ce qui n'aurait pas été le cas avec un texte voyellé. Tableau 2 : effet du mot non voyellé العلم sur les extraits. L ambiguïté vient du mot ا ع la science ou drapeau alors que voyellé on aura ا ع pour la science et ا غع pour le drapeau
13 Etude bibliographique Cette ambiguïté pourrait, dans certains cas, être levée soit par une analyse plus profonde ا ع de la phrase ou des statistiques de cooccurrences (par exemple il est plus probable d'avoir nationale). le drapeau national que la science ا ط De plus, la capitalisation n'est pas employée dans l'arabe ce qui rend l'identification des noms propres, des acronymes, et des abréviations encore plus difficiles. Enfin, comme la ponctuation est rarement utilisée, on doit ajouter une phase de segmentation en phrases pour l analyse d'un texte Segmentation des phrases La reconnaissance de la fin de phrase est délicate car la ponctuation n est pas systématique et parfois les particules délimitent les phrases. Pour la segmentation de texte [Ouersighni, 2001] utilise : Une segmentation morphologique basée sur la ponctuation, Une segmentation basée sur la reconnaissance de marqueurs morphosyntaxiques ou.حزى, ى, أي, : comme des particules fonctionnelles Cependant, ces particules peuvent jouer un autre rôle que celui de séparer les phrases Détection de racine Pour détecter la racine d un mot, il faut connaître le schème par lequel il a été dérivé et supprimer les éléments flexionnels (antéfixes, préfixes, suffixes, post fixes) qui ont été ajoutés. Le tableau suivant liste les préfixes et les suffixes. Plusieurs d'entre eux ont été utilisés par [Chen et Gey, 2002] pour la lemmatisation de mots arabes; ils ont été déterminés par un calcul de fréquence sur une collection d'articles arabes de l'agence France Press (AFP). Préfixes ال ف و ث د ثذ اي ثب ا ف سز ز فبي فب ا ز ز ثبي Suffixes ا ح خ ر بد ره ر ا ا ي خ ب ب و ر Tableau 3 : Liste des préfixes et suffixes les plus fréquents L analyse morphologique devra donc séparer et identifier des morphèmes semblables aux mots préfixés comme les conjonctions et ف des prépositions préfixées comme ة et,ي l'article défini,ا des suffixes de pronom possessif. La phase d analyse morphologique détermine un schème possible. Les préfixes et suffixes sont trouvés en enlevant progressivement des préfixes et des suffixes et en essayant de faire correspondre toutes les racines produites par un schème afin de retrouver la racine
14 Etude bibliographique Lorsqu un mot peut être dérivé de plusieurs racines différentes, la détection de la racine est encore plus difficile, en particulier en absence de voyelles. Par exemple, pour le mot arabe ا ب les préfixes possibles sont : " ", "ا" et " "ا et les suffixes possibles sont : " " et " "ا sans compter que ce mot peut aussi représenter un nom.إ ب propre Stem Préfixe Schème Suffixe Racine signification Croyance ا Ø ف عبي Ø إ ب Ø convenant فعبي ا ب Va-t-il approvisionner ب Ø فع أي ب Deux veuves ا Ø فع Ø ا إيمان Tableau 4 : Les radicaux possibles pour le mot Certains verbes sont considérés comme irréguliers, ce sont ceux qui portent des ي, ا, consonnes particulières dites faibles ( ). Ils sont appelés ainsi parce que, lors de leur déclinaison, chacune de ces lettres est soit conservée, soit remplacée ou éliminée. Le Tableau 4 donne un exemple de dérivation du mot لبي dire. Caractère ««ا est remplacé par لبي dire ا لبي Il a dit م ي Il dit ي ل Il a été dit Ø ل dis Tableau 5 : Exemple de déclinaison du verbe irrégulier قال dire Une difficulté en traitement automatique de l arabe est l agglutination par laquelle les composantes du mot sont liées les unes aux autres. Cela complique la tâche de l analyse morphosyntaxique pour identifier les vrais composants du mot. Par exemple, le mot أ غ غ ('alamuhurn leur douleur) dans sa forme voyellée n'accepte qu une seule segmentation + أ غ غ ('alamu+hum). Dans sa forme non voyellée ا ('lmhm), le même mot accepte par contre les trois segmentations suivantes : ramassés) ('+lmm+hm les a-t-il ا + + souffrir) ('lm+hm leur douleur llm+hm il les a fait ا + l'important) ('l+mhm اي + L'amplification de l ambiguïté de segmentation s opère selon deux façons :
15 Etude bibliographique Il y a plus d unités ambiguës dans un texte non voyellé que dans son correspondant voyellé. Les unités ambiguës acceptent plus de segmentations dans le texte non voyellé. De plus, le fait de faire précéder la lemmatisation par la troncature des préfixes avant les suffixes (et réciproquement) peut influencer les résultats. En considérant ce qui précède, sur un texte où la notion de douleur est importante, le fait d'ajouter un suffixe aux mots exprime toute une autre notion, comme par exemple l ajout de suffixe «ا» à أ leur douleur pour le pluriel rend le mot أ ب leur douleur pour le duel. Grâce à une structure composée qui est une agglutination d éléments de la grammaire, un mot en arabe peut encapsuler la signification de toute une phrase. La richesse de la morphologie de la langue arabe pose le problème des ambiguïtés aux différents niveaux de TALN. En abordant ce problème au niveau morphosyntaxique, la différenciation des appartenances grammaticales des mots est nécessaire. Un autre point important est que, pour deux corpus de taille donnée en arabe et en anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces deux corpus, sera beaucoup plus importante pour l anglais que pour le français, en raison de la riche morphologie de l arabe. Cela a une implication importante pour la modélisation statistique du langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque d être trop importante pour estimer des statistiques robustes, si la quantité de données disponible pour l apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une solution à ce problème Etude théorique de la Traduction Statistique Le nombre d approches en traduction automatique s est multiplié dans les dernières années. Il existe entre autres la traduction par les règles, la traduction statistique et la traduction guidée par l exemple. Un système de traduction automatique a pour fonction de traduire un texte S dans une langue source en un texte T dans une langue cible. Le triangle présenté à la figure 1 est attribué à Vauquois [1968]. Il présente de manière synthétique une analyse du processus de traduction encore pleinement pertinente et employée de nos jours. Figure 1 : Le triangle dit «de Vauquois» pour la traduction
16 Etude bibliographique Au premier niveau (le plus bas), on trouve la traduction directe comme première génération, elle se base sur des équivalences de termes, traduit mot à mot à partir de la consultation d'un dictionnaire. Les systèmes de première génération ne font aucune analyse. La deuxième génération de traduction correspond au second niveau, une analyse syntaxique de la phrase source simplifie le transfert vers la langue cible. Au niveau sémantique, avec une analyse plus approfondie de la phrase source, le transfert devient uniquement sémantique et plus simple. En revanche, la génération des mots après le transfert est plus complexe qu au niveau inférieur. Enfin, une analyse totale de la phrase source peut aboutir à une représentation de son sens dans une «inter-langue» artificielle, de laquelle on dérive ensuite les mots cible. La traduction automatique à base d exemples («Example-Based Machine Translation» ou EBMT) repose sur un ensemble «d exemples» préalablement traduits : un corpus parallèle de phrases traductions l une de l autre. [Nagao, 1984] est considéré être à l origine de la traduction automatique à base d exemples, et [Somers, 1999] présente un tour d horizon approfondi de cette approche. Lorsqu on lui présente une phrase à traduire, le système parcourt sa base d exemples et produit trivialement une traduction si la phrase s y trouve. Dans le cas général, la phrase n apparaît pas dans la base et le système s emploie alors à rassembler des exemples qui contiennent des fragments communs (des groupes de mots) avec la phrase à traduire. Pour chaque fragment d exemple dans la langue source, il s agit ensuite de retrouver sa traduction dans la langue cible : c est la phase d alignement. Enfin, la phase de génération assemble les fragments dans la langue cible et produit la traduction. À chacune des trois étapes, il est possible d utiliser des sources externes de connaissances, telles que des lexiques bilingues, des listes de synonymes, des étiquettes ou des arbres syntaxiques, etc. [Nakazawa et al., 2006] est un exemple de développement récent dans le domaine, et emploie entre autres un lexique bilingue et un analyseur morphologique pour déterminer les structures de dépendance dans les phrases anglaises et japonaises. La traduction automatique par méthodes statistiques («Statistical Machine Translation» ou SMT) se base sur la théorie mathématique de distribution et d estimation probabiliste développée par Frederick Jelinek au IBM T.J. Watson Research Center et en particulier, sur un article de [Brown et al., 1990], [Carl, 2003]. Les systèmes statistiques apprennent un modèle probabiliste de traduction P(t/s) à partir d un texte bilingue et un modèle probabiliste de la langue cible P(t) à partir d un texte monolingue. En général, la qualité des traductions générées par un tel système croît avec la quantité des données sur lesquelles les paramètres du système sont estimés. Par opposition à l approche traditionnelle de «système expert», l approche statistique de la traduction automatique est capable de s améliorer avec des nouvelles données d entraînement. Typiquement, la traduction statistique génère la phrase cible à partir des traductions des fragments (chunkes). La «meilleure» traduction est déterminée dans la traduction automatique statistique par les probabilités P(s t) et P(t) qui sont générées indépendamment l une de l autre et représentent le modèle de traduction et le modèle de langue. En pratique, les deux modèles, de langue et de traduction, sont représentées par des ensembles de tables contenant les valeurs de probabilité de certains paramètres. Dans cette étude, nous adoptons une approche statistique utilisant deux corpus parallèles où l un des textes est la traduction de l autre, souvent appelé bi-textes
17 Etude bibliographique L approche probabiliste Il pourrait paraître surprenant au premier abord de vouloir traiter un processus linguistique comme la traduction par des méthodes statistiques. Toutefois, la traduction d un texte nécessite la prise de décisions : choisir un mot, une locution ou tournure de phrase en prenant en considération de dépendances souvent difficiles à quantifier. L approche probabiliste rend compte de ces dépendances floues et est en mesure de les combiner de façon multiplicative ou additive. En outre, le traitement statistique permet de garantir que pour toute phrase source, une phrase traduite sera générée, même si la syntaxe de cette phrase n est pas correcte. On peut résumer la traduction statistique comme la combinaison d une modélisation linguistique et d une prise de décision statistique. Parmi les caractéristiques de la traduction automatique, notons la nécessité de disposer de grandes quantités de textes bilingues alignés nécessaires pour l entraînement, le décodage et le réordonnancement des hypothèses de traduction. Relation de Bayes : La traduction statistique se définit par la recherche du document cible ayant la plus grande probabilité d être la traduction d un document source. En appliquant le théorème de Bayes sur les paires des textes (s, t) où le texte t de la langue cible est la traduction du texte s de la langue source, on obtient pour chacune des paires une probabilité Pr(t s) que la machine produise le mot t comme traduction du mot s : Équation 1-1 Pr t s = Pr s t Pr t Pr s Puisque Pr(t) est indépendant de s, en utilisant seulement le produit Pr(s t) Pr(s) on arrive à l équation fondamentale en traduction automatique : Équation 1-2 t = argmax e Pr t s = argmax e Pr s t Pr t Dans cette équation, argmax e représente l'algorithme de recherche de la traduction optimale, Pr(t) le modèle de langage et Pr(s t) le modèle de traduction. Modèle log-linéaire En pratique, il est souvent bénéfique de pondérer les différentes sources d information que sont le modèle de langage Pr(t) et le modèle de traduction Pr(s t). La quantité à maximiser devient ainsi : Équation 1-3 argmax e Pr t s = argmax e Pr t Pr s t (1 ) avec un α [0, 1] à choisir judicieusement. En outre, si le modèle de traduction Pr(t s) est le produit de plusieurs composantes, cellesci peuvent être pondérées de la même façon. L expression maximisée par le traducteur peut alors s écrire sous la forme suivante :
18 Etude bibliographique Équation 1-4 argmax e Pr t s = argmax e Pr t α Pr s t 1 α Équation 1-5 = argmax e λ i log h i s, t L équation I-2 pourrait sembler contraignante : le principe «source/canal de transmission» justifiait chacun des deux termes et n en autorisait a priori aucun autre. Avec l équation I-5, il s agit maintenant de caractériser le processus de traduction au moyen d une combinaison log-linéaire de fonctions caractéristiques h i (t, s). Toute fonction aidant à produire une traduction correcte peut être incluse, sans autre justification théorique. Les fonctions caractéristiques usuelles peuvent inclure un ou plusieurs modèles de langage h(t, s) = Pr(t) et tout modèle de traduction h(t, s) = max A Pr(s, A t) (l alignement A faisant partie des variables internes maintenues par le traducteur). Un système de traduction compte en général entre cinq et une douzaine de ces fonctions caractéristiques Modèle de langue (LM) La modélisation du langage revient à trouver le mot le plus probable sachant ceux qui le précèdent. Cette tâche est réalisée lors de la phase d'entraînement (ou d'apprentissage) sur des corpus de la langue cible. On suppose que la phrase S est représentée par une séquence de mots m 1, m 2,..., m n. La probabilité de l'avoir est donnée par l'équation suivante : Équation 1-6 P S = m 1, m 2,..., m n = P( m 1 ) x P( m 2 m 1 ) x... x P( m n m 1, m 2,..., m n 1 ) Pour le calcul des probabilités, il y a différentes méthodes. Ces probabilités sont estimées sur des corpus d'apprentissage de grande taille. Il existe de nombreuses variantes, qui utilisent différentes informations, depuis le simple graphème (pour certaines langues) jusqu'à des classes ou des séquences de mots Modèles n-grammes Il semble impossible d'avoir un corpus grand, qui représente toute les cooccurrences possibles et tout le vocabulaire d'un certain langage. Pour résoudre ce problème, on calcule les probabilités en fonction d'un historique de taille réduit appelé le modèle n-gramme. Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. À partir d'une séquence de mots donnée il est possible d'obtenir la fonction de vraisemblance de l'apparition du mot suivant. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour le prochain mot avec un historique de taille n. Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières observations sont utilisées pour la prédiction du mot suivant. Ainsi un bi-gramme est un modèle de Markov d'ordre 2. i
19 Etude bibliographique Ce type de modèle de langage est souvent utilisé sous sa forme 3-gramme qui ne compte que 2 mots comme historique. Le calcul de la probabilité d apparition du mot m sachant les n mots qui le précèdent (historique h) en utilisant une fonction N qui, pour une séquence de mots, donne le nombre de fois où cette séquence a pu être observée dans le corpus d apprentissage, s exprime sous la forme suivante : Équation 1-7 P m h = N h, m N h Il existe beaucoup de variantes du modèle n-grammes, qui ne prennent pas en compte les n mots strictement précédents mais qui sautent certains mots pour ne pas prendre en compte un adverbe par exemple en français Modèles n-classes Le modèle n-classes est fondé sur le même principe que celui des modèles n-grammes sauf qu au lieu de traiter les mots, cette technique traite les classes des mots. Ceci apparaît très efficace dans certains cas surtout lorsque le mot interrogé n existe pas dans le corpus d apprentissage mais sa classe d appartenance existe, ce qui élimine les probabilités nulles. Une telle approche est aussi efficace du point de vue de la mise à jour du modèle puisqu'on peut ajouter un mot au vocabulaire sans devoir ré-estimer la probabilité, si la classe existe déjà (on affecte au mot directement la probabilité de sa classe d appartenance). Dans ce modèle on aura une classe de mots en fonction des n-1 classes qui le précèdent au lieu d'un mot en fonction des n-1 mots le précédant. L'équation du modèle trigramme (3- grammes) se transforme, pour un modèle tri-classe (3-classes) : Équation 1-8 P C i C i 2 C i 1 = N C i 2, C i 1, C i N C i 2, C i 1 On peut considérer les mots au sein d 'une même classe comme équiprobables ou non. Si on souhaite estimer la probabilité d un mot au sein d une classe, on peut le faire, en utilisant la fonction C(m) qui pour un mot m renvoie sa classe, de la façon suivante : Équation 1-9 P m C m = N m N C m Avec C(m) : la fonction qui pour un mot m renvoie sa classe. La probabilité d'un mot au sein d'une séquence est alors obtenue par la formule : Équation 1-10 P m h = P m C m x P C m h(c m ) Il existe plusieurs variantes du modèle n-classes qui visent surtout à résoudre le problème d appartenance d un mot à une certaine classe
20 Etude bibliographique Modèles de traduction Le modèle de traduction donne la probabilité qu un mot ou un groupe de mots dans la langue source soient traduits par un autre dans la langue cible. Nous nous intéressons ici au problème de calcul de P(t/s), la probabilité d'une phrase cible t = t 1... t J étant donnée une phrase de la langue source s = s 0... s I. On appelle la méthode qui permet de calculer cette distribution «un modèle de traduction» Notion d alignement L alignement décrit la correspondance entre les mots d une phrase de la langue source et les mots de la phrase de la langue cible qui est sa traduction possible. La plupart des modèles statistiques existant l utilisent. La figure 2 montre un exemple d un tel alignement. Les alignements de groupes de mots à d autres groupes de mots sont a priori autorisés, de même que l alignement à un mot spécial appelé NULL utilisé lorsqu un ou plusieurs mots d une phrase n ont pas de correspondance dans l autre phrase (formellement, il y a un mot NULL dans chacune des langues). Je ne le pense pas, vraiment Les modèles «IBM» I do not think so NULL Figure 2 : Exemple d alignement entre deux phrases [Brown et al., 1993] ont défini cinq modèles statistiques de traduction de complexité croissante et proposé un algorithme pour leur apprentissage. Il s agit de modèles à base de mots, c est-à-dire que l unité de traduction qui apparaît dans les lois de probabilité est le mot. Nous tentons de faire une synthèse dans les paragraphes suivants de ces cinq différents modèles de traduction. a) Modèle de traduction probabiliste IBM1 Le modèle «IBM-1» est une exception : c est le seul modèle à ne pas aligner les mots source aux mots cible. Plus exactement, il considère que tous les mots source peuvent être alignés à tous les mots cible avec la même probabilité. Le modèle IBM-1 repose sur une seule loi de probabilité, une loi lexicale notée T(t s). La seule raison d être de ce modèle est de permettre l entraînement des modèles suivants. b) Modèle de traduction probabiliste IBM2 Ce modèle et les suivants imposent des restrictions sur l alignement A entre les mots des phrases source et cible. Au lieu d être aussi général qu à la figure 2, il doit être de la forme A = a 1... a J, où, pour tout j de l intervalle [1, J], a j est inclus dans l intervalle [0, I]. a j = i > 0 signifie que le mot cible t j est aligné à s i, tandis que a j = 0 signifie que t j n est pas aligné, ou est aligné au mot NULL. Ainsi, un alignement de cette forme autorise l alignement de plusieurs t j à un seul s i, mais pas l inverse : un mot cible t j est aligné à 0 ou 1 mot source. Le modèle IBM-2 et les
21 Etude bibliographique suivants sont donc asymétriques. La figure 3 présente un exemple d alignement respectant les contraintes ci-dessus. Notons qu il est acceptable qu un s i n ait généré aucun t j. En plus de la loi de traduction lexicale T(t s), le modèle IBM-2 dispose d une loi d alignement ou de distorsion de la forme p(a j j). c) Modèle de traduction probabiliste IBM3 Ce modèle de traduction intègre en plus une loi de fertilité, de la forme N(ф e). Pour chaque position source i de l intervalle [1, I], ф i est le nombre de mots cible alignés à s i, soit ф i = Card {j a j = i}. Le modèle IBM-3 considère que les mots cible t alignés à aucun mot source apparaissent spontanément entre les autres mots cible. Le modèle définit ainsi une probabilité p 1 = 1 p 0 de génération spontanée d un mot cible aligné à s 0 après toute génération de mot cible aligné à un mot source. La loi T(t s 0 ) détermine alors quel mot cible sera généré. Ces mots «spontanés» ne portent pas de sens ; en pratique, ils sont insérés de façon à respecter la grammaire de la langue cible. d) Modèles de traduction probabiliste IBM4 et IBM5 Dans les modèles 3,4 et 5 de IBM, on développe la phrase cible par étape. Tout d abord pour chaque mot dans la phrase source (s), on regarde le nombre de mots dans la phrase cible (t) qui lui correspond, puis on essaye de définir la structure de ces mots, enfin, après avoir connecté les mots dans les deux phrases on cherche les bonnes positions des mots dans la phrase cible, c est le travail de l algorithme de réordonnancement. Dans la phase de réordonnancement, on définit réellement les connexions entre les mots. Ces trois derniers modèles diffèrent dans la façon de connecter les mots. Pour le modèle 3, comme dans le modèle 2, la probabilité de connexion Pr(t/s) dépend des positions des mots et de la longueur des deux phrases source et cible. Par contre, dans le modèle 4, la probabilité de connexion dépend des structures (généralement structure syntaxique) des mots liés et aussi des positions des autres mots cibles connectés avec le même mot source. Malgré toute cette précision, les modèles 3 et 4 ont des limites, le modèle 5 reste toujours le plus utilisé. Les modèles 1-4 peuvent être des moyens d initialisation pour le modèle 5. Langue source : s 0 s 1 s i s I Langue cible : t 1 t 2 t j t J Figure 3 : Exemple d alignement autorisé par les modèles IBM-2 à IBM Décodage Le décodage en SMT comprend la recherche des hypothèses t ayant les plus grandes probabilités pour être considérées comme étant les traductions de la phrase source en question, suivant le modèle de traduction P(t/s). Le modèle de traduction est une combinaison log-linéaire de quatre principaux composants : un ou plusieurs modèles trigramme de la langue cible, un ou plusieurs modèles de traduction basés sur les groupes de mots, un modèle de distorsion qui rend compte des différences dans l ordre des mots en langues source et cible, et un modèle de longueur qui rend compte des différences de longueur entre les deux langues
22 Etude bibliographique Le modèle trigramme de langue a été implanté en utilisant le programme SRILM [Stolcke, 2002]. Le modèle de traduction basé sur les groupes de mots utilise les modèles symétriques IBM. Les modèles de distorsion et ceux de longueur sont similaires à ceux de [Koehn, 2004]. Pour établir les poids des composants dans le modèle log-linéaire, l implémentation de l algorithme de [Och, 2003] implique essentiellement la génération des N meilleures hypothèses de traduction dans un processus itératif, représentant l espace entier de recherche pour un ensemble donné de phrases sources du corpus de développement. Une variante de l algorithme de Powell est utilisée pour trouver les poids qui optimisent le score BLEU sur ces hypothèses, comparés aux traductions de référence du corpus de développement. Ces opérations de décodage sont accomplies par le décodeur Moses, qui implémente un algorithme de recherche en faisceau en programmation dynamique (dynamic-programming beam search algorithm), comme l algorithme décrit par [Koehn, 2004] avec quelques extensions comme la capacité de décoder vers l avant et/ou vers l arrière Tuning: Réglage des paramètres par minimisation du taux d erreur (minimum- error-rate-training) Le décodage nous permet d insérer un poids à chacun des modèles pour permettre l utilisation astucieuse de ceux-ci et ainsi générer la meilleure traduction possible. Le tunning consiste alors à tester toutes les combinaisons de poids permettant d obtenir les meilleures traductions possibles avec nos modèles. Cette étape se fait sur un fichier tune qui est disjoint du corpus d entraînement et du fichier test. Une fois que les meilleurs poids sont trouvés, ils seront utilisés pour toutes les traductions. L outil MERT (pour Minimum Error Rate Training, entraînement minimisant le taux d erreur) est distribué au sein de la boîte à outils Moses. Il met en oeuvre l optimisation de la façon suivante. MERT lance le décodeur Moses avec un premier jeu de λ i et récupère ses n meilleures hypothèses. MERT détermine alors un autre jeu de λ i, qui permette de maximiser Bleu. Il est à noter que pour ce faire, MERT connaît la forme particulière de la fonction donnant le score Bleu en fonction des λ i : c est une fonction constante par morceaux, du fait du caractère discret des listes de n-meilleures hypothèses [Och, 2003, Papineni, 1999]. Si les nouveaux λ i sont différents des anciens, MERT relance Moses. Une douzaine de lancements de Moses est en général nécessaire pour atteindre la stabilisation. Par ailleurs, les différents optimums obtenus au cours du développement du système sont conservés et comparés, car il arrive que MERT s égare dans un maximum local Systèmes fondés sur des séquences de mots : phrase-based approach Nombreux sont les systèmes de traduction automatique statistique d aujourd hui qui dépendent de modèles «fondés sur des séquences de mots». Un système fondé sur des séquences de mots comprend généralement un ou plusieurs modèles de traduction de séquences de mots et un ou plusieurs modèles linguistiques à n-grammes. Bien qu un système de ce type comporte normalement d autres éléments (par exemple, un modèle de réordonnancement), ce sont les modèles de traduction et les modèles de langage qui occupent le plus de mémoire système. Les diverses composantes sont habituellement combinées de façon log-linéaire. En
23 Etude bibliographique règle générale, il est souhaitable d entraîner les deux modèles de traduction et celui de langage au moyen de la plus grande quantité de données possible, même s ils risquent d occuper ensuite plusieurs giga-octets de mémoire. Comme leur nom l indique, l unité de traduction de ces modèles est le groupe de mots (phrase en anglais). Un groupe de mots peut compter un ou plusieurs mots. Les groupes de mots sont symbolisés avec un tilde : par exemple, ŝ = s i,, s i+l 1 regroupe l mots, avec l 1. Nous décrivons ici les principes communs à tous les systèmes de traduction par séquences de mots. Phrase source : Je ne le pense pas s1 s2 s3 s4 Phrase cible : t1 t2 t3 t4 I do not think so Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles Le processus de traduction est illustré à la figure 4. La phrase source s est d abord segmentée en K groupes de mots : s = ŝ 1... ŝ K. Chaque groupe de mots source ŝ K est ensuite traduit en un groupe de mots cible K. Ces groupes de mots sont éventuellement réordonnés selon une permutation p( ) de [1, K] puis sont simplement accolés pour constituer la phrase cible finale t = t p t 1 p. Utiliser des groupes de mots comme unité de traduction permet d aligner n K mots source à m mots cible et d éviter les alignements parfois peu satisfaisants qu imposaient les modèles à base de mots. Dans l exemple de la figure 4, ne pas est aligné à do not. Par ailleurs, un autre alignement valide pour cette paire de phrases pourrait aligner les quatre mots ne le pense pas à do not think so et éviter ainsi tout réordonnement. Ceci est une propriété importante des modèles par séquences de mots : ils sont en mesure de traduire directement, par exemple, des groupes nominaux ou des ensembles nom+adjectif observés sur l ensemble d apprentissage et ainsi parvenir à préserver certaines contraintes locales sur l ordre des mots. Nous allons utiliser ce type de modèle pour notre étude. Nous pensons qu elle nous apporte plus d avantages que le simple modèle de mots. Nous utilisons pour créer ces modèles une ressource disponible gratuitement qui est GIZA++ [Och & Ney, 2000] ainsi qu une série de scripts disponibles sur le web 3. Ce programme va nous permettre de créer automatiquement notre modèle. Les modèles sont appris sur un bitexte d entraînement constitué bien sûr de la langue source et de la langue cible. Les alignements automatiques obtenus par les modèles IBM, dans les deux sens de traduction (source-cible et cible-source) sont ensuite fusionnés pour construire la table de traduction (phrase table). 3 voir
24 Etude bibliographique Conclusion Dans cette partie, nous avons commencé par présenter notre langue source (la langue arabe) et ses problèmes au niveau de son traitement automatique. Grâce à une structure composée qui est une agglutination d éléments de la grammaire, un mot en arabe peut encapsuler la signification de toute une phrase. La richesse de la morphologie de cette langue pose le problème des ambiguïtés aux différents niveaux de TALN. En abordant ce problème au niveau morphosyntaxique, la différenciation des appartenances grammaticales des mots est nécessaire. Un autre point important est que, pour deux corpus de taille donnée en arabe et en anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces deux corpus, sera beaucoup plus importante pour l arabe que pour l anglais, en raison de la riche morphologie de l arabe. Ceci a une implication importante pour la modélisation statistique du langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque d être trop importante pour estimer des statistiques robustes, si la quantité de données disponible pour l apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une solution à ce problème dans nos travaux. Ensuite, nous avons présenté la traduction automatique en nous intéressant à la traduction statistique et en présentant les principaux concepts comme les modèles de langage, modèles de traduction proposés par IBM et les systèmes fondés sur des séquences de mots. Ces modèles seront adoptés pour toutes nos expérimentations
25 Mes contributions Chapitre 2. Mes contributions Introduction Nous avons abordé dans le chapitre précédent une étude bibliographique en présentant la langue source de notre système de traduction automatique ainsi que les différents composants d un système de traduction automatique statistique. Dans ce chapitre, nous allons mettre en œuvre et expérimenter un système de traduction automatique qui manipule des données enrichies avec des informations morphosyntaxiques pour la traduction arabe / anglais et proposer quelques solutions originales en vue de l amélioration du système de référence. Tous les travaux expérimentaux ont été réalisés sur un serveur de calcul de l équipe GETALP dans l environnement LINUX Etiquetage morphosyntaxique (POS Tagger) Un tel outil (POS Tagger), consiste à donner une étiquette morphosyntaxique à un mot. Cette étiquette représente la catégorie du mot, ce sera par exemple NN pour nom, PP pour préposition. Ces étiquettes seront plus ou moins précises selon l étiqueteur. En effet, certains pourront contenir une centaine d étiquettes alors que d autres n en n auront qu une dizaine. Nous retrouvons tout de même une similarité entre les étiqueteurs les plus utilisés ce qui permet une meilleure comparaison. Les étiqueteurs sont utilisés dans plusieurs applications liées au langage comme la recherche d informations. Ils permettent d avoir une information syntaxique qui peut être utile dans le traitement d une phrase. Dans notre cas, un tel étiqueteur peut être considéré comme une aide à la désambiguïsation, en effet, il nous permet d avoir une information supplémentaire dans le choix d un sens. Par exemple, le mot livre peut être un nom commun dans "Paul pose le livre sur la table", un verbe dans "Paul livre la pizza", donc si nous pouvons savoir la catégorie du mot nous pouvons savoir partiellement son sens. Cette information n est bien sûr utile pour la désambiguïsation que s il n y a qu un sens par étiquette POS. Plusieurs méthodes sont proposées pour annoter automatiquement les mots par des étiquettes morphosyntaxiques. Plusieurs outils sont fondés sur des systèmes à base de règles [Greene and Rubin, 1971], [Brill, 1992]. D autres implémentent des méthodes probabilistes [Bahl and Mercer, 1976], [Schmid, 1994], [Church, 1988], [Cutting et al., 1992], [DeRose, 1988], [Kempe, 1993]. Les réseaux de neurones ont aussi été testés dans l étiquetage POS [Frederici and Pirrelli, 1994] Etude de l existant Dans notre étude nous nous sommes intéressés à deux étiqueteurs (POS Tagger) pour enrichir nos corpus : TreeTagger [Schmid, 1994] pour l anglais et ASVM l étiqueteur fourni par l université de Columbia pour l arabe. Ces derniers utilisent une méthode probabiliste. Nous avons donc évalué ces deux ressources avant de réaliser notre étude
26 Mes contributions TreeTagger a) Description TreeTagger 4 est un outil gratuit développé par Helmut Schmidt, à l'université de Stuttgart permettant de réaliser un étiquetage syntaxique de textes rédigés en anglais, allemand, italien, français, et néerlandais. La version anglaise a été entraînée sur le corpus PENN treebank 5. Après une segmentation du texte, TreeTagger assigne l étiquette syntaxique et le lemme pour chaque mot en utilisant des arbres de décision pour estimer les probabilités trigramme de transition. TreeTagger a beaucoup de points communs avec les étiqueteurs conventionnels n-gram [Church, 1988], [Kempe, 1993]. Le choix se fait à partir des probabilités, plus exactement en maximisant la probabilité que l étiquette tag apparaisse à la position i sachant un historique. Pour faire cela, il utilise la formule suivante : Équation 2-1 La spécificité de cette méthode se trouve dans le calcul de la probabilité de transition P(t n /t n-1 ), qui n est autre que la probabilité d une étiquette par rapport aux étiquettes précédentes. En effet dans cette méthode, cette probabilité est calculée à partir d un arbre de décision binaire [Quinlan, 1986]. Cet arbre est construit récursivement à partir d un ensemble de trigrammes connus (suites de trois étiquettes grammaticales consécutives constituant l ensemble d apprentissage). Nous retrouvons dans le paragraphe suivant un exemple de phrase étiquetée par TreeTagger. b) Etiquetage TreeTagger utilise 36 étiquettes (tagset) pour l anglais suivant Penn Treebank qui sont :
27 Mes contributions Pour un texte anglais segmenté, TreeTagger donne une liste de tous les mots avec leurs catégories et leurs lemmes, l une est au dessous de l autre, comme l indique l exemple d étiquetage suivant: L entrée : It's just down the hall. I'll bring you some now. If there is anything else you need, just let me know. La sortie : It PP it 's VBZ be just RB just down RB down the DT the hall NN hall. SENT. I PP I 'll MD will bring VV bring you PP you some DT some now RB now. SENT. If IN if there EX there is VBZ be anything NN anything else RB else you PP you need VVP need,,, just RB just let VV let me PP me know VV know. SENT. c) Evaluation D après [Schmid, 1994], l étiqueteur TreeTagger a été testé sur des données du corpus Penn-Treebank. Environs 2 millions de mots ont été utilisés pour l'apprentissage et mots d'une autre partie du corpus Penn-Treebank pour le test. Les résultats de ce test donnent un taux d étiquettes correctes de 97.53% ce qui est acceptable ASVM : Etiqueteur de Columbia University a) Description L'outil d'étiquetage grammatical utilisé pour l'arabe est ASVM 6 (nommé aussi SVM ou SVM-POS) un logiciel libre, développé en Perl par l'équipe de Mona Diab 7 à la Leland Stanford Junior University en Il s'agit d'une adaptation à l'arabe du système anglais YamCha 8 basé sur les séparteurs à vast marge (ou Support Vector Machines en anglais, SVM). Les données probabilistes ont été acquises pendant une phase d'entrainement sur un corpus annoté nommé Arabic TreeBank. ASVM n'est pas qu'un étiqueteur. Il peut aussi produire une analyse syntaxique partielle du texte. Pour obtenir une sortie le plus possible semblable à celles des étiquetages des autres langues, nous n'utilisons pas le module d'analyse syntaxique. Les modules à lancer sont donc les suivants:
28 Mes contributions TOKrun.pl pour la tokenisation LEMrun.pl pour la normalisation des mots féminins uniquement (ce n'est pas une vraie lemmatisation) POSrun.pl pour l'étiquetage. Le patron morphosyntaxique extrait en arabe est le même qu'en français: Nom-Adj, ce qui correspond, dans la sortie de l'étiqueteur ASVM, aux étiquettes NN-JJ. NN pour nom, JJ pour adjectif. Il n'y a pas d'inversion par rapport au français. b) Etiquetage Le texte à analyser doit être translitéré avec le codage nommé Buckwalter, qui est une table de correspondance biunivoque entre les caractères arabes et l'ascii. Voici un exemple de translitération suivant Buckwalter : زست ا ى ا جشي سب ذ س ث ي سو خ جزاء ص خ اثش عشل خ سىى داخ ا طمخ لج ا سب ذس سزب. wlm yhtsb AlHkm Almjry sandwr bwl rklp jza' SHyHp Avr Erqlp hysky daxl AlmnTqp mn qbl AlysAndrw nsta. Dans le fichier de sortie, on retrouve une phrase par ligne, chaque mot étant suivi d'un slash et de sa catégorie. w/cc lm/rp yhtsb/vbp Al/DT Hkm/NN Al/DT mjry/jj sandwr/nnp bwl/nnp rklp/nn jza'/nn SHyHp/JJ Avr/IN Erqlp/NN hysky/nnp daxl/in Al/DT mntqp/nn mn/in qbl/nn Al/DT ysandrw/nnp nsta/nn./punc Les mots clitiques s'écrivant attachés à leur hôte - comme les conjonctions de coordination "ف" (fa-) et " " (wa-), la préposition "ة" (bi-) etc. - sont étiquetés indépendamment, ce qui simplifie l'extraction de patrons. Par contre l'article "اي" est toujours attaché au mot qu'il détermine. Et ce qui complique encore la tâche est que les mots ne sont pas lemmatisés. Sachant que la formation du pluriel affecte la structure interne de la plupart des noms et des adjectifs arabes et ceci de façon difficilement prédictible, la lemmatisation ne pourra pas être effectuée par des simples expressions régulières. c) Evaluation Le TreeBank arabe se compose de 4519 phrases. L'ensemble de développement, d'apprentissage et de test sont les mêmes pour toutes les expériences reportées dans [Diab, Hacioglu et Jurafsky, 2004]. Le corpus est distribué comme suit : 119 phrases pour le développement, 400 phrases pour le test et 4000 phrases d'apprentissage. Les performances des SVM-POS sont de 95,49% d étiquettes corrects. On notera cependant que 50% des erreurs rencontrées résulte de la confusion des noms, NN, avec des adjectifs, JJ, ou inversement
29 Mes contributions "اي" Le problème de l'article mérite cependant quelques remarques. En effet l'article arabe (al-) fait partie des mots clitiques s'écrivant attachés à leur hôte, avec les conjonctions de coordination "ف" (fa-) et " " (wa-), la préposition "ة" (bi-) etc. Mais tandis que les autres clitiques ont été séparés par ASVM lors de la tokenisation, l'article fait toujours partie du mot qui le suit - choix tout à fait discutable. D'une part ceci simplifie la recherche des patrons, car si l'article était traité comme un mot à part entière il faudrait chercher, en plus du couple Nom-Adj, le patron Dét-Nom-Dét-Adj. D'autre part la présence de l'article fausse les calculs statistiques en créant une distinction entre un mot déterminé et le même mot non déterminé. C'est pourquoi il applique aux résultats de l'extraction de patrons arabes un nettoyage spécial qui consiste à supprimer la sous-chaîne mot. en début de "اي" La non lemmatisation d'asvm génère d'autres nombreux problèmes de ce type, qui ne peuvent pas être résolus par des traitements aussi simples. En étiquetant nos corpus, nous avons obtenu des résultats décevants ; cela est notamment dû à la spécificité de notre corpus par rapport au corpus d apprentissage utilisé pour entrainer ASVM. En fait, nos corpus sont des transcriptions de la parole arabe dans le domaine de tourisme ce qui est de nature très différente de l information journalière qui représente le domaine où ASVM a été entraîné Approche utilisé pour construire notre propre étiqueteur arabe Afin d'améliorer notre système de traduction probabiliste, nous avons besoin d'un bi-texte étiqueté de bonne qualité. Nous espérions que l'étiqueteur ASVM nous fournirait un corpus étiqueté de qualité comparable à l'étiqueteur TreeTagger, mais malheureusement nous avons trouvé des résultats décevants, comme expliqué dans le paragraphe précédent. Pour améliorer la qualité d étiquetage de notre corpus arabe, nous avons en premier lieu corrigé manuellement une partie du corpus et, en utilisant cette correction, nous avons reentraîné un nouvel étiqueteur Correction manuelle Pour aller plus vite dans la correction, nous avons utilisé des expressions régulières pour former un script et éviter de recorriger les erreurs identiques. Notre corpus d'apprentissage contient lignes, mots dont mots différents. Par contre, les corpus de développement et de test contiennent au total 2501 lignes mots dont 4380 sont différents. Nous avons vérifié les corpus de développement, de test et les 1200 premières lignes du corpus d'apprentissage ce qui représente en pourcentage 20% de la totalité des phrases 9. Vu le temps imparti pour le stage, il n était pas raisonnable de corriger l étiquetage de la totalité du corpus d apprentissage, nous avons donc décidé de construire notre propre étiqueteur statistique à partir des 20% du corpus d apprentissage manuellement corrigé. 9 Cette vérification manuelle nous a pris environ 58 heures soit 50s/ligne, et nous avons obtenu un script contenant 1407 expressions régulières
30 Mes contributions Apprentissage Il est possible d'entraîner un étiqueteur sur tout type de corpus étiqueté; à partir du souscorpus étiqueté vérifié manuellement, le système crée sa base de connaissances. Deux fichiers serviront de paramètres dans la commande d'étiquetage, le premier présente le modèle de langage qui créé en utilisant la commande ngram-count de l outil SRILM 10 qui est un ensemble d'outils permettant de construire ce type de modèle. Le deuxième présente un tableau d étiquettes (tags) associé à un lexique et détermine la probabilité qu un mot corresponde à une étiquette donnée, de telle façon que la somme des probabilités de tous les tags associés à un seul mot soit égale à 1. Une fois le modèle de langage et le tableau d étiquettes préparés, nous utilisons la fonction disambig de SRI-LM qui attribue dans notre cas pour une séquence de mots la séquence de catégories correspondantes, ayant la plus grande probabilité calculé à l'aide du modèle de langage et du tableau d étiquettes. Cette fonction donc présente le processus d'étiquetage qui associe à une séquence M = m 1, m 2...m n de n mots une suite C = c 1, c 2...c n de catégories ayant la probabilité maximale. Le choix de cette séquence C est fondé sur la formule suivante : n où : C = argmax Ci P m i C i i=1 P C i C i 1 C i 2 P m i C i désigne la probabilité que le mot m i possède la catégorie C i P C i C i 1 C i 2 représente la probabilité de la catégorie C i de m i connaissant les deux catégories attribuées précédemment. Puisque notre tableau d étiquettes n est pas assez grand, nous pensons qu'il serait utile de rajouter une telle fonction. Un post-traitement du texte consisterait à rechercher tous les mots inconnus du lexique, et à les attribuer les étiquettes fournis déjà par ASVM Etiquetage L étiqueteur réalisé utilise donc les mêmes jeux d étiquette que l étiqueteur ASVM. Les 24 Balises (Tagset) qui sont disponibles dans la distribution de TreeBank arabe «CC, CD, CONJ+NEG PART, DT, FW, IN, JJ, NN, NNP, NNPS, NNS, NOFUNC, NUMERIC COMMA, PRP, PRP$, PUNC, RB, UH, VBD, VBN, VBP, WP, WRB» Exemple de phrase étiqueté avec ASVM kyf/rp ymknny/nofunc AstxdAm/NN Sndwq/NN wda}e/nn mn/jj?/punc Cette phrase étiquetée contient 2 étiquettes fausses parmi les 7 étiquettes. La première faute est non seulement une faute d étiquetage mais aussi une faute de segmentation. Avec l étiqueteur réalisé ces 2 erreurs n apparaissent plus :
31 Mes contributions Exemple de phrase étiquetée avec notre étiqueteur kyf/wrp ymkn/vbp ny/prp AstxdAm/NN Sndwq/NN wda}e/nns mn/jj?/punc Evaluation de notre étiqueteur Pour évaluer notre étiqueteur, on a adopté l approche de comparaison entre les résultats fournis par les deux étiqueteurs arabes utilisés. Le test est fait sur les 100 dernières phrases du corpus d apprentissage. Avec l étiqueteur ASVM, ces 100 phrases contiennent 857 mots étiquetés (w/pos) parmi lesquels il y a 77 étiquettes fausses c'est-à-dire 9.0% d erreur. Par contre, L étiqueteur que nous avons réalisé nous les fournis avec 877 mots étiquetés parmi lesquels il y a que 15 étiquettes fausses c'est-à-dire 1.7% d erreur. Comme c est déjà mentionné précédemment, les erreurs de segmentations dans ASVM qu on a réparé expliquent la différence entre les nombres de mots étiquetés. Donc, notre étiqueteur segmente mieux. Pour ces 100 phrases de test, les deux étiqueteurs ont fait cinq erreurs identiques. Mais si on compare les autres fautes, il apparu que 10 étiquètes été erronées avec notre étiqueteur ce qu ils étaient correctes dans la sortie de ASVM. Par contre, ce dernier a fait 72 méprises qui ont été réparé avec notre étiqueteur. En général, ASVM a donné 75 phrases erronées ce qui est réduit avec notre étiqueteur à seulement 14 phrases Enrichissement de l'information lexicale Ajout des étiquettes (POS) dans le cadre de modèles factoriels L'état de l'art actuel en traduction automatique statistique (phrase-based models), se limite à des modèles qui représentent des groupes de mots (phrase en anglais), sans utilisation explicite de l'information linguistique, comme les informations syntaxiques, morphologiques ou sémantique. Une telle intégration de l'information linguistique dans le modèle de traduction est souhaitable pour deux raisons : Les modèles de traduction qui opèrent sur les représentations plus générales, telles que les lemmes au lieu de la forme de surface (mots), peut s'appuyer sur des statistiques plus riches et de surmonter le problème des données clairsemées (data sparseness problem). De nombreux aspects de la traduction peuvent être mieux expliqués au niveau syntaxique, morphologique ou sémantique. Avoir de telles informations disponibles dès l'apprentissage du modèle de traduction permet la modélisation directe de ces aspects. Pour cela, nous allons représenter ces informations (mots + étiquettes POS) sous la forme de facteurs, c'est-à-dire de vecteurs contenant plusieurs flux d information (plusieurs niveaux d annotation), comme l illustre la figure
32 Mes contributions Langue source Langue cible Mot Lemme POS Mot Lemme POS Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation Principe d utilisation des étiquettes dans les modèles factoriels Chaque mot est considéré comme un vecteur composé de la forme de surface, le lemme et l analyse morphosyntaxique et morphologique [Koehn et Hoang, 2007]. La production de formes de surface est décomposée en trois étapes. La première étape est la traduction de lemmes puis la traduction des parties de discours et les informations morphologiques pour enfin produire les formes de surface. Langue source Langue cible Mot Lemme POS Morphologie Mot Lemme POS Morphologie Figure 6 : exemple d un modèle factoriel Les différentes stratégies testées La traduction des facteurs représentés dans la langue source par les facteurs représentés dans la langue cible est décomposée en une série d étapes. Rappelons l'exemple d un modèle factoriel motivé par l information syntaxique et de génération. Dans ce modèle, les processus de traduction sont divisés en trois étapes: Traduire les lemmes d'entrée par les lemmes de sortie Traduire les informations morphosyntaxique (POS) et morphologiques. Générer les formes de surface en tenant compte des facteurs linguistiques traduits. Les modèles factoriels en traduction sont fondés sur des séquences de mots. Notre mise en œuvre actuelle de ces modèles est la décomposition supplémentaire de la phase de traduction en une séquence d étapes. Étant donné que toutes les étapes de cartographie fonctionnent sur la même segmentation de paires de phrase d'entrée et de sortie, nous les appelons ainsi les modèles factoriels synchrones
33 Mes contributions Exemple des trois étapes de mise en correspondance dans la traduction du mot maison du français vers l anglais : Traduction du lemme maison -> house, home, building, shell Haus Traduction de l information morphosyntaxique et morphologique NN pluriel -> NN plural NN singulier -> NN singular Generation de formes de surface house NN plural -> houses house NN singular -> house Nous appliquons ces mesures de cartographie à une phrase en entrée. Étant donné les réponses à choix multiples pour chaque étape (reflétant l'ambiguïté dans la traduction), chaque expression d entrée est étendue à une liste des options de traduction. La première étape consiste à traduire les lemmes, voici un exemple de traduction du lemme maison :? house??? home??? building??? shell?? La deuxième étape consiste à traduire la catégorie du mot :? house NN plural? home NN plural? building NN plural? shell NN plural? house NN singular Finalement, on génère les formes de surface (mot) suivant les informations traduites : houses house NN plural homes home NN plural buildings building NN plural shells shell NN plural house house NN singular 2.3. Conditions expérimentales et outils Bitexte Le point de départ de l entraînement du système de traduction est ce que l on désigne par bitexte. Un bitexte est un corpus bilingue parallèle (un texte dans une langue de départ et sa traduction) où les liens de traduction entre les phrases ou groupes de phrases sont explicites. On peut obtenir un bitexte à partir d un corpus bilingue en alignant le corpus au niveau des phrases. Pour y arriver, deux types d information sont exploités dans les algorithmes d alignement :
34 Mes contributions - Les informations métriques : utilisent la longueur des phrases (comptée en nombre de caractères ou mots) comme critère de mise en correspondance. Les auteurs ont en effet montré qu il existe un rapport de proportionnalité entre la longueur d'une phrase en langue de départ et la longueur de sa traduction. - Les informations à caractère linguistique : proposent d aligner des corpus bilingues en exploitant le fait que deux phrases en relation de traduction partagent souvent des mots communs ou proches, «les cognâtes», comme des données chiffrées, des noms propres, ou encore des mots partageant la même racine. Par exemple : accès/access, activité/activity, parlement/parliament sont communs aux langues française et anglaise mais ce n est pas forcément le cas entre la langue arabe et l anglais sauf dans le cas des noms propres et des sigles. On a utilisé dans notre étude une collection de corpus parallèles arabe/anglais pour entraîner les paramètres des modèles de traduction. D abord le corpus d entraînement composé des textes arabe et anglais est dédié à l entraînement de modèles de traduction, et sa partie anglaise sert à la création du modèle de langue. Le deuxième corpus est celui de développement composé des textes arabe et anglais et sert à la configuration et à l optimisation des différents paramètres du décodeur. On l a utilisé aussi pour tester une configuration particulière de notre décodeur. Corpus d entraînement Corpus de développement ARABE ANGLAIS ARABE ANGLAIS Nombre de paires de phrases Nombres de mots Nombre de mots différents Préparation des données Tableau 6 : données utilisée Pour préparer les données, on a utilisé un petit script clean-corpus-n.perl qui nettoie le corpus parallèle, de sorte qu'il fonctionne bien avec l apprentissage. Ce script effectue les étapes suivantes: Supprime les lignes vides Supprime les espaces redondants Supprime les lignes qui sont trop courtes ou trop longues par rapport à leur ligne correspondante. Pour la préparation d un corpus bilingue au format requis par GIZA++ à partir du bitexte, on a besoin d un outil qui prend en charge la tache de transformation. Il calcule les fréquences de chaque mot puis associe un indice à chacun, il produit alors un texte formé d une suite d indexes. Cet outil permet entre autre de spécifier laquelle des deux langues sera la langue source (dans notre cas est l arabe), et gère également des options qui peuvent influer sur la qualité des modèles produits, comme la longueur maximale des phrases que l on veut conserver à l entraînement, ou encore la fréquence minimale d un mot en dessous de laquelle un mot sera associé à une forme inconnue (UNK). Il permet enfin d extraire du bitexte initial une petite collection de phrases pour le test
35 Mes contributions Le format d entrée est un bitexte où les phrases sont reliées une à une : Corpus en langue cible : Anglais (en) 1- Do you do alterations? 2- The light was red. 3- We want to have a table near the window. Corpus en langue source : Arabe (ar) 1- رم ثع رعذ الد 2- اإلشبسح وب ذ ح شاء. 3- ش ذ بئذح ثجب ت ا بفزح. Tableau 7 : exemple de Bitexte Pour adapter ce deux corpus d apprentissage au format requis par GIZA++ qui les aligne, on génère deux fichiers de vocabulaire ar.vcb et en.vcb puis on transforme les corpus d apprentissage en remplaçant les mots par leurs nombres associés. Fichier de vocabulaire anglais (en.vcb) 1 UNK 0 2 I the to a you is have 3860 Fichier de vocabulaire arabe (ar.vcb) 1 UNK أ 5247 ف 3086 إ ى 2928 زا 2833 أس ذ Tableau 8 : exemple du fichier de vocabulaire Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires de phrases. Dans chaque ligne des corpus de vocabulaire (tableau 8), on trouve chaque mot, sa fréquence d apparition dans le corpus d entraînement et son ordre. Dans la figure 7 chaque paire de phrase est présentée sur trois lignes, la première ligne représente la fréquence d apparition généralement égale à 1, dans la deuxième et troisième ligne chaque mot dans la paire de phrase est remplacé par son ordre dans le fichier de vocabulaire. Enfin, GIZA++ exige de regrouper tous les mots par classes, pour cela on fait appel au script mkcls 11 distribué gratuitement, dans notre cas tous ces scripts sont regroupés dans le script train-factored-phrase-model.perl
36 Mes contributions Boite à outil de traduction probabiliste utilisée On rappelle que l approche de la traduction automatique statistique est la suivante. Étant donné une phrase arabe s, nous cherchons la traduction anglaise t qui maximise p(t/s), la probabilité qu une phrase t soit la traduction de s (on traduira toujours du l arabe s vers l anglais t dans ce qui suit) : Figure 8 : Machine de traduction automatique statistique Arabe/Anglais La figure 8 représente les principales composantes du système de traduction automatique probabiliste. Le décodeur prend en entrée le texte source, le modèle de traduction et le modèle de langue pour fournir en sortie le texte traduit. Notons que la langue vers laquelle on veut traduire sera appelée «langue cible» L alignement automatique (GIZA++) GIZA++ 12 est une mise en œuvre de modèles IBM disponible librement. Nous l avons besoin comme une première étape pour établir l alignement de corpus. Notons que chaque mot anglais n est aligné qu à plusieurs mots arabe, mais chaque mot arabe est seulement aligné au plus un mot anglais. Ce type d alignement 1-N est exécuté dans les deux sens dans la phase d apprentissage. GIZA++ possède deux modules d alignement l un de la langue source vers la langue cible et l autre inversement. L idée est de collecter les comptes normalisés par la probabilité de chaque alignement. Dans notre cas, on a entraîné les cinq modèles IBM, ce qui correspond à initialiser récursivement les paramètres de IBM5 à partir des paramètres de IBM4, de IBM4 à partir de IBM3, de IBM3 à partir de IBM2 et de IBM2 à partir de IBM1. Les résultats de l alignement sont stockés sous forme de matrice creuse binaire. Une table de transfert (T-table) qui contient les probabilités de traduction des mots de la langue source vers les mots de la langue cible et des tables d alignement correspondent aux probabilités que le mot anglais d une position i soit à la position j dans une paire de phrases de longueur différent. Il est possible aussi d'utiliser des fertilités uniformes lors de l'entraînement du modèle IBM3 à partir
37 Mes contributions du modèle IBM2, mais [Brown et al., 1993] suggèrent une initialisation de fertilités qui prend le modèle de IBM2 en compte. Amélioration avec les étiquettes syntaxiques sous forme factorisée L alignement de données dans la modèle factorielle fonction sur les facteurs du mot exactement comme sur la forme de surface. Les modèles de traduction basé sur les séquences de mots sont acquise à partir d alignement des mots du corpus parallèle par l extraction de toutes les paires de mots qui sont compatible avec les mots alignés en tenant compte des différentes facteurs Le décodage (Moses) Le système de traduction décrit dans ce chapitre repose sur Moses [Koehn et al., 2007], un traducteur libre pour un modèle de traduction par groupes de mots. À partir d un texte source, le traducteur emploie un modèle de langage trigramme à repli et une table de traduction pour générer une liste de n meilleures traductions. Celles-ci sont ensuite réévaluées à l aide d un modèle de langage neuronal quadri-gramme afin de sélectionner la traduction cible. Moses 13 est distribué sous licence libre GPL et est activement développé et dispose de nombreuses caractéristiques intéressantes, comme la possibilité d exploiter des modèles de traduction factorisés ou des modèles de distorsion lexicalisés, de traduire des réseaux de consensus, de spécifier la traduction de certains mots via un fragment de code XML, etc Modèle Supposons qu il faille trouver la meilleure traduction d une phrase source s. Le traducteur Moses cherche la phrase cible t qui maximise une combinaison log-linéaire de fonctions caractéristiques. Les fonctions caractéristiques utilisées dans ce système sont les suivantes : Les m scores que la table de traduction attribue à tout couple de groupes de mots (t,s). Le score d un modèle de langage. Nos expériences emploient un modèle trigramme à repli. Le score du modèle de distorsion. L exponentielle du nombre de mots cible générés. Cette «fonction caractéristique», appelée pénalité de mot, permet simplement de contrebalancer la tendance du système à préférer les phrases courtes. Finalement, l expression que doit maximiser Moses est la suivante : Équation 2-2 m t = argmax t λ i i=1 k log h i t k, s k + λ D log d a k b K 1 + λ ML log Pr t + λ PM s k où λ 1,, λ m pondèrent les scores de la table de traduction, λ D pondère le modèle de
38 Mes contributions distorsion, λ ML le modèle de langage et λ PM la pénalité de mot. L opération argmax de l équation I-2 porte explicitement sur l ensemble des phrases cible t mais aussi implicitement sur les variables cachées nécessaires au décodage, à savoir la segmentation de s en groupes de mots et leur traduction Méthodes d'apprentissage pour la traduction de phrase Nous proposons d utiliser dans le modèle de traduction des unités enrichies constituées des formes de surface des mots, auxquelles sont agglutinées leurs catégories morphosyntaxiques respectives. Cette méthode permet une désambiguïsation des mots tenant compte de leurs rôles et de leurs contextes grammaticaux. Un exemple d énoncé, avec les unités enrichies, est donné en arabe (AR) et en anglais (EN): AR : ز DT و NN زع مبد NNS ن $ PRP اي DT شخص خ NN PUNC RP EN : Are VBP be these DT these all PDT all your PP$ your personal JJ personal effects NNS effect? SENT? Stratégie de recherche Moses cherche la meilleure traduction de façon similaire au décodeur pour IBM4, en gérant des traductions partielles. Le décodage commence par l hypothèse «vide», qui ne traduit aucun mot source et ne produit aucun mot cible. Puis, le traducteur choisit itérativement une hypothèse partielle et l étend en traduisant un groupe de mots supplémentaire (d un ou plusieurs mots source) à l aide d entrées de la table de traduction. Il est à noter qu avec ce modèle, tout groupe de mots doit être aligné à un groupe de mots non vide, alors que le modèle IBM4 forçait le décodeur à envisager que certains mots aient une fertilité nulle et que d autres soient insérés spontanément. Ce qui simplifie l algorithme de décodage en évitant les multiples itérations. Le résultat final de l algorithme est obtenu comme avec le traducteur à base de mots en partant de la meilleure hypothèse complète et en suivant récursivement les pointeurs arrières vers les hypothèses partielles précédentes Evaluation (outils de scoring NIST) BLEU (BiLingual Evaluation Understudy) est un outil d évaluation de traduction automatique inventé par [Papineni et al., 2002]. Nous l utilisons tout au long de nos expériences pour évaluer et comparer la qualité de nos traductions. Le principe de BLEU est de comparer une ou plusieurs traductions de référence (faites par un humain) avec notre traduction automatisée en nous basant sur des séquences de mots n-grammes, le but étant de trouver combien de n- grammes sont retrouvés dans la traduction de référence. En sortie, BLEU attribue un score entre 0 et 1, sachant que plus on est proche de 1, meilleure est la traduction (nous le ramènerons souvent à un pourcentage). Il a été prouvé que BLEU est fortement corrélé avec le jugement humain mais cette métrique est l objet de débats dans la communauté de traduction automatique. Elle est cependant souvent utilisée comme une aide à l évaluation des traductions nous l utiliserons pour vérifier la qualité incrémentale de nos approches. Avant de calculer le score BLEU, on choisit d évaluer les résultats de la traduction qualitativement pour voir l effet d ajouter les informations morphosyntaxiques aux données
39 Mes contributions 2.4. Expériences et résultats Après la présentation des outils du système de traduction qui permet l entraînement des modèles IBM et l outil de décodage Moses, nous allons maintenant tester notre système sur des textes arabes et évaluer les résultats obtenus. Dans notre cas on s intéressera à la qualité de traduction produite. A partir de ce système de base, nous tenterons de proposer des solutions originales pour améliorer nos résultats de traductions Les étapes de réalisation Pour la réalisation d une application pour le traitement automatique en langage naturel, il est nécessaire de débuter par la collection des outils aidant pour ce travail Nettoyage / Alignement de corpus parallèles anglais / arabe Le corpus IWSLT 2007 a été utilisé dans notre travail pour entraîner les paramètres des modèles de traduction. Ce corpus est constitué de paires de phrases, mots anglais et mots arabes. Les tailles des vocabulaires anglais et arabe sont respectivement de et mots différents. Un tel corpus peut être considéré comme relativement petit pour l apprentissage d un modèle statistique de traduction, si on le compare aux corpus utilisés dans de grands projets de traduction automatique comme le projet GALE 14 qui utilise des corpus parallèles de plusieurs millions de phrases. Donc, les entrées initiales de notre système, comme décrit la figure 9, sont deux corpus, un corpus arabe et un autre anglais. Ces deux corpus sont structurés de telle façon que chaque ligne i dans le corpus arabe soit alignée avec la ligne i dans le corpus anglais, ce qui fait que la ligne i dans le corpus anglais est la traduction de la ligne i dans le corpus arabe. Afin d obtenir plus de flexibilité dans notre table de traduction, on a supprimé les voyelles courtes de notre corpus arabe parce qu ils sont facultative dont telle corpus comme IWSLT. En plus, on trouve le même mot étant voyellé de manière différente dans notre corpus d apprentissage, c'est-à-dire, parfois il n est pas voyellé et parfois que la première ou la dernière lettre est voyellé. Extrait de corpus anglais étiqueté 1. Do do VV you you PP do do VV alterations alteration NNS 2. The the DT light light NN was be VBD red red JJ 3. We we PP want want VVP to to TO have have VH a a DT table table NN near near IN the the DT window window NN Extrait de corpus arabe étiqueté RP VBP رم ة IN NN ع NNS رعذ الد JJ ح شاء VBD وب ذ NN إشبسح DT يا NN بفزح DT يا NN جب ت IN ة NN بئذح VBP ش ذ Figure 9 : bitexte étiqueté aligné par phrase Développement du système état de l art et son amélioration Après avoir installé les outils informatiques nécessaires, et préparé le corpus, nous avons commencé à entraîner les 5 modèles IBM à l aide de GIZA++. Comme première expérience, on a entraîné le modèle avec la méthodologie classique non
40 Mes contributions factorielle (les mots sans utiliser d autre information de lemme ou morphosyntaxique) ce qui nous a donné notre référence (baseline). En sortie de la phase d entraînement, on obtient pour chaque modèle un ensemble d alignements (anglais-arabe et arabe-anglais), qui sont représentés par des liens entre les mots et leurs positions Utiliser les étiquettes syntaxiques sous forme factorisée Dans une deuxième expérience, nous avons utilisé les mots arabes normalisés (normalisation des mots féminins uniquement ce n'est pas une vraie lemmatisation) pour les aligner avec les lemmes anglais et les catégories de l arabe avec les catégories correspondant de l anglais. Comme l indique la figure 10, avec ces deux informations obtenues et un modèle de langage de catégorie en plus, on génère les mots correspondants lors de la phase de traduction. Langue source Mot POS Langue cible Mot Lemme POS Figure 10 : schéma représente l alignement des mots avec les lemmes et l alignement des catégories Puisque dans certain cas les lemmes sont inconnus, on ne peut pas donc trouver le mot en utilisant uniquement sa catégorie. Pour cette raison, on a pensé dans la troisième expérience d aligne les mots de l arabe avec les mots et les lemmes de l anglais pour améliorer la table de traduction et dans ce cas lorsqu on n a pas le lemme on fait l appel à la forme de surface (mot). Langue source Mot POS Langue cible Mot Lemme POS Figure 11 : schéma représente l alignement des mots avec les mots et les lemmes et l alignement des catégories Notons que le modèle de langage de la catégorie améliore encore la qualité de traduction en donnant un ordre aux mots générés probablement mieux. Par exemple, un tel modèle préfère la séquence nom_propre verbe_singulier nom_pluriel (NNP VBZ NNS) que la séquence nom_pluriel verbe_singulie nom_propre (NNS VBZ NNP)
41 Mes contributions Résultats Nous avons effectué de nombreuses études comparatives sur les données de développement pour évaluer les apports des différentes techniques Amélioration des sorties du système de traduction : analyse qualitative Les résultats principaux sur la qualité de traduction sont résumés dans le Tableau 9 où chaque ligne correspond à une expérience réalisée sauf que la première représente des phrases sources pour l évaluation et la dernière ligne la traduction humaine de ces dernières pour qu ils représentent la référence Phrases en langue source (arabe) «signification en français» Expérience 1 : Modèle non factoriel basé sur les mots seuls Expérience 2 : Modèle factoriel où les mots arabes sont alignés avec les lemmes anglais. Expérience 3 : Modèle factoriel où les mots arabes sont alignés avec les mots et les lemmes anglais. Références : traductions humaines de la phrase source vers la langue cible (anglais) ع مذ حجزد معذ سجمب «Oui, j ai réservé deux places en avance» 2- ف ؤخشح ا جشح «à l arrière de la chambre» 3- ع ال شى خ سأع ذ ب ه ح رغبدس ا طبئشح «oui pas de problème je la rendrai lorsque vous quittez l'avion» 4- طجعب سأضع ع ب عال خ ب افك «Bien sûr, je vais signer ici OK» 5- ى ه ا م ب ثزجذ ف ا صشف ثمشة ا ف ذق «Vous pouvez changer à la banque près de l hôtel» 1- Yes, I reserved seats in advance? 2- in the back room? 3- Yes, no problem 'll be returning it for you حيه leave the plane. 4- Of course. put on it موافق sign here. 5- Can you make a change in the bank around in the hotel? 1- Yes, I reserved two seats in advance? 2- in the back of the room. 3- Okay, no problem. I will return it for you. When does the plane. 4- Of course. put on it. Okay. Sign here. 5- Can you make changes in the nearest bank in the hotel? 1- Yes, I have two a reservation in advance? 2- in the back of the room. 3- Yes, no problem. I 'll return it for you. When will the plane. 4- Of course. Put it okay to sign here 5- Can you make a change at a bank near the hotel? 1- Yes, I have already reserved two seats. 1- Sure. Two seats are booked. 1- Yes. We have reserved two seats already. 2- In the rear of the cabin. 2- In the back part of the cabin. 2- In the rear of the cabin. 3- Alright. I'll keep it for you until you get off the plane. 3- Okay. Let me give it back to you after we've arrived. 3- Sure. I'll return it back to you when you leave the plane. 4- Sure. I'll mark it here, OK? 4- No problem. Let me mark here. Okay? 4- OK. I'll put a mark here then. Alright? 5- You can make an exchange at the bank near the hotel. 5- You can make an exchange at the bank near the hotel. 5- Exchange is possible at the bank around the hotel. Tableau 9 : exemple de traduction fournis par les différents modèles
42 Mes contributions L effet d enrichir les mots par les catégories morphosyntaxique semble améliorer la qualité de traduction sur ces exemples. Pour les exemples présentés au tableau 9, dans le modèle classique de traduction qui est basé seulement sur les mots, on a perdu par exemple dans la phrase-1 l information du nombre de places réservées tow qui été récupéré dans les deux autres modèles factoriels. En plus, ces deux modèles sont plus flexibles pour générer les mots ce qui apparaît dans les phrases 3 et 4 avec la traduction correcte des mots حيه et موافق (when et okay) qui n ont pas été traduits par le modèle classique. En s intéressant plus au détail, on remarque que le fait d utiliser les catégories filtre le modèle de traduction. En fait, il enlève les faux alignements qui existaient dans le modèle classique (représenté dans la figure 12) et il génère plus de possibilités correctes qui n existaient plus dans le modèle classique (représenté dans la figure 13) pour passer de 6267 lignes dans la table de traduction du modèle classique à 6942 lignes dans la table de traduction du modèle factoriel (0) (0) ordered مذ (0) (0) the مذ (0) (0) seats معذ (0) (0) two معذ (0) (0) all ع Figure 12 : extrait de table de traduction d un modèle classique (non factoriel) (0) (0) okay okay ع (0) (0) well well ع (0) (0) yeeeah <unknown> ع (0) (0) yep <unknown> ع Figure 13 : extrait de table de traduction d un modèle factoriel Amélioration des sorties du système de traduction : analyse quantitative Score BLEU 28, , , ,5 27,61 Baseline : Modèle non factoriel 26,78 1ière expérience : Modèle factoriel où les mots arabes sont alignés avec les lemmes anglais 28,42 2ième expérience : Modèle factoriel où les mots arabes sont alignés avec les mots et les lemmes anglais Figure 14 : le score BLEU obtenue sur les différents modèles testés En utilisant un corpus arabe de test constitué de 489 phrases et 7 références de ce dernier, on a trouvé les scores BLEU de différentes expériences réalisées dans les mêmes conditions, représenté dans la figure
43 Mes contributions Il apparu que les résultats sont plus intéressants en utilisant la désambiguïsation lexicale : le score Bleu passe de 27,61 dans le cas classique vers 28,42 avec le modèle factoriel alignant les mots de la langue arabe avec les mots et les lemmes de l anglais. En remarque aussi que les résultats du modèle factoriel alignant les mots arabe avec uniquement les lemmes de l anglais sont moins bons. Cela est peut être dû aux lemmes inconnus rencontré, dans ce cas ce modèle ne peut pas générer le mot en utilisant uniquement sa catégorie. Ceci montre bien, en tout cas, l intérêt de travailler conjointement sur une amélioration des techniques statistiques et sur l incorporation de connaissances lexicales ou syntaxiques. Conclusion Dans ce chapitre, nous avons présenté nos expérimentations, en commençant par la présentation de l existant. Vu le résultat décevant de l étiqueteur arabe ASVM, nous avons décidé de réaliser notre propre étiqueteur. En évaluant ce dernier, nous avons trouvé que ce nouvel étiqueteur arabe donne des performances correctes pour le type de corpus IWSLT qui correspond à des transcriptions de la parole dans le domaine du tourisme. Nous avons ensuite ajouté les catégories morphosyntaxiques des mots dans le modèle de traduction pour essayer plusieurs techniques pour améliorer la qualité de traduction. Les analyses qualitatives et quantitatives ont montré des premiers résultats encourageants
44 Conclusion Chapitre 3. Conclusion 3.1. Bilan d étude C'est au début des années 90, qu'une équipe de chercheurs d'ibm a proposé une approche statistique opérationnelle pour la traduction automatique. Cette approche a bien pris sa place dans ce domaine et montré sont efficacité, pour peu que des corpus parallèles conséquents soient disponibles. Dans la traduction statistique il y a deux problèmes. Tout d abord, le problème de modélisation : le modèle de traduction d une part, et le modèle de langage en langue cible. Nous avons en particulier montré que la boite à outil GIZA++ répondait bien à ces besoins de la modélisation. Le second problème consiste à trouver la meilleure traduction possible, étant donnés les modèles : c est le problème du décodage. Au cours de notre stage nous avons essayé d insérer des informations morphosyntaxiques dans notre traducteur automatique. Nous avons mis en place deux méthodes pour effectuer cette tâche. La première utilise l enrichissement du corpus d apprentissage par des catégories, via un formalisme de modèles factorisés. Les analyses qualitatives et quantitatives ont montré des premiers résultats encourageants. Pour réaliser ce travail, nous avons aussi dû réaliser un analyseur syntaxique robuste pour les données manipulées qui correspondaient à du dialogue oral dans le domaine du tourisme. Comme perspective, en plus de la validation expérimentale à plus grande échelle de nos résultats, il serait intéressant de mettre en parallèle un analyseur sémantique (ontologie, synonymie, métonymie ) qui calcule la similarité entre le mot source et sa traduction pour ne pas perdre le sens du texte, car même pour les systèmes commerciaux de traduction comme SYSTRAN, on trouve des traductions qui n ont rien à voir avec la source
45 Conclusion 3.2. Bilan personnel Ce mémoire a été très intéressant et très enrichissant sur plusieurs niveaux. Il m a permis de découvrir le fonctionnement d un laboratoire de recherche. Il m a donné une vue du travail de recherche. Il m a permis d acquérir une rigueur de travail indispensable dans ce domaine. J ai pu apprendre à travailler dans le milieu de la recherche en intégrant l équipe GETALP et bénéficier de leurs compétences. De plus, j ai pu apprendre à travailler sur contraintes notamment sur la contrainte de la taille des fichiers traités. De plus cette étude m a permis de mieux connaître la traduction automatique. En effet mon stage m a permis d apprendre exactement comment fonctionne un tel système. De plus j ai pu approfondir mes connaissances en linguistique et tous les outils s y rapportant comme les étiqueteurs. Cette étude m a permis d ajouter tous ces éléments à mes connaissances initiales. Cet élément ne pourra être qu un plus pour ma future carrière. Pendant ce mémoire de recherche, j'ai eu énormément de contact avec des gens différents. J'ai acquis beaucoup d'expérience de communication. En plus, j ai été heureux de faire des connaissances avec des spécialistes du domaine du TALP (Traitement Automatique de la Langue Ecrite et de la Parole). Finalement, cette expérience aura été grandement enrichissante aussi bien au niveau personnel que pour ma future carrière de chercheur en informatique linguistique et précisément en traduction automatique statistique de la parole
46 <<Bibliographie Bibliographie Aljlayl, M., & Frieder, O. (November 2002). On Arabic Search: Improving the Retrieval Effectiveness. In 11th International Conference on Information and Knowledge Management (CIKM), Virginia (USA),, Arun, A., & Koehn, P. (September 2007). Online learning methods for discriminative training of phrase based statistical machine translation. In Proc. of MT Summit, Copenhagen, Danemark., pages Awdé, A. (2003). Thèse Comparaison de deux technique de décodage pour la traduction probabiliste. Bahl, L. R., & Mercer, R. L. (1976). Part of speech assignment by a statistical decision algorithm. in IEEE International Symposium on Information Theory, Ronneby, Baloul, S., Alissali, M., Baudry, M., & Boula de Mareüil, P. (24-27 juin 2002). Interface syntaxique-prosodique dans un système de synthèse de la parole à partir du texte en arabe. 24es Journées d'etude sur la Parole, Barbara Greene, B., & Gerald Rubin, M. (1971). Automated Grammatical Tagging of English. Department of Linguistics, Brown University, Providence, Rhode Island. Besacier, L. (kein Datum). Contributions à la traduction de parole arabe dialectal / anglais. séjour de recherche IBM Watson, Oct. 2005/Nov Besacier, L., & Mahdhaoui, A. (2007). The LIG Arabic / English Speech translation System at IWSLT07. pp Brill, E. (1993). A Corpus-Based Approach to Language Learning. University of Pennsylvania, USA. Brill, E. (1992). A simple rule-based part of speech tagger. In proceedings of the third Conference on Applied Natural Language Processing, Trento, Italy. Brill, E. (1994). Some Advances in Tranformation-Based Part-of-Speech Tagging. In Proceedings of the 12th National Conference on Artificial Intelligence, Seattle, Brown Peter, F., Cocke, J., Pietra, S. A., Della, V. J., Fredrick, J., Lafferty, J. D., et al. (1990). A statistical approach to machine translation. IBM Thomas J. Watson Research Center Yorktown Heights, NY, Brown Peter, F., Pietra, V. J., Pietra, S. A., & Mercer, R. L. (1993). The Mathematics of Statistical Machine Translation: Parameter Estimation. IBM T.J. Watson Research Center, Buckwalter, T. (8. November 2002). Buckwalter Arabic Morphological Analyzer Version 1.0. Abgerufen am 3. Mars 2008 von Chen, S., & Goodman, J. (octobre 1999). An empirical study of smoothing techniques for language modeling. Computer Speech and Language, ,. Church, & Gale, W. (1991). A Program for Aligning Sentences in Bilingual Corpora»,. COLING 91 - Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Church, K. (1988). A stochastic parts program and noun phrase parser for unrestricted text. in proceedings of the Second Conference on Applied Natural Language Processing, ACL, Austin, Tx,. Cutting, D., Kupiec, J., Pedersen, J., & Sibun, P. (1992). A pratical part-of-speech tagger. in
47 <<Bibliographie Proceedings of the Third Conference on Applied Natural Language Processing, ACL. Darwish, K. (2003). Probabilistic Methods for Searching OCR-Degraded Arabic Text. Doctoral dissetation, University of Michigan. Débili, F., Achour, H., & Souici, E. (juillet-août 2002). La langue arabe et l'ordinateur : de l'étiquetage grammatical à la voyellation automatique. Correspondances de l'irmc, N 71, Déchelotte, D. (2007). Traduction automatique de la parole par méthodes statistiques. Derose, S. (1988). Grammatical category disambiguation by statistical optimization. in Computational Linguistics 14. Diab, M., Hacioglu, K., & Jurafsky, D. (2004). Automatic Tagging of Arabic Text: From Raw Text to Base Phrase Chunks. The Nation Science Foundation, USA. Germann, U., Jahr, M., Knight, K., Marcu, D., & Yamada, K. (2001). Fast decoding and optimal decoding for machine translation. In Proc. of the Meeting of the Association for Computational Linguistics, Toulouse, France, Habash, N. (2005). Introduction to Arabic Natural Language Processing. Tutoriel in the ACL 43th annual meeting. Huet, S., Gravier, G., & Sébillot, P. (2007). Morphosyntactic Processing of N-Best Lists for Improved Recognition and Confidence Measure Computation. Interspeech 2007, pp Hutchins, J. (2001). Machine translation over fifty years. Histoire Epistémologie Language, Jelinek, F., & Mercer, R. (1980). Interpolated estimation of Markov source parameters from sparse data. Pattern Recognition in Practice, Amsterdam (Hollande), Josef Och, F. (2003). Minimum Error Rate Training in Statistical Machine Translation. Information Sciences Institute, University of Southern California, 4676 AdmiraltyWay, Suite 1001, Marina del Rey, Josef Och, F., & Ney, H. (2002). Discriminative training and maximum entropy models for statistical machine translation. Dans ACL, Josef Och, F., & Ney, H. (October 2000). Improved statistical alignment models. In Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, China. disponible sur Kempe. (1993). A probabilistic tagger and an analysis of tagging errors Technical report. Institut für maschinelle Sprachverarbeitung, Universität Stuttgart. Kiraz, G. A. (1996). Analysis of the Arabic Broken Plural and Diminutive, In Proceedings of the 5th Intrenational Conference and Exhibition on Multi-Lingual Computing. ICEMCO96. Koehn, P. (March 2006). Data Intensive Linguistics. Lecture 17 Machine translation (IV): Phrase-Based Models. Koehn, P., & Hoeang, H. (2007). Factored Translation models. EMNLP. Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., et al. (2007). Moses: Open Source Toolkit for Statistical Machine Translation. ACL 2007, demonstration session. Koehn, P., Josef Och, F., & Marcu, D. (2003). Statistical phrase-based translation. In NAACL 03 : Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, Morristown, NJ, USA. Association for Computational Linguistics., Koehn, P. (2004). A Beam Search Decoder for Phrase-Based Statistical Machine Translation
48 <<Bibliographie Models. User Manual and Description. Leclerc, J. (2006). L'aménagement linguistique dans le monde. Von abgerufen Mahdhaoui, A. (2007). Contributions à la traduction automatique statistique de la parole. Marcu, D., & Wong, D. (July 2002). A phrase-based, joint probability model for statistical machine translation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Philadelphia, Association for Computational Linguistics, Nagao, M. (1984). A framework of a mechanical translation between Japanese and English by analogy principle. In Proc. of the Intl. NATO symposium on Artificial and human intelligence, Lyon, France, Papineni, K., Roukos, S., Ward, T., & Zhu, W. (2002). BLEU : a Method for Automatic Evaluation of Machine Translation. Proceedings of COLING-ACL 02, Philadelphia, USA, Quinlan, J. R. (1986). Induction of decision trees. Machine Learning, Schwenk, H., Déchelotte, D., Bonneau-Maynard, H., & Allauzen, A. (2007, Juin 5-8). Modèles statistiques enrichis par la syntaxe pour la traduction automatique. TALN 2007, pp Scmidit, H. (1994). Probabilistic part-of-speech tagging decision trees. In Proceedings of International Conference on New Methods in Language Processing, Manchester, UK. Sheila, M., Embleton and Margret, S., & Woodruff-Wieding. (kein Datum). Journal Machine Translation: past, present, future. CHAPTER 4: Group and projects in the United States, Somers, H. (June 1999). Review article : Example-based machine translation. Machine Translation, 14(2), Stolcke. (Sept 2002). SRILM - an extensible language modeling toolkit. In Proceedings of ICSLP, Denver, Colorado,. Toutanova, K., & Manning, C. (2000). Enriching the knowledege source used in a maximum entropy part-of-speech tagger. In Proceedings of the 2000 Joint SIGDAT Conference EMNLP/VLC, Vauquois, B. (1968). A Survey of Formal Grammars and Algorithms for Reconition and Translation. FIP Congress-68, Edinburg, Wang, Y.-Y., & Waibel, A. (1997). Decoding algorithm in statistical machine translation. In Proc. of the Conf, on European chapter of the Association for Computational Linguistics, Madrid, Spain,, Witten, I., Bell, T., Witten, & al. (1991). The zero-freqency problem: Estmating the probabiltties of novel events in adaptive text compression. IEEE Transactions Information Theory, vol 34, numéro 4,
49 Annexe Annexe Exemple d un alignement arabe/anglais non factoriel # Sentence pair (1) source length 23 target length 23 alignment score : e-42 إ ب ف أخش اي لبعخ س ف آر ي ن ة ثعض ب ا إرا أسدد أي ش ئب آخش فمظ أع NULL ({ }) it ({ 1 2 }) 's ({ }) just ({ }) down ({ 3 }) the ({ 5 }) hall ({ 4 6 }) i ({ }) 'll ({ 7 }) bring ({ 8 9 }) you ({ }) some ({ }) now ({ 15 }) if ({ 16 }) there ({ }) is ({ }) anything ({ 18 }) else ({ }) you ({ }) need ({ }) just ({ 21 }) let ({ }) me ({ 23 }) know ({ 22 }) # Sentence pair (2) source length 15 target length 13 alignment score : e-21 ال رم ك ر ه س ف آخز ب ر زبج إ ى ف ب NULL ({ }) no ({ 1 }) worry ({ 2 3 }) about ({ }) that ({ 4 }) i ({ }) 'll ({ 5 }) take ({ 6 }) it ({ 7 }) and ({ 8 }) you ({ }) need ({ }) not ({ 9 }) wrap ({ 12 }) it ({ 13 }) up ({ }) # Sentence pair (3) source length 4 target length 5 alignment score : e-08 رم ة ع رعذ الد NULL ({ }) do ({ 1 }) you ({ }) do ({ }) alterations ({ }) # Sentence pair (4) source length 4 target length 4 alignment score : e-06 اي إشبسح وب ذ ح شاء NULL ({ }) the ({ 1 }) light ({ 2 }) was ({ 3 }) red ({ 4 }) # Sentence pair (5) source length 9 target length 6 alignment score : e-11 ش ذ بئذح ة جب ت اي بفزح NULL ({ }) we ({ 1 }) want ({ }) to ({ }) have ({ }) a ({ }) table ({ 2 }) near ({ 3 }) the ({ 5 }) window ({ 4 6 }) # Sentence pair (19952) source length 7 target length 7 alignment score : e-11 ال أدسي ز اي إشبعخ ص خ NULL ({ }) i ({ }) wonder ({ 1 2 }) if ({ }) the ({ 5 }) rumor ({ 6 7 }) is ({ 3 }) true ({ 4 }) # Sentence pair (19953) source length 6 target length 5 alignment score : e-08 مذ فذ ث ز اي س بسح NULL ({ }) i ({ }) 've ({ 1 }) run ({ 2 }) out ({ 4 }) of ({ }) petrol ({ 3 5 }) # Sentence pair (19954) source length 2 target length 2 alignment score : س ه م NULL ({ }) fried ({ 2 }) fish ({ 1 }) # Sentence pair (19955) source length 13 target length 10 alignment score : e-21 شىشا جز ال رعشف ال أس ذ أ ف د ر ه NULL ({ }) thank ({ 1 }) you ({ }) so ({ 4 }) much ({ 2 }) you ({ }) see ({ }) i ({ }) do ({ }) n't ({ 5 }) want ({ 6 }) to ({ 7 }) miss ({ }) it ({ }) # Sentence pair (19956) source length 9 target length 10 alignment score : e-15 ى حجز أي معذ ي ز اي خ NULL ({ }) can ({ }) i ({ }) have ({ }) any ({ 5 }) two ({ }) seats ({ 6 }) available ({ 4 }) for ({ 7 }) tonight ({ }) # Sentence pair (19957) source length 6 target length 7 alignment score : e-09 زى جغ أ أر ب ي ز اي ألشاص NULL ({ }) when ({ 1 }) should ({ 2 3 }) i ({ }) take ({ 4 }) these ({ 5 }) tablets ({ 6 7 }) # Sentence pair (19958) source length 7 target length 7 alignment score : e-10 ذي ن بئذح ي أسثعخ أشخبص NULL ({ }) do ({ 1 }) you ({ 3 }) have ({ 2 }) a ({ }) table ({ 4 }) for ({ 5 }) four ({ 6 7 }) # Sentence pair (19959) source length 8 target length 5 alignment score : e-07 أ د أ أجشة طجمب ب NULL ({ }) i ({ }) 'd ({ 1 }) like ({ }) to ({ 2 }) try ({ 3 }) a ({ }) local ({ 5 }) dish ({ 4 })
50 Annexe Exemple d alignement arabe/anglais d un modèle factoriel # Sentence pair (1) source length 23 target length 23 alignment score : e-44 DT إرا RB ا PRP ب NN ثعض IN IN ة PRP ن IN ي VBP آر RP س ف NN لبعخ DT اي NN أخش IN ف PRP ب RP إ VBD أع PRP RB فمظ JJ آخش NN ش ئب RP أي VBD أسدد NULL ({ }) it PP it ({ 1 2 }) 's VBZ be ({ }) just RB just ({ }) down RB down ({ 3 }) the DT the ({ 5 }) hall NN hall ({ 4 6 }) i NP i ({ }) 'll MD will ({ 7 }) bring VV bring ({ 9 }) you PP you ({ }) some RB some ({ }) now RB now ({ 15 }) if IN if ({ 16 }) there EX there ({ }) is VBZ be ({ }) anything NN anything ({ }) else RB else ({ 20 }) you PP you ({ }) need VVP need ({ }) just RB just ({ 21 }) let VV let ({ 22 }) me PP me ({ 23 }) know VVP know ({ 13 }) # Sentence pair (2) source length 15 target length 13 alignment score : e-25 $ PRP ب VBP ف IN إ ى VBP ر زبج $ PRP ب CC RP VBP آخز RP س ف DT ر ه VBP رم ك IN RP ال NULL ({ }) no RB no ({ 1 }) worry VV worry ({ 2 }) about RB about ({ }) that IN that ({ 3 4 }) i NP i ({ }) 'll MD will ({ 5 }) take VV take ({ 6 }) it PP it ({ 7 }) and CC and ({ 8 }) you PP you ({ }) need VVP need ({ }) not RB not ({ }) wrap VV wrap ({ 9 12 }) it PP it ({ 13 }) up RB up ({ }) # Sentence pair (3) source length 4 target length 5 alignment score : e-08 RP VBP رم IN ة NN ع NNS رعذ الد NULL ({ }) do VVP do ({ 1 }) you PP you ({ }) do VVP do ({ }) alterations NNS alteration ({ }) # Sentence pair (4) source length 4 target length 4 alignment score : e-05 JJ ح شاء VBD وب ذ NN إشبسح DT اي NULL ({ }) the DT the ({ 1 }) light NN light ({ 2 }) was VBD be ({ 3 }) red JJ red ({ 4 }) # Sentence pair (5) source length 9 target length 6 alignment score : e-11 NN بفزح DT اي NN جب ت IN ة NN بئذح VBP ش ذ NULL ({ }) we PP we ({ }) want VVP want ({ 1 }) to TO to ({ }) have VH have ({ }) a DT a ({ }) table NN table ({ 2 }) near IN near ({ 3 }) the DT the ({ 5 }) window NN window ({ 4 6 }) # Sentence pair (19952) source length 7 target length 7 alignment score : e-12 JJ ص خ NN إشبعخ DT اي DT ز VBP أدسي RP RP ال NULL ({ }) i NP i ({ }) wonder NN wonder ({ }) if IN if ({ }) the DT the ({ 5 }) rumor NN rumor ({ }) is VBZ be ({ }) true JJ true ({ }) # Sentence pair (19953) source length 6 target length 5 alignment score : e-07 NN س بسح DT اي NN ث ز VBD فذ RP مذ NULL ({ }) i NP i ({ }) 've VHP have ({ 1 }) run VVN run ({ 2 }) out RP out ({ }) of IN of ({ 4 }) petrol NN petrol ({ 3 5 }) # Sentence pair (19954) source length 2 target length 2 alignment score : JJ م NN س ه NULL ({ }) fried JJ fried ({ 2 }) fish NN fish ({ 1 }) # Sentence pair (19955) source length 13 target length 10 alignment score : e-19 DT ر ه VBP ف د PRP IN أ VBP أس ذ RP ال VBP رعشف PUNC JJ جز ال NN شىشا NULL ({ }) thank VVP thank ({ 1 }) you PP you ({ }) so RB so ({ 2 }) much RB much ({ }) you PP you ({ }) see VVP see ({ 4 }) i NP i ({ }) do VVP do ({ 5 }) n't RB n't ({ }) want VV want ({ 6 }) to TO to ({ 7 }) miss VV miss ({ }) it PP it ({ }) # Sentence pair (19956) source length 9 target length 10 alignment score : e-15 RP VBP ى PRP NN حجز RP أي NNS معذ IN ي DT ز DT اي NN خ NULL ({ }) can MD can ({ 1 2 }) i NP i ({ 3 }) have VHP have ({ }) any DT any ({ 5 }) two CD two ({ }) seats NNS seat ({ 6 }) available JJ available ({ 4 }) for IN for ({ 7 }) tonight RB tonight ({ }) # Sentence pair (19957) source length 6 target length 7 alignment score : e-09 NN ألشاص DT اي DT ز VBP أر ب ي IN أ VBP جغ WRP زى NULL ({ 6 }) when WRB when ({ 1 }) should MD should ({ 2 3 }) i NP i ({ }) take VV take ({ }) these DT these ({ 5 }) tablets NNS tablet ({ 4 7 }) # Sentence pair (19958) source length 7 target length 7 alignment score : e-10 RP IN ذي $ PRP ن NN بئذح IN ي CD أسثعخ NNS أشخبص NULL ({ }) do VVP do ({ 1 }) you PP you ({ }) have VHP have ({ 2 3 }) a DT a ({ }) table NN table ({ 4 }) for IN for ({ 5 }) four CD four ({ 6 7 }) # Sentence pair (19959) source length 8 target length 5 alignment score : e-07 JJ ب NN طجمب VBP أجشة IN أ VBP أ د NULL ({ }) i NP i ({ }) 'd MD will ({ 1 }) like VV like ({ }) to TO to ({ 2 }) try VV try ({ 3 }) a DT a ({ }) local JJ local ({ 5 }) dish NN dish ({ 4 })
51 Annexe Exemple de phrase-table du modèle non factoriel (1) (1) (0) (1,2) (0) n't " wo أال " e " wo n't they bring (0) (1,2) (3,4) (4) (0) (1) (1) (2) (2,3) 1 أال ضش ا ي " e-05 1 " wo n't they bring you (0) (1,2) (3,4) (4) (5) (0) (1) (1) (2) (2,3) (4) 1 أال ضش ا ي ن " e (1,2) (0) (1) (1) (0) keep " أ زز ة " e " keep lane " (0) (1) (1) (2) (2) (3) (0) (1,2) (3,4) (5) 1 " أ زز ة حبسد ن " e " keep lane (0) (1) (1) (2) (2) (0) (1,2) (3,4) 1 أ زز ة حبسد ن " (4) (1,2,3) (0) (2) (1) (1) (1) (0) " o-bon " " أ ث " (1,2,3) (0) (1) (1) (1) (0) o-bon " أ ث " (0,1,2,3) (0) (0) (0) (0) kahala " أ سو ذ وب ال " (4,5,6) (0,1,2,3) (1) (1) (1) (0) (0) (0) (0) please kahala أ سو ذ وب ال " فض ن " (1) (0) (1) (0) if " إرا " (2) (2) (1) (0) (2,3) (1) (0) was " if i إرا وب " 1 (4) (4) (4) (0,1,2,3,4,5) (3) (1) (1,2,3,4) (0,1) (1) (1) (1) we for golden gate bridge " إ ى جسش ج ذ ج خ " e (4) (1,2,3) (0) (2) (1) (1) (1) (0) " abc " " إ ث س " (1,2,3) (0) (1) (1) (1) (0) abc " إ ث س " (1) (0) (1) (0) the " اي " two days (0,1) (0) (0) (1) (0) (0) (2) (0,1) longer two days آخش e two to three days (0,3) (1) (2) (0) (1) (2) (0) 1 أ ثالثخ (0) (0) (1,3) (2,3) (0,1) (0) (1) (2,3) days at least two ع ى اي أل e only two days (1,2) (0) (0) (1,2) (0) (0) 1 ف لظ (1) (0) (0) (2) (0,1) in two days ف (2,3) (1) (0) (0) (3) (3) (2) (0,1) japan two days in ف اي بثب two days before (0,1) (2) (0) (0) (1) (0,1) (0) (0) united ب زذ إ شال ز (0,1) (0) (0) united ب زذ اي (2) (0,1) (1) (0) (0) flight united ب زذ اي سح خ (3) (2) (0,1) (2) (1) (0) (0) one united flight ب زذ اي سح خ احذ (4) (3) (2) (0,1) (3) (2) (1) (0) (0) seven united flight one ب زذ اي سح خ احذ سجعخ (5) (4) (3) (2) (0,1) (4) (3) (2) (1) (0) (0) three united flight one seven ب زذ اي سح خ احذ سجعخ ثالثخ (0,1,2) (0) (0) (0) ua زذ إ شال ز سل june (0) (0) june and (0) (1) (0) (1) june and july (0) (1) (2) (0) (1) (2) union (0) (0) (1) (0,1) (0,1) (0) station union اسز ش (2) (1) (0,1) (2) (0,1) (0) and union station اسز ش e union station and back (0) (0,1) (2) (3) (0,1) (1) (2) (3) 1 اسز ش رعذ (1) (0) (1) (0) square union سى ش
52 Annexe Exemple de phrase-table du modèle factoriel (mot arabe correspond au mot et lemme anglais) (1) (1) (0) (1,2) (0) n't n't " " wo wo أال " e-05 1 " " wo wo n't n't they they bring bring (0) (1,2) (3,4) (4) (0) (1) (1) (2) (2,3) 1 أال ضش ا ي " (4) (2,3) (2) (1) (1) (0) (5) (4) (3,4) (1,2) (0) you you " " wo wo n't n't they they bring bring أال ضش ا ي ن " e e (1,2) (0,1) (1) (0,1) (0) keep keep " " أ زز ة " e-05 1 " " keep keep lane lane " " (0) (0,1) (1) (2) (2) (3) (0,1) (1,2) (3,4) (5) 1 " أ زز ة حبسد ن " e " " keep keep lane lane (0) (0,1) (1) (2) (2) (0,1) (1,2) (3,4) 1 أ زز ة حبسد ن " e or or the the c c (2) (0) (1) (2) (2) (1) (2) (0,3,4) 1 " أ " س " 1 (3) (3,4) (1,2,3) (0) (0) (3) (2,3,4) (2) (2) (0,1) season season the the " " o-bon <unknown> " " " أ ث " e (0) (0) (5) (3) (2,3,4) (2) (2) (0,1) now now the the " " o-bon <unknown> " " season season أ ث " ا " (1,2,3) (3,4) (3) (5) e (0,1,2,3) (0) (0) (0) (0) kahala <unknown> " أ سو ذ وب ال " 1 (4,5,6) (0,1,2,3) (1) (1) (1) (0) (0) (0) (0) please please kahala <unknown> أ سو ذ وب ال " فض ن " (2,5,6) (4) (3) (1) (1) (0) (5) (5) (4) (3) (5) (1,2) (0) c c the the h h hotel hotel or or the the " إرش " أ " س " e e (1) (1) (0) (1,2) (0) hotel hotel the the h h إرش " (1) (0) (1) (0) if if " " إرا " e s <unknown> should should (0) (0) (0) (1) (1) (0,1,2) (3,4) 1 إس " جت أ " e-06 1 s <unknown> should should be be (0) (0) (0) (1) (1) (2) (0,1,2) (3,4) (5) 1 إس " جت أ رى " (6) (5) (3,4) (0,1,2) (3) (2) (1) (1) (0) (0) (0) big big s <unknown> should should be be إس " جت أ رى وج شح " e (0,4) (1,2,3) (0) (0) (3) (2) (2) (2) (0,1,3) " " abc <unknown> the the " " " إ ث س " (1) (0) (1) (0) the the " " اي " (1) (0) (0) (2) (0,1) longer longer two two days day آخش (0,1) (2) () (0) (2) (3) (0,3) days day two two to to three three أ ثالثخ (0) (0) (1,3) (2,3) (0,1) (0) (1) (2,3) days day at at least least two two ع ى اي أل (1) (0) (0) (2) (0,1) in in two two days day ف (2,3) (1) (0) (0) (3) (3) (2) (0,1) japan japan two two days day in in ف اي بثب (0) (0) united unite ب زذ (1,2) (0) (1) (1) (0) flight flight united unite ب زذ اي سح خ (3) (1,2) (0) (2) (1) (1) (0) one one united unite flight flight ب زذ اي سح خ احذ (4) (3) (1,2) (0) (3) (2) (1) (1) (0) seven seven united unite flight flight one one ب زذ اي سح خ احذ سجعخ (0) (4) (3) (2) (1) (1) (0) three three united unite flight flight one one seven seven ب زذ اي سح خ احذ سجعخ ثالثخ (1,2) (3) (4) (5) (0) (0) united unite زذ (0,1) (0) (0) ua <unknown> زذ إ شال ز june June (0) (0) union union (0) (0) (1) (0,1) (0,1) (0) station station union union اسز ش (2) (1) (0,1) (2) (0,1) (0) and and union union station station اسز ش 1 (3) (2) (1) (0,1) (3) (2) (0,1) (0) back back union union station station and and اسز ش رعذ e (1) (0) (1) (0) square square union union سى ش
53 Annexe Détail du la phase de traduction du modèle non factoriel ع مذ حجزد معذ سجمب Translating: DECODER TYPE : 0 BEST TRANSLATION: yes i reserved seats in advance [11111] [total=-5.206] <<0.000, , 0.000, , , , 28, , 4.000>> yes i reserved seats in advance TRANSLATION HYPOTHESIS DETAILS: ع [0..0] SOURCE: TRANSLATED AS: yes مذ حجزد [2..1] SOURCE: TRANSLATED AS: i reserved معذ [3..3] SOURCE: TRANSLATED AS: seats سجمب [4..4] SOURCE: TRANSLATED AS: in advance SOURCE/TARGET SPANS: SOURCE: TARGET: SCORES (UNWEIGHTED/WEIGHTED): distortion score word penalty unknown word penalty gram LM score, factor-type=0, file=/home/atef-by/corpus/englishlm.bo Translation score, file=/home/atef-by/new/unfactored/phrase-table " " " " " " " " Finished translating
54 Annexe Détail du la phase de traduction du modèle factoriel Translating: UH ع RP مذ VBD حجزد سجمب NN معذ JJ DECODER TYPE : 0 BEST TRANSLATION: yes UH yes i NP i reserved VVD reserve two CD two seats NNS seat in IN in advance NN advance [11111] [total=-7.034] <<0.000, , 0.000, , , , , 0.000, , , , , , 4.000, , , , , 4.000>> yes i reserved two seats in advance TRANSLATION HYPOTHESIS DETAILS: SOURCE: [0..0] UH ع TRANSLATED AS: yes UH yes SOURCE: [2..1] RP مذ VBD حجزد TRANSLATED AS: i NP i reserved VVD reserve SOURCE: [3..3] NNS معذ TRANSLATED AS: two CD two seats NNS seat SOURCE: [4..4] JJ سجمب TRANSLATED AS: in IN in advance NN advance SOURCE/TARGET SPANS: SOURCE: TARGET: SCORES (UNWEIGHTED/WEIGHTED): distortion score word penalty unknown word penalty gram LM score, factor-type=0, file=/home/atef-by/corpus/englishlm.bo gram LM score, factor-type=1, file=/home/atef-by/new/corpus/pos.lm Generation score, file=/home/atef-by/new/pos/model/generation.2-1.gz " " Generation score, file=/home/atef-by/new/pos/model/generation.2,1-0.gz " " Translation score, file=/home/atef-by/new/factored/phrase-table.0-0, " " " " " " " " Translation score, file=/home/atef-by/new/factored/phrase-table " " " " " " " " Finished translating
majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot
majuscu conjugaison >>>, L orthographe singulier syllabe virgule mémoire lettres et son enseignement graphie suffixe usage accent ; écrire féminin temps voyelles mot point Renforcer l enseignement de l
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus
JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,
Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Application d un algorithme de traduction statistique à la normalisation de textos
Application d un algorithme de traduction statistique à la normalisation de textos Gabriel Bernier-Colborne 1 (1) Observatoire de linguistique Sens-Texte Université de Montréal [email protected]
Nom de l application
Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
Évaluation de G-LexAr pour la traduction automatique statistique
TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Déterminants possessifs
POSSESSIFS MATÉRIEL POUR ALLOPHONES 1 Déterminants Déterminants référents Déterminants possessifs Le déterminant possessif indique une relation d appartenance, de possession, de parenté, d origine, etc.,
fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.
fiche D AUTOCORRECTION 3.4 Les accords sont corrects dans chaque groupe du nom. On met souvent sur le dos de l inattention les erreurs d orthographe grammaticale. Bien accorder les mots exige de l observation
Évaluation et implémentation des langages
Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation
Traitement automatique des entités nommées en arabe : détection et traduction
Traitement automatique des entités nommées en arabe : détection et traduction Souhir Gahbiche-Braham Hélène Bonneau-Maynard François Yvon Université Paris Sud & LIMSI-CNRS BP 133-91403 ORSAY Cedex - France
! Text Encoding Initiative
Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique
Compte-rendu de Hamma B., La préposition en français
Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,
N 334 - SIMON Anne-Catherine
N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction
Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot
Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,
LE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :
Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant
LIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal
La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal
Chapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le
I. Le déterminant Il détermine le nom. Le déterminant indique le genre, le nombre et le degré de détermination du nom. 1. L article le, la, les, l, d, au, aux, du, des, un, une, des, du, de l, de la, des.
Les indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Représentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Principe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Complément d information concernant la fiche de concordance
Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours
Date : 18.11.2013 Tangram en carré page
Date : 18.11.2013 Tangram en carré page Titre : Tangram en carré Numéro de la dernière page : 14 Degrés : 1 e 4 e du Collège Durée : 90 minutes Résumé : Le jeu de Tangram (appelé en chinois les sept planches
Et si vous faisiez relire et corriger vos textes par un professionnel?
Le Robert lance Et si vous faisiez relire et corriger vos textes par un professionnel? dossier de presse - 2014 L avis des Français Étude Ipsos pour Le Robert réalisée sur un échantillon de 1 001 Français
Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire
Date d envoi : Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire QUESTIONNAIRE AU TITULAIRE Ce document doit être complété par le titulaire de classe et/ou par l orthopédagogue
Synthèse «Le Plus Grand Produit»
Introduction et Objectifs Synthèse «Le Plus Grand Produit» Le document suivant est extrait d un ensemble de ressources plus vastes construites par un groupe de recherche INRP-IREM-IUFM-LEPS. La problématique
Corps des nombres complexes, J Paul Tsasa
Corps des nombres complexes, J Paul Tsasa One Pager Février 2013 Vol. 5 Num. 011 Copyright Laréq 2013 http://www.lareq.com Corps des Nombres Complexes Définitions, Règles de Calcul et Théorèmes «Les idiots
avec des nombres entiers
Calculer avec des nombres entiers Effectuez les calculs suivants.. + 9 + 9. Calculez. 9 9 Calculez le quotient et le rest. : : : : 0 :. : : 9 : : 9 0 : 0. 9 9 0 9. Calculez. 9 0 9. : : 0 : 9 : :. : : 0
Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire
Langue Française Redatto da Dott.ssa Annie Roncin Syllabus A1 Description globale du niveau A1 utilisateur élémentaire L étudiant peut : -comprendre et utiliser des expressions familières et quotidiennes
I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES
I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales
Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales Haithem AFLI Loïc BARRAULT Holger SCHWENK Laboratoire d Informatique
TEXT MINING. 10.6.2003 1 von 7
TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre
Définitions. Numéro à préciser. (Durée : )
Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.
Rapport d'analyse des besoins
Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration
Ressources lexicales au service de recherche et d indexation des images
RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)
CHAPITRE 5. Stratégies Mixtes
CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,
Algorithme. Table des matières
1 Algorithme Table des matières 1 Codage 2 1.1 Système binaire.............................. 2 1.2 La numérotation de position en base décimale............ 2 1.3 La numérotation de position en base binaire..............
mes m est mets/met mais mets
GRAMMATICAUX DE CATÉGORIES DIFFÉRENTES MES HOMOPHONES M EST METS/MET MAIS METS 1 Homophones grammaticaux de catégories différentes mes m est mets/met mais mets mes : déterminant possessif pluriel, féminin
Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches
Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes
DOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10.
A1 Trouvez l entier positif n qui satisfait l équation suivante: Solution 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. En additionnant les termes du côté gauche de l équation en les mettant sur le même dénominateur
Créer un mémento grammatical portatif et évolutif pour tablettes et smartphones
Enseigner les Langues et Cultures de l Antiquité avec les TICE http://lettres.ac-dijon.fr TraAM travaux académiques mutualisés, un accompagnement au développement des usages des TIC Créer un mémento grammatical
LEXOS, logiciel d'étude lexicale et de conjugaison
233, logiciel d'étude lexicale et de conjugaison Ce logiciel a été élaboré sous test constant, dans la mesure où, pour le modifier, je me suis inspiré en permanence de la réaction des élèves, de leurs
Document d aide au suivi scolaire
Document d aide au suivi scolaire Ecoles Famille Le lien Enfant D une école à l autre «Enfants du voyage et de familles non sédentaires» Nom :... Prénom(s) :... Date de naissance :... Ce document garde
CCP PSI - 2010 Mathématiques 1 : un corrigé
CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P
Rapport de stage d initiation
Ministère de l enseignement supérieur et de la recherche scientifique Direction Générale des Études Technologiques Institut Supérieur des Etudes Technologiques de SILIANA Département Technologies de l
Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année
Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année PALIER 2 CM2 La maîtrise de la langue française DIRE S'exprimer à l'oral comme à l'écrit dans un vocabulaire approprié
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement
LIVRET PERSONNEL DE COMPÉTENCES
Nom... Prénom... Date de naissance... Note aux parents Le livret personnel de compétences vous permet de suivre la progression des apprentissages de votre enfant à l école et au collège. C est un outil
JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université
Le modèle standard, SPE (1/8)
Le modèle standard, SPE (1/8) Rappel : notion de grammaire mentale modulaire Les composants de la grammaire : module phonologique, sémantique syntaxique Syntaxe première : elle orchestre la relation mentale
Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
3-La théorie de Vygotsky Lev S. VYGOTSKY (1896-1934)
3-La théorie de Vygotsky Lev S. VYGOTSKY (1896-1934) Psychologue russe contemporain de Piaget, a également élaboré une théorie interactionniste de l'apprentissage, sage, mais qui insiste sur tout sur la
Utilisation des auxiliaires avoir et être
AVOIR MATÉRIEL ET ÊTRE POUR ALLOPHONES 1 Groupe verbal Utilisation des auxiliaires avoir et être 1 DIFFÉRENTS CONTEXTES D EMPLOI DU VERBE AVOIR Être dans un certain état physique, moral ou intellectuel.
Manuel d utilisation
Manuel d utilisation La référence des comptables-fiscalistes Votre login Votre mot de passe Une question Voyez l aide détaillée accessible en ligne ou les questions les plus fréquemment posées par les
Calculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)
GRAMMATICAUX DE CATÉGORIES DIFFÉRENTES QUELQUE HOMOPHONES QUELQUE(S) QUEL(S) QUE/QUELLE(S) QUE QUEL(S)/QUELLE(S) QU ELLE(S) 1 Homophones grammaticaux de catégories différentes quelque quelque(s) quel(s)
Rappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
chapitre 4 Nombres de Catalan
chapitre 4 Nombres de Catalan I Dénitions Dénition 1 La suite de Catalan (C n ) n est la suite dénie par C 0 = 1 et, pour tout n N, C n+1 = C k C n k. Exemple 2 On trouve rapidement C 0 = 1, C 1 = 1, C
NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2
NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2 Résultats aux évaluations nationales CM2 Annexe 1 Résultats de l élève Compétence validée Lire / Ecrire / Vocabulaire / Grammaire / Orthographe /
Rédiger et administrer un questionnaire
Rédiger et administrer un questionnaire Ce document constitue une adaptation, en traduction libre, de deux brochures distinctes : l une produite par l American Statistical Association (Designing a Questionnaire),
Master Etudes françaises et francophones
Master Etudes françaises et francophones 1. modèle scientifique et profilage des contenus de la filière / Présentation et spécificités de la filière Les études romanes à Leipzig sont considérées comme
Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2
éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........
CORRIGE LES NOMBRES DECIMAUX RELATIFS. «Réfléchir avant d agir!»
Corrigé Cours de Mr JULES v3.3 Classe de Quatrième Contrat 1 Page 1 sur 13 CORRIGE LES NOMBRES DECIMAUX RELATIFS. «Réfléchir avant d agir!» «Correction en rouge et italique.» I. Les nombres décimaux relatifs.
Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions
Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces
F411 - Courbes Paramétrées, Polaires
1/43 Courbes Paramétrées Courbes polaires Longueur d un arc, Courbure F411 - Courbes Paramétrées, Polaires Michel Fournié [email protected] http://www.math.univ-toulouse.fr/ fournie/ Année 2012/2013
APPRENDRE LA CHIMIE EN ZEP
Résumé du rapport de recherche destiné au Centre Alain Savary, INRP APPRENDRE LA CHIMIE EN ZEP Martine Méheut, Olivier Prézeau INRP, Centre Alain Savary Apprendre la chimie en ZEP Résumé 1 Dans une perspective
Club langue française Quiz. Par Julien COUDERC et Maxence CORDIEZ
Club langue française Quiz Par Julien COUDERC et Maxence CORDIEZ Question 1 Quelle est l'orthographe correcte? 1. J'ai vécu des amours passionnés. 2. J'ai vécu des amoures passionés. 3. J'ai vécu des amours
Résolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
modélisation solide et dessin technique
CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir
LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE
2 LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE Nous vivons une révolution numérique qui a un impact fort sur la communication et la société. Les développements récents des technologies
Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues
TALN 2010, Montréal, 19 23 juillet 2010 Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues Résumé. Holger Schwenk LIUM, Université du Maine, 72085 Le Mans cedex,
Distinction des questions et des consignes
ET ŒIL DES CONSIGNES (OUTILS D EXPLORATION ET D INTÉGRATION DE LA LECTURE) 1 Questions et consignes Distinction des questions et des consignes Théorie Comment différencier les questions et les consignes
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes
COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL
COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication
Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre 2001. Student Assessment and Program Evaluation Branch
Principes de mathématiques 12 SÉRIE DE PROBLÈMES Septembre 2001 Student Assessment and Program Evaluation Branch REMERCIEMENTS Le Ministère de l Éducation tient à remercier chaleureusement les professionnels
Réussir son entrée en grammaire au CE1
CE1 Réussir son entrée en grammaire au CE1 Françoise Bellanger Aurélie Raoul-Bellanger ISBN : 978-2-7256-3249-0 Retz, 2013 pour la présente édition Direction éditoriale : Sylvie Cuchin Édition : Charlotte
Norme comptable internationale 33 Résultat par action
Norme comptable internationale 33 Résultat par action Objectif 1 L objectif de la présente norme est de prescrire les principes de détermination et de présentation du résultat par action de manière à améliorer
IDEOGRAPHIX, BUREAU De lecture
074 _ Les Actes de Lecture n 106 _ juin 2009 _ [dossier] _ Idéographix bureau d'écriture _ Carole Cane & Alain déchamps IDEOGRAPHIX, BUREAU De lecture Carole Cane & Alain DÉCHAMPS Idéographix n est pas
Guide d élaboration d un Projet de Fin d études
Guide d élaboration d un Projet de Fin d études Partie 1 : Guide d orientation pour le choix d un PFE Partie 2 : Guide de rédaction du rapport de PFE Partie 3 : Guide d évaluation d un PFE Département
Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P
EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine
Exercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Cette Leçon va remplir ces attentes spécifiques du curriculum :
Dev4Plan1 Le Plan De Leçon 1. Information : Course : Français Cadre Niveau : Septième Année Unité : Mes Relations Interpersonnelles Thème du Leçon : Les Adjectifs Descriptifs Date : Temps : 55 minutes
Aide du Grand dictionnaire terminologique
Aide du Grand dictionnaire terminologique Office québécois de la langue française Mars 2015 Table des matières Introduction... 1 Comment interroger la banque?... 1 Saisie semi-automatique... 1 Comment
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Transmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Filière «Économie et Entreprise» 2015/2016
Filière «Économie et Entreprise» 2015/2016 1. Présentation de la filière Économie et Entreprise La filière «Economie et entreprises» de quatrième année de SciencesPo Strasbourg donne aux étudiants, dans
