Extraction des séquences inter-langues pour la Traduction Automatique



Documents pareils
Introduction au Data-Mining

Apprentissage Automatique

Application d un algorithme de traduction statistique à la normalisation de textos

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Plus courts chemins, programmation dynamique

Évaluation et implémentation des langages

Introduction au Data-Mining

Introduction au datamining

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Introduction à la B.I. Avec SQL Server 2008

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Business Intelligence

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Développement d'applications pour le référencement d'un site web et pour la gestion de campagnes de mails

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

PERSONNALISATION ENJEUX, STRATÉGIES & OUTILS

Business Intelligence avec Excel, Power BI et Office 365

Cours 1 : Qu est-ce que la programmation?

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Bases de données Outils de gestion

Hervé Couturier EVP, SAP Technology Development

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Ce document a été mis en ligne par le Canopé de l académie de Montpellier pour la Base Nationale des Sujets d Examens de l enseignement professionnel.

CALCUL DES PROBABILITES

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Cycle de formation certifiante Sphinx

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Adaptation d un Système de Traduction Automatique Statistique avec des Ressources monolingues

Indications pour une progression au CM1 et au CM2

Analyse de grandes bases de données en santé

TEXT MINING von 7

Modélisation du comportement habituel de la personne en smarthome

Traitement automatique des entités nommées en arabe : détection et traduction

Programmation de services en téléphonie sur IP

INF6304 Interfaces Intelligentes

LIVRE BLANC Décembre 2014

Outils permettant la diffusion de l information. Un point sur le droit numérique

Cognit Ive Cas d utilisation

UML (Paquetage) Unified Modeling Language

Guide d exploration de base de données de IBM SPSS Modeler 15

Excel. Identification. Informations sur vos besoins et objectifs. Notions fondamentales. Fiche de validation des besoins en formation Bureautique

Les bases de données

Systèmes d information et bases de données (niveau 1)

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

Découverte et analyse de dépendances dans des réseaux d entreprise

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Google Analytics Google Tag Manager

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Il permet d introduire une première réflexion sur le monde de l entreprise, et en particulier de la PME.

Classification Automatique de messages : une approche hybride

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Evry - M2 MIAGE Entrepôt de données

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

d évaluation Objectifs Processus d élaboration

Solutions SAP Crystal

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Mesure agnostique de la qualité des images.

Accélérer l agilité de votre site de e-commerce. Cas client

MÉMOIRE PROFESSIONNEL Étude d une migration de Sybase vers PostgreSQL

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Analyse et programmation 1

La médiatrice d un segment

LES MÉMOIRES DE TRADUC- TION : OUTIL NÉCESSAIRE OU SOURCE DE PROBLÈMES POUR LES TRADUCTEURS?

Évolution de la supervision et besoins utilisateurs

La Performance Digitale en Business to Business

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

MASTER (LMD) MODELISATION, OPTIMISATION, COMBINATOIRE ET ALGORITHME

Programmes des classes préparatoires aux Grandes Ecoles

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Catalogue Formations informatiques

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Université Libre de Tunis

SQL SERVER 2008, BUSINESS INTELLIGENCE

Présentation du module Base de données spatio-temporelles

N. Paparoditis, Laboratoire MATIS

Algorithmique avec Algobox

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Bases de données élémentaires Maude Manouvrier

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

La traduction automatique des articles de l anglais au français

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Bienvenue! Le webinaire commencera d ici quelques minutes

SYSTRAN 7 Guide de démarrage

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Gestion de la Relation Client (GRC)

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Les travaux internationaux et leurs conséquences sur les règles françaises

Transcription:

Extraction des séquences inter-langues pour la Traduction Automatique Cyrine Nasri LORIA MOSIC Dirigée par : Pr. Kamel Smaili, Pr. Yahya Slimani et Dr Chiraz Latiri 1/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Plan Introduction Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Notre approche : triggers à base de l Information Mutuelle Conditionnelle 2/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Introduction Depuis la fin de la deuxième guerre mondiale : les chercheurs se passionnent pour la TA. La traduction automatique : Un des premiers problèmes de l Intelligence Artificielle. La traduction automatique statistique : nécessite pas l intervention humaine. 50 ans de progrès : 1. Secteur de la recherche : 1000 articles publiés (la moitié pendant les 5 dernières années). 2. Secteur commercial : Language Weaver, Google, Microsoft. 3/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Composants : Modèle de traduction, Modèle de langage et le Décodeur 4/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Exemple d un corpus parallèle Remarque la position des mots change, le système de traduction automatique doit prendre en compte la notion de ré-ordonnement des mots. 5/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Evaluation de la qualité la machine de traduction : Score BLEU Evaluer une traduction pose un problème en lui même. Introduire une métrique BLEU... Mesure les similarités avec les traductions de réference. 6/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Traduction automatique statistique à base des mots Le processus de traduction est décomposé en petites étapes, [Knight, 1997] chacune est liée à des mots. Des modèles originaux pour la traduction automatique statistique : Modèles IBM [Brown et al., 1993]. 7/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Traduction automatique statistique à base des séquences La phrase source et cible sont segmentés en des séquences. Chaque séquence source est traduite en une séquence cible. Processus de réordonnancement. 8/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Exemple de méthodes de traduction automatique statistique à base des séquences Alignements (Och et al, 1999) Triggers inter-langues (Lavecchia et al, 2007) 9/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Apprentissage de la table de traduction à base de séquences (Och et al.) Commencer par les alignements entre les mots. Collecter toutes les paires de séquences qui ont des points d alignement communs entre les mots qui icluent. 10/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Des alignements entre les mots vers des séquences 11/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Des alignements entre les mots vers des séquences 12/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Des alignements entre les mots vers des séquences 13/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Les triggers dans la modélisation statistique du langage Un trigger est un ensemble composé d un mot et ses meilleurs mots qui lui sont corrélés. Les triggers sont determinés par le calcul de l Information Mutuelle (IM) entre les mots: P(a, b) MI (a, b) = P(a, b)log P(a)P(b) (1) 14/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Les triggers inter-langues Un trigger inter-langues est un ensemble composé d un mot source S et ses mots cibles qui lui sont fortement corrélés t 1...t n les triggers inter-langues sont determinés par le calcul de l IM entre les mots d un corpus aligné parallèle. 15/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Traduction automatique statistique à base de mots Traduction automatique statistique à base de séquences Apprentissage des traductions potentielles entre les séquences [Lavecchia et al. 2007] 1. Une séquence source peut être traduite par différentes séquences cibles de différentes tailles. 2. Heuristique: Chaque séquence source de l mots peut être traduite par une séquence de j mots cibles. 3. Calculer les triggers inter-langues entre les mots en langue source et les mots en langue cible. 4. Concaténer les triggers pour former des triggers entre des séquences en langue source et en langue cible. 16/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Proposer un nouveau modèle de traduction : à base des séquences. Récupère automatiquement les séquences et leurs traductions directement sans passer par les alignements entre les mots. Fondé sur l information mutuelle conditionnelle. Améliorer la qualité de traduction en terme de score BLEU. Etendre la notion de l information mutuelle entre deux variables vers l information mutuelle entre trois variables : Information mutuelle conditionnelle 17/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Principe de l Information Mutuelle Conditionnelle L information mutuelle conditionnelle entre 3 variables : I (X, Y Z) = z Z y Y x X P(x, y, z)p(z) P(x, y, z)log P(x, z)p(y, z) (2) 18/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Algorithme : Apprentissage de notre modèle de traduction Calculer les triggers 2 1 Francais-Anglais (X, Y : deux mots en langue source et Z: mot en langue cible). Reécrire le corpus Francais avec les meilleurs triggers (concaténer X, Y pour former une seule entité). Calculer les triggers 2 1 Anglais-Francais : Pour chaque unité en garder les k meilleurs traductions : Reécrire le corpus Anglais avec les meilleurs triggers. 19/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Construction de notre table de traduction Calcul des probabilités f e 1 IMC = IM 1 f e 2 IMC = IM 2 f e 3 IMC = IM 3 f e 4 IMC = IM 4 Table de traduction IM f e 1 1 IMC(f ei ) 20/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Description des données Corpus Europarl 2005 Anglais Français Phrases 596831 596831 Apprentissage Mots 15138093 16613485 Vocabulaire 59838 76946 Phrases 1444 1444 Développement Mots 14077 13770 Vocabulaire 2274 2701 Phrases 500 500 Test Mots 4945 5249 Vocabulaire 1153 1352 21/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Résultats Table de traduction Score Bleu Lavecchia et al. 34.18 Och et al. 3 42.75 Notre approche 38.43 Cause :L information mutuelle ne prends en compte qu un seul mot dans la langue cible, le reste est recupéré par concaténation. Nouvelle orientation : IM qui porte sur plusieurs mots (IM Multivariables) 22/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Nouvelle démarche : IM Multivariables Premièr étape identifier les n i meilleures séquences dans les corpus français identifier les n i meilleures séquences dans les corpus anglais Deuxième étape Calculer les IM entre les séquence (f 1, f 2,..., f n, a 1, a 2,..., a n ) IM(f 1, f 2,..., f n, a 1, a 2,..., a m ) = P(f 1,...,f n,a 1,...,a m) P(f 1, f 2,..., f n, a 1, a 2,..., a m )log P(f 1,f 2,...,f n),p(a 1,a 2,...,a (3) m) Pour chaque séquence source, on garde les k meilleures traductions 23/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Résultats Table de traduction Score Bleu Lavecchia et al. 34.18 Och et al. 42.75 Notre approche IMC 38.43 Notre approche IM Multivariables 39.42 24/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Filtrer la liste des séquences sources : ne laisser que les séquences composés des mots fortement corrélés. Améliorer le modèle de langage en se basant sur les sequences de mots au lieu de mots. 25/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA

Merci pour votre attention! 26/26 Cyrine Nasri Extraction des séquences inter-langues pour la TA