Les différentes technologies de la langue

Documents pareils
Portail Vocal d Entreprise

TEXT MINING Tour d Horizon

Document d aide au suivi scolaire

Livret personnel de compétences

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

1. Productions orales en continu après travail individuel

Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur

Vers une architecture générique de système de dialogue oral homme-machine

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

MASTER LANGUES, LITTÉRATURES ET CIVILISATIONS ETRANGÈRES ET RÉGIONALES. Parcours Langues et Technologies (LT)

N SIMON Anne-Catherine

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Apprentissage Automatique

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Dafoe Présentation de la plate-forme UIMA

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Atelier rédactionnel

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

Documentation utilisateur. [EIP] TransLSF

! Text Encoding Initiative

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

MON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1

LIVRET PERSONNEL DE COMPÉTENCES

Compte-rendu de Hamma B., La préposition en français

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

PLAN D ÉTUDES. école fondamentale

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Cours / Formation pour débutant en informatique, bureautique, Internet etc... (pour débutants)

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

PloneLabs un gestionnaire de contenu pour les laboratoires

CAP C.R.M. Conducteur Routier Marchandises

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Interférences lexicales entre deux langues étrangères: anglais et français

Présentation de notre solution de formation en ligne

Indications pour une progression au CM1 et au CM2

TiLT : plate-forme pour le traitement automatique des langues naturelles

Enseigner les Lettres avec les TICE

Applications Section candidats

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Commerce International. à référentiel commun européen

Thomas Dutronc : Demain

1. Qu est-ce que la conscience phonologique?

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

Les technologies d aide

Dans un contexte économique difficile, comment exploiter tout le potentiel d'un assistant virtuel en ligne? Odile BEURIER & Frédéric DURKA

Master Informatique Aix-Marseille Université

AMELIORER SES COMPETENCES LINGUISTIQUES les prépositions de lieu

Savoirs associés aux compétences clés issues du RCCSP

Projet de programme pour le cycle 3

Valoriser vos bases de connaissances avec AMI Help Desk. AMI Enterprise Discovery version 3.9

Dix bonnes raisons d essayer Office Professionnel Plus 2010

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

Les écoles professionnelles offrent aux personnes en formation les cours remplissant les objectifs évaluateurs suivants :

Bibliothèque des Compétences clés

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

Présentation générale du projet data.bnf.fr

TPS 4 Objectifs du programme aide à la lecture et à l'écriture Les fonctions principales lecture à haute voix

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

1. L ENTREPRISE 2. CARACTERISTIQUES ET DEROULEMENT DE LA PRESTATION CHARTE QUALITE 2.1. DEMARCHE VOLONTAIRE 2.2. REALISATION DE L AUDIT

SMPMKPOO=aKbKbKpK=qÉÅÜåáèìÉë=kìã êáèìéë=éí= jìäíáã Çá~=J=abbpqkj

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Formation Pédagogique 3h

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Comment faire passer un message

UE11 Phonétique appliquée

Catalogue DIF. Formations linguistiques

HelpDesk Fiche produit

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Modélisation des données

APS 4 : CREATION D'ENTREPRISE

CATALOGUE Formations courtes PARCOURS TRADUCTION

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Construction et maintenance d une ressource lexicale basées sur l usage

Introduction aux Bases de Données

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

Le très haut débit sur le territoire du Parc des Monts d'ardèche

Utilisez les outils de la fiche méthode «étude d une affiche de film». Vous pouvez faire part d autres éléments concernant l étude de cette œuvre.

Hypersigne : Hypertexte en langue des signes

Et avant, c était comment?

En date du 11 décembre 2008

PROFIL DE POSTE AFFECTATION. SERIA (service informatique académique) DESCRIPTION DU POSTE

LIVRE BLANC Décembre 2014

RESPONSABLE DU DEVELOPPEMENT COMMERCIAL IMPORT EXPORT

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Table des matières. Qui sommes-nous? Nos services. Pourquoi ETN? Nos tarifs. Contact

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

La recherche d'information sur Internet

Cliquez sur le lien «Vous n'avez pas d'identifiant Adobe?» afin de vous créer un identifiant Adobe.

KX-DT321 Guide d utilisation rapide

Fiche d'information N 23 Information et Publicité Obligations et attentes

Comment référencer votre annonce Sur les moteurs de recherche?

FORMATION MULTIMÉDIA LVE

PLAN DE COURS DÉPARTEMENT ÉLECTRONIQUE INDUSTRIELLE. TITRE DU COURS Ordinateur Outil RA 1-4-2

Transcription:

Les différentes technologies de la langue Pierre Zweigenbaum / Joseph Mariani LIMSI, CNRS, Université Paris-Saclay 11 mai 2016

Technologies de la langue : composants et ressources Technologies de la langue Composants et ressources Applications de traitement de la langue Textes, production, traduction Langue parlée, écrite, signée Textes, information, connaissance

Technologies de la langue Technologies Multimédias et Multilingues Technologies de la Parole Technologies de la Langue Technologies de la Connaissance Technologies de l'ecrit Technologies de l information 3 : Les technologiesqui de lasont languespécialisées pour traiter le langage humain langue parlée langue écrite langue des signes solution d anaphores et d expressions référentielles un aperçu des programmes de recherche passés et en comme «elle», «la voiture», etc. ; représentation cours. À la fin de cette section, nous présentons une estimation de la situation concernant les outils de base et les du sens des énoncés d une manière lisible par une machine. ressources selon un certain nombre de critères tels que la disponibilité, la maturité, ou la qualité. Ce tableau vise à Des modules spécifiques à la tâche effectuent alors dif- donner un aperçu brut et global de la situation des tech-

Disciplines mobilisées Statistiques Sciences cognitives Informatique Intelligence artificielle Traitement signal Linguistique Technologies de la langue

Source principale White Paper Series Collection de Livres Blancs THE FRENCH LANGUAGE IN THE DIGITAL AGE LA LANGUE FRANÇAISE À L ÈRE DU NUMÉRIQUE Mariani et al. (2012) Livre blanc META-NET Joseph Mariani Patrick Paroubek Gil Francopoulo Aurélien Max François Yvon Pierre Zweigenbaum

solution d anaphores et d expressions référentielles comme «elle», «la voiture», etc. ; représentation Composants de traitement de la langue du sens des énoncés d une manière lisible par une machine. classiques dans une architecture simplifiée ressources selon un certain nombre de critères tels que mation de la situation concernant les outils de base et les Composants la Traitements préalables donner un aperçu brut et global de la situation des technologies de la langue pour le français. Nettoyage, suppression du formatage, détection de la langue Analyse grammaticale Détection des phrases, des mots 4.3 DOMAINES ; des noms, verbes, D APPLICATION etc. ; des sujets, compléments, etc. : GÉNÉRIQUES structure de chaque phrase Analyse sémantique 4.3.1 Correcteur de texte Désambiguïsation des mots selon le contexte (avocat), Toute personne utilisant un outil de traitement de texte résolution des références (elle, la voiture), représentation du comme Microso Word a fait usage d un outil de vérification sens d une manière lisible par la machine orthographique qui indique les erreurs d or- +Composants spécifiques à la tâche visée Des modules spécifiques à la tâche effectuent alors différentes opérations telles que le résumé automatique d un texte, la consultation d une base de données et bien d autres. Nous allons illustrer ci-dessous les domaines d application génériques et mettre en évidence leurs modules de base. Encore une fois, les architectures des applications sont très simplifiées et idéalisées, pour illustrer la complexité des applications des technologies de la langue de manière compréhensible. Après avoir présenté les domaines d application de base, nous donnerons un bref aperçu de la situation concernant les technologies de la langue pour le français, avec un aperçu des programmes de recherche passés et en cours. À la fin de cette section, nous présentons une esti- disponibilité, la maturité, ou la qualité. Ce tableau vise à Texte en entrée Sortie Pré-traitement Analyse grammaticale Analyse sémantique Modules spécifiques à la tâche

Composants de traitement de la langue État des lieux pour le français Analyse morpho-lexicale et morpho-syntaxique Quant Disp Qual Couv Matur Péren Adapt 4 4 4 4 4 3 3 Analyse syntaxique 4 4 4 4 4 2 2 Sémantique des phrases 2 2 2 1 2 1 2 Sémantique des textes 2 1 3 2 2 2 1 Traitement avancé du discours 2 2 2 2 2 2 1

Ressources pour le traitement de la langue Les technologies de la langue ont besoin de «ressources» pour fonctionner Quant Disp Qual Couv Matur Péren Adapt Lexiques, bases terminologiques 4 3 4 3 4 4 3 Grammaires 3 2 3 3 3 2 2 Thésaurus, WordNets 3 3 2 1 3 3 3 Ressources ontologiques pour la connaissance du monde (upper models, données liées) 2 1 2 1 2 1 1 Corpus de référence 3 1 4 3 4 4 3 Corpus syntaxiques (corpus arborés) 4 4 3 3 3 3 2 Corpus sémantiques 2 2 2 1 2 2 2 Corpus de discours 1 2 2 2 1 1 1

Plan Technologies de la langue : composants et ressources Technologies de la langue Composants et ressources Applications de traitement de la langue Textes, production, traduction Langue parlée, écrite, signée Textes, information, connaissance

Correction orthographique Aides à la rédaction Correcteur Cordial, site Reverso Modèles de langage statistiques Texte en entrée Correcteur orthographique Correcteur grammatical Propositions de corrections 5 : Architecture type de correcteur de texte, à base de règles (flèches jaunes) ou statistique (flèche bleue)

Traduction automatique Voir l exposé de François Yvon Traduction Google sur Airbnb Traduction automatique statistique Texte source Analyse de texte (formatage, analyse morphologique, syntaxique, etc.) Règles de traduction Texte cible Génération de texte 9 : Traduction automatique statistique (flèche bleue) ou à base de règles (flèches jaunes) Qnt Dsp Qal Cvt Mtr Prn Adp particulièrement active dans ce domaine, et le premier livre populaire sur la traduction automatique (TA) a été écrit par un Français (Delavenay, 1957). Néanmoins, la directe peut être réalisable dans des cas comme celui de l exemple ci-dessus. Mais les systèmes basés sur des règles (ou basés sur la connaissance) analysent souvent

Résumé automatique, Génération de texte D autres aides à la rédaction Résumé par extraction : sélection des phrases clés du document Qnt Dsp Qal Cvt Mtr Prn Adp Génération de texte : création de nouvelles phrases, de nouveaux textes bulletin météo, comptes rendus médicaux Qnt Dsp Qal Cvt Mtr Prn Adp

Plan Technologies de la langue : composants et ressources Technologies de la langue Composants et ressources Applications de traitement de la langue Textes, production, traduction Langue parlée, écrite, signée Textes, information, connaissance

Reconnaissance de la parole Parole texte Commande vocale Dictée automatique Transcription de parole : nouvelles radiotélévisées, réunions... Détection d émotions dans la parole Qnt Dsp Qal Cvt Mtr Prn Adp

morpho-syntaxique, résolution des coréférences, à 10% d erreurs étant comparable à celui requis pour Dialogue oral Oral Oral Siri d Apple Sortie vocale Synthèse vocale Conversion phonétique et marqueurs prosodiques Compréhension, génération et gestion du dialogue Entrée vocale Traitement du signal Reconnaissance 7 : Architecture de base d un système de dialogue oral Qnt Dsp Qal Cvt Mtr Prn Adp

Détection du locuteur (qui parle) Segmentation et regroupement des locuteurs dans un flux audio, dans un flux vidéo SCALE speaker diarization tutorial, 01/13/2010, Christian Müller Indexation des segments, accès direct à ce qu a dit un locuteur

Synthèse vocale Texte parole Lecture à voix haute Synthèse d annonces (train, gares, etc.) Lecture de réponses Qnt Dsp Qal Cvt Mtr Prn Adp

Traitement de l écrit Image texte Numérisation de textes Reconnaissance de caractères Free OCR To Word

Traitement de la langue des signes Une autre langue Langue visuo-gestuelle Modélisation de la langue des signes Synthèse de textes en LSF Analyse d énoncés Gare SNCF, Websourd/LIMSI

Plan Technologies de la langue : composants et ressources Technologies de la langue Composants et ressources Applications de traitement de la langue Textes, production, traduction Langue parlée, écrite, signée Textes, information, connaissance

Recherche sur le web Recherche dans des bases de documents, dans des systèmes d information découverte neptune Pages Web Pré-traitement Traitement sémantique Indexation Mise en correspondance et calcul de la pertinence Pré-traitement Analyse de la demande Demande de l'utilisateur Résultat de la recherche 6 : Architecture type de moteur de recherche Web Qnt Dsp Qal Cvt Mtr Prn Adp

Recherche de réponses à des questions Réponse précise plutot que document entier Qui a découvert Neptune? Urbain Le Verrier Analyse de la question Recherche de réponses Dans des bases de données / de connaissances Dans des bases de questions et réponses (FAQ) Dans des textes Mixte Qnt Dsp Qal Cvt Mtr Prn Adp

Extraction d information Inclut la détection d entités, de relations, de négations, d opinions, de sentiments, la fouille de textes, l anonymisation, etc. Nombreuses applications Qnt Dsp Qal Cvt Mtr Prn Adp Transparent : Xavier Tannier

Classification de texte Tâche générique avec de nombreuses applications Ce message est-il un pourriel? Quel est le thème de cet article? Qui est l auteur de ce livre? Dans quelle catégorie faut-il indexer ce brevet / cet article / cette recette? En quelle langue est écrit ce message? Quel est le degré de lisibilité de cette brochure?

En conclusion Quant Disp Qual Couv Matur Péren Adapt Traduction automatique 5 4 4 3 4 3 3 Génération de langue 2 1 2 2 2 1 2 Reconnaissance de la parole, dialogue oral 4 3 4 4 4 3 3 Synthèse vocale 4 3 4 4 4 3 3 Gestion de dialogue 3 2 3 3 3 2 2 Recherche d Informations 4 5 5 4 5 4 4 Résumé automatique, Réponse aux questions, Technologies avancées d accès à l information 3 3 3 3 3 2 2 Extraction d Informations 3 3 4 3 4 3 3