Atelier TALS. Traitement automatique et langues des signes. Quels outils formels pour quelle(s) modélisation(s)

Documents pareils
Grammaires d unification

Le modèle standard, SPE (1/8)

MASTER LPL : LANGUE ET INFORMATIQUE (P)

1. Qu est-ce que la conscience phonologique?

N SIMON Anne-Catherine

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Évaluation et implémentation des langages

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Interface Homme-Machine 1

Chapitre 1 : Introduction aux bases de données

LES INTERFACES HOMME-MACHINE

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Prévalence et étiologie. Le retard mental : langage et communication. Définitions et classifications (2) Définitions et classifications

Livret personnel de compétences

Baccalauréat technologique

Vers une architecture générique de système de dialogue oral homme-machine

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Cours 1 : La compilation

Document d aide au suivi scolaire

Le génie logiciel. maintenance de logiciels.

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

TEXT MINING von 7

M Études et développement informatique

! Text Encoding Initiative

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Observatoire des ressources numériques adaptées

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

IFT2255 : Génie logiciel

Apprentissage Automatique

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

MANUEL TBI - STARBOARD

M Études et développement informatique

TD 1 - Structures de Traits et Unification

PROJET DE FIN D ETUDES

Les apports de l informatique. Aux autres disciplines

L ORAL OBJET OU MOYEN D APPRENTISSAGE?

Dossier justificatif des travaux de R&D déclarés au titre du CIR

LEXOS, logiciel d'étude lexicale et de conjugaison

Machines virtuelles Cours 1 : Introduction

Programme de la 1ère année

Semantic Web Inside Guillaume Érétéo Directeur R&D

Université de Bangui. Modélisons en UML

I/ CONSEILS PRATIQUES

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

UE11 Phonétique appliquée

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Analyse,, Conception des Systèmes Informatiques

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Ressources lexicales au service de recherche et d indexation des images

PARCOURS COMPLET AU COURS MOYEN

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Programmation d'agents intelligents Vers une refonte des fils de raisonnement. Stage de fin d'études Master IAD 2006

Urbanisation de système d'information. PLM 3 (Product Lifecycle Management) Élaborations, versions, variantes, configurations

Master Sciences et Technologies Mention Informatique Spécialité E-Services en Alternance

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

Compte-rendu de Hamma B., La préposition en français

TEXT MINING Tour d Horizon

Portail Vocal d Entreprise

Programme et contenus Licence d'informatique de Lille, parcours MIAGE, en alternance ou en formation continue (13:40)

SIG ET ANALYSE EXPLORATOIRE

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Cours 1 : Qu est-ce que la programmation?

Semestre 1. Objectifs Approfondissement de l environnement Java et de son interface de programmation d applications : réseaux, et processus.

Interface Humain-Machine

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

3-La théorie de Vygotsky Lev S. VYGOTSKY ( )

Construction d ontologies à partir de textes

Thomas Dutronc : Demain

Compilation (INF 564)

Utilisation des tableaux sémantiques dans les logiques de description

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Chapitre I : le langage UML et le processus unifié

Entre Relations Temporelles et Relations de Discours

MATHÉMATIQUES ET INFORMATIQUE

La scénographie des environnements d apprentissage électroniques. Une étude de cas en FLE

1 Description générale. Résumé

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Chapitre VI- La validation de la composition.

Livre Blanc WebSphere Transcoding Publisher

ORACLE TUNING PACK 11G

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

LA RECHERCHE DOCUMENTAIRE

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA (d'après A.-M. Hugues) màj 17/04/2007

Tableau des contenus

Qu est-ce qu une tâche?

SECTION 5 BANQUE DE PROJETS

Documentation utilisateur. [EIP] TransLSF

Transcription:

Atelier TALS Traitement automatique et langues des signes Quels outils formels pour quelle(s) modélisation(s) A. BALVET, UMR STL 8163 Lille 3 13/06/2008 1/47

Sommaire TALN : un champ unifié? Questions épistémologiques autour d'une pratique Historique du domaine Questions épistémologiques : science ou ingénierie? Domaines, problèmes et approches en TAL des langues écrites Quelques applications typiques du TAL Problèmes actuels en TAL TALS : quels prérequis? La question de la formalisation Formalisation et formes graphiques TALS : en analyse ou en génération? Domaines des LS et perspectives de formalisation Phonétique, morpho-phonétique Syntaxe Sémantique, énonciation/discours Conclusion et perspectives A. BALVET, UMR STL 8163 Lille 3 13/06/2008 2/47

TALN : un champ unifié? Références bibliographiques TAL, vol. 43, n 3/2002 : Problèmes épistémologiques Cori M., 2003. La mathématisation des formalismes syntaxiques, Linx 48, pp. 13-28. Cori M., Marandin J-M., 2001. La linguistique au contact de l'informatique : de la construction des grammaires aux grammaires de construction, Histoire, Épistémologie, Langage 23, pp. 49-79. Sabah G., 2004. Intelligence artificielle, linguistique et cognition, in Fuchs C. (éd.), La linguistique cognitive, pp. 195-222, Éditions Ophrys, Éditions de la Maison des Sciences de l'homme. A. BALVET, UMR STL 8163 Lille 3 13/06/2008 3/47

TALN : un champ unifié? Léon & Cori : Historique du domaine Une origine multidisciplinaire Cybernétique/informatique Intelligence Artificielle Linguistique mathématique => "grammaire générative" Un but utopique : la Traduction Automatique Le contexte post-guerre froide Une succession de phases d'euphorie et de dépression la grande illusion le rapport ALPAC de "bulles" en "bulles" Une spécialisation du domaine centration sur l'écrit répartition taylorienne du travail intégration des traitements de l'oral : reconnaissance et synthèse vocale A. BALVET, UMR STL 8163 Lille 3 13/06/2008 4/47

TALN : un champ unifié? Questions épistémologiques Cori & Marandin (2001) : mathématisation/formalisation impulsion de mathématisation via l'informatique naissante renforcement par l'argument de Chomsky en faveur d'une linguistique "algébrique" (théorie des langages) pour faire de la linguistique une "vraie" science (falsifiabilité, prédictivité, objectivité) => double appartenance des formalismes utilisés en TAL : mathématiques/informatique définition d'un "langage de représentation adapté", à partir d'un ensemble de symboles dont le rôle est explicitement défini "calculs" possibles (nécessaires) sur les suites de symboles 2 logiques en TALN scientifique : le formalisme comme modèle de la compétence cognitive utilitariste : le formalisme comme moyen d'assurer un service 1 préoccupation constante : l'implémentation => fidélité au principe de scientificité A. BALVET, UMR STL 8163 Lille 3 13/06/2008 5/47

TALN : un champ unifié? Questions épistémologiques Bès : le TALN, entre science et ingénierie Définition d'une grille d'analyse des pratiques Ob: <Expr, Obs>, Système d'hypothèses, Test de Corroboration des observations sur les expressions (intersubjectivité) indépendamment de l'observateur réfutation des "contenus mentaux" (intuition) comme source d'observables définition de conditions de "bonne formation" des Expr SH doit être informatis(é/able) définir : type de formalisme, portabilité/extension linguistique, visée descriptive/explicative/prédictive produire des <Expr, Inf(érées)> les plus proches des <Expr, Obs> Test de Corroboration mesure de distance entre <Expr, Inf> // <Expr, Obs> => Une théorie complètement formalisée est (en principe) indépendante de la machine qui la calcule => Un formalisme n'est pas une théorie, il n'est qu'un véhicule d'hypothèses A. BALVET, UMR STL 8163 Lille 3 13/06/2008 6/47

Indépendance formalisme/implémentation? DCG Pereira 1980 LFG Bresnan 1982 GPSG Gazdar 1982 TAG Joshi 1985 FUG Kay 1985 PATR II Shieber 1986 HPSG Pollard & Sag 1994 LISP : fonctionnel, logique Prolog, déclaratif/logique, contraintes (swi-prolog) Colmerauer 1970 C, procédural, optimisé 1970 C++, procédural/orienté objet/héritage polymorphe Stroustrup 1980 Parallélisme entre langages/paradigmes de programmation et formalismes linguistiques : Lisp/Prolog : programmation déclarative, grammaires de réécriture + structures de traits ; analyse d'une phrase = démonstration d'un théorème C/C++ : programmation procédurale, ATN et automates à états finis optimisés ; analyse de surface d'une phrase = meilleur chemin dans un graphe C++/Java : héritage (polymorphisme) => HPSG Oz : programmation par contraintes => analyse = optimisation maximale dans un réseau de contraintes Java procédural/orienté-objet héritage monotone Gosling & Naughton 1995 Oz distribué déclaratif héritage logique contraintes concurrence 2000 A. BALVET, UMR STL 8163 Lille 3 13/06/2008 7/47

Questions épistémologiques Synthèse Mathématisation/formalisation la formalisation est un prérequis pour le TAL, un impératif de scientificité à condition que des calculs puissent être réalisés sur les symboles du formalisme le formalisme ne devrait être que le véhicule d'une théorie linguistique Rapports entre observations/modèle les observations sont le point d'entrée de l'approche scientifique, elles permettent de construire un modèle, dont la qualité doit être mesurée par un test de corroboration <Expr,Obs>/<Expr,Inf> Concilier règles symboliques/régularités statistiques en TAL "classique", une diversité d'approches est observable, elle est due à son versant appliqué (corpus) cette diversité pose la question de l'unification des approches la justification théorique du choix d'un outil de calcul (ex. : HMM) A. BALVET, UMR STL 8163 Lille 3 13/06/2008 8/47

TALN : un champ unifié? Domaines, problèmes et approches en TAL des langues écrites Oral reconnaissance et synthèse vocale Texte analyse syntaxique => dérivation d'une forme sémantique Approches traitements localisés, processus cumulatifs, monolinéaires traitements dans le domaine intra et inter-lexical, intraphrastique Problèmes unifier les approches gérer la multilinéarité (ex. : phonologie/syntaxe) dépasser le niveau de la forme traitement des anaphores (intra/interphrastique) calcul du sens d'un énoncé traitement du niveau interphrastique / textuel A. BALVET, UMR STL 8163 Lille 3 13/06/2008 9/47

TALN : un champ unifié? Le TAL par l'exemple Écriture d'une grammaire formelle CFG opérateur "-->" (se réécrit) X --> Y, X côté gauche, Y côté droit X et Y: ensemble de symboles : Vocabulaire Non Terminal (constituants) : {P, SN, SV, N, Det, V...} Vocabulaire Terminal (lexique) : {le, la, les, chat, souris,...} Grammaire = système formel cohérent, dont on peut prouver la valeur de vérité (V ou F) : P --> SN, SV. SN --> Det, N. SV --> V. Det --> "le". N --> "chat". V --> "dort". A. BALVET, UMR STL 8163 Lille 3 13/06/2008 10/47

TALN : un champ unifié? Le TAL par l'exemple Application des règles => algorithme d'application 1) TANT QUE NON FIN DE LISTE DE RÈGLES LIRE les règles une par une de haut en bas POUR CHAQUE règle ECRIRE dans VNT le symbole en partie gauche ECRIRE dans CONDITIONS le ou les symboles en partie droite FIN DE LISTE 2) POUR CHAQUE mot à analyser Vérifier si le mot est dans CONDITIONS SI OUI: CHERCHER quel élément de VNT il permet de construire SI NON: REJETER le mot PROCHAIN mot A. BALVET, UMR STL 8163 Lille 3 13/06/2008 11/47

TALN : un champ unifié? Le TAL par l'exemple Un exemple emprunté à la phonologie : analyse de la structure syllabique d'une suite de phonèmes structure postulée : attaque, rime(noyau + coda) BUT : test d'un modèle syllabique VNT : {syllabe, attaque, rime, noyau, coda, consonne, voyelle} VT : {i,é,è,a,o,u...p,t,k,l,m,n,r...} Analyse : démonstration de la vérité du théorème "syllabe" Génération : recherche de toutes les formes de base de "syllabe" A. BALVET, UMR STL 8163 Lille 3 13/06/2008 12/47

TALN : un champ unifié? Le TAL par l'exemple Un exemple emprunté à la morphologie : analyse de la structure morphologique d'un mot BUT : test d'un modèle morphologique (signifiants uniquement) VNT : {dérivation, racine, préfixe} VT : {re, dé, sur,..., faire, monter...} possibilité de récursivité sur "préfixe" Analyse : preuve de la vérité de "dérivation", y compris pour des formes nouvelles Génération : production de toutes les formes (potentiellement infinies) de mots dérivés à partir d'un ensemble fini de morphèmes Possibilité d'ajout d'une face signifiée (glose, sèmes...) Compositionnalité sémantique mécanique A. BALVET, UMR STL 8163 Lille 3 13/06/2008 13/47

TALN : un champ unifié? Le TAL par l'exemple Syntaxe : sophistication progressive des formalismes L'influence de l'implémentation CFG => DCG (Prolog/Lisp), abandon des transformations par ATN une capacité expressive accrue : déclaration de contraintes, sousspécification, unification DCG => FUG/PATR I et II (Prolog) un accroissement supplémentaire d'expressivité : les Structures de Traits LFG : orientées "psycholinguistique", fonctionnelles GPSG : orientées "grammaire générative" (tête, X-barre, schéma DI-OL) TAG : orientées "arbres" (bibliothèques d'arbres de base) HPSG : orientées "Signe" (SynSem, héritage à partir de structures de base) un effet de bord : le formalisme se substitue aux hypothèses (HPSG) Qu'en est-il de l'implémentation? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 14/47

TALN : un champ unifié? Synthèse sur les grammaires formelles type CFG : le formalisme des CFG peut être appliqué à de nombreux domaines de la linguistique : phonologie, morphologie, syntaxe, sémantique, pragmatique à condition que les phénomènes possèdent une structure (constituance, ordre) une représentation formalisée dans un langage symbolique adéquat un mécanisme de calcul sur les symboles (algorithme d'application des règles) => Construire et évaluer des modèles linguistiques, y compris sur des formes nouvelles : capacité descriptive, prédictive et éventuellement explicative les grammaires CFG peuvent être utilisées aussi bien en analyse qu'en production => réversibilité si une sémantique explicite est associée aux formes symboliques, possibilités de calculs sémantiques => 2 propriétés centrales pour la grammaire générative, mais également pour les applications en ingénierie A. BALVET, UMR STL 8163 Lille 3 13/06/2008 15/47

TALN : un champ unifié? Quelques applications typiques du TAL Des "briques" de base... Segmentation automatique de texte en unités linguistiques Étiquetage syntaxique automatique Analyse syntaxique automatique Réseaux sémantiques et autres lexiques informatisés...pour construire des outils logiciels Texte Recherche d'information Traduction Assistée par Ordinateur Voix Reconnaissance vocale Synthèse de la parole à partir du texte (TTS) A. BALVET, UMR STL 8163 Lille 3 13/06/2008 16/47

TALN : un champ unifié? Identification Rôles Thématiques Identification Anaphores/Référents Calcul Sémantique: Cohérence d'un micro-monde Typage Sémantique des prédicats Étiquetage Analyse Syntaxique Identification Fonctions Segmentation Les phases d'analyse d'une phrase écrite A. BALVET, UMR STL 8163 Lille 3 13/06/2008 17/47

TALN : un champ unifié? (Sélection de) problèmes actuels en TAL Le niveau sémantique calcul compositionnel de sens dans une optique générative Lexique Génératif (Pustejovsky, 1995) Le niveau pragmatique et énonciatif DRT (Discourse Representation Theory) et SDRT (Segmented DRT) présupposés, modalité, temporalité structure discursive et possibilités d'élaboration, d'ancrage d'anaphores La gestion de l'interaction Dialogue Homme-Machine adapter le contenu informationnel au profil d'utilisateur (buts, intentionnalité, capacité, habitudes) construire une représentation de l'utilisateur gérer l'interaction (tours de parole, intention pragmatique) Ex. : interpréter les questions A. BALVET, UMR STL 8163 Lille 3 13/06/2008 18/47

TALS Références bibliographiques Boutet D. et Garcia D., 2003. Vers une formalisation graphique de la Langue des signes française (LSF) : éléments d'un programme de recherche, La nouvelle revue de l'ais, Langue des Signes Françaises (LSF), Enjeux culturels et pédagogiques, numéro 23, pp. 49-62, Éditions du CNEFEI. Cuxac C., 2000. La Langue des Signes Française (LSF), Les voies de l'iconicité, Faits de Langue, Ophrys. Cuxac C., 2003 a). Phonétique de la LSF : une formalisation problématique, Linguistique de la LSF : recherches actuelles, Actes du colloque de Villenveuve-d'Ascq, Silex/Université Lille 3. A. BALVET, UMR STL 8163 Lille 3 13/06/2008 19/47

TALS Références bibliographiques Cuxac C., 2003 b). Une langue moins marquée comme analyseur langagier : l'exemple de la LSF, La nouvelle revue de l'ais, Langue des Signes Françaises (LSF), Enjeux culturels et pédagogiques, numéro 23, pp. 19-30, Éditions du CNEFEI. De Langhe O., Guitteny P., Portine H, Retoré C., 2003. À propos des structures OSV en LSF, Linguistique de la LSF : recherches actuelles, Actes du colloque de Villenveuve-d'Ascq, Silex/Université Lille 3. I. Marshall, E. Sáfár "Grammar Development for Sign Language Avatar-Based Synthesis", In 3rd International Conference on UA in HCI, vol. 8: Universal Access in HCI: Exploring New Dimensions of Diversity, Las Vegas, Nevada, USA. A. BALVET, UMR STL 8163 Lille 3 13/06/2008 20/47

TALS Références bibliographiques Pizzuto E., 2007. Deixis, anaphora and person reference in signed languages, Verbal and Signed Languages, Pizzuto E., Pietrandrea P., Simone R. (eds.), Mouton de Gruyter. Vermeerbergen M., 2003. The quest for Basic Word Order in Flemish Sign Language, Linguistique de la LSF : recherches actuelles, Actes du colloque de Villenveuve-d'Ascq, Silex/Université Lille 3. Vermeerbergen M., 2006. Past and current trends in sign language research, Language & Communication, 26, pp. 168-192, Elsevier. A. BALVET, UMR STL 8163 Lille 3 13/06/2008 21/47

TALS : quels prérequis? Formalisation de formes graphiques multilinéaires TALS en analyse à partir du signal vidéo "brut" expériences de reconnaissance de paramètres isolés (main, regard) difficulté d'un traitement multilinéaire TALS en analyse à partir d'une capture de mouvement pistes pour compléter l'annotation manuelle/modélisations articulaires Difficultés techniques importantes (reconnaissance de formes et traitement du signal) Formalisation nécessaire objectif de scientificité / implémentation : analyse & génération => Quelle formalisation? Problèmes de segmentation TALS sur transcriptions? Quel standard? Quelles structures? TALS sur écriture? Quel système? Quelle langue? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 22/47

TALS : quels prérequis? TALS : en analyse ou en génération? Analyse : nombreux problèmes techniques, théoriques (multilinéarité) et épistémologiques Génération possibilité de tester des modèles pour chaque domaine des LS générer : des suites de symboles formes "phonétiques" formes "morphologiques" formes "sémantiques" explicitées (sèmes, symboles complexes) => animation d'avatars à partir d'un contenu conceptuel à véhiculer (formes sémantiques explicitées) structures narratives/discursives en fonction d'une visée (précalculée ou non) A. BALVET, UMR STL 8163 Lille 3 13/06/2008 23/47

TALS : quels prérequis Quelle théorie linguistique? Linguistique théorique Primauté à la théorie sur les observables Grammaire(s) Générative(s) Modèles linguistiques basés sur une représentation logique des classes d'objets à modéliser, en Conditions Nécessaires et Suffisantes Linguistique cognitive/empirique Primauté aux observables => construction d'un modèle Approches fonctionnalistes Approches distributionnelles Linguistiques de corpus Modèles linguistiques pouvant prendre en compte l'effet de prototype Conséquences pour un TALS TAL = théorico-empirique, Conditions Nécessaires et Suffisantes par défaut TAL "cognitif" // linguistique cognitive => question épistémologique actuelle A. BALVET, UMR STL 8163 Lille 3 13/06/2008 24/47

TALS : quels prérequis Quelle Langue? Continuum supposé (Vermeerbergen) "eau plate" --> "eau pétillante" -->?? Néerlandais signé --> STD --> TTF/TS --> TP (Cuxac) Cuxac et al. Prégnance des Structures de Transfert (ST) quasi-impossibilité de construire des énoncés uniquement en STD nécessaire va-et-vient entre STD / ST, entre 2 visées contraintes : STD > TTF > TS > TP (simples, complexes, loupe...) "description sémantique suffisante" (sic), phonétique des LS = calque à partir des LO Structuration des énoncés par des contraintes pragmatiques, énonciatives, sémiotique, discursives Problème (?) : TALS = modélisation des ST = modélisation de phénomènes inter-énoncés A. BALVET, UMR STL 8163 Lille 3 13/06/2008 25/47

Domaines des LS et perspectives de formalisation Le niveau phonétique Cuxac : formalisation problématique question de l'existence d'une phonétique des LS position en faveur d'un niveau immédiatement morpho-phonétique les configurations de base (proformes) convoquent des "nuages" de sèmes, qui précipitent par contextualisation l'iconicité est vue comme un moteur premier de productivité morphémique Mais : "un nombre fini de proformes (configurations de la main en structures de transferts) permet de représenter un ensemble non fini de formes extralinguistiques" (Cuxac 2003 a); p. 96) => en génération, inventaire nécessaire (VNT/VT) des proformes Modélisations physiologiques et articulaires de la gestualité modélisation articulaire // modélisation de l'appareil vocal modélisation articulaire // modélisation des structures prosodiques A. BALVET, UMR STL 8163 Lille 3 13/06/2008 26/47

Domaines des LS et perspectives de formalisation Le niveau syntaxique en LO Les formalismes syntaxiques doivent gérer 4 contraintes majeures en TAL des LO Ordre des Constituants : fixe/libre, SVO, SOV, OSV... Accord : partage réglé de traits morphologiques entre plusieurs constituants Structure Argumentale : constituants attendus, ex. : V SN SP Restrictions de Sélection : sous-ensemble de paradigmes (usage, connaissances extralinguistiques...), ex. : "manger" SN[+comestible] le garçon mange le chocolat /? le chocolat mange le garçon Principes de gestion propres à chaque formalisme structures de constituants (DCG, LFG, HPSG) / ordre dans les règles traits : structure prédicative (LFG), structure argumentale + restrictions de sélection (HPSG) propagation de traits du niveau lexical vers les constituants de plus haut niveau : LFG & HPSG (principe de traits de tête) A. BALVET, UMR STL 8163 Lille 3 13/06/2008 27/47

Domaines des LS et perspectives de formalisation Le niveau syntaxique en LS Définition plus ou moins claire (Cuxac) Visée non illustrative (STD) Ordre : OSV préféré Accord : non (pas de morphologie flexionnelle en LS), partage de traits? Structure "Argumentale" : oui, ex. [MANGER] ou [CHOISIR], plutôt des rôles sémantiques Restrictions de sélection : oui si les arguments des prédicats verbaux sont non marqués, ex. [MANGER] ou [CHOISIR] (Cuxac, 2003 a)) si arguments marqués, passage en ST (semi-tp) => Ambiguïtés ou incompréhension possibles Visée illustrative (ST) Ordre : surtout une cohérence discursive, narrative, pragmatique, énonciative Accord : partage de traits? Structure Argumentale : oui, cf. supra Restrictions de sélection : ~ dépend du contenu conceptuel, ex. le chocolat mange le garçon, recette de la tarte au pommes par N. Chabes => Multivocité, multilinéarité possibles sans ambiguïtés A. BALVET, UMR STL 8163 Lille 3 13/06/2008 28/47

Domaines des LS et perspectives de formalisation Le niveau syntaxique en LS (De Langhe et al., 2003): modélisation des contraintes syntaxiques en STD Ordre canonique en STD : OSV violation des contraintes d'ordre => ambiguïté, incompréhension, Français signé (agrammaticalité) Expérimentations 20 énoncés OSV (vidéo) : compréhension totale/partielle/nulle 10 énoncés OSV (vidéo) : sélection d'image // interprétation 20 histoires sur images => narration en LSF 3 mots ("agent", "patient", "action") sur étiquettes => énoncé minimal en LSF Verbe non directionnels : [CHIEN] [REGARDER] [HOMME] ordre SVO = compréhension totale ordre OSV = 3 possibilités d'interprétation suivant les rôles sémantiques => directionnalité/pointage => non ambiguïté => non agentivité de l'un des actants => ordre OSV/SVO => non ambiguïté A. BALVET, UMR STL 8163 Lille 3 13/06/2008 29/47

Domaines des LS et perspectives de formalisation Le niveau syntaxique en LS (De Langhe et al., 2003): propositions de formalisation dans le cadre minimaliste (Grammaire Générative) Principes très généraux + Paramètres spécifiques aux langues structures d'arbres binaires, identification de la direction de la tête implémentation envisageable (langages faiblement contextuels) hypothèse lexicaliste des contraintes syntaxiques 2 opérations de composition : "merge" / "move", visibles ou non 2 niveaux de représentation : forme phonologique/logique passage de SVO à SOV par une pondération sur l'un des paramètres du modèles (i.e. "cas") passage de SOV à OSV par l'introduction d'un paramètre (+topic) falsifiabilité de l'hypothèse assurée par études sur corpus et mesure de la corrélation entre énoncés topicalisés et ordre OSV A. BALVET, UMR STL 8163 Lille 3 13/06/2008 30/47

Domaines des LS et perspectives de formalisation Le niveau syntaxique en LS Marshall : génération d'énoncés BSL dans le cadre HPSG STD uniquement recours aux primitives graphiques de HamNoSys pour la représentation "phonétique" définition de contraintes de structures syntaxiques minimales modélisation de la structure rhétorique de l'énoncé en DRT (Kamp & Reyle, 1993) pour la représentation sémantique/discursive => intégration dans le formalisme HPSG, aménagé pour la BSL Application visée génération d'énoncés dans le cadre du projet européen VisiCast Possibilités d'extension à d'autres LS Quel statut : science / ingénierie? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 31/47

Domaines des LS et perspectives de formalisation Marshall Modélisation du rôle grammatical de l'espace reprises anaphoriques de référents nominaux par pointage ou inclusion par classificateurs dans les verbes de manipulation cohérence entre emplacement des verbes directionnels / arguments "accord" en nombre verbes / arguments => intégration dans le formalisme HPSG Spécifications formelles des contraintes syntaxiques en BSL sous-catégorisation et contraintes d'ordre déterminées principalement au niveau lexical : V et Adj typage des verbes : directionnels, fixes, de manipulation typage des noms : personne, objet, localisation tous les éléments possèdent les traits SYN(taxe), SEM(antique), PHON(étique) + GLOSE Phénomènes traités construction d'énoncés en STD/ «TS??» => animation d'avatar reprises anaphoriques par pointage A. BALVET, UMR STL 8163 Lille 3 13/06/2008 32/47

Marshall Architecture d'un système de génération d'énoncés en BSL A. BALVET, UMR STL 8163 Lille 3 13/06/2008 33/47

Marshall Forme phonétique de "I take the mug" A. BALVET, UMR STL 8163 Lille 3 13/06/2008 34/47

Marshall Forme phonétique de "I take the mug" A. BALVET, UMR STL 8163 Lille 3 13/06/2008 35/47

Marshall Animation d'avatar [MUG] [TAKE] [I] A. BALVET, UMR STL 8163 Lille 3 13/06/2008 36/47

Marshall Animation d'avatar [BOWLS] [SINK] [PUT] A. BALVET, UMR STL 8163 Lille 3 13/06/2008 37/47

Marshall Représentation DRS du pluriel distributif A. BALVET, UMR STL 8163 Lille 3 13/06/2008 38/47

Domaines des LS et perspectives de formalisation Marshall Modélisation du contenu conceptuel et des présupposés Structure sémantique : SEM représentation suivant le formalisme DRT (Kamp & Reyle, 1993) exemple du pluriel : interprétation collective ou distributive => réalisations différentes en BSL Conclusion : ingénierie/science? Démarche applicative "industrielle" traduction de l'anglais écrit vers des énoncés en BSL <Expr,Obs> pas clairement explicitées, pas de distinction claire entre : approche théorique/empirique (corpus?) Système d'hypothèses : intégré au formalisme HPSG, implémenté via ALE Test de corroboration : pas d'évaluation de la pertinence des formes générées => Plutôt une réalisation en ingénierie A. BALVET, UMR STL 8163 Lille 3 13/06/2008 39/47

Domaines des LS et perspectives de formalisation Le niveau sémantique TAL des LO : Centration sur le "mot" Modélisations en sémantique lexicale : Lexique Génératif (Pustejovsky) potentiels de sèmes pour chaque mot spécification des propriétés sémantiques des mots en fonction d'une ontologie (héritage, structuration logique de concepts) sélection dynamique des facettes => interprétation en contexte modélisation de la polysémie des mots Ex. : Max a posé son carrelage [carrelage = matériau] Max a sali son carrelage [carrelage = surface] Max achète un roman [roman = objet concret] Max écrit un roman [roman = objet non concret] A. BALVET, UMR STL 8163 Lille 3 13/06/2008 40/47

Domaines des LS et perspectives de formalisation Le niveau sémantique Lexique Génératif Typage lexical // ontologie (hiérarchie de concepts) Spécification de la structure argumentale Spécification de la structure événementielle type d'événements + structure en sous-événements (+ sous-types) Qualia Structure // théorie métaphysique : rôles formel : propriétés maximalement distinctives (orientation, amplitude, forme, couleur, position...) constitutif : propriétés physiques, structure interne télique : fonction (matérielle) de l'objet agentif : facteurs influençant la création de l'objet créateur, artefact, objet naturel, chaîne causale Mécanisme de sélection dynamique de traits => interprétation en contexte => propriétés minimales pour une classification objective (Conditions Nécessaires et Suffisantes) => typage sémantique par héritage A. BALVET, UMR STL 8163 Lille 3 13/06/2008 41/47

Lexique Génératif L'entrée "roman" vs. "dictionnaire" roman(*x*) Const: récit(*x*) Formel: livre(*x*), CD(*x*) Télique: lire(t,y,*x*) => événement [transition] Agent: artefact(*x*), écrire(t,z,*x*) dictionnaire(*x*) Const: liste-alphabétique(*x*) Formel: livre(*x*), CD(*x*) Télique: référence(p,y,*x*) => activité [procès] Agentif: artefact(*x*), compiler(t,z,*x~) => Transposition possible en STD? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 42/47

Domaines des LS et perspectives de formalisation TAL des LO : Réseaux sémantiques, ex. : Wordnet thesaurus électronique des 4 classes principales N, V, Adj, Adv structuré par des relations sémantiques hyperonymie méronymie (parties/tout) implication logique (ronfler --> dormir) synonymie antonymie utilisation "détournée" en TAL sélection et calcul de sens lexical : Traduction Automatique extension de requêtes en Recherche d'information entreprise {société, compagnie, PME...} racheter {acheter, faire l'acquisition...} entreprise {société, compagnie, PME...} Extension possible aux signes STD? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 43/47

Synthèse TALS => formalisation Définition des objets "eau plate" / "eau gazeuse" / "champagne"? domaines : morpho-phonétique, syntaxe, sémantique? élaboration d'un Système d'hypothèses Formalisation => choix d'un formalisme LFG/HPSG autre? (ex. : DCG pour interpréter des signes en ST) Formalisation => calculs => implémentation Formalisation => test de corroboration Domaines d'un TALS syntaxe : extension de l'approche de Marshall? sémantique définition d'un Lexique Génératif des signes STD? structuration d'un lexique SignNet // Wordnet? A. BALVET, UMR STL 8163 Lille 3 13/06/2008 44/47

Perspectives Formalisation du niveau phonétique L'apport des systèmes de notation HamNoSys, SignWriting et autres systèmes similaires? Formalisation du niveau sémantique Le traitement des anaphores, un problème commun en LO et LS? LO : problème "dur" / LS : la complexité dépend du point de vue et des structures La question de la multi-linéarité Problèmes similaires à l'interface prosodie/syntaxe? Le traitement des phénomènes énonciatifs : L'apport des modèles DRT et SDRT? modèles non implémentés (implémentables?) formalisations logiques de connaissances sur la rhétorique et la pragmatique A. BALVET, UMR STL 8163 Lille 3 13/06/2008 45/47

Conclusions Une formalisation nécessaire Argument supplémentaire pour une écriture de la LSF Des pistes pour un TALS dans le domaine syntaxique : HPSG + HamNoSys + DRT sémantique : Lexique Génératif, "SignNet" discursif : DRT & SDRT Une grille d'analyse pour l'évaluation des pratiques en TAL(S) (Bès, 2002) : ingénierie/science? Les LS comme "analyseurs langagiers" pour le TAL (Cuxac) changement de point de vue sur les observables le niveau sémantique comme prérequis réexamen de la question de la segmentation des unités A. BALVET, UMR STL 8163 Lille 3 13/06/2008 46/47