Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Documents pareils
Apprentissage Automatique

N SIMON Anne-Catherine

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

MASTER LPL : LANGUE ET INFORMATIQUE (P)

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Introduction à la méthodologie de la recherche

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Portail Vocal d Entreprise

UE11 Phonétique appliquée

Document d aide au suivi scolaire

Commerce International. à référentiel commun européen

UE Marketing Stratégique

Qu est-ce que la virtualisation?

ACTIVITÉ DE PRODUCTION ORALE. Niveau B1. Le e-commerce

> innovation. Action «Normalisation» descriptif

LA GESTION DE LA RELATION CLIENT

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

La série L est revalorisée

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Item 169 : Évaluation thérapeutique et niveau de preuve

Systèmes d information et bases de données (niveau 1)

Avant-propos Le problème de la spécificité du texte dramatique... 7 Genres du dramatique et descriptions linguistiques Conclusion...

Introduction. Les articles de la presse spécialisée tendent à nous laisser penser que c est en effet le cas :

Phonologie, Master LFA Professeur : André THIBAULT

BES WEBDEVELOPER ACTIVITÉ RÔLE

Distinction des questions et des consignes

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

CRÉDITS DE DÉVELOPPEMENT PERSONNEL Guide et formulaire de demande pour les organismes souhaitant devenir prestataires.

Groupes de compétences. C est possible! Même en solo!

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Base de données opérationnelle pour les phénomènes PAN Commission SIGMA 2 - AAAF

2 / ENONCER ET DECRIRE LES FONCTIONS DE SERVICE A REALISER

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le

SECTION 5 BANQUE DE PROJETS

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

Manuel de recherche en sciences sociales

Le Cadre Européen Commun de Références pour les Langues

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

APPELS D OFFRE: COMMENT BIEN DÉFINIR VOS BESOINS EN AMONT

S8 - INFORMATIQUE COMMERCIALE

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

PLAN D ÉTUDES. école fondamentale

MON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1

Thèmes et situations : Achat-Vente. Fiche pédagogique

Ressources lexicales au service de recherche et d indexation des images

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

Sujet de thèse CIFRE RESULIS / LGI2P

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

UNIVERSITÉ PARIS-SORBONNE

Organisation de la fin d année du Master 2 de stratégie de communication globale

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Sylvie Guessab Professeur à Supélec et responsable pédagogique du Mastère Spécialisé en Soutien Logistique Intégré des Systèmes Complexes

Qu est-ce qu une problématique?

Méthode universitaire du commentaire de texte

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Atelier A7. Audit de la gestion globale des risques : efficacité ou conformité?

PUBLIC CONCERNE Toute personne chargée de recruter dans le cadre du placement, du recrutement et de l intérim

Livret personnel de compétences

Architecture d'entreprise : Guide Pratique de l'architecture Logique

TERTIAIRES. ( M.U.C., assistant de direction, assistant PME-PMI, comptabilité gestion, N.R.C) Epreuves orales d anglais LV1 et LV2

Titre du MASTER : Lettres, Langues et Sciences humaines Mention : Sciences de l Information et Métiers de la Culture Spécialité : Archivistique

COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

Niveau linguistique Berlitz 1 Niveau A1 du CECRL

Qu est-ce que l Inventaire?

Modulo Bank - Groupe E.S.C Chambéry - prérequis à la formation - doc. interne - Ecoute active.doc Page 1

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

Qu est-ce qu une tâche?

Évaluation et implémentation des langages

Critères de choix pour la

MINISTÈRE DES AFFAIRES ÉTRANGÈRES. PROGRAMME EIFFEL Session VADE-MECUM

Quels sont les indices observés chez les enfants présentant un trouble de traitement auditif?

Gestion d événements et modulation dynamique de choix sous Sphinx par calcul de contraintes en temps réel.

Gestion budgétaire et financière

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Atelier rédactionnel

LES DESCRIPTEURS DU CECRL EN UN COUP D ŒIL

Introduction au datamining

ROI et performance web

LANGUE : UF1 - NIVEAU ELEMENTAIRE

SYNTHÈSE DOSSIER 1 Introduction à la prospection

Programme détaillé MASTER DE MANAGEMENT ET DE STRATEGIE D ENTREPRISE. Objectifs de la formation. Les métiers. Niveau et durée de la formation

Département CRM ÉTUDE DE MARCHÉ

Recherche bibliographique

Charte PNNS Groupe CASINO Résultats

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

PEPI GPI (Gestion de Projet Informatique) - Note de Cadrage décembre

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

Gestion Projet. Cours 3. Le cycle de vie

En face du commanditaire, on met un chef de projet qui connait le domaine (banque, administration, etc.)

Transcription:

U Université dumaine Faculté des Lettres, Langues et Sciences humaines Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations Carole Lailler 1

L interrogation : une modalité interactive Contexte de travail Quels problèmes pour quels objectifs? Les observables Un effort de modélisation RITEL : un corpus de développement Un SMS pour la Science : un corpus de tests L apport de la dimension ontologique Évaluations du modèle Une description par morphotypes Un test d analyse «computationnelle» Une enquête auprès de locuteurs natifs Conclusion et perspectives 2

L interrogation : une modalité interactive Contexte de travail 3

Une thèse de linguistique en morphosyntaxe dans un laboratoire d informatique le LIUM équipe LST 5 ans au total : 2 ans non financés, puis 3 demi-ater 4

1 er Objectif 2 nd Objectif Décrire l interrogation dans la réalité de ses pratiques langagières Modéliser l interrogation pour offrir un étiquetage efficient des questions la machine : traite les signifiants cette thèse : encore du côté des signifiés, même si elle se fonde sur les signifiants 5

L interrogation : une modalité interactive Quels problèmes pour quels objectifs? 6

Un double paradigme questions directes/indirectes et questions totales/partielles hérité du latin qui aboutit à des groupes hétérogènes en français ne rend pas compte des usages tels qu en témoignent les corpus (OTG, SNCF ) Qu en est-il de l intention du questionneur? 7

La conversation spontanée Identifier une interaction en conversation spontanée Caractérisation objective : nombre de phonèmes, de disfluences, présence ou non de «bruits» Caractérisation subjective : le locuteur est le «1 er auditeur de ses propos» [Coursil, 2000] 8

L interrogation : une modalité interactive Les observables 9

Une question = un paradigme à triple entrée L objet du monde visé par la question identité ontologique = mot interrogatif La relation à l interlocuteur [Goffman, 1974] lien future réponse = morphotype utilisé La place accordée à l autre : interlocuteur «plein/restreint» place et intensité des outils choisis 10

Un effort de modélisation 2 e axe : pragmatique 3 e axe : ontologie 1 er axe : morphosyntaxe 11

Un effort de modélisation RITEL : un corpus de développement 12

Corpus issu d un SQR LIMSI, équipe TLP Au plus près du dialogue humain grâce à une gestion de l historique appropriée un phénomène de «cohortes interrogatives» Beaucoup de testeurs, pas de barrière technologique 3600 énoncés à classer pré-interrogatives et diversité ontologique Questions type «quiz» primauté des questions factuelles Quel type d interaction? 13

Émergence des questions Entités Nommées Ontologie concernée Type de questions Pourcentage Pourcentage/ontologie Questions de phatique 0 10,66 l interlocution de réactivation 6,01 impérative 4,65 Questions factuelles quantificatrice 8,83 19,90 locative 3,4 temporelle 7,67 Questions Entités EN personne 13,54 34,99 Nommées EN lieu 13,48 EN objet 7,21 EN événement 0,44 EN numex 0,32 Questions causales Pourquoi (amont) 0,15 1,95 de cours 1,25 Comment (amont) 0,23 procédurale 0,32 Hors ontologie Fin d énoncé 2,99 32,5 Pas de modalité interrogative 14,32 Pré-interrogative 15,19 14

Émergence des questions Entités Nommées Différencier les questions factuelles des questions Entités Nommées des outils distincts : circonstants vs actants du verbe [Tesnière, 1959] une heuristique efficace : proche du nom propre, notion de «référent unique» 15

Un effort de modélisation Un SMS pour la Science : un corpus de tests 16

Corpus SMS Vaste campagne scientifique [Fairon, 2006] «Faites don de vos SMS à la science» un projet de grande envergure 2500 énoncés retenus des interrogations en cascade, de tout type Vers une nouvelle forme de langage pas d oral mais du spontané Des interactions elliptiques mais toujours tournées vers l interlocuteur primauté de la fonction phatique 17

Vers une nouvelle typologie de l interrogation Ontologie concernée Type de questions Pourcentage Pourcentage/ontologie Questions de phatique 9,58 65,44 l interlocution de réactivation 6,68 impérative 49,18 Questions factuelles quantificatrice 0,22 7,22 locative 2,90 temporelle 4,10 Questions Entités EN personne 0,88 7,23 Nommées EN lieu 0 EN objet 3,50 EN événement 2,63 EN numex 0,22 Questions causales Pourquoi (amont) 2,03 5,32 de cours 1,26 Comment (amont) 1,10 procédurale 0,93 Hors ontologie Fin d énoncé 0 14,79 Pas de modalité interrogative 14,79 Pré-interrogative 0 18

Vers une nouvelle typologie de l interrogation des corpus «constratifs» RITEL : un SQR Primauté des questions factuelles et en EN de type périphrastique ménager l «interlocuteur restreint» SMS : un support téléphonique Primauté des questions de l interlocution et des questions de type tonique privilégier la fonction phatique 19

Un effort de modélisation L apport de la dimension ontologique 20

Le processus à l œuvre dans une question Lien Question/Réponse [Damourette & Pichon, 1911] un interlocuteur libre de sa réponse mais invité à respecter un cadre Un effort de modélisation pour isoler des structures morphosyntaxiques idoines Une nouvelle typologie fonction de l ontologie mais aussi de l interaction créée un vide argumental saturé, structure morphosyntaxique déployée 21

«Cartographier» un échange spontané Très peu de questions au sein d une interaction distinguer les «vraies» des «fausses» questions Un seul morphotype réellement interrogatif la locution est-ce que [Obenauer, 1976] User de l interrogation pour interagir avec son interlocuteur les questions toniques vs les questions périphrastiques 22

Évaluation du modèle Une description par morphotypes 23

Construire des modèles : une vision schématique et structurée du monde et de ses réalités Interrogation adverbiale Interrogation déterminative Mot interrogatif simple Locution interrogative Substantive Nominale Prototypique Combien d euros Combien coûte X? Quel prix coûte X? coûte X? Que coûte X? Tonique X coûte combien? X coûte combien d euros? X coûte quel prix? X coûte quoi? Renforcée Combien est-ce que coûte X? Combien d euros estce que coûte X? Quel prix est-ce que coûte X? Qu est-ce que coûte X? Périphrastique Je voudrais savoir combien coûte X? Je voudrais savoir combien d coûte X? Je voudrais savoir quel prix coûte X? Je voudrais savoir que coûte X? 24

Un faisceau d indices à relever et étiqueter PROTOTYPIQUE Construire un monde virtuel Où va Paul? Adverbiale À quel endroit va Paul? Déterminative Indice faible Segment le plus court et atone TONIQUE Rapport à l autre Paul va où? Adverbiale Paul va à quel endroit? Déterminative Indice discriminant Segment le plus court mais tonique 25

Évaluation du modèle Un test d analyse «computationnelle» 26

Un stage ingénieur : vérifier la robustesse des modèles Pallier le lourd travail de classement d un modérateur Ex. : FAQ d un site web travailler en «domaine fermé» et selon l axe ontologique Un travail préparatoire de longue haleine constitution d un réservoir de possibles pour la BDD Un classement morphosyntaxique et quelques heuristiques tous les énoncés classés selon un pattern syntaxique 27

Après étiquetage, trois cas de figure Énoncé avec traitement ontologique l outil interrogatif dit l objet visé et le domaine ontologique concerné Énoncé en attente de traitement ontologique l outil interrogatif est déterminatif quel et ses composés Rejet de l énoncé concerne surtout les questions dites «de l interlocution» message invitant à la reformulation 28

Évaluation du modèle Une enquête auprès de locuteurs natifs 29

Tester la réalité des usages de la modalité interrogative Vérifier l adéquation des modèles à l usage en appeler à la compétence des locuteurs Tester quelques énoncés «délicats» à l intersection de deux catégories et/ou «fausse question» mélanger énoncés délicats et «faciles» Tester le «consensus culturel» autour des regroupements ontologiques proposer un tableau simplifié avec exemples 30

Une enquête auprès de locuteurs natifs Expliquer les causes Expliquer le fonctionnement Expliquer les circonstances Expliquer la marche à suivre D1 D2 D3 D4 Pourquoi les flamants roses sont-ils roses!? À quoi sert la couche d ozone!? Comment James Dean est-il mort!? Comment s écrit le mot «!cauchemar!»!? + À cause de leur alimentation. - C est comme ça, c est tout!! + À protéger la Terre. - À rien. + Au volant de sa voiture. - Tragiquement + c.a.u.c.h.e.m.a.r. - sans «!d!» final. Difficulté liée à la langue spontanée : importance du contexte énonciatif et stabilité ontologique, beaucoup de «fausses questions» 31

Conclusion et perspectives 32

Un travail guidé par un souci de description morphosyntaxique Abandonner les oppositions paradigmatiques traditionnelles variation dans l usage : ex. de la versation vs la question tonique Un pendant morphosyntaxique aux Actes de Langage [Searle, 1969] partition «vraies» et «fausses» questions Une vision modélisée de l interrogation : une typologie opératoire pas d application TAL mais une modélisation efficiente 33

Une méthodologie fondée sur les données attestées Décrire l interrogation selon ses points saillants aboutir à une modélisation Confronter cette modélisation aux données attestées un corpus de développement : RITEL Amender la modélisation : la dimension ontologique un corpus de test : «Un SMS pour la science» Amender la modélisation : 2 catégories de questions Évaluations 34

Des domaines à explorer Les autres langues Indo-Européennes pas de locuteur natif à disposition ni de corpus normalisé Les aspects intonatifs et phonologiques [Morel, 1998] [Marandin, 2002] problème de temps et gestion des corpus à disposition Les conditions d une réponse effective : morphotypes (informatifs/interactifs) application en TAL et corpus à construire 35