U Université dumaine Faculté des Lettres, Langues et Sciences humaines Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations Carole Lailler 1
L interrogation : une modalité interactive Contexte de travail Quels problèmes pour quels objectifs? Les observables Un effort de modélisation RITEL : un corpus de développement Un SMS pour la Science : un corpus de tests L apport de la dimension ontologique Évaluations du modèle Une description par morphotypes Un test d analyse «computationnelle» Une enquête auprès de locuteurs natifs Conclusion et perspectives 2
L interrogation : une modalité interactive Contexte de travail 3
Une thèse de linguistique en morphosyntaxe dans un laboratoire d informatique le LIUM équipe LST 5 ans au total : 2 ans non financés, puis 3 demi-ater 4
1 er Objectif 2 nd Objectif Décrire l interrogation dans la réalité de ses pratiques langagières Modéliser l interrogation pour offrir un étiquetage efficient des questions la machine : traite les signifiants cette thèse : encore du côté des signifiés, même si elle se fonde sur les signifiants 5
L interrogation : une modalité interactive Quels problèmes pour quels objectifs? 6
Un double paradigme questions directes/indirectes et questions totales/partielles hérité du latin qui aboutit à des groupes hétérogènes en français ne rend pas compte des usages tels qu en témoignent les corpus (OTG, SNCF ) Qu en est-il de l intention du questionneur? 7
La conversation spontanée Identifier une interaction en conversation spontanée Caractérisation objective : nombre de phonèmes, de disfluences, présence ou non de «bruits» Caractérisation subjective : le locuteur est le «1 er auditeur de ses propos» [Coursil, 2000] 8
L interrogation : une modalité interactive Les observables 9
Une question = un paradigme à triple entrée L objet du monde visé par la question identité ontologique = mot interrogatif La relation à l interlocuteur [Goffman, 1974] lien future réponse = morphotype utilisé La place accordée à l autre : interlocuteur «plein/restreint» place et intensité des outils choisis 10
Un effort de modélisation 2 e axe : pragmatique 3 e axe : ontologie 1 er axe : morphosyntaxe 11
Un effort de modélisation RITEL : un corpus de développement 12
Corpus issu d un SQR LIMSI, équipe TLP Au plus près du dialogue humain grâce à une gestion de l historique appropriée un phénomène de «cohortes interrogatives» Beaucoup de testeurs, pas de barrière technologique 3600 énoncés à classer pré-interrogatives et diversité ontologique Questions type «quiz» primauté des questions factuelles Quel type d interaction? 13
Émergence des questions Entités Nommées Ontologie concernée Type de questions Pourcentage Pourcentage/ontologie Questions de phatique 0 10,66 l interlocution de réactivation 6,01 impérative 4,65 Questions factuelles quantificatrice 8,83 19,90 locative 3,4 temporelle 7,67 Questions Entités EN personne 13,54 34,99 Nommées EN lieu 13,48 EN objet 7,21 EN événement 0,44 EN numex 0,32 Questions causales Pourquoi (amont) 0,15 1,95 de cours 1,25 Comment (amont) 0,23 procédurale 0,32 Hors ontologie Fin d énoncé 2,99 32,5 Pas de modalité interrogative 14,32 Pré-interrogative 15,19 14
Émergence des questions Entités Nommées Différencier les questions factuelles des questions Entités Nommées des outils distincts : circonstants vs actants du verbe [Tesnière, 1959] une heuristique efficace : proche du nom propre, notion de «référent unique» 15
Un effort de modélisation Un SMS pour la Science : un corpus de tests 16
Corpus SMS Vaste campagne scientifique [Fairon, 2006] «Faites don de vos SMS à la science» un projet de grande envergure 2500 énoncés retenus des interrogations en cascade, de tout type Vers une nouvelle forme de langage pas d oral mais du spontané Des interactions elliptiques mais toujours tournées vers l interlocuteur primauté de la fonction phatique 17
Vers une nouvelle typologie de l interrogation Ontologie concernée Type de questions Pourcentage Pourcentage/ontologie Questions de phatique 9,58 65,44 l interlocution de réactivation 6,68 impérative 49,18 Questions factuelles quantificatrice 0,22 7,22 locative 2,90 temporelle 4,10 Questions Entités EN personne 0,88 7,23 Nommées EN lieu 0 EN objet 3,50 EN événement 2,63 EN numex 0,22 Questions causales Pourquoi (amont) 2,03 5,32 de cours 1,26 Comment (amont) 1,10 procédurale 0,93 Hors ontologie Fin d énoncé 0 14,79 Pas de modalité interrogative 14,79 Pré-interrogative 0 18
Vers une nouvelle typologie de l interrogation des corpus «constratifs» RITEL : un SQR Primauté des questions factuelles et en EN de type périphrastique ménager l «interlocuteur restreint» SMS : un support téléphonique Primauté des questions de l interlocution et des questions de type tonique privilégier la fonction phatique 19
Un effort de modélisation L apport de la dimension ontologique 20
Le processus à l œuvre dans une question Lien Question/Réponse [Damourette & Pichon, 1911] un interlocuteur libre de sa réponse mais invité à respecter un cadre Un effort de modélisation pour isoler des structures morphosyntaxiques idoines Une nouvelle typologie fonction de l ontologie mais aussi de l interaction créée un vide argumental saturé, structure morphosyntaxique déployée 21
«Cartographier» un échange spontané Très peu de questions au sein d une interaction distinguer les «vraies» des «fausses» questions Un seul morphotype réellement interrogatif la locution est-ce que [Obenauer, 1976] User de l interrogation pour interagir avec son interlocuteur les questions toniques vs les questions périphrastiques 22
Évaluation du modèle Une description par morphotypes 23
Construire des modèles : une vision schématique et structurée du monde et de ses réalités Interrogation adverbiale Interrogation déterminative Mot interrogatif simple Locution interrogative Substantive Nominale Prototypique Combien d euros Combien coûte X? Quel prix coûte X? coûte X? Que coûte X? Tonique X coûte combien? X coûte combien d euros? X coûte quel prix? X coûte quoi? Renforcée Combien est-ce que coûte X? Combien d euros estce que coûte X? Quel prix est-ce que coûte X? Qu est-ce que coûte X? Périphrastique Je voudrais savoir combien coûte X? Je voudrais savoir combien d coûte X? Je voudrais savoir quel prix coûte X? Je voudrais savoir que coûte X? 24
Un faisceau d indices à relever et étiqueter PROTOTYPIQUE Construire un monde virtuel Où va Paul? Adverbiale À quel endroit va Paul? Déterminative Indice faible Segment le plus court et atone TONIQUE Rapport à l autre Paul va où? Adverbiale Paul va à quel endroit? Déterminative Indice discriminant Segment le plus court mais tonique 25
Évaluation du modèle Un test d analyse «computationnelle» 26
Un stage ingénieur : vérifier la robustesse des modèles Pallier le lourd travail de classement d un modérateur Ex. : FAQ d un site web travailler en «domaine fermé» et selon l axe ontologique Un travail préparatoire de longue haleine constitution d un réservoir de possibles pour la BDD Un classement morphosyntaxique et quelques heuristiques tous les énoncés classés selon un pattern syntaxique 27
Après étiquetage, trois cas de figure Énoncé avec traitement ontologique l outil interrogatif dit l objet visé et le domaine ontologique concerné Énoncé en attente de traitement ontologique l outil interrogatif est déterminatif quel et ses composés Rejet de l énoncé concerne surtout les questions dites «de l interlocution» message invitant à la reformulation 28
Évaluation du modèle Une enquête auprès de locuteurs natifs 29
Tester la réalité des usages de la modalité interrogative Vérifier l adéquation des modèles à l usage en appeler à la compétence des locuteurs Tester quelques énoncés «délicats» à l intersection de deux catégories et/ou «fausse question» mélanger énoncés délicats et «faciles» Tester le «consensus culturel» autour des regroupements ontologiques proposer un tableau simplifié avec exemples 30
Une enquête auprès de locuteurs natifs Expliquer les causes Expliquer le fonctionnement Expliquer les circonstances Expliquer la marche à suivre D1 D2 D3 D4 Pourquoi les flamants roses sont-ils roses!? À quoi sert la couche d ozone!? Comment James Dean est-il mort!? Comment s écrit le mot «!cauchemar!»!? + À cause de leur alimentation. - C est comme ça, c est tout!! + À protéger la Terre. - À rien. + Au volant de sa voiture. - Tragiquement + c.a.u.c.h.e.m.a.r. - sans «!d!» final. Difficulté liée à la langue spontanée : importance du contexte énonciatif et stabilité ontologique, beaucoup de «fausses questions» 31
Conclusion et perspectives 32
Un travail guidé par un souci de description morphosyntaxique Abandonner les oppositions paradigmatiques traditionnelles variation dans l usage : ex. de la versation vs la question tonique Un pendant morphosyntaxique aux Actes de Langage [Searle, 1969] partition «vraies» et «fausses» questions Une vision modélisée de l interrogation : une typologie opératoire pas d application TAL mais une modélisation efficiente 33
Une méthodologie fondée sur les données attestées Décrire l interrogation selon ses points saillants aboutir à une modélisation Confronter cette modélisation aux données attestées un corpus de développement : RITEL Amender la modélisation : la dimension ontologique un corpus de test : «Un SMS pour la science» Amender la modélisation : 2 catégories de questions Évaluations 34
Des domaines à explorer Les autres langues Indo-Européennes pas de locuteur natif à disposition ni de corpus normalisé Les aspects intonatifs et phonologiques [Morel, 1998] [Marandin, 2002] problème de temps et gestion des corpus à disposition Les conditions d une réponse effective : morphotypes (informatifs/interactifs) application en TAL et corpus à construire 35