LOGUS : compréhension de l oral spontané



Documents pareils
Accompagner les familles d aujourd hui

Microphones d appels Cloud avec message pré-enregistrés intégré

Étudier si une famille est une base

EMC BACKUP AND RECOVERY OPTIONS FOR VSPEX VIRTUALIZED ORACLE 11GR2

EMC BACKUP AND RECOVERY FOR VSPEX FOR END USER COMPUTING WITH VMWARE HORIZON VIEW

TRANSLATION ET VECTEURS

PRÉSENTATION DU CONTRAT

Risques professionnels et qualité de vie au travail dans les crèches : les pratiques de prévention

Montages à plusieurs transistors

MESURE DE LA PERFORMANCE GLOBALE DES AGENCES BANCAIRES : UNE APPLICATION DE LA MÉTHODE DEA

MINISTÈRE DE L'ÉCOLOGIE, DE L'ÉNERGIE DU DÉVELOPPEMENT DURABLE ET DE L'AMÉNAGEMENT DU TERRITOIRE

annexes circulaire interministérielle n DGUHC du 30 novembre 2007

par Jacques RICHALET Directeur société ADERSA

Les qualifications INSTALLATEURS ÉNERGIES RENOUVELABLES. Forage géothermique. Solaire thermique. Aérothermie et géothermie

Mesures générales de prévention pour l utilisation des fardeleuses

EMC BACKUP AND RECOVERY OPTIONS FOR VSPEX PRIVATE CLOUDS

Plan de formation pour l Ordonnance sur la formation professionnelle initiale réalisateur publicitaire

Réalisez des simulations virtuelles avec des outils de test complets pour améliorer vos produits

AVEC LA DOUANE PRODUIRE EN FRANCE. # produireenfrance. Présentation des entreprises participant aux tables rondes. Octobre Bercy

mettez le casque et savourez votre calme! Réduction active des bruits de fond (ANC):

Academy Florence Consultant 231 Route des Camoins Marseille Siret : N formateur :

La DGFiP AU SERVICE DES COLLECTIVITÉS TERRITORIALES ET DES USAGERS. Un nouveau service pour faciliter les paiements

JE LÈGUE À L ŒUVRE DES VOCATIONS POUR FORMER NOS FUTURS PRÊTRES NOS RÉPONSES À VOS QUESTIONS SUR LES LEGS, DONATIONS, ASSURANCES VIE

La complémentaire santé. des ans CHEZ NOUS PAS DE PROFIT SUR VOTRE SANTÉ. adaptée à vos besoins pour faciliter votre accès aux soins :

Guide pratique du recours au procureur de la République

pour toute la famille

LBC 341x/0 - Enceintes

Votre expert en flux documentaires et logistiques. Catalogue des formations

L e mobilier, le matériel et le linge au r estaurant

concernant la déclaration d impôt Impôt cantonal et communal Impôt fédéral direct

Commande prédictive des systèmes non linéaires dynamiques

La Communauté d Agglomération agit pour le Développement Durable. Petit guide des éco-gestes au bureau

Maxwell 10. Administration

Conettix D6600 Récepteur/passerelle

Le travail c est la santé... bien se positionner devant son écran, c est aussi la conserver!

AMC2 - (Contrôleur d'accès modulaire - Access Modular Controller)

VRM Video Recording Manager

De la caractérisation à l identification des langues

Marché à procédure adaptée (Article 28 du CMP)

Manuel d'utilisation de Wapam

Système isolateur de ligne de haut-parleurs

Quick Start Guide Touch Tone Capture. Guide de démarrage rapide Saisie à l aide du clavier

Structures dynamiques Listes chaînées

Enregistreur numérique Divar

Instructions complémentaires

LBC 14xx/x0 U40 - Atténuateurs, et LBC 1431/10 - Sélecteur de sources

ISC-PDL1-W18x Détecteurs TriTech Série Pro

À VOS CÔTÉS QUI COMPTENT DANS LES MOMENTS RAPPORT D ACTIVITÉ DEVELOPPONS ENSEMBLE L ESPRIT D EQUIPE

Vétérinaires : quelles perspectives d activité en 2010?

Université du Québec en Abitibi~e

Conettix D6100IPv6. Systèmes d'alarme intrusion Conettix D6100IPv6.

Français CE1. Corrigés. Rédaction : Nicolas Olivier MOREAU, conseiller pédagogique. Coordination : Frank GROSSHANS, chef de projet

Automobile et aéronautique

PRIMOPIERRE. Société Civile de Placement Immobilier

Objectifs Zoom Motorisés avec Iris Automatique

EVALUATION PARTIELLEMENT SEQUENTIELLE DES OPTIONS A BARRIERE

S/Total S/Total

La gestion de la relation client au sein de la PME. Contenu de la présentation. Le CRM outil pour les PME? SOGID SA

Easy Series Système de sécurité

UNICEF/ /Toutounji

SAVERNE. Couleurs d été. Politique de la ville. Dossier. Retrouvez toutes les informations locales sur internet

en chiffres : 1000 Clients en 5 ans. 97% De satisfaction. 100 Agences événementielles qui nous font confiance.

DINION capture Vidéo DINION capture La technologie DINION 2X génère des images nettes, cohérentes et précises

Bosch Video Management System v.4

Lexmark Print Management

Encodeur vidéo VideoJet X20/X40 XF E H. 264

LOT N 06 : MENUISERIES INTERIEURES Construction d une maison médicale CIVRY Cahier des Clauses Techniques Particulières (C.C.T.P.

La conception et les spécifications peuvent être modifiées sans préavis.

Logiciel Bosch Video Management System v3.

La spirale de Théodore bis, et la suite «somme=produit».

DINION IP 7000 HD. Vidéo DINION IP 7000 HD. Capteur CMOS jour/nuit 1/2,7" avec balayage progressif

Conception et réalisation d une sectorisation

Système PBX IP hybride

Jacques Lévy, professeur à l'universités de Reims et à l'institut d'études politiques de Paris, fellow au Wissenschaftskolleg zu Berlin

Le recours à l Aide complémentaire santé : les enseignements d une expérimentation sociale à Lille

Rejoignez le. No 1 mondial. de la franchise *! Créez votre entreprise en Franchise avec SUBWAY.

Sécurité Lexmark pour les imprimantes et MFP compatibles avec les solutions

TSP 6500/7000 SÉRIE. Spécifications Chariots tridirectionnels à nacelle élevable

Face au deuil, Vous n êtes pas seul(e) Ce guide vous est proposé par la Caf de Meurthe-et-Moselle et les Associations Deuil Espoir et Favec.

Solutions de Verrouillage Électronique et Monnayeurs

SALLE PLENIÈRE : 10h00 12H00

MÉCANIQUE DES STRUCTURES

Le Conseil général, acteur de l insertion

Une introduction à l analyse discriminante avec SPSS pour Windows

Cette Leçon va remplir ces attentes spécifiques du curriculum :

NUANCE The experience speaks for itself

Dome Conference HD. Vidéo Dome Conference HD. Résolutions HD 1080p et 720p. Sortie standard HD-SDI

Comment pratiquer le tiers payant complémentaire avec la MSA?

1.The pronouns me, te, nous, and vous are object pronouns.

Une grille pour évaluer la qualité de vos données et choisir votre outil de D Q M

Mesure de facteur de bruit sur analyseur de réseaux vectoriel corrigée en Paramètres-S. Frédéric Molina

DIVAR AN H RT APP. Vidéo DIVAR AN H RT haute résolution sur sortie HDMI

MUTUELLES DE SANTÉ ET ASSOCIATIONS DE MICRO-ENTREPRENEURS GUIDE

REVISION DE LA DIRECTIVE ABUS DE MARCHE

juillet 2011 N 304 Bonnes vacances à Décines! Les équipements à l heure d été A L AFFICHE p.14 Forum des associations, samedi 17 septembre

Compression Compression par dictionnaires

Préparez tous vos événements de l année en quelques clics!

Structures algébriques

Guide d utilisation 5117

Transcription:

LOGUS : compréhension de ora spontané Présentation et évaation des bases formees de LOGUS Jeanne ianea * Oivier Ridox ** Jean-Yves Antoine * *Université de Bretagne Sd 4 re Jean Zay, F-56100 Lorient Jeanne.ianea, Jean-Yves.Antoine}@niv-bs.fr **IRISA - Université de Rennes 1 Camps niversitaire de Beaie, F-35042 Rennes cedex Oivier.Ridox@irisa.fr RÉSUMÉ. Dans es systèmes de diaoge ora Homme-Machine, a compréhension de a paroe spontanée est n probème difficie qi reqiert des méthodes d anayse robstes. La ppart des systèmes sont destinés à des actions très spécifiqes : a compréhension repose sr a détection de mots o segments cefs por rempir es différents champs de reqêtes prédéterminées. LOGUS, e système de compréhension présenté dans cet artice s appie sr des formaismes ogiqes, grammaires catégoriees et graphes conceptes, hors d champ habite de er tiisation. L anayse, incrémentiee, constrit ne forme ogiqe par compositions progressives des concepts reconns de énoncé. L artice décrit et compare es dex premières versions d système. Lers évaations donnent des réstats prometters : ees font apparaître a bonne robstesse de anayse et son assez bonne capacité à reconstiter e sens des énoncés. La prise en compte ps arge d contexte et a gestion d diaoge feront objet de travax ftrs. ABSTRACT. In spoken diaoge systems, natra angage nderstanding is a diffict probem for which robst parsing methods are reqired. Most of the systems achieve very specific tasks: nderstanding is fonded on detection of key-words or patterns in order to identify vaes of predetermined semantic frames. LOGUS, the nderstanding system we are presenting in this paper, ses ogica formaisms, categoria grammars and concepta graphs, otside their sa appication fied. The parsing is incrementa; it bids a ogica forma by graday composing the recognized constitents of the sentence. The paper describes and compares the first two versions of LOGUS. Their evaations yied promising rests; they show the good robstness of the parsing and its qite good abiity to reconstrct the meaning of the tterances. Ftre stdies mst be ed in order to take into accont the context more widey and to manage diaoge. MOTS-CLÉS : compréhension atomatiqe, paroe spontanée, grammaire catégoriee, graphe concepte. KEYWORDS: atomated nderstanding, speech, categoria grammar, concepta graph. RSTI - RIA. ome 18 n 5-6/2004, pages 709 à 742

710 RSTI - RIA. ome 18 n 5-6/2004 1. Introdction La ange écrite a été ongtemps objet essentie des étdes sr a ange natree. Cependant, depis qeqes années, a ange orae et e diaoge prennent ne pace de ps en ps importante, tant dans e domaine de a ingistiqe qe dans cei des traitements atomatiqes (TAL). Progressivement en effet, étde des conversations «natrees» est devene ne des priorités d étde des ingistes. L anayse d discors, a ingistiqe de énonciation et a théorie des actes de angage [AUS 62, SEA 70] ont fait émerger a notion de «compétence commnicative» [HYM 72]. L idée s est aors imposée qe a compétence commnicative primaire est cee d diaoge ora. En TAL, intérêt por anayse des énoncés orax est dû à des progrès récents dans e domaine de a reconnaissance de a paroe. Ces progrès ont permis a Diaoge Ora Homme-Machine (DOHM par a site) de devenir ne réaité, comme en témoignent es servers vocax mis à a disposition d grand pbic ces dernières années. En généra, ces systèmes de DOHM accompissent des tâches très spécifiqes : horaires de train o d avion [LAM 00, MI 99], informations météo [ZUE 00], etc. Éargir es appications et rendre e diaoge ps natre posent des probèmes compexes, qi exigent des recherches interdiscipinaires, tant fondamentaes qe pragmatiqes. La figre 1 représente très schématiqement es différents composants qe on trove en généra dans n système de DOHM. Le mode de reconnaissance de a paroe en est e premier maion. À partir d signa sonore émis par e octer, i déivre ne o des istes de mots qi sont censés correspondre à énoncé sorce. En ava, e mode de compréhension fornit a gestionnaire de diaoge ne représentation sémantiqe de cet énoncé retranscrit. Ce dernier assre interface avec a base de données et propose des réponses o éventeement, des demandes d information compémentaires. Le mode de génération assre er tradction dans a ange natree de tiisater. La synthèse vocae permet er retransmission sos a forme d n signa sonore. Reconnaissance de a paroe Compréhension Historiqe d diaoge Utiisater Enoncés reconns Strctre (istes de mots) Gestionnaire sémantiqe de diaoge Base de données Synthèse de a paroe Mode de génération Figre 1. Système de DOHM

LOGUS : compréhension de ora spontané 711 Le mode de compréhension est donc n éément essentie de ces systèmes ; or, sa tâche est difficie : es modes de reconnaissance de a paroe déivrent ne iste (o n ensembe partieement ordonné) de mots qi pevent être erronés et entorent de «brit» e message d octer 1 ; a forme des énoncés orax présente des particarités inhérentes à er mode de prodction : «e travai d éaboration est [donc] étaé en même temps qe e prodit éaboré» [BLA 02]. Comme rien de ce qi a été dit ne pet être effacé, i contient es marqes de a recherche des mots : hésitations, répétitions et ato-corrections (désignés par es ingistes comme des «réparations»). De ps, dans a ange orae, e octer n est pas ten à ne correction syntaxiqe assi stricte qe dans a ange écrite et es changements de parcors syntaxiqes, voire sémantiqes, y sont assez fréqents [BLA 90, KER 80]. Les retranscriptions orthographiqes des énoncés transmises par e mode de reconnaissance se prêtent donc difficiement à des anayses syntaxiqes profondes : es modes de compréhension doivent adopter d atres stratégies por en extraire e sens. Le cadre très restrictif imposé ax énoncés par certaines appications permet par exempe tiisation de méthodes stochastiqes por générer des règes syntaxicosémantiqes [MI 96, ALL 96, SE 92]. De ps, gidée par a tâche et grâce à ne ambigïté sémantiqe rédite, a compréhension pet assi rédire à n strict minimm tiisation de a syntaxe ; ainsi, es anayses dites séectives reposent sr a définition de cadres sémantiqes de reqêtes prédéterminées. Le repérage de certains syntagmes permet d abord de déterminer à aqee de ces reqêtes préformatées correspond énoncé. Dans n second temps, i s agit d y détecter es segments conceptes qi permettent de rempir es attribts de cette reqête [MI 96]. Le «diaoge» qi s ensit éventeement consiste essentieement à compéter es ééments manqants. La figre 2 donne n exempe d anayse d n énoncé par e système MASK (horaires de train) [LAM 95]. Les mots en gras sont es mots tiisés por anayse. Les mots soignés sont cex qi permettent de détecter a natre des attribts. De tees méthodes expoitent e caractère très étroit d domaine et de a tâche. Bien q ees aient prové er efficacité por des appications extrêmement finaisées, a qestion n est pas tranchée de savoir si ees restent encore efficaces, o même simpement tiisabes, por des tâches moins restrictives [HIR 98]. I n est pas certain non ps q ees permettent ne compréhension assez fine des intentions d octer por a mise en œvre d n diaoge ps coopératif [PIE 00]. Ces interrogations encoragent des tentatives de compréhension des énoncés orax par d atres voies. Les errers de reconnaissance et es spécificités de a paroe orae spontanée imposent de tote façon tiisation de traitements robstes. Cependant, por aisser davantage d initiatives ax tiisaters et miex détecter ers intentions, i convient qe es strctres sémantiqes tiisées ne soient pas figées. L anayse doit. Les tax d errers de a reconnaissance de mot varient entre 5 et 25 % sivant a taie d vocabaire et es conditions d enregistrement d signa voca [GAU 02].

712 RSTI - RIA. ome 18 n 5-6/2004 être capabe d extraire de énoncé i-même es reations entre es différents ééments qi e composent, ptôt qe de es dédire par coïncidence avec ne strctre sémantiqe prédéfinie. Reqête je vex aer demain matin de Paris à Marseie en passant par Lyon Schéma sémantiqe train-here vie-départ vie-arrivée vie-escae jor-reatif prériode-jornée : Paris : Marseie : Lyon : demain : matin Figre 2. Reqête et schéma sémantiqe por anayser MASK LOGUS 2, e mode de compréhension présenté dans cet artice s inscrit dans ce type de tentatives. L anayse combine es approches syntaxiqe et sémantiqe : es règes tiisées s appient à a fois sr a natre syntaxiqe des ééments et sr ne connaissance sémantiqe d domaine de appication, définie par n certain nombre de prédicats. La représentation sémantiqe de énoncé est ne forme ogiqe à a Montage [MO 74] avec n formaisme simpifié, obtene par composition. Le domaine d appication choisi est cei d renseignement toristiqe, donc assez restreint por qe pisse être mise en œvre ne connaissance sémantiqe spécifiqe mais néanmoins assez étend por q i pisse sember pertinent d offrir ne représentation sémantiqe de énoncé qi ne se rédise pas à n cadre préformaté. La section 2 tente de spécifier précisément e probème posé et d énoncer qeqes principes générax por sa résotion. Ee montre assi comment étde d fonctionnement de a première version d système, LOGUS-I, a entraîné ne partiee remise en case de ces principes. Les sections 3, 4 et 5 décrivent e formaisme tiisé et e fonctionnement d système sos sa forme actee, dans LOGUS-II. La section 6 est consacrée à anayse des réstats d ne évaation comparée de LOGUS-I et de LOGUS-II. os essayons d y décrire es points forts et es points faibes de approche. Enfin, dans a section 7, nos expiqons comment nos pensons compéter et améiorer e système.. LOGica Understanding System.

LOGUS : compréhension de ora spontané 713 2. Principes générax et première mise en œvre 2.1. Compréhension et commnication La compréhension atomatiqe d n énoncé consiste en sa tradction d ne ange natree vers ne ange formee. Si on passe otre es objections de certains phiosophes sr a possibiité même d ne tee tradction, e probème demere de a richesse de a ange formee tiisée. La ogiqe est sovent choisie comme ange cibe et des ogiqes non cassiqes tees qe a ogiqe modae [BE 02] ont été constrites por améiorer a représentation d sens des énoncés de a ange natree. Desarte et Thayse par exempe, proposent ainsi, por e français, ne interface ange natree/ange ogiqe destinée à interrogation d ne base de données [DEL 01]. Cette interface concerne niqement a ange écrite et acne forme de diaoge n est envisagée. Les énoncés tradits sont donc niqement des demandes d information. La «compréhension» est basée sr ne anayse syntaxiqe compète des énoncés. Ee sppose existence en soi disctabe d n homomorphisme (appeé homomorphisme syntagmatiqe par es aters) de a syntaxe natree vers a syntaxe formee. De ps, cette forme de commnication répond à ce qe es ingistes désignent par modèe d code : seon ce modèe, a ange natree permet a octer d encoder e sens q i vet commniqer. Le récepter décode expression q i reçoit et identifie e sens vo. Or, dès q i y a ébache de diaoge, e modèe d code montre ses insffisances. La fonction essentiee d angage est de servir a commnication entre dex o psiers partenaires. Même dans es sitations de diaoge es ps simpes, e sens ingistiqe de énoncé est sovent différent d sens vo par e octer. Seon e modèe inférentie déveoppé par es ingistes, e récepter doit inférer 3 e sens vo par e octer en tenant compte d contexte et de a pertinence de énoncé de son interocter dans ce contexte (interprétation pragmatiqe [GRI 89]). Le contexte inct des connaissances statiqes diverses, par exempe généraes et ctrees, et des connaissances dynamiqes, tees qe historiqe d diaoge et mêmes des «sppositions sr état menta d octer» [SPE 89]. Ce modèe prend égaement en compte e fait qe a compréhension inférée est très sovent erronée o incompète : es «ratés» d n diaoge en sont ne partie intégrante. Par conséqent, éaborer n système de DOHM performant passe par a modéisation de différents contextes d ne part, et par a gestion des échecs parties de a commnication d atre part. On conçoit aors es diffictés à vaincre por y parvenir. L interrogation d ne base de données offre n cadre appicatif qi permet de simpifier bon nombre de paramètres. On pet en effet définir des connaissances sr es objets d domaine concerné et intention première d octer est spposée correspondre à ne demande d information (dans e domaine qi nos concerne, nos y ajotons des demandes de réservation o de ocation) : ne grande partie d contexte. Seon Sperber [SPE 00], inférence diffère d raisonnement en ce q ee fait intervenir des processs inconscients.

714 RSTI - RIA. ome 18 n 5-6/2004 est donc assez faciement définissabe. Cependant, por assrer n diaoge véritabement coopératif, i convient de povoir rendre compte d atres types d énoncés qe de simpes qestions et reqêtes ; assi simpe qe pisse être a finaité d diaoge, e octer pet chercher à exprimer des actes de angage variés tes qe informations, refs, confirmations, remerciements, etc. Dans état acte d déveoppement de ce travai, nos spposons q en ava de notre système, e mode de diaoge gère es défats et es errers de a commnication. Cependant, ce sont es informations fornies par e mode de compréhension qi rendent cette gestion possibe. 2.2. Comment anayser ora spontané Le cac de a sémantiqe de Montage d n énoncé a por point de départ son anayse syntaxiqe, a représentation sémantiqe s obtenant par tradction des reations syntaxiqes obtenes. Or, comme i a été dit, anayse syntaxiqe des retranscriptions orthographiqes transmises par a reconnaissance de a paroe spontanée dans n système de compréhension atomatiqe de a paroe (CAP) sembe isoire. 2.2.1. Anayse partiee robste : chnking Depis qeqes années, des méthodes d anayses partiees robstes ont été déveoppées en TAL por es textes écrits. Ees sont connes en angais sos e nom de shaow parsing. Ees sont en particier tiisées por atomatiser extraction d informations des immenses qantités de données qe représentent es textes éectroniqes [AïT 02]. Le principe généra mis en œvre dans ce type d anayse consiste à prodire des strctres syntaxiqes minimaes, en généra non récrsives, désignées sivant différents termes : csters, chnks, segments o chains. Ces strctres minimaes sont constitées d ne tête à aqee sont rattachés des termes sités à proximité immédiate. Par aiers, Abney fait vaoir q ees correspondent à ne réaité ingistiqe et même prosodiqe [AB 91]. Ces traitements cment es dex avantages sivants : 1) is sont robstes por es champs d appication visés par es concepters de ces traitements ; en effet, es iaisons q is effectent sont sans ambigïté car ees sont de portées ps petites qe es strctres syntaxiqes spposées respectées dans ces appications. Les probèmes posés par es rattachements mtipes possibes sont repossés à des phases térieres d anayse, s appyant sr d atres règes. L intégration de ces techniqes de shaow parsing à des grammaires de deep parsing fait acteement objet de travax importants [BA 99, FRA 03, SIM 03] ; 2) is sont efficaces : es méthodes tiisées, sovent incrémentiees, condisent à des anayses rapides. La qestion se pose aors d étendre e champ d appication de ces traitements a traitement de a paroe. Or, des argments ingistiqes paident en faver de a possibiité de pratiqer cette étape dite de chnking sr es énoncés de ora spontané. En effet, es étdes comme cees de Banche-Benveniste sr e français paré [BLA 90] attestent qe es strctres syntaxiqes minimaes ocaes sont en généra assez bien

LOGUS : compréhension de ora spontané 715 respectées dans es réparations. Par exempe, dans es hésitations et ato-corrections, es syntagmes sont a ppart d temps repris en er débt, comme dans : «por a eh vers a station enfin eh vers a station de métro». Ainsi, ce processs préserve des strctres minimaes de gropes de mots syntaxiqement cohérentes. Por atant q on adopte ne définition de chnks qi soient contens dans a portée des strctres ocaes préservées dans ora spontané, ne étape de chnking permet aors de reier certains mots grammaticax à er tête exicae et d éiminer cex d entre ex qi correspondent à des ratres (voir ps d expication en section 4.2). Par aiers, es ééments ainsi obtens étant ps «signifiants», i est possibe d tiiser des argments sémantiqes dans a site d déroement de anayse (cf. section 5). De ps, à case de a possibe mavaise reconnaissance des mots, i fat adopter ne définition de chnk déibérément beacop ps cort encore qe ce qe a ittératre prévoit por anayse de écrit. 2.2.2. Liens entre chnks La constrction de a représentation sémantiqe de énoncé pose e probème de a combinaison des chnks. Or, si dans a ppart des anges, comme c est e cas en angais et en français par exempe, ordre des mots est reativement respecté à intérier d n chnk, par contre, même dans ces anges dites à ordre fixe, es ordres des chnks dans n énoncé sont somis à ne certaine variabiité [AT 99]. De ps, a natre des compositions entre chnks jxtaposés est, ee assi, beacop ps variabe dans a ange orae qe dans a ange écrite. I sembe donc difficie de ne s appyer qe sr des considérations syntaxiqes por déterminer a natre des iens entre certains syntagmes et, en particier, por déterminer a portée des coordinations et cee des négations, axqees s ajotent, dans ora spontané, cees des reprises et atocorrections. On pet cependant penser qe a détermination de ces iens entre chnks pet être étayée par es connaissances sémantiqes d système, si totefois identité sémantiqe de ces chnks est sffisante. I va de soi qe ces connaissances seront d atant ps facies à mettre en œvre qe e domaine de appication permettra de restreindre ambigïté. Ces remarqes incitent à adopter es principes générax sivants por aborder anayse des énoncés proposés. 1) Dans ne première étape, opérer ne segmentation en chnks de énoncé, basée sr des reations syntaxiqes ocaes. 2) Interpréter es constitants jgés «signifiants» obtens a terme de a première étape afin de transformer es ééments syntaxiqes en ééments sémantiqes. Utiiser a sémantiqe (définir ne connaissance sémantiqe) por composer entre ex ces ééments. La trace des compositions de chnks (et des compositions de compositions) constite anaoge d n arbre d anayse, o si on se pace d n point de ve ogiqe, d n arbre de preve. Dans e cas de a ogiqe de Lambek [LAM 58], Retoré a montré [RET 00] comment a sémantiqe de Montage pet être attachée non pas à des

716 RSTI - RIA. ome 18 n 5-6/2004 règes syntaxiqes mais ax arbres de preves en tiisant isomorphisme de Crry- Howard. os pensons donc q i est possibe d attacher à ne anayse par chnks a constrction d ne sémantiqe d premier ordre. Cependant, nos n en avons pas ressenti e besoin dans e champ appicatif envisagé et nos n avons tiisé qe a ogiqe propositionnee. 2.3. Représentation d sens de énoncé La représentation sémantiqe de énoncé donnée par LOGUS est ne forme ogiqe à a Montage avec n formaisme simpifié, sans qantificaters. La forme est n -terme constrit de façon compositionnee. Un énoncé bien formé et non eiptiqe est en généra obten par appication d n prédicat qi représente a natre de acte de angage (o d moins es indices sr cette natre présents dans énoncé) à n objet simpe o composé 4. 2.3.1. Représentation des objets Les représentations sémantiqes des objets d domaine sont constrites avec es ééments de trois ensembes : 1) est ensembe des étiqettes des objets. Dans appication test de LO- GUS, i contient!!"$#%&'(%) environ ne centaine *++%&,'-.&((&-.&( d ééments : /102%-345.+%, etc. 2) 76 est ensembe des étiqettes des propriétés. I contient ne trentaine "%&8(..+9:;"<5.4.="+1> d ééments qi se veent reativement indépendants d domaine de appication :, etc.!+% 3)?@6 ="&9!#A. est ensembe des déterminations des propriétés. Par exempe, et sont "<5. des déterminations "%&.8 de propriétés iées respectivement ax étiqettes de propriétés et. CB DEEFGD Une propriété est n cope B D où appartient à 76 FGD et appartient à?h6.="+1> "I;&KJML&9!,4%&JO. Par exempe, considère ne tee paire comme ne appication d -cac. Un objet simpe est n cope PB QG)LD où B Q est ne propriété. On appartient à : @ et LD est ne iste de propriétés. Par exempe, «n hôte dex étoies pas trop cher» a por représentation sémantiqe :!+R "%&.8+ITS/*E!+%& ;#O&<.+*'+I.+1%7U' Por représenter objet précédent %&/= *+ sos forme d n -terme simpement typé, on définit n type simpe appeé _. Les ééments de?@6 sont de ce type. Les ééments de : 76 I>%&"= *++YXZ%&"= *+ sont d type et cex de [ d type I\I5.*A3%&"= *+ ]XZ%&"= *++$. L objet précédent correspond aors a -terme : ^. Cependant, certaines propositions, même non eiptiqes, pevent ne pas comporter d objets ; c est e cas par exempe d énoncés tes qe «merci» o «a revoir». W:

I!(R_Ì "%&.8aIbS!"*W!+%&I;#O&<.+*@I1%cU'\ O &9 LOGUS : compréhension de ora spontané 717 A S!"* =" _, etc. o par e connecter de sbordination Les objets pevent être iés entre ex par des connecters de coordination :,, por former des objets compexes. Ces différents connecters sont d type Ì %&"= _ *+dxz%&"= _ *+dxz%&"= _ *++$. Une chaîne d objets est n objet simpe o compexe. La chaîne d objets est dite simpe si ee ne contient pas de connecters de coordination (donc seement des connecters =/ ). Dans e cas contraire, ee est dite compexe. L étiqette d ne chaîne simpe est étiqette de objet e ps à gache de a chaîne. Cette constrction est tiisée en particier por cacer a sémantiqe d ne phrase étant données es sémantiqes de ses chnks (voir section 5). La sémantiqe choisie por es connecters permet qe tote chaîne d objets pisse être mise sos a forme d ne coordination de chaînes simpes, dite forme normae de a chaîne 5. Par exempe, a forme sivante est ne représentation de objet qi correspond à expression : «es tarifs d ne chambre dobe à hôte Camartin et a Crion» I.=" I>"%&8eR ei.=" Une forme normae de cette chaîne est : I.A I=" Ì /%&8aR I=" Ì /%&8aR I."$#%&cR>I>"<5.E="&9!#A. I.A I.(R>I.="1` 7I.;&gf/hH/9$"%f/\ I.(R>I.="1` 7I.;&gf/hH%&55&f/ \ ei.=" ei.=" 2.3.2. Représentation des actes de angage I."$#%&7R>Ì /<5.E="&9#O.+ I.(R>I.="1` 7I.;&gf/hH/9$"%f/\ \ I."$#%&7R>Ì /<5.E="&9#O.+ I.(R>I.="1` 7I.;&gf/hH%&55&f/ \ Les prédicats qi représentent a natre des actes de angage (o d moins es indices de cette natre) sont égaement des copes dont e premier éément exprime.1+%&%&0i-&(3%&+j&9wk O43;8&%&$-.&(="+$";=" a forme 6 de énoncé :, etc. et e dexième éément expression de cette forme. Par exempe, «est-ce qe je pex» se 1+%&%&0i-.&(S!&*+*+.#<.` tradit par, «réservez-moi» correspond a prédicat =" ";=/4(.*A+; appiqé I%) &*+%&,'-&ar à objet aors qe «je n ai pas ;8&%&$-.&(E"#*+; réservé I%) &*+%&,'-&mr» se tradit par e prédicat (appiqé à objet. En tant qe -termes simpement typés, e premier éément d cope est de type Ì %&"= *+ X I>%&"= *++ X %&/= *+ _ et e second est simpement d type n. Une chaîne admet ne see forme normae, à ordre des chaînes simpes coordonnées près. o. os choisissons e mot forme car i ne s agit qe d n indice ingistiqe de a force ioctoire a sens où a définit D. anderveken [A 01]. Le contexte de diaoge est nécessaire por préciser acte de angage et es intentions d octer.

718 RSTI - RIA. ome 18 n 5-6/2004 %&"= *++ I>%&"= *+dxp%&"= *+$ _. Le cope est donc de type, ce qi est e type d n prédicat. 2.3.3. Graphes conceptes Le formaisme choisi permet qe a forme sémantiqe obtene soit directement convertibe en n graphe concepte à a Sowa [SOW 84, SOW 00]. Por a représentation sos forme de graphe concepte des objets, es concepts correspondent ax étiqettes des objets et ax représentations sémantiqes des propriétés (es ééments des ensembes [ et?@6 ). Les reations conceptees correspondent ax étiqettes des propriétés (es ééments de 76 ) et ax différents connecters. La figre 3 représente a chaîne d objets précédente sos forme normae transformée en n graphe concepte. On pet remarqer qe es concepts (boîtes angaires) et es reations (boîtes arrondies) aternent e ong d ne chaîne ; is définissent ne poarité. et tarif tarif de de chambre chambre taie de taie de dobe hote identite dobe hote identite (nom "Camartin") (nom "Crion") Figre 3. Graphe concepte représentant ne chaîne d objets Por ce qi est d cope qi représente acte de angage, son premier éément est considéré comme ne reation conceptee et e second comme n concept. 2.3.4. Concsion L n des objectifs essenties est de parvenir à représenter e sens d n énoncé sans faire appe à des cadres sémantiqes prédéfinis. La représentation sémantiqe qi vient d être présentée correspond à cette exigence. Les concepts correspondent à des briqes éémentaires qi pevent être rattachées entre ees por fabriqer des représentations sémantiqes partiees o compètes, simpes o compexes. Cette représentation reste en même temps sffisamment simpe por povoir être faciement tiisabe par e mode de diaoge. 2.4. Première mise en œvre des principes :LOGUS-I L architectre générae de LOGUS-I correspond à a mise en appication des principes exposés à a fin de a section 2.2. Ee est schématisée dans a figre 4.

q r z z LOGUS : compréhension de ora spontané 719 Qatre traitements sccessifs sont appiqés (es dex traitements principax sont en gras dans a figre 4). 1) Chacn des exèmes de a iste d entrée présent dans e exiqe est transformé en a iste de ses définitions (emmatisation). Une définition est composée d ne étiqette syntaxiqe et d n -terme. Par exempe, e mot «chambre» admet por définition (nomc chambre), où étiqette syntaxiqe nomc signifie nom commn. Por es mots grammaticax destinés à se rattacher à ne tête exicae, étiqette syntaxiqe est fractionnaire (a sens des grammaires catégoriees [BAR 64]) et e -terme est ne abstraction. Par exempe, ne des définitions d mot «ne» est (gn/nomc x.(x (det indef sing))) ; gn/nomc est étiqette syntaxiqe d n éément qi pet se combiner avec n nom commn sité à sa droite por former n chnk nomina, e -terme correspondant détermine a composition avec ce nom commn sivant es règes qi vont être décrites. 2) Le chnking permet d associer des mots jxtaposés sr a base de règes qi dépendent excsivement de a syntaxe. Dex règes dérivées de cees des grammaires catégoriees de type q7r sont appiqées ax étiqettes syntaxiqes : - I q qts4r ax r : composition d n éément de catégorie q avec n éément de catégorie fractionnaire q7s'r sité à sa droite por former n éément de catégorie r. I - rhq vx : composition d n éément de catégorie fractionnaire rhq avec n éément de catégorie q sité à sa droite por former n éément de catégorie r. Le -terme réstat s obtient par composition des -termes correspondants comme dans exempe sivant où e -terme correspondant a chnk adjectiva «pas trop cher» s obtient comme composition des -termes respectivement associés ax trois mots qi e composent : S"* «%&OS Iw&xy w&xy» 1z; I<!w&} «% Iw&xy w&xy» Iw&xy(~O2 1z; z Iw&xy I 1zƒ I<!w&} I 2z; z ~1 \ c I5 w&}(~o2 \ 3) Le troisième traitement est à a fois ne interprétation et n fitrage. Les constitants non signifiants sont éiminés ; à ce stade, disparaissent ainsi es mots inconns d ne part 7 et es mots grammaticax non rattachés d atre part. ˆ. Dans n système de compréhension de ora spontané, es «mots inconns» posent n probème incontornabe et important. Les bribes de mots, es prononciations inhabitees et es noms propres déformés font qe e exiqe de reconnaissance ne pet espérer covrir tos es «mots» possibes. En généra, ces mots dits hors-vocabaire sont rempacés par n o des mots phonétiqement proches et correspondent donc à des errers de reconnaissance. Cependant, impact de ces errers sr e comportement généra d système est te qe certains systèmes font e choix de tenter de détecter ces mots hors-vocabaire ors de a reconnaissance vocae ; ces mots sont aors étiqetés «inconns». Fate de disposer de tes systèmes de re-

720 RSTI - RIA. ome 18 n 5-6/2004 Les atres constitants sont «interprétés», c est-à-dire transformés en «ééments sémantiqes» de trois types : es dex premiers correspondent ax objets et à ers propriétés ; e troisième contient es mots qi indiqent a strctre de énoncé (coordinations, négations, etc.) et es gropes de mots qi permettent de connaître a natre de énoncé. Par exempe, e constitant (adj (pas cher)) est interprété comme ne propriété éventee d n objet d domaine : (prop (pas cher)). 4) Le qatrième et dernier traitement consiste à ier entre ex es constitants sémantiqement interprétés por obtenir a forme ogiqe finae. Les règes tiisées sont excsivement sémantiqes ; ees tiisent a connaissance sémantiqe définie sr es objets d domaine, décrite par des prédicats ogiqes. Cette connaissance constite ne sorte de «cataoge» des iens possibes entre es objets et ers propriétés. L anayse cherche à fabriqer des «chaînes d objets» maximaes, c est-à-dire qi intègrent e ps grand nombre possibe des objets et propriétés présents dans énoncé, en tiisant es iens décrits dans a connaissance sémantiqe [IL 01]. 2.5. Évaation de LOGUS-I et concsions LOGUS-I a participé à ne campagne d évaation dite «par défi» [AT 02] dans e cadre d grope de travai 5.1 «compréhension robste» d GDR I3 d CRS. L évaation des systèmes de compréhension est n probème presqe assi compexe qe cei de er éaboration et particièrement difficie orsq is sont intégrés dans n système de diaoge ora. Le grope de travai s est donné por objectif étde de ces évaations. I cherche qees méthodoogies mettre en œvre por qe, a-deà des comparaisons de porcentages d anayses réssies 8, évaation permette de porter n diagnostic sr es points forts et faibes des systèmes en fonction des approches adoptées 9. Ainsi, a campagne d évaation à aqee a participé LOGUS-I n avait pas por bt d obtenir ne comparaison chiffrée entre es systèmes des différents participants (ces systèmes portaient d aiers sr des domaines d appication différents o sr des tâches distinctes d n même domaine). Ee voait essentieement permettre à chacn d entre ex de miex cerner es défats et es qaités de son système et, ps particièrement, d étdier son comportement sr certains phénomènes spécifiqes de expression orae. LOGUS-I a ainsi été somis à 1 200 énoncés tests répartis sivant qatre séries de 300 énoncés très différentes. Bien qe simés, ces tests, qi représentent ne sorte de cataoge des diffictés rencontrées par tos es participants, connaissance, es «mots inconns» dont i est qestion dans cet artice désignent niqement es mots rencontrés dans es istes données en entrée à LOGUS et qi ne figrent pas dans son exiqe.. Cette comparaison est déjà en soi difficie car ee exige qe es domaines d appication et es tâches soient strictement identiqes, qe es réponses attendes aient a même forme sémantiqe et qe es atres modes d DOHM n interviennent pas dans es réstats. Š. Por ps de détais sr e protocoe tiisé, on porra se reporter à [AT 02].

LOGUS : compréhension de ora spontané 721 avec des points de ve très différents, ont été très révéaters des comportements des systèmes testés. Les réstats obtens (es chiffres et qeqes commentaires concernant es différentes séries d énoncés tests sont donnés à a section 6) montrent ne grande robstesse de LOGUS-I face à ordre des différents chnks (environ 10 % d errers), à a ppart des extra-grammaticaités des ax modes de prodction de expression orae : corrections, répétitions, reprises (5 % d errers environ), et ax objets compexes. Entre atres, pe d errers sont engendrées par étape d chnking et es iens sémantiqes étabis entre es objets et ers propriétés sont très rarement erronés. Ainsi, es principes tiisés dans e prototype sembent dans ne certaine mesre jstifiés. Une segmentation en chnks sembe possibe et efficace por es énoncés orax, à condition totefois de faire e choix de chnks ps corts qe cex habiteement tiisés dans ce type d anayse. En effet, e chnking pet engendrer des errers orsqe des «réparations» o eipses s opèrent à intérier d n chnk. Par exempe, a segmentation «[dans n dex] [o] [dans n trois étoies]» risqe d entraîner ne perte d information (si e grope de mots [ «dans n dex» ] est négigé) o a nécessité de définir des coordinations compexes (es dex ééments à coordonner sont de natre différente). C est a phase d étabissement de iens entre chnks qi reconnaît des strctres de taie ps habitee. L avantage de notre démarche est qe ces strctres aront p faire objet d hésitations o de réparation qe e chnking habite ne sait pas traiter. Par aiers, es réstats obtens vaident égaement a constrction des chaînes d objets, tiisée por éviter es cadres sémantiqes prédéterminés (objets mnis d attribts considérés comme des cases à rempir obigatoires o sbsidiaires) : a base de connaissance spécifiqe ax objets d domaine, qi inventorie es iens possibes entre cex-ci, correspond à a définition d n contexte particier. Cette méthode présente en particier avantage de permettre d anayser correctement es objets compexes (et donc a ppart des reqêtes mtipes), ce qe es anayses séectives ne font qe très difficiement. Cependant, ne anayse qaitative des réstats montre égaement es imites de approche et d formaisme : absence totae de syntaxe dans a dexième partie de anayse rend difficie a reconnaissance des fax-départs («qes sont es horaires enfin non d abord je vodrais es tarifs...» ) et des incises («n hôte pas trop cher q est-ce qe je pex dire dex étoies par exempe...»). Cette même absence de syntaxe ne permet pas de distinger es différentes parties d n énoncé d type information-reqête, absent des tests de évaation mais assez fréqemment rencontré dans es corps, te qe, par exempe : «j ai réservé à hôte Camartin comment je pex faire por y aer d ici» ; e exiqe se restreint ax mots jgés «ties» à a compréhension et à qeqes mots corants jgés «vides» d n point de ve sémantiqe. Les mots absents d vocabaire de LOGUS, qaifiés d «inconns» (cf. note 7), sont éiminés à a fin d

722 RSTI - RIA. ome 18 n 5-6/2004 chnking. Cette éimination pre et simpe assi précoce accente e probème de a reconnaissance des fax-départs et des incises ; par aiers et srtot, ce prototype est trop dépendant de appication étdiée. L étape d interprétation qi sit e chnking contient ne connaissance sémantiqe ma circonscrite. Par aiers, es règes tiisées dans a phase d étabissement des iens sémantiqes dépendent directement des objets d domaine et, par conséqent, manqent de généricité. 3. LOGUS-II : principes et formaisme 3.1. Les principes générax de LOGUS-II Trois principes directers président à a conception de LOGUS-II, a dexième version de LOGUS [IL 02]. 1) La notion de chnk doit être modifiée, afin d éviter es errers précédemment décrites (cf. 2.5). Dans LOGUS-II, e chnking est imité à a constrction de chnks minimax, n chnk minima contenant a ps n éément exica. Cette définition condit par exempe à a segmentation sivante : [ «dans n dex» ] [ «o» ] [ «dans n trois» ] [ «étoies» ]. Cette segmentation offre a possibiité de traitements beacop ps simpes des réparations et des coordinations. 2) Le second principe consiste à se donner a possibiité d tiiser des argments syntaxiqes dans étape des iens entre chnks. Même si cette absence de syntaxe dans LOGUS-I n a pas provoqé n grand nombre d errers de compréhension ors de évaation, ee sembe restreindre es possibiités réees de approche. 3) Le troisième principe est de rendre génériqes es règes tiisées. Certes, i est probabe qe objectif d n système de compréhension de a paroe hors d n domaine spécifiqe est inaccessibe à cort o moyen terme. I est probabe égaement qe es systèmes de compréhension à bt pragmatiqe sont d atant ps efficaces q is sont conçs por ne appication spécifiqe dans n domaine particier. éanmoins, i nos sembe important de ne pas négiger por atant a généricité et a rétiisabiité. LOGUS a srtot été conç por mettre en œvre et expérimenter n formaisme et qeqes principes générax. Por prover intérêt de approche, e système se doit d être efficace ; or, si a qaité de anayse est a composante essentiee de cette efficacité, ne atre composante importante est a faciité à povoir adapter e système à n atre domaine d appication. A priori, vooir s appyer sr es connaissances sémantiqes spécifiqes a domaine et en même temps prétendre concevoir des règes indépendantes de ce domaine pet sember paradoxa. éanmoins, e formaisme adopté dans LOGUS-II sembe prover q i est possibe de conciier ne certaine généraité des règes et tiisation d ne connaissance sémantiqe spécifiqe. Les différentes étapes des traitements opérés dans LOGUS-II sont schématisées dans a figre 4. Par rapport à LOGUS-I, on pet noter a disparition de étape d interprétation et ajot d ne étape sppémentaire, en fin d anayse, destinée à étdier

LOGUS : compréhension de ora spontané 723 es éventees dépendances entre propositions. Les sections sivantes décrivent ces différents traitements. LOGUS-I iste de mots Lemmatisation Œ` AŽ` Œ Segmentation en chnks Interprétation 2. -! Ž`! Œ 5 -š Ž` Œ Liens entre chnks forme ogiqe LOGUS-II iste de mots Lemmatisation Segmentation en chnks Liens entre chnks Dépendances entre propositions forme ogiqe Figre 4. Architectres comparées de LOGUS-I et LOGUS-II 3.2. Modéisation des constitants Le formaisme adopté dans LOGUS-II por représenter es ééments de énoncé répond à psiers objectifs. 1) Le premier objectif est de povoir tiiser e même formaisme d n bot à atre de anayse ; e chnking et es étapes sivantes ne diffèrent qe par es règes de composition tiisées ; étape d interprétation tiisée dans LOGUS-I, qi servait à passer d n formaisme à atre devient donc intie. 2) Le second objectif est d offrir a possibiité d associer, tot a ong de anayse, es approches syntaxiqes et sémantiqes. 3) Enfin, i permet de définir des règes syntaxico-sémantiqes indépendantes d domaine de appication, sivant es principes qi vont être exposés. Depis es définitions d exiqe jsq à a fin de anayse, es différents ééments de énoncé sont représentés par n tripet. De ce tripet, se e troisième éément est strictement dépendant d domaine de appication. Le principe généra adopté por préserver a généricité consiste à tiiser des règes dont a définition ne fait intervenir qe es dex premiers ééments. Les règes pevent donc être rétiisées dans n atre domaine sans être modifiées. où : h@- *+ '1œ7+. *+ œ7s *+ Les tripets en qestion sont de a forme _ 1) h@- _ *+ '1 est a catégorie syntaxiqe. A nivea d exiqe, cette catégorie pet être simpe (par exempe, adjectif, nomc (nom commn), nomp (nom propre) sont des catégories syntaxiqes simpes) o fractionnaire (a sens des grammaires catégoriees), es catégories fractionnaires étant éiminées en fin de chnking (voir détai dans a section 4.2).

724 RSTI - RIA. ome 18 n 5-6/2004 02 0i S D atres catégories syntaxiqes tees qe (grope nomina) et _ (grope nomina prépositionne) 0i 02 sont S enrichies de traits qi sont déterminés ors de étape d chnking. Ainsi, et _ incent dans er définition es déterminants et prépositions qi servent à es définir. Par exempe, a catégorie syntaxiqe d chnk «vers hôte» est Ì 0i S I>02$;&$cI.="A3="8 *10i\WIbS!%&\S!&*+>&a"=/\ _ Les étapes sivantes de combinaisons des chnks condisent éventeement à a constrction de strctres syntaxiqes arborescentes, rendant ainsi possibe a détermination syntaxiqe de chacn des ééments composés (voir par exempe a figre 4). œt+ *+ 2) _ correspond a rôe sémantiqe des ééments. Dans e exiqe, ces rôes sémantiqes pevent être simpes o fractionnaires, avec, comme por es catégories syntaxiqes, éimination des rôes fractionnaires en fin de chnking. Cet étiqetage sémantiqe correspond à ne cassification des différents constitants : par exempes, IbS!%&OS &#\ž'o es objets ont por rôe sémantiqe e rôe génériqe ; e B D@ B D rôe des propriétés est où correspond à étiqette de a propriété a sens défini précédemment, orsq ont été exposés es ééments de constrction de a représentation sémantiqe finae (cf. 2.3.1). 3) œt\s _ *+ est a représentation sémantiqe de éément. Par exempe, por n éément de rôe sémantiqe &#\ž'o, ee correspond à a chaîne d objet ee-même. Por ne propriété, i s agit de a détermination de a propriété définie a 2.3.1. ;8!;`.8W&#ž-AEI.%) +*+%&,'-&mr Ainsi par exempe, est a définition d mot «réserver» tandis qe e exème «y a-t-i» correspond a tripet : I>02,@ŸS%&*++11%&%&02&&((5 où a catégorie syntaxiqe indiqe n grope verba à a troisième personne a présent 10. Les catégories syntaxiqes sont totaement indépendantes de appication et es rôes sémantiqes e sont dans ne très arge mesre. Les règes étant définies à partir de ces dex ééments, ees sont génériqes por atant q is e sont 11. 4. LOGUS-II : chnking 4.1. Les règes d chnking Les dex premiers champs d tripet pevent être de type fractionnaire (a sens des règes des grammaires catégoriees). La représentation sémantiqe correspondante est aors ne abstraction a sens des -termes. Le regropement des mots dans n chnk correspond à appication des dex règes ci-dessos directement dérivées des O. Ce exiqe dépend de appication dans e choix des mots et de ers définitions : e mot «prix» ne fait référence q à a vaer vénae (et pas à a récompense) et e mot «étoie» ne se réfère q ax hôtes et restarants. +. La généricité des étiqettes des propriétés n est pas totae, des propriétés tees qe ie et temps pevent ne pas être des propriétés des objets d domaine. Les modifications à apporter ax règes restent néanmoins minimes.

s s I z I X X r I I z LOGUS : compréhension de ora spontané 725 dex règes des grammaires AB et étendes ax copes syntaxico-sémantiqes de a catégorie syntaxiqe et d rôe sémantiqe. h) E(œc W( h) h)t œc œc ( et h h 3œ œ ( h œ ( h)73œc I h)c3œc )I. ) La «représentation sémantiqe» d tripet iss de appication de ne des règes s obtient par appication à a représentation sémantiqe d tripet atomiqe de abstraction qi correspond à a représentation sémantiqe d tripet «fractionnaire». Dans exempe sivant, /= ž correspond à adjectif, _ "= ž correspond à «chnk adjectiva» et S!%&OS signifie S!%&OS%&.A 12 : S!"* «%&OS ~ w&x+y» _ w-xy&ªii< 2 «4 c I< 2 «4 \ 1z; I5!w-} \ «!+% Iw&xy w&xyªii< 2 «4 c I< 2 «4 \» w&xy- I< 2 «4 Ow& \ T 2z; ~O2 z ~ w-xy&i< 2 «4 Ow& \ T I _ 2z; I5 w&} I 1z; z ~O2 ) c ei.w-xyei5 w&} ~O2 La définition de dex reations d ordre partie, a première sr es catégories syntaxiqes (± ² ) et a seconde sr es rôes sémantiqes (±E³ ), permettent a définition de dex novees règes sivant es principes d cac dans es prégropes initiés par Lambek [BUS 01, BAR 01]. Dans ces règes, ne forme de poymorphisme par sostypage est obtene en spposant qe si ne catégorie est demandée dans ne composition, aors des catégories ps raffinées (c est-à-dire des sos-types) sont égaement acceptées. Appiqé ax grammaires I> ƒ de type AB, ce principe condit à a définition de a catégorie fractionnaire ±Pq r@! où pet avoir des occrrences dans r. La novee rège de cac obtene correspond à : } 2h ±µq w& >«' \}WIÌ ƒ ± q r@!3h@(x R ¹ ºh où r R»¼ ½h représente a catégorie obtene en rempaçant es occrrences de dans r h par. Comme dans es règes précédentes, ce cac est appiqé ax dex premiers champs des tripets : a catégorie syntaxiqe et e rôe sémantiqe. L intérêt essentie des dex novees règes ainsi obtenes est de permettre ne dimintion d nombre de définitions nécessaires des ééments de type fractionnaire por covrir ensembe des compositions possibes ; ces possibiités se dédisent des étdes sr es réparations et sr es errers de reconnaissance. Par. La¾ -rédction est assrée par e angage de programmation : Proog. I s agit d n angage de programmation ogiqe dont es termes sont es -termes simpement typés mnis des À, ¾ et Á éqivaences [MIL 86, BEL 99]. La version tiisée est Proog/MALI, impémentée à IRISA de Rennes (France).

726 RSTI - RIA. ome 18 n 5-6/2004 exempe, I> $ ;&$ ordre ² I. ;& _ ² I. ;& S et a catégorie syntaxiqe ± I. ;& )II ;& SG ITS!%&\S!&*+`.& attribée ax prépositions font qe ces prépositions doivent povoir se composer avec n nom commn o avec n chnk nomina non prépositionne : es expressions «vers Lovre» ( éision de mots corts ors de a reconnaissance est n phénomène fréqent), «vers ce restarant» constitent des chnks. Par contre, dans ne expression tee qe «a vers e Lovre», a composition de «a» avec «vers e Lovre» est impossibe : a préposition prise en compte est donc «vers». 4.2. Le chnking : a mise en œvre Le exiqe donne, por chaqe exème conn, ne iste de définitions dont chacne est n constitant (n tripet). Le chnking consiste à appiqer totes es règes de compositions possibes entre es constitants jsq à épisement de ces compositions. Une iste de constitants sr aqee acne rège ne s appiqe ps est dite sotion d chnking. Une sotion est dite optimae si, parmi es sotions, ee est composée d n nombre minima de constitants. À isse d chnking, sees es sotions optimaes sont retenes. Le caractère déibérément minimaiste des chnks (cf. 3.1) font qe, dans a pratiqe, on obtient en généra ne see sotion optimae 13. Por éviter ne exposion combinatoire dans a recherche des sotions optimaes, es énoncés sont préaabement fractionnés en sos-énoncés, es copres intervenant entre dex exèmes qi ne pevent pas faire partie d n même chnk (par exempe avant ne préposition). Les sotions optimaes sont aors obtenes par jxtaposition des sotions optimaes de chaqe fraction. Enfin, e chnking se termine par éimination de certains constitants dans es sotions optimaes (fitrage). En particier, sont éiminés tos es constitants qi correspondent à des catégories syntaxiqes et rôes sémantiqes fractionnaires. Ainsi, e chnking constite n premier traitement des hésitations et des reprises : dans exempe «por a eh vers a station enfin eh vers a station de métro», e premier «por a» est éiminé. Les tabeax 1 et 2 donnent n exempe d chnking sr n énoncé compet. Por simpifier ces tabeax, see a définition qi sert à éaboration de a sotion optimae est représentée, en face d exème concerné. Les tabeax montrent e décopage de énoncé en chnks ; e tripet qi correspond à chacn des chnks est écrit en caractères gras. Les compositions font apparaître 15 constitants. Le premier d entre ex disparaît à isse d chnking et es 14 atres sont somis ax règes syntaxicosémantiqes por a site de anayse qi est donnée dans es tabeax 3, 4, 5 et 6. O. Une étde menée sr 100 des 1200 énoncés tests (cf. 2.5) ne montre acn exempe de mtipicité des sotions optimaes. En revanche, dans 61% de ces énoncés, n o psiers des chnks obtens admettent psiers définitions.

± ± ± ± ± Ä Ë Ë q q â â â je LOGUS : compréhension de ora spontané 727 ITS!%&&;&ÂS!+%&*7ÃE*10i'";;'&;+9"%& I>02,Gà S/*+*+ ITS4S[f/",'&%+f/.;8"&#\ž "\ j ai, _ Å &#ž IbS!%) +*+;c! /' _ IbS'SHf/",'&%+f/Æ&#ž "\4/I%) *++%&,'-.&mr réservé _ I<Ç!È ÉtÊ(Ë!Ì+ÌÍ2 µîï:ðñ ÑÒ Ó Ë!Ô&Õ+Í _ )I5Ê(ÖØ Í/ÌÍ Ï Ô-ÍGI5Ö Í2ÌÍ"Ö&È"Ë2Õ Î.ÑÏ R Ì 0iG;&$cI.="AØ;="8G*+.102 ;&$-'&#\ž "\ ne _ &#ž /' _ ;&$&&&#\ž "\'"I!" #%&7R chambre _ I<Ç ÏaÏ(Ñ!Ù Ô7IÚ:Í/Õ ÎÏ Ú:Í Ð Ì ÎÏ Ç Ñ!Ò Ó Ë!Ô-ÕÍ;)I.Ô+Û(Ë ÙmÒ Ö&Í@R _ Ì ƒ ITS!%& 02 \ dans ITS%& 0i S[$IbS!%&\S ; &œ œ[ I> ; "= ž ITS!%& 02G$I="O.;="+8G*10i\ n _ : IbS!%&OS IbS!%&OS I."= ž ;9!K;8 ÃÜ4"ITS%&OS1"I.+1 dex U' I<Ê3Ö&Í Ç Ï ÊÝI<Ê(Ö&Í Ç Ï I<Ë!Ú Ó Ï:Þ3ÙßÎ.Ï:Ð É2à!(IÚ Í"Õ Î.Ï Ú:Í Ð Ì ÎÏ Ç (I5Ê(Ö&Í"Ê ÎÏ I5Ê(Ö Ñ Ê Î.Ï ÕÆ(I5Í Ï Õ Î Í"ÖWá ;& &2I9!;`E&#\ž'O ai.3r>i.;#o&<.+*e! étoies Ï(Ñ!Ù Ô1I Þ(Ï(Î ÕÍ ÑÒ Ó Ë!Ô&Õ+Í2 _ 2â I<Û Ñ Õ+Í"ã R>I Ï Ò Í/Õ ÑÎ ãí/ì I> ƒ I>02 à Ì 0i SG ITS!%&\S _ S%&S _ :œ œ[ I>0iG;& I="O=/+8G*+.102 ;&$&4&#\ž "\ _ &#\ž "\4 _ ;&$-Æ&#ž "\4/I!(R hôte _ I5Ç Ï Ê]I5Ç ÏäÏ(ÑÙ Ô@IÚ Í"ÕEÚ:Í Ð Ì ÎÏ Ç (I5Ê(Ö&Í"Ê Ê(Ö&Í/Ê\ Ñ!Ò Ó ËÔ&Õ+̓ _ I5Û Ñ ÕÍ"ã;R S"%.91.4'*+>-&(';+9"%& eh Ê(Ë2Ö&Õ Î Ô Þ ã.í;1û3í2ì Î Õ+Ë2Õ Î.ÑÏ Ï Í Þ Õ+Ö&Í I> ƒ I>02 à Ì 0i SG ITS!%&\S _ S%&S _ :œ œ[ I>0iG;& I="O=/+8G*+.102 ;&$&4&#\ž "\ _ &#\ž "\4 _ ;&$-Æ&#ž "\4/I!(R hôte _ I5Ç Ï Ê]I5Ç ÏäÏ(ÑÙ Ô@IÚ Í"ÕEÚ:Í Ð Ì ÎÏ Ç (I5Ê(Ö&Í"Ê Ê(Ö&Í/Ê\ Ñ!Ò Ó ËÔ&Õ+̓ _ I5Û Ñ ÕÍ"ã;R ;&HS 2IbS!%&OS[.="+1> &/I;&gf/h@"9$"%.f" Camartin I Ï(ÑÙ ÊE3I<Ê(Ö Ñ Ê Î Ú:Í Ï Õ Î Õ( ÍWI Ï3ÑÙ f2å7ë Þ(Ù Ë2Ö&Õ Î.Ï f" I.;8;>8 S$IbS!%&\S por _ S!&9%& ;8!;`.8"&#\ž "\ _ &#\ž "\4 _.;8;>8/&#\ž "\4"I.45.+%[R>I.,'+%&*E&#\ž &1+i y aer 3, I ÎÏ:æÏ3Î Õ Î>Ð ÊÝI<Ê(Ö&Í/Ê _ Ê Ñ!Þ Ö'\ ÑÒ Ó ËÔ&Õ+̓)I5Ë1ã.ãÍ"ÖtR>I5ÈÍ"Ö'Ì ÑÒ Ó Ô Ñ!Ï ÕÍ Õ+Íi I> ƒ I>02 d Ì 0i S ITS!%&\S _ "#\ :&#ž "\ _ &#\ž "\4 _ ITS%&&;&P.+9GŸ *+.102'&#ž /'+.9 &1i ici I<Ç Ï Ê]I5Ê(Ö ÑÏ3ÑÙ ã Î Í Þ$ç Ì Î.Ï Ç (I<Ê3Ö&Í"Ê Ë Ò \ Ñ!Ò Ó Ë!Ô-ÕÍ;:ã Î Í Þ Ô ÑÏ Õ+Í Õ+Í _ Tabea 1. Exempe de segmentation en chnks sr n énoncé compet (site et fin page sivante)

â r â 728 RSTI - RIA. ome 18 n 5-6/2004 comment est-ce-qe je pex faire /=",4%&#4&.1+%&%&0i-&('& $+1 Ë!Ú:ÈÍ/Ö Ò Íƒ ÎÏ Õ+Í"Ö&Ö Ñ ÇË2Õ Î5Ñ!Ï 2Ô Ñ!Ù]Ù Í Ï Õ 4S!%&&1%&%&02-.&('&9 ;& _ Í Ê(Ö2 Î.Ï ÕÍ"Ö&Ö Ñ Ç!Ë1Õ Î5ÑÏ Ñ!Þ(Î Ï(ÑÏ _ Ì 0i,[à I,'+%&# _ r Æœ œ I.,4%&#cà S%&* &$&="4.`'S&9!,4&.% I5ÇÈeÉ7Ê(Ö&Í2Ì Ù]Ñ Ú Ë1ã Î ÕÍ;1Ê Ñ!Þ È Ñ!Î Ö.;8;>8/";;+!4&;9i%& Î.Ï:æÏ(Î Õ Î>Ð 2Ë Ï(Ï Í Íƒ Ï Í Þ Õ+Ö&Í Tabea 2. Exempe de segmentation en chnks sr n énoncé compet (site et fin) 5. LOGUS-II : connaissance sémantiqe - règes syntaxico-sémantiqes Les étapes qi sivent e chnking tiisent des règes syntaxico-sémantiqes qi s appient sr ne connaissance sémantiqe d domaine. Cee-ci constite ne base de données des iens qi pevent être étabis entre es objets d domaine et ers propriétés, por a formation de a forme finae. Les règes syntaxico-sémantiqes permettent a mise en œvre de ces iens. Le formaisme choisi, tant por a connaissance sémantiqe qe por es règes syntaxico-sémantiqes, fait qe, orsq ees portent sr es objets de ce domaine o sr ers propriétés, ces règes ne dépendent qe des reations définies entre es objets et non des objets ex-mêmes. Ainsi, ees pevent être appiqées à tot atre ensembe d objets et de propriétés sr eqe seraient définies es mêmes reations conceptees. 5.1. Les prédicats de a connaissance sémantiqe La majere partie de a connaissance sémantiqe est constitée de prédicats dont es argments sont des objets d domaine de appication. Ee en est donc directement dépendante. I est cependant possibe de faire e choix de prédicats qi soient exmêmes génériqes, et donc rétiisabes sr e système d objets d n atre domaine. Les prédicats dits «de base» définissent a connaissance sémantiqe proprement dite. D atres prédicats reèvent égaement de cette connaissance mais is sont définis comme des conséqences des prédicats précédents. 5.1.1. Les prédicats «de base» L essentie de a connaissance sémantiqe sr es objets d domaine est contene dans a définition des prédicats sivants : est_sos_obj_de : ce prédicat prend por argments dex étiqettes d objets. La reation est_sos_obj_de(et1, Et2) est vraie si dex objets simpes Qèà et QHU, d éti-

LOGUS : compréhension de ora spontané 729 B Ã qettes respectives I.="GQGÃGQ@U4 B U et pevent être iés n à atre por former a chaîne d objets simpe, par I.="@I/ exempe #%& est_sos_obj_de(chambre, EI! hote) permet de constrire a chaîne simpe o n graphe concepte éémentaire (cf. figre 5). est_sos_obj_de(chambre,hote) est_propriete_de(identite,(nom "Camartin"),hote) chambre de hote hote est_compement_de(cat_co, (EtO LPO), metro, vers) identite metro vers? (nom "Camartin") identite? Figre 5. Exempes de graphes conceptes éémentaires définis par a connaissance sémantiqe est_propriete_de : i s agit d n prédicat d arité 3 dont es dex premiers argments sont ne étiqette de propriété et sa détermination, e troisième ne étiqette d objet. La reation est_propriete_de(etp, DP, EtO) correspond B Q à a possibi- à n objet d étiqette : par exempe, I B DKFGD@ ité +*A de S%&OS!%&O rattacher ="4I.="1` a propriété "WI;&gf/h@"9$"%.f". (cf. figre 5). est_compement_de : c est e prédicat e ps compexe de cette connaissance sémantiqe. I inventorie es possibiités Q h@q por n objet B d être considéré comme ne des propriétés d n atre objet d étiqette. La reation est conditionnée h@- h@q par a catégorie syntaxiqe _ h@- de h@q éément h@q B hhq qi correspond L L à objet. Les qatre argments d prédicat sont _,, et, où est a reation conceptee qi correspond a rattachement ( Lé.+ joe donc e rôe d ne étiqette de propriété). Par exempe, est_compement_de(cat_co, (EtO LPO), metro, vers) si hh& hhq "= 1) LéD@Q _ contient a préposition,.="+1> 2) contient ne propriété d étiqette. Une tee reation correspond égaement à n graphe concepte éémentaire (cf. figre 5). est_dans : ce prédicat d arité dex permet essentieement des simpifications dans a constrction des chaînes ; i prend en argments dex étiqettes d objet. Ainsi est_dans(dormir, hote) permet qe es objets d étiqette dormir et hote soient fsionnés en n se objet d étiqette hote, avec rénion des propriétés correspondantes. Ainsi, expression «dormir ce soir dans n hôte dex étoies» pet être considérée comme reative à n se objet d étiqette hote avec es dex propriétés «ce soir» et «dex étoies».