85 Schedae, 2006 Prépublication n 11 Fascicule n 1 Quelle plus-value linguistique pour la segmentation automatique de texte? Christophe Pimm ERSS, Université de Toulouse-le-Mirail 5 Allées Antonio Machado 31058 Toulouse Cedex 9 cpimm@univ-tlse2.fr Résumé : Cet article s inscrit dans le domaine de l analyse du discours. Dans cet article se focalise sur une partie de mon travail de thèse qui vise à la description de mécanismes complexes de structuration du discours. Elle se base sur la description de l interaction de plusieurs mécanismes complémentaires dans la construction de la cohérence discursive. Le but de cette étude sur corpus est d utiliser ces descriptions pour la réalisation d un module de segmentation automatique. Mots-clés : Analyse du discours, TAL, RST, MAT, Encadrement du discours, cohérence, organisation hiérarchique du discours, segmentation statistique, segmentation du discours. Abstract : This paper situates itself in the field of discourse analysis. It focuses on a part of my work for my PhD aiming to describe complex mechanisms in the structuration of discourse. It is based on the description of the interaction between various complementary mechanisms for the construction of discourse coherence. The goal of this corpus-based study is to build an automatic segmentation module based on these descriptions. Keywords : Discourse analysis, computational linguistics, RST, Text Architecture Model, Discourse Framing, coherence, hierarchical organization of discourse, statistical segmentation, discourse segmentation. Au sein du TAL, le domaine de la segmentation automatique de texte s est considérablement développé depuis quelques années répondant à des besoins et aux avancées de l informatique. Dans cet article qui s inscrit dans le domaine de l analyse du discours, je me propose de revenir sur des méthodes de traitement automatique statistiques (basées sur la notion de cohésion lexicale) en soulignant leurs caractéristiques et leurs limites et d évaluer la plusvalue que pourrait leur apporter l utilisation de modèles et théories de l analyse du discours (qui étudient les mécanismes de cohérence du discours). Mon but n est pas de totalement rejeter les approches statistiques, qui ont quand même des qualités, au profit de modélisations purement linguistiques mais plutôt de proposer une approche hybride statistique et Christophe Pimm «Quelle plus-value linguistique pour la segmentation automatique de texte?»
86 linguistique de segmentation automatique permettant de dégager des segments de discours cohérents et pertinents. Je présenterai enfin les applications envisagées qui guident le choix des modèles utilisés. 1. Cadre de l étude l analyse du discours Cette étude s inscrit dans le domaine du TAL mais également dans le domaine de l analyse du discours. En effet, si ce travail a des visées applicatives et utilise des outils et des méthodes de TAL, une grande partie du travail précédant l étape de l automatisation est un travail de description linguistique sur les textes constituant le corpus. Je vais maintenant brièvement présenter chaque méthode et modèle utilisés avant de montrer en quoi il est pertinent de considérer ces modèles ensembles dans une tâche d observation des phénomènes de cohérence en vue de leur utilisation dans un système de segmentation automatique. La cohérence est une notion centrale de l analyse du discours. En effet, un discours n est pas une simple succession de phrases mises à la suite les unes des autres mais bien un tout cohérent dans lequel tous les segments sont liés les uns aux autres de façon hiérarchique. Un grand nombre de théories et modèles de la cohérence existent à l heure actuelle et j ai choisi pour mon étude d en utiliser trois, leur choix étant motivé à la fois par leur complémentarité et par les applications de TAL visées. 1.1. Trois théories et modèles de la cohérence discursive L Encadrement du discours de Charolles (1997) décrit l organisation et le fonctionnement de segments discursifs appelés cadres de discours. Les cadres sont définis par Charolles (1997) comme des unités contenant «plusieurs propositions apparaissant dans le fil d un texte [et qui] entretiennent un même rapport avec un certain critère» ce dernier étant souvent marqué par une expression détachée en tête de phrase et initiant le cadre : l introducteur de cadre (IC). Sa portée dépasse la proposition et peut s étendre sur plusieurs phrases. Charolles (1997) a ainsi dégagé quatre grands types de cadres, chacun étant introduit par un type d IC 1. Participant à la construction de la cohérence discursive, les cadres ne sont pas des segments isolés mais peuvent être liés entre eux par des relations de deux types : la subordination ou la coordination. L Encadrement du discours offre des perspectives intéressantes dans la description de la cohérence car même si il ne peut être appliqué à l ensemble d un texte, il permet une description de phénomènes au fonctionnement particulier et qui complète bien (comme nous allons le voir) la description d autres segments et relations du discours. La RST (Rhetorical Structure Theory) est une théorie développée Mann & Thompson (entre autres Mann & Thompson 1988 & 2001). Elle décrit l interaction entre des segments de discours à l aide d un jeu ouvert de relations rhétoriques. Dans la RST, les relations occupant une place centrale sont définies par un ensemble de contraintes sur la relation et sur les segments liés par cette relation. La RST distingue entre deux types de relations : les relations noyau-satellite (où le noyau est le segment principal) et les relations multinucléaires (liant plusieurs noyaux). Un des avantages de la RST est la variété des relations proposées. Elle permet également de rendre compte de la structure hiérarchique du discours. Par contre, faire une analyse RST d un texte n est jamais aisé car le jeu des relations n est pas fixe et il n est parfois pas évident de décider quelle relation convient le mieux pour relier deux segments. 1. Les univers de discours temporels et spatiaux, les cadres thématiques, les domaines qualitatifs et les espaces de discours.
87 Le MAT (Modèle de l Architecture Textuelle) est un modèle décrivant la mise en forme matérielle (MFM) des textes comme participant à la construction de la cohérence du discours. On peut en trouver des descriptions dans Luc (2000) et Luc & Virbel (2001). Selon ce modèle, chaque élément de formatage des textes peut être exprimé par un métalangage. Les titres ou les énumérations sont des exemples d objets textuels qu il est possible de décrire à l aide du MAT et repérables grâce à des marqueurs (par exemple, l alignement du texte ou des caractères en gras). Le MAT est un modèle pertinent quand on travaille sur des textes écrits car les aspects de MFM des textes sont des indicateurs précis des intentions de l auteur et facilitent la construction de la cohérence du discours du lecteur à partir du texte. Il est intéressant d utiliser ce modèle lorsqu on travaille dans une optique de segmentation automatique car la MFM la facilite et les marqueurs de formatage sont relativement faciles à repérer de façon automatique. 1.2. Une étude sur les titres Pour compléter l utilisation de ces modèles, j ai entrepris une étude sur les titres au sein des documents de mon corpus 2 (présenté en section 2). Ce choix se justifie car les textes de mon corpus sont très fortement structurés et notamment avec des titres. Pour l identification de segments et la segmentation, les titres fournissent un certain nombre d indices. Si le discours est une entité hiérarchique, cette hiérarchie est aussi véhiculée par les titres. Dans l étude des titres de section, les travaux de Ho-Dac, Jacques & Rebeyrolle (Rebeyrolle 2003, Ho-Dac et al. 2004) nous éclairent sur le rôle et la fonction des titres et nous donnent également des pistes pour leur étude. Les titres organisent doublement le discours car ils organisent les thèmes abordés dans un texte mais aussi le texte lui-même. Pour le présent travail, certains indices sont particulièrement intéressants. Tout d abord, la forme des titres. Rebeyrolle (2003) avait constaté que les titres de section étaient majoritairement des SN mais pouvaient aussi par exemple être réalisés par des SP, des SN coordonnés ou des phrases. Un autre indice lié à l organisation hiérarchique du texte est le niveau de hiérarchie du titre qui permet de situer le titre dans la hiérarchie du document et ainsi de voir ses relations avec les autres titres de ce document. Enfin, un dernier type d indices dans les textes concerne la reprise des titres dans le segment titré (lieu et forme de la reprise). Combinée aux théories et modèles évoqués plus haut, cette étude des titres a le potentiel de faciliter le repérage et l utilisation de certains segments de discours. 2. Présentation du corpus Mon étude est une étude sur un corpus bilingue français/anglais de textes écrits longs et structurés appartenant à trois types de texte différents. Travailler sur des textes longs a été un choix qui se justifie par le besoin de les traiter efficacement mais aussi et surtout par la nécessité de disposer de textes assez longs pour observer les phénomènes de construction de la cohérence, ce qui est plus difficile à faire sur des textes courts, en particulier en ce qui concerne les titres qui doivent être nombreux si on veut observer leur fonctionnement. Un second critère qui a été retenu est qu ils devaient être structurés sur le plan visuel et organisationnel, par l utilisation de titres (avec au moins trois niveaux de titre) mais également par l utilisation de la MFM comme des puces ou du gras. Les trois types de textes que j ai retenus pour mon corpus sont des textes procéduraux (des manuels de logiciel 172 000 mots), un 2. Cette étude a été initiée dans le cadre du projet «Visualisation dynamique de texte : extraction sélective, affichage spatial multi-échelle et observation des stratégies de lecture» (voir http://www.limsi.fr/individu/ jacquemi/cognitique02/).
88 texte institutionnel (le Traité établissant une constitution pour l Europe 320 000 mots) et des textes argumentatifs (des articles de presse spécialisée 36 000 mots). Pour mon étude, le corpus a subi un certain nombre de pré-traitements : les formats des textes étant variés (Word, PDF, RTF, PS, etc.), je les ai d abord tous convertis au format XML en leur donnant une DTD commune et je les ai également étiquetés à l aide du Tree- Tagger, ce qui était nécessaire, notamment pour le traitement des textes par le TextTiling. 3. Avantages et limites des méthodes statistiques Une étude préliminaire a été effectuée sur les méthodes statistiques de traitement automatique de textes. Il a d abord été question de savoir si la LSA 3 étaient une méthode qui pouvait potentiellement être utilisée pour la segmentation automatique. Le plus grand problème que j ai constaté est que la LSA est une méthode statistique basée sur des calculs de similarité qui dépend beaucoup trop de l espace sémantique dans lequel a lieu la comparaison. De plus, la LSA ne permet pas de déterminer les segments à comparer pour la segmentation nécessitant donc trop de pré-traitements. Le TextTiling Algorithm de Hearst (1994, 1997) a également été considéré. Cette méthode de segmentation thématique est robuste et donne de bons résultats pour certaines applications. Mais elle a aussi des limites quand on travaille sur des textes structurés : un trop grand nombre de titres et des paragraphes trop courts entraînent des problèmes de découpage qui faussent la segmentation thématique. De plus, le TextTiling Algorithm utilise des pseudo-paragraphes des pseudo-phrases pour la segmentation, ce qui rajoute de l «à peu près» dans la segmentation. Pour l instant, j ai évalué cet algorithme sur mon corpus à partir de son implémentation en Perl que j ai réalisée. Cela ne suffit néanmoins pas et un protocole expérimental est en train d être mis en place pour son évaluation plus en profondeur par rapport aux tâches finales qui sont présentées en conclusion de cet article. 4. Une combinaison des modèles servant l application Les différents modèles, théories et études présentés permettent de décrire chacun un aspect de la cohérence, cette description étant toujours motivée par des objectifs précis. Avec le développement des applications de TAL et le besoin de plus en plus grand de prendre en compte des informations linguistiques d un côté et pour aboutir à une description plus poussée de la cohérence d autre part, certains auteurs ont commencé à considérer conjointement plusieurs théories et modèles pour décrire des phénomènes complexes et répondre à ces besoins. C est le cas de Luc (2000) et Luc & Virbel (2001) qui envisagent la complémentarité entre le MAT et la RST. De la même façon, Power et al. (2003) font le lien entre la structure du document et la structure rhétorique pour le développement d outils de génération automatique de texte. Des travaux font cohabiter méthodes statistiques et méthodes linguistiques, la linguistiques complétant les méthodes statistiques. C est le cas des travaux de Ferret et al. (2001) qui font cohabiter une segmentation à la Hearst et l utilisation de l Encadrement du discours en vue d une application de résumé automatique 4. Ces auteurs concluent que les méthodes statistiques sont performantes quand il y a des cassures franches entre les segments mais que dans le cas contraire, le repérage de marqueurs linguistiques donne de meilleurs résultats. La combinaison de méthodes statistiques et linguistiques peut 3. Voir Landauer et al. (1998) pour une présentation de la LSA. 4. Les auteurs utilisent également une troisième méthode faisant appel à des données externes au texte : un réseau de collocations construit à partir d un corpus d articles de journaux.
89 donc fournir un bon compromis entre efficacité et précision. Les théories et modèles présentés en section 1 sont très complémentaires dans le sens où certains pallient des manques des autres. Par exemple, déterminer les indices de fermeture des cadres (souvent problématique), il est possible d utiliser la MFM, les titres ou les relations RST. Après avoir observé le fonctionnement conjoint de ces modèles sur un corpus de textes procéduraux et argumentatifs lors de mon DEA (Pimm 2003), j en ai conclu qu ils se complétaient et interagissaient les uns avec les autres 5 et permettaient de dégager des macro-segments discursifs récurrents et propres à un type de texte particulier. Une première étude sur mon corpus m a permis de dégager des macro-segments récurrents dans les textes procéduraux et le texte institutionnel. Ces segments mettent en jeu toujours la même configuration de marqueurs. Ces configurations ont été implémentées en Perl pour repérer automatiquement ces segments et relations. Ce programme constitue un squelette pour le programme de segmentation qui, une fois couplé avec un programme de segmentation statistique, permettra d identifier ces macro-segments pour leur utilisation ultérieure dans des systèmes de TAL. 5. En conclusion les applications considérées Grâce à la combinaison de plusieurs modèles de l analyse du discours combinés à une étude sur les titres, j ai pu mettre à jour des configurations récurrentes de marques au sein de textes de types différents. Cette étude était motivée en partie par les applications pouvant tirer partie d une segmentation discursive basée sur des indices de la cohérence discursive. L une de ces applications est la visualisation et la navigation multi-échelle de textes pour laquelle on doit avoir la possibilité de visualiser le texte à des niveaux de grain plus ou moins fins et donc, de tirer partie de la structure hiérarchique du document, ce qui n est pas possible avec une méthode statistique. Une deuxième application envisagée est l aide à la rédaction. Un système d aide à la rédaction de manuels procéduraux ou de textes institutionnels pourrait fournir un patron à remplir par le rédacteur contenant déjà toutes les relations et les types de segments à utiliser pour assurer une bonne compréhension des textes par les lecteurs. Dans ces deux exemples d applications, il semble que la combinaison de méthodes statistiques et linguistiques est un compromis efficace. 6. Bibliographie CHAROLLES M. (1997), «L encadrement du discours : univers, champs, domaines et espaces», Cahier de Recherche Linguistique, 6, p. 1-73. FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage de structures thématiques dans des textes», in Actes de la conférence Traitement Automatique du Langage Naturel (TALN 01), ATALA, p. 163-172. HEARST M. (1994), «Multi-paragraph segmentation of expository text», in Proceedings of the 32 nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, p. 9-16. HEARST M. (1997), «TextTiling : Segmenting text into multi-paragraph subtopic passages», Computational Linguistics, 23, 1, p. 33-64. HO-DAC L.-M., JACQUES M.-P. & REBEYROLLE J. (2004), «Sur la fonction discursive des titres», in L unité texte, S. Porhiel & D. Klingler (éds), Pleyben, Perspectives, p. 125-152. LANDAUER T., FOLTZ P. & LAHAM D. (1998), «Introduction to Latent Semantic Analysis», Discourse Processes, 25, p. 259-284. 5. Il faut bien sûr garder à l esprit que la cohérence discursive est un phénomène très complexe et même si on utilise conjointement plusieurs théories et modèles, nous sommes encore très loin de la décrire complètement.
90 LUC C. (2000), Représentation et composition des structures visuelles et rhétoriques du texte, Thèse de Doctorat, IRIT, Université Paul Sabatier Toulouse III (dactyl.). LUC C. & VIRBEL J. (2001), «Le modèle de l architecture textuelle fondements et expérimentations», Verbum, 23 (Cohérence et relations de discours à l écrit), 1. MANN W.C. & THOMPSON S. (1988), Rhetorical Structure Theory : Toward a functional theory of text organization, Text, 8, 3, p. 243-281. MANN W.C. & THOMPSON S. (2001), «Deux perspectives sur la Théorie de la Structure Rhétorique (RST)», Verbum, 23 (Cohérence et relations de discours à l écrit), 1. PIMM C. (2003), Une étude sur corpus de textes anglais et français de cinq relations rhétoriques proches (la conséquence, la cause, la condition, la temporalité et le but), leurs réalisations, leur place, leur rôle et les liens qui les unissent dans les textes à consignes, Mémoire de DEA, Université de Toulouse-le- Mirail, Toulouse II (dactyl.). POWER R., SCOTT D. & BOUAYAD-AGHA N. (2003), «Document Structure», Computational Linguistics, 29, 2, p. 211-260. REBEYROLLE J. (2003), «Forme linguistique et fonction discursive des titres de sections», in Actes du Colloque de l Association for French language studies (AFLS) : Le français aujourd hui : Problèmes et méthodes, Université de Tours, France.