Quelle plus-value linguistique pour la segmentation automatique de texte?



Documents pareils
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Une méthode d apprentissage pour la composition de services web

Nom de l application

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Apprentissage Automatique

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Classification Automatique de messages : une approche hybride

UE 8 Systèmes d information de gestion Le programme

Brique BDL Gestion de Projet Logiciel

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

1 Description générale. Résumé

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

THOT - Extraction de données et de schémas d un SGBD

Compte-rendu de Hamma B., La préposition en français

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Sur la fonction discursive des titres

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Quels outils pour prévoir?

COMMENT REDIGER UN RAPPORT TECHNIQUE?

Entreposage de données complexes pour la médecine d anticipation personnalisée

PROSOP : un système de gestion de bases de données prosopographiques

Méthode de classification des réponses d un moteur de recherche

Partie II Approche théorique

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Ressources lexicales au service de recherche et d indexation des images

Pour un dialogue entre jeux et rhétorique

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

4. SERVICES WEB REST 46

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

d évaluation Objectifs Processus d élaboration

UML (Diagramme de classes) Unified Modeling Language

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

MARION TILLOUS. SOUTENANCE Madame, messieurs,

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

Industrie des cartes de paiement (PCI) Norme de sécurité des données Récapitulatif des modifications de

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Programme de la formation en référencement LYON/PARIS 2015

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

Publier un Carnet Blanc

Qu est-ce qu un résumé?

Prise en main rapide

Vérifier la qualité de vos applications logicielle de manière continue

FrontRange SaaS Service Management Self-Service & Catalogue de Service

Utilisation de l éditeur.

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

IFT2255 : Génie logiciel

TEXT MINING Tour d Horizon

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

Analyse dialectométrique des parlers berbères de Kabylie

Présentation du Modèle de Référence pour les Bibliothèques FRBR

Pour une entreprise plus performante

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Styler un document sous OpenOffice 4.0

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Les sites Internet dynamiques. contact : Patrick VINCENT pvincent@erasme.org

La construction discursive de la signification : le point de vue argumentatif

MANUEL DE PROCÉDURE POUR LA MISE À JOUR DU SITE DE FIDAFRIQUE. Documentation utilisateur Octobre 2005

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

Introduction aux concepts d ez Publish

La recherche en train de se faire: les cahiers de recherche en ligne. Aboubekeur ZINEDDINE

Etapes de création d une revue électronique

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Conseil d administration Genève, novembre 2002 LILS

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

- Couches - Éléments - Domaines - ArchiMate et les techniques du BABOK

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Développement et applications de la base de données terminologiques de Matra Marconi Space

E-Gen : traitement automatique des offres d emploi

Publier dans la Base Documentaire

Les 10 étapes incontournables pour réaliser un site internet performant et accessible

BTS MUC Le système d information commerciale dans l épreuve d ACRC

E-COMMERCE VERS UNE DÉFINITION INTERNATIONALE ET DES INDICATEURS STATISTIQUES COMPARABLES AU NIVEAU INTERNATIONAL

Transcription:

85 Schedae, 2006 Prépublication n 11 Fascicule n 1 Quelle plus-value linguistique pour la segmentation automatique de texte? Christophe Pimm ERSS, Université de Toulouse-le-Mirail 5 Allées Antonio Machado 31058 Toulouse Cedex 9 cpimm@univ-tlse2.fr Résumé : Cet article s inscrit dans le domaine de l analyse du discours. Dans cet article se focalise sur une partie de mon travail de thèse qui vise à la description de mécanismes complexes de structuration du discours. Elle se base sur la description de l interaction de plusieurs mécanismes complémentaires dans la construction de la cohérence discursive. Le but de cette étude sur corpus est d utiliser ces descriptions pour la réalisation d un module de segmentation automatique. Mots-clés : Analyse du discours, TAL, RST, MAT, Encadrement du discours, cohérence, organisation hiérarchique du discours, segmentation statistique, segmentation du discours. Abstract : This paper situates itself in the field of discourse analysis. It focuses on a part of my work for my PhD aiming to describe complex mechanisms in the structuration of discourse. It is based on the description of the interaction between various complementary mechanisms for the construction of discourse coherence. The goal of this corpus-based study is to build an automatic segmentation module based on these descriptions. Keywords : Discourse analysis, computational linguistics, RST, Text Architecture Model, Discourse Framing, coherence, hierarchical organization of discourse, statistical segmentation, discourse segmentation. Au sein du TAL, le domaine de la segmentation automatique de texte s est considérablement développé depuis quelques années répondant à des besoins et aux avancées de l informatique. Dans cet article qui s inscrit dans le domaine de l analyse du discours, je me propose de revenir sur des méthodes de traitement automatique statistiques (basées sur la notion de cohésion lexicale) en soulignant leurs caractéristiques et leurs limites et d évaluer la plusvalue que pourrait leur apporter l utilisation de modèles et théories de l analyse du discours (qui étudient les mécanismes de cohérence du discours). Mon but n est pas de totalement rejeter les approches statistiques, qui ont quand même des qualités, au profit de modélisations purement linguistiques mais plutôt de proposer une approche hybride statistique et Christophe Pimm «Quelle plus-value linguistique pour la segmentation automatique de texte?»

86 linguistique de segmentation automatique permettant de dégager des segments de discours cohérents et pertinents. Je présenterai enfin les applications envisagées qui guident le choix des modèles utilisés. 1. Cadre de l étude l analyse du discours Cette étude s inscrit dans le domaine du TAL mais également dans le domaine de l analyse du discours. En effet, si ce travail a des visées applicatives et utilise des outils et des méthodes de TAL, une grande partie du travail précédant l étape de l automatisation est un travail de description linguistique sur les textes constituant le corpus. Je vais maintenant brièvement présenter chaque méthode et modèle utilisés avant de montrer en quoi il est pertinent de considérer ces modèles ensembles dans une tâche d observation des phénomènes de cohérence en vue de leur utilisation dans un système de segmentation automatique. La cohérence est une notion centrale de l analyse du discours. En effet, un discours n est pas une simple succession de phrases mises à la suite les unes des autres mais bien un tout cohérent dans lequel tous les segments sont liés les uns aux autres de façon hiérarchique. Un grand nombre de théories et modèles de la cohérence existent à l heure actuelle et j ai choisi pour mon étude d en utiliser trois, leur choix étant motivé à la fois par leur complémentarité et par les applications de TAL visées. 1.1. Trois théories et modèles de la cohérence discursive L Encadrement du discours de Charolles (1997) décrit l organisation et le fonctionnement de segments discursifs appelés cadres de discours. Les cadres sont définis par Charolles (1997) comme des unités contenant «plusieurs propositions apparaissant dans le fil d un texte [et qui] entretiennent un même rapport avec un certain critère» ce dernier étant souvent marqué par une expression détachée en tête de phrase et initiant le cadre : l introducteur de cadre (IC). Sa portée dépasse la proposition et peut s étendre sur plusieurs phrases. Charolles (1997) a ainsi dégagé quatre grands types de cadres, chacun étant introduit par un type d IC 1. Participant à la construction de la cohérence discursive, les cadres ne sont pas des segments isolés mais peuvent être liés entre eux par des relations de deux types : la subordination ou la coordination. L Encadrement du discours offre des perspectives intéressantes dans la description de la cohérence car même si il ne peut être appliqué à l ensemble d un texte, il permet une description de phénomènes au fonctionnement particulier et qui complète bien (comme nous allons le voir) la description d autres segments et relations du discours. La RST (Rhetorical Structure Theory) est une théorie développée Mann & Thompson (entre autres Mann & Thompson 1988 & 2001). Elle décrit l interaction entre des segments de discours à l aide d un jeu ouvert de relations rhétoriques. Dans la RST, les relations occupant une place centrale sont définies par un ensemble de contraintes sur la relation et sur les segments liés par cette relation. La RST distingue entre deux types de relations : les relations noyau-satellite (où le noyau est le segment principal) et les relations multinucléaires (liant plusieurs noyaux). Un des avantages de la RST est la variété des relations proposées. Elle permet également de rendre compte de la structure hiérarchique du discours. Par contre, faire une analyse RST d un texte n est jamais aisé car le jeu des relations n est pas fixe et il n est parfois pas évident de décider quelle relation convient le mieux pour relier deux segments. 1. Les univers de discours temporels et spatiaux, les cadres thématiques, les domaines qualitatifs et les espaces de discours.

87 Le MAT (Modèle de l Architecture Textuelle) est un modèle décrivant la mise en forme matérielle (MFM) des textes comme participant à la construction de la cohérence du discours. On peut en trouver des descriptions dans Luc (2000) et Luc & Virbel (2001). Selon ce modèle, chaque élément de formatage des textes peut être exprimé par un métalangage. Les titres ou les énumérations sont des exemples d objets textuels qu il est possible de décrire à l aide du MAT et repérables grâce à des marqueurs (par exemple, l alignement du texte ou des caractères en gras). Le MAT est un modèle pertinent quand on travaille sur des textes écrits car les aspects de MFM des textes sont des indicateurs précis des intentions de l auteur et facilitent la construction de la cohérence du discours du lecteur à partir du texte. Il est intéressant d utiliser ce modèle lorsqu on travaille dans une optique de segmentation automatique car la MFM la facilite et les marqueurs de formatage sont relativement faciles à repérer de façon automatique. 1.2. Une étude sur les titres Pour compléter l utilisation de ces modèles, j ai entrepris une étude sur les titres au sein des documents de mon corpus 2 (présenté en section 2). Ce choix se justifie car les textes de mon corpus sont très fortement structurés et notamment avec des titres. Pour l identification de segments et la segmentation, les titres fournissent un certain nombre d indices. Si le discours est une entité hiérarchique, cette hiérarchie est aussi véhiculée par les titres. Dans l étude des titres de section, les travaux de Ho-Dac, Jacques & Rebeyrolle (Rebeyrolle 2003, Ho-Dac et al. 2004) nous éclairent sur le rôle et la fonction des titres et nous donnent également des pistes pour leur étude. Les titres organisent doublement le discours car ils organisent les thèmes abordés dans un texte mais aussi le texte lui-même. Pour le présent travail, certains indices sont particulièrement intéressants. Tout d abord, la forme des titres. Rebeyrolle (2003) avait constaté que les titres de section étaient majoritairement des SN mais pouvaient aussi par exemple être réalisés par des SP, des SN coordonnés ou des phrases. Un autre indice lié à l organisation hiérarchique du texte est le niveau de hiérarchie du titre qui permet de situer le titre dans la hiérarchie du document et ainsi de voir ses relations avec les autres titres de ce document. Enfin, un dernier type d indices dans les textes concerne la reprise des titres dans le segment titré (lieu et forme de la reprise). Combinée aux théories et modèles évoqués plus haut, cette étude des titres a le potentiel de faciliter le repérage et l utilisation de certains segments de discours. 2. Présentation du corpus Mon étude est une étude sur un corpus bilingue français/anglais de textes écrits longs et structurés appartenant à trois types de texte différents. Travailler sur des textes longs a été un choix qui se justifie par le besoin de les traiter efficacement mais aussi et surtout par la nécessité de disposer de textes assez longs pour observer les phénomènes de construction de la cohérence, ce qui est plus difficile à faire sur des textes courts, en particulier en ce qui concerne les titres qui doivent être nombreux si on veut observer leur fonctionnement. Un second critère qui a été retenu est qu ils devaient être structurés sur le plan visuel et organisationnel, par l utilisation de titres (avec au moins trois niveaux de titre) mais également par l utilisation de la MFM comme des puces ou du gras. Les trois types de textes que j ai retenus pour mon corpus sont des textes procéduraux (des manuels de logiciel 172 000 mots), un 2. Cette étude a été initiée dans le cadre du projet «Visualisation dynamique de texte : extraction sélective, affichage spatial multi-échelle et observation des stratégies de lecture» (voir http://www.limsi.fr/individu/ jacquemi/cognitique02/).

88 texte institutionnel (le Traité établissant une constitution pour l Europe 320 000 mots) et des textes argumentatifs (des articles de presse spécialisée 36 000 mots). Pour mon étude, le corpus a subi un certain nombre de pré-traitements : les formats des textes étant variés (Word, PDF, RTF, PS, etc.), je les ai d abord tous convertis au format XML en leur donnant une DTD commune et je les ai également étiquetés à l aide du Tree- Tagger, ce qui était nécessaire, notamment pour le traitement des textes par le TextTiling. 3. Avantages et limites des méthodes statistiques Une étude préliminaire a été effectuée sur les méthodes statistiques de traitement automatique de textes. Il a d abord été question de savoir si la LSA 3 étaient une méthode qui pouvait potentiellement être utilisée pour la segmentation automatique. Le plus grand problème que j ai constaté est que la LSA est une méthode statistique basée sur des calculs de similarité qui dépend beaucoup trop de l espace sémantique dans lequel a lieu la comparaison. De plus, la LSA ne permet pas de déterminer les segments à comparer pour la segmentation nécessitant donc trop de pré-traitements. Le TextTiling Algorithm de Hearst (1994, 1997) a également été considéré. Cette méthode de segmentation thématique est robuste et donne de bons résultats pour certaines applications. Mais elle a aussi des limites quand on travaille sur des textes structurés : un trop grand nombre de titres et des paragraphes trop courts entraînent des problèmes de découpage qui faussent la segmentation thématique. De plus, le TextTiling Algorithm utilise des pseudo-paragraphes des pseudo-phrases pour la segmentation, ce qui rajoute de l «à peu près» dans la segmentation. Pour l instant, j ai évalué cet algorithme sur mon corpus à partir de son implémentation en Perl que j ai réalisée. Cela ne suffit néanmoins pas et un protocole expérimental est en train d être mis en place pour son évaluation plus en profondeur par rapport aux tâches finales qui sont présentées en conclusion de cet article. 4. Une combinaison des modèles servant l application Les différents modèles, théories et études présentés permettent de décrire chacun un aspect de la cohérence, cette description étant toujours motivée par des objectifs précis. Avec le développement des applications de TAL et le besoin de plus en plus grand de prendre en compte des informations linguistiques d un côté et pour aboutir à une description plus poussée de la cohérence d autre part, certains auteurs ont commencé à considérer conjointement plusieurs théories et modèles pour décrire des phénomènes complexes et répondre à ces besoins. C est le cas de Luc (2000) et Luc & Virbel (2001) qui envisagent la complémentarité entre le MAT et la RST. De la même façon, Power et al. (2003) font le lien entre la structure du document et la structure rhétorique pour le développement d outils de génération automatique de texte. Des travaux font cohabiter méthodes statistiques et méthodes linguistiques, la linguistiques complétant les méthodes statistiques. C est le cas des travaux de Ferret et al. (2001) qui font cohabiter une segmentation à la Hearst et l utilisation de l Encadrement du discours en vue d une application de résumé automatique 4. Ces auteurs concluent que les méthodes statistiques sont performantes quand il y a des cassures franches entre les segments mais que dans le cas contraire, le repérage de marqueurs linguistiques donne de meilleurs résultats. La combinaison de méthodes statistiques et linguistiques peut 3. Voir Landauer et al. (1998) pour une présentation de la LSA. 4. Les auteurs utilisent également une troisième méthode faisant appel à des données externes au texte : un réseau de collocations construit à partir d un corpus d articles de journaux.

89 donc fournir un bon compromis entre efficacité et précision. Les théories et modèles présentés en section 1 sont très complémentaires dans le sens où certains pallient des manques des autres. Par exemple, déterminer les indices de fermeture des cadres (souvent problématique), il est possible d utiliser la MFM, les titres ou les relations RST. Après avoir observé le fonctionnement conjoint de ces modèles sur un corpus de textes procéduraux et argumentatifs lors de mon DEA (Pimm 2003), j en ai conclu qu ils se complétaient et interagissaient les uns avec les autres 5 et permettaient de dégager des macro-segments discursifs récurrents et propres à un type de texte particulier. Une première étude sur mon corpus m a permis de dégager des macro-segments récurrents dans les textes procéduraux et le texte institutionnel. Ces segments mettent en jeu toujours la même configuration de marqueurs. Ces configurations ont été implémentées en Perl pour repérer automatiquement ces segments et relations. Ce programme constitue un squelette pour le programme de segmentation qui, une fois couplé avec un programme de segmentation statistique, permettra d identifier ces macro-segments pour leur utilisation ultérieure dans des systèmes de TAL. 5. En conclusion les applications considérées Grâce à la combinaison de plusieurs modèles de l analyse du discours combinés à une étude sur les titres, j ai pu mettre à jour des configurations récurrentes de marques au sein de textes de types différents. Cette étude était motivée en partie par les applications pouvant tirer partie d une segmentation discursive basée sur des indices de la cohérence discursive. L une de ces applications est la visualisation et la navigation multi-échelle de textes pour laquelle on doit avoir la possibilité de visualiser le texte à des niveaux de grain plus ou moins fins et donc, de tirer partie de la structure hiérarchique du document, ce qui n est pas possible avec une méthode statistique. Une deuxième application envisagée est l aide à la rédaction. Un système d aide à la rédaction de manuels procéduraux ou de textes institutionnels pourrait fournir un patron à remplir par le rédacteur contenant déjà toutes les relations et les types de segments à utiliser pour assurer une bonne compréhension des textes par les lecteurs. Dans ces deux exemples d applications, il semble que la combinaison de méthodes statistiques et linguistiques est un compromis efficace. 6. Bibliographie CHAROLLES M. (1997), «L encadrement du discours : univers, champs, domaines et espaces», Cahier de Recherche Linguistique, 6, p. 1-73. FERRET O., GRAU B., MINEL J.-L. & PORHIEL S. (2001), «Repérage de structures thématiques dans des textes», in Actes de la conférence Traitement Automatique du Langage Naturel (TALN 01), ATALA, p. 163-172. HEARST M. (1994), «Multi-paragraph segmentation of expository text», in Proceedings of the 32 nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, p. 9-16. HEARST M. (1997), «TextTiling : Segmenting text into multi-paragraph subtopic passages», Computational Linguistics, 23, 1, p. 33-64. HO-DAC L.-M., JACQUES M.-P. & REBEYROLLE J. (2004), «Sur la fonction discursive des titres», in L unité texte, S. Porhiel & D. Klingler (éds), Pleyben, Perspectives, p. 125-152. LANDAUER T., FOLTZ P. & LAHAM D. (1998), «Introduction to Latent Semantic Analysis», Discourse Processes, 25, p. 259-284. 5. Il faut bien sûr garder à l esprit que la cohérence discursive est un phénomène très complexe et même si on utilise conjointement plusieurs théories et modèles, nous sommes encore très loin de la décrire complètement.

90 LUC C. (2000), Représentation et composition des structures visuelles et rhétoriques du texte, Thèse de Doctorat, IRIT, Université Paul Sabatier Toulouse III (dactyl.). LUC C. & VIRBEL J. (2001), «Le modèle de l architecture textuelle fondements et expérimentations», Verbum, 23 (Cohérence et relations de discours à l écrit), 1. MANN W.C. & THOMPSON S. (1988), Rhetorical Structure Theory : Toward a functional theory of text organization, Text, 8, 3, p. 243-281. MANN W.C. & THOMPSON S. (2001), «Deux perspectives sur la Théorie de la Structure Rhétorique (RST)», Verbum, 23 (Cohérence et relations de discours à l écrit), 1. PIMM C. (2003), Une étude sur corpus de textes anglais et français de cinq relations rhétoriques proches (la conséquence, la cause, la condition, la temporalité et le but), leurs réalisations, leur place, leur rôle et les liens qui les unissent dans les textes à consignes, Mémoire de DEA, Université de Toulouse-le- Mirail, Toulouse II (dactyl.). POWER R., SCOTT D. & BOUAYAD-AGHA N. (2003), «Document Structure», Computational Linguistics, 29, 2, p. 211-260. REBEYROLLE J. (2003), «Forme linguistique et fonction discursive des titres de sections», in Actes du Colloque de l Association for French language studies (AFLS) : Le français aujourd hui : Problèmes et méthodes, Université de Tours, France.