Prise en compte de l application dans la constitution de produits terminologiques



Documents pareils
Construction d ontologies à partir de textes

Ingénierie et gestion des connaissances

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

N SIMON Anne-Catherine

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Apprentissage Automatique

Nom de l application

1 Description générale. Résumé

Ressources lexicales au service de recherche et d indexation des images

MASTER LPL : LANGUE ET INFORMATIQUE (P)

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Université de Haute Alsace. Domaine. Sciences Humaines et Sociales. MASTER Mention Éducation, Formation, Communication UHA, ULP, Nancy 2

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du

Les documents primaires / Les documents secondaires

Développement et applications de la base de données terminologiques de Matra Marconi Space

ISTEX, vers des services innovants d accès à la connaissance

Gestion collaborative de documents

TEXT MINING Tour d Horizon

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Sciences de Gestion Spécialité : GESTION ET FINANCE

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

OASIS Date de publication

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Le modèle standard, SPE (1/8)

Formula Negator, Outil de négation de formule.

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Université de Lausanne

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

THOT - Extraction de données et de schémas d un SGBD

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

Disparités entre les cantons dans tous les domaines examinés

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Entrepôt de données 1. Introduction

Plates-formes de téléformation et modèles pédagogiques

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Master Etudes françaises et francophones

SECTION 5 BANQUE DE PROJETS

Mais, avant de nous lancer dans cette entreprise, clarifions les termes et le cadre.

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Introduction à la B.I. Avec SQL Server 2008

Annexe sur la maîtrise de la qualité

MASTER RECHERCHE MEDIATIONS DES SCIENCES. Mention HISTOIRE, PHILOSOPHIE ET. Histoire et Philosophie des Sciences. Année 2007/2008

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Introduction au datamining

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Les apports de l informatique. Aux autres disciplines

Utilisation des tableaux sémantiques dans les logiques de description

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Synthèse «Le Plus Grand Produit»

Urbanisation de système d'information. PLM 6 (Product Lifecycle Management) Collaboration et partage d'informations

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

PROSOP : un système de gestion de bases de données prosopographiques

IC Cf. le site du projet, à l adresse :

Une méthode d apprentissage pour la composition de services web

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

Il y a trois types principaux d analyse des résultats : l analyse descriptive, l analyse explicative et l analyse compréhensive.

MASTER 1 MANAGEMENT DES ADMINISTRATIONS PUBLIQUES ET DES TERRITOIRES

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Les clients puissance cube

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Chapitre 1 : Introduction aux bases de données

Méthodes d évolution de modèle produit dans les systèmes du type PLM

Table des matières CID CID CID CID CID

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

ARIS : Des Processus de gestion au Système Intégré d Applications

C H A R T E D E S M A I S O N S D E S E R V I C E S P U B L I C S

Université du Sud-Toulon Var IUT Toulon Var PROGRAMME DE LA FORMATION. Licence Professionnelle Management des Organisations

Évaluation transparente de systèmes de questions-réponses : application au focus

«L impact de l interculturel sur la négociation» construire des intérêts matériels ou des enjeux quantifiables

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

et les Systèmes Multidimensionnels

Master européen en traduction spécialisée. Syllabus - USAL

Théories de la Business Intelligence

ANNEXE 4. Réaliser un diagnostic de sécurité Principales méthodes de collecte d information. (Module 3, partie I, section 2.5)

REFERENTIEL STRATEGIQUE DES COMPETENCES DU RESPONSABLE DE FORMATION EN ENTREPRISE INTERVENTION DU 13 OCTOBRE DE VERONIQUE RADIGUET GARF (*) FRANCE

RÉSUMÉ DESCRIPTIF DE LA CERTIFICATION (FICHE RÉPERTOIRE)

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Etudier l informatique

Qu est-ce qu une problématique?

Trois approches du GREYC pour la classification de textes

Qu est-ce qu une tâche?

Groupe Eyrolles, 2006, ISBN :

Concevoir et déployer un data warehouse

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Transcription:

Prise en compte de l application dans la constitution de produits terminologiques Nathalie Aussenac-Gilles 1, Anne Condamines 2, Sylvie Szulman 3 (1) IRIT CNRS, UPS, Toulouse, aussenac@irit.fr (2) ERSS CNRS, UTM, Toulouse, anne.condamines@univ-tlse2.fr (3) LIPN CNRS, Univ. Paris Nord, Villetaneuse, ss@lipn.univ-paris13.fr Résumé. Les produits terminologiques se trouvent de plus en plus utilisés dans différents types d applications informatiques où textes et connaissances jouent un rôle privilégié. Leur constitution à partir de textes requiert de définir un cadre méthodologique situant l usage d outils et techniques de traitement de la langue. Nous montrons que la nature de l application visée conditionne chacune des étapes de ce processus, depuis la constitution du corpus jusqu à la structuration des connaissances. 1 INTRODUCTION Plusieurs phénomènes comme la généralisation des documents électroniques au sein des entreprises, l explosion d Internet ou encore la volonté de réutiliser des expériences et des connaissances - conduisent à un développement croissant d applications informatiques capables de gérer des connaissances, d accéder à l information contenue dans des textes, et de les restituer de la manière la plus pertinente possible aux utilisateurs. Plusieurs disciplines sont concernées par la mise au point de ce type d application, qui vont des sciences de l information et la terminologie à différentes composantes de l informatique, comme la recherche d information, le traitement du langage naturel et l ingénierie des connaissances. La linguistique de corpus joue aussi un rôle majeur puisqu il s agit de donner du sens à des unités textuelles.

290 Actes des deuxièmes assises nationales du GdR I3 Au cœur de la mise au point de ces applications se trouvent deux composantes directement liées à la langue : les corpus, qui sont les sources des connaissances ou les fonds à explorer pour l application ; les ressources terminologiques, qui sont des représentations informatiques des connaissances associées à la langue permettant à l application de répondre aux besoins. Dans notre perspective, ces ressources (thésaurus, terminologies, ontologies ) sont construites à partir de corpus et utilisées ensuite pour accéder à des connaissances dans ces textes ou d autres documents. Elles jouent donc un rôle pivot et leur qualité est déterminante pour garantir l usage de l application. La recherche de l efficacité et de la rationalisation de la production des logiciels de TAL (Traitement automatique de la langue) incite à constituer des ressources terminologiques les plus génériques et réutilisables possibles. Elle tend également à imaginer des outils génériques pour les construire à partir de textes, des logiciels de TAL basés sur des principes universaux qui seraient applicables sur tout corpus. Enfin, les besoins opérationnels d interaction entre systèmes ou entre un système et des utilisateurs pousse à produire des connaissances consensuelles, favorisant l interopératbilité. Or la pratique, d une part et certaines bases théoriques linguistiques sur le lien entre le sens des mots et leur usage, d autre part, montre que cette généricité va à l encontre de la bonne adéquation à un usage particulier. Les travaux des membres du groupe TIA 1 convergent pour étayer ce point de vue. Finalement, l objectif d usage de la ressource terminologique a de multiples conséquences sur l ensemble du processus qui va des corpus d origine à l application en passant par la constitution d un produit terminologique. C est ce que nous montrons dans cet article. Dans une première partie, nous définissons les applications auxquelles nous faisons référence et la notion de produit terminologique. Dans une deuxième partie, nous présentons précisément la problématique qui nous intéresse et mettons l accent sur les méthodes et outils, principalement de traitement automatique de la langue et de modélisation des connaissances, utilisés dans ce processus. Enfin, dans une troisième partie, nous illustrons par trois exemples les impacts de l application finale sur ce processus : impact sur les méthodes et principes linguistiques d analyse des textes, impact sur la représentation des connaissances et le choix des logiciels d exploration de textes, impact sur le contenu même des produits terminologiques. 1 Terminologie et Intelligence Artificielle, Groupe de travail 6.3 du GDR I3 : http://www.biomath.jussieu.fr/tia

Constitution de produits terminologiques 291 2 DEFINITIONS 2.1 Ressources et produits terminologiques Par «produit terminologique», nous entendons un ensemble plus ou moins structuré de termes et/ou de concepts. Dans cet article, nous considérons que cet ensemble est le résultat d'une analyse de corpus. Celle-ci peut être effectuée selon un processus assisté par des outils de TAL, mais le produit final est toujours validé manuellement. Lorsqu'il sert à créer une application, le produit terminologique s appelle «ressource terminologique». La distinction entre les différents produits terminologiques se fait principalement sur leur structure, alors que d autres caractéristiques permettent de les comparer, comme leur degré de formalisation, la nature de leur contenu ou encore l ampleur du domaine couvert. Le tableau 1 présente quelques types de produits terminologiques parmi les plus utilisés et leur caractérisation. Produit Structure Statut Contenu Domaine couvert Lexique Index Glossaire liste alphabétique liste alphabétique - sous listes imbriquées liste alphabétique Terminologie liste alphabétique ou réseau non formel non formel non formel non formel mots mots - sujets noms termes + définition en LN termes + propriétés linguistiques grammaticales + relations entre termes Thesaurus réseau formel notions + relations prédéfinies entre notions Ontologie réseau formel concepts organisés en taxinomie + relations entre concepts et domaine (s) livre ouvrage Mots choisis parmi le vocabulaire d une activité, d un métier une science un art une technique un domaine ensemble de domaines un domaine une tâche Tableau 1 : Les différents produits terminologiques

292 Actes des deuxièmes assises nationales du GdR I3 2.2 Exemples d applications Parmi les diverses applications qui utilisent des ressources terminologiques, nous citons ci-dessous quelques exemples dans les domaines suivants : - Traitement automatique des langues (TALN) : résumés automatiques (utilisation de lexiques et de terminologies [18]), système de questions/réponses, aide à la traduction (lexiques bilingue ou ontologies) [20], compréhension de textes (lexiques ou ontologies) ; - Recherche d information (RI) : gestion de documents (classification, indexation et catégorisation) [1], recherche d information multimédia [13] [4], extraction d information et de connaissances à partir de textes [17][9] ; - Ingénierie des connaissances (IC) : veille technologique, mémoire d'entreprise [14], gestion des connaissances de l'entreprise [8] [7] (index, ontologies), systèmes d aide à la conception ou d aide au diagnostic. Ces listes sont loin d'être exhaustives. Chaque type d'application utilise une ressource terminologique dont le contenu peut aussi varier en fonction de l'usage de l'application finale. Par exemple, suivant que le système final aura vocation de diffuser des connaissances peu structurées auprès d individus ou d assister un opérateur par un système qui s appuie sur des connaissances opérationnelles, le degré de formalisation, de précision et de cohérence de la ressource terminologique sera très différent. C est cette influence de l application sur les tâches situées en amont du processus de sa constitution qui nous intéresse particulièrement dans cet article. 3 PROBLEMATIQUE 3.1 D un corpus à une application Notre problématique est schématisée dans la figure 1. Quel que soit le point de vue disciplinaire (TALN, IC, Sciences de l'information, terminologie, linguistique de corpus) duquel on se place, les produits terminologiques jouent le rôle de médiateurs entre des utilisateurs dans un contexte d application donné, et des connaissances dont l expression exhaustive se trouve dans les textes. Ces produits ne peuvent être

Constitution de produits terminologiques 293 construits de manière neutre et générique, indépendamment de ce contexte. Sinon, ils risquent de n être ni pertinents ni utilisables. L influence de l application visée sur la construction de l application et des ressources terminologiques se répercute donc autant sur le choix des textes sources formant le corpus que sur le choix des méthodes et outils les mieux adaptés à ce corpus et à la ressource à produire. Ces diverses influences sont matérialisées par les flèches sur la figure 1. Les paragraphes 4.1, 4.2 et 4.3 illustrent chacun certains de ces impacts. Auparavant, nous rappelons quels types de méthodes et outils peuvent être utilisés en fonction des objectifs. Nous étudions également la notion de genre textuel, qui nous semble tout à fait pertinente pour caractériser les corpus et juger de leur adéquation dans un projet donné. corpus ressources application / usage terminologiques FIG. 1 Problématique du passage d un corpus à une application 3.2 Outils et méthodes Il existe une panoplie d outils pour chaque type de ressource et pour différents types de traitements sur les textes. Ces outils ont été construits en référence à des théories spécifiques, qui induisent des contraintes d utilisation et des biais dans les résultats obtenus. Il est important de connaître ces présupposés avant de les choisir pour un projet donné. Leur utilisation sera donc plus ou moins pertinente en fonction de la nature du corpus et du produit terminologique à construire. Parmi les logiciels disponibles, nous distinguons trois types qui peuvent être utilisés pour différents types de ressources : - Outils de TALN indépendants : SynoTerm [15] exploite la compositionnalité des mots pour proposer des synonymes de termes

294 Actes des deuxièmes assises nationales du GdR I3 complexes ; Syntex [6] focalise la recherche de termes sur des mots régulièrement en dépendance syntaxique ; Ana [11] permet d extraire des termes par apprentissage de schémas lexicaux ; Caméléon [3] vise le repérage de relations lexicales à partir de régularités morphosyntaxiques ; d autres logiciels effectuent des analyses statistiques [9] ou morphologiques [23] ; enfin certaines dépendances permettent de structurer des connaissances par apprentissage (cf. Asium [12]) ; - Plates-formes intégrant des traitements de la langue : LIKES [19], TERMINAE [20] pour construire terminologies et ontologies ; - Plates-formes de modélisation : DOE [22], OILEdit, Protégé2000 Les méthodes qui entrent dans ce cadre (DOE [4], OntoSpec [15], TERMINAE [2]) cherchent à définir les modalités d utilisation de ces outils et d exploitation de leurs résultats. Elles s appuient sur un langage de représentation des connaissances permettant de décrire un modèle et donc le produit terminologique. La partie 4.2 illustre les enjeux liés à la définition d une méthode adaptée à une classe particulière d applications. 3.3 Genres textuels La notion de genre textuel permet, dans une première approximation, de prendre en compte la situation de production d un texte dans son analyse. En effet, un texte n est pas seulement une manifestation langagière, c est une manifestation langagière réalisée dans un certain contexte. Utilisée depuis longtemps dans le domaine littéraire où l on parle du roman, de la nouvelle, de l essai comme d autant de genres, cette notion est maintenant utilisée pour tous les types de discours. C est Bakhtine qui, dès 1930, a essayé de théoriser la notion de genre discursif : «chaque sphère d utilisation de la langue élabore ses types relativement stables d énoncés, et c est ce que nous appelons la notion de genre» ([5],265). En d autres termes, les caractéristiques extra-linguistiques sont corrélées avec des caractéristiques linguistiques repérables dans leurs régularités. La difficulté vient de ce qu il est très difficile de caractériser a priori toutes les situations extra-linguistiques possibles : «La richesse et la variété des genres du discours sont infinies car la variété virtuelle de l activité humaine est inépuisable et chaque sphère de cette activité comporte un répertoire de genres du discours qui va se différentiant et s amplifiant à mesure que se développe et se complexifie la sphère donnée».(ibid.,265).

Constitution de produits terminologiques 295 Des tentatives de classement des genres discursifs de textes ont été faites, comme dans le projet Eagles 2 ou dans la TEI (Text Encoding Initiative). Mais les classes obtenues restent très générales et souvent inadaptées aux besoins réels d application. En revanche, pour des besoins en ingénierie des connaissances, qui concernent des textes issus du seul milieu de l entreprise, la possibilité d un classement semble envisageable. En plus des éléments habituellement utilisés pour caractériser les textes : date, statut des auteurs et des lecteurs, objectif du texte,, l utilisation possible d un texte à d autres fins que l objectif initialement prévu pourrait être prise en compte. En effet, dans tous les cas, les ontologues utilisent des textes dont ils n étaient pas les destinataires et pour une visée qui n était pas intentionnelle de la part des rédacteurs (construire des ressources terminologiques de différentes natures). L expérience montre par ailleurs que le choix des textes pour constituer le corpus est dépendant de l application : on ne sélectionne pas les mêmes textes selon que l on souhaite construire une ressource terminologique pour faire de la recherche d information ou pour faire un modèle du domaine. En effet, tous les textes ne sont pas également utilisables pour construire des ressources terminologiques : certains sont peu utilisables (par exemple s ils sont d un niveau d expertise trop élevé et difficilement accessible à un néophyte), certains sont mieux adaptés pour construire une ontologie (ceux dont le genre didactique est manifeste par exemple) et d autres pour construire un thésaurus (ceux qui contiennent des métaconnaissances). Prendre en compte le genre textuel pour construire un type de ressources terminologiques est aussi important que de considérer le niveau d'expertise de l auteur. Cela passe par l'établissement de corrélation entre la notion de construction d une ressource terminologique particulière et des fonctionnements linguistiques réguliers ( 4.1). 4 ILLUSTRATIONS Pour le moment, les recherches effectuées ne nous donnent qu une idée intuitive des incidences de l application sur les différents paramètres de ce processus. Nos affirmations s appuient sur des retours d expérience mais elle n ont pas encore été validées sur de nombreux corpus. Nous rendons compte ici de quelques projets en nous focalisant successivement sur un des points du processus de modélisation : la constitution du corpus et la manière d interpréter le contenu des textes au 4.1, où nous voyons 2 http ://www.ilc.pi.cnr.it/eagles96/textyp/texttyp.html

296 Actes des deuxièmes assises nationales du GdR I3 que la notion de genre textuel peut être ici un repère ; nous discutons au 4.2 l intérêt de fixer des méthodes et des outils par type d application ; enfin, nous soulignons au 4.3 que le contenu même de la structure terminologique est influencé par son utilisation, ce qui remet en question les ontologies générales dans certains contextes. 4.1 Impact de l objectif sur l analyse de textes Une des méthodes linguistiques de repérage de relations conceptuelles se base sur la notion de «marqueurs de relation» [10]. Il s agit d éléments linguistiques que l on peut utiliser systématiquement pour donner une interprétation relationnelle à certains contextes. Par exemple: tous les N1 sauf dét N2 (tous les mammifères sauf la baleine) peut permettre de décider qu il y a une relation de spécifique à générique entre N2 (baleine) et N1 (mammifère). Or, justement pour ce qui concerne la relation de généricité, il semblerait que tous les marqueurs ne donnent pas le même type de résultats. Ainsi, le marqueur qui consiste en une reprise anaphorique d un nom par un autre nom qui est son générique (La baleine s approchait. Ce mammifère ) semble permettre de repérer des génériques de plus haut niveau dans la hiérarchie que des marqueurs plus «classiques» comme : dét N1 être dét N2 + différences. Une étude a été réalisée sur un corpus d environ 350 pages sur le génie logiciel (corpus fourni par EDF). Le marqueur anaphorique a permis de repérer 44 génériques (ex : Archivage de l état de Configuration Logiciel. Cette activité est à la charge du responsable de la gestion de configuration). Sur ces 44 génériques, seuls 12 sont des termes complexes, ce qui est particulièrement étonnant quand on sait que la majorité des termes sont des combinaisons nominales. Par ailleurs, aucun de ces termes ne se trouve ni en position de N1 ni en position de N2 dans la structure «classique» proposée ci-dessus. Or, cette structure est la structure définitoire la plus anciennement décrite (par Aristote). Cela signifie donc que les génériques trouvés grâce à la structure avec anaphorique ne sont jamais utilisés pour définir un autre terme mais ils ne sont pas non plus définis dans le corpus. En revanche, ces mêmes génériques apparaissent comme têtes de termes complexes : Acteur (tête d un terme), activité (tête de deux termes), composant (tête de deux termes), décomposition (tête de deux termes), espace (tête de trois termes), phase (tête de deux termes), processus (tête de deux termes). Ainsi, il est clair que, d un point de vue linguistique, ces termes ont un fonctionnement original ; quant à leur sens, il semble moins spécialisé

Constitution de produits terminologiques 297 que celui des termes trouvés avec d autres marqueurs. Ces termes pourraient donc peut-être être utilisés pour constituer des ressources terminologiques qui ne s adressent pas à des experts mais à des nonspécialistes. Par ailleurs, si certains textes sont plus riches en marqueurs du type anaphorique, alors, ce pourrait être une façon de sélectionner les textes pertinents pour constituer une ressource «grand public», alors que les textes riches en marqueurs «classiques» seraient utilisés pour la constitution de ressources spécialisées. Cela reste une hypothèse qu il faudra vérifier mais il est sûr que les différents marqueurs ne permettent pas d obtenir les mêmes types de termes. Cette possibilité mériterait d être d abord examinée de manière plus approfondie avant d être systématisée. 4.2 Impact de l objectif sur le choix de la méthode de construction et de la structure terminologique Pour illustrer l'impact de l'application sur le choix d'une structure terminologique, nous nous appuyons sur les travaux de [1]. L'objectif est de consulter un document électronique. La structure terminologique à créer est un index sur un document. La structure classique de l index papier ne convient plus et doit être enrichie pour devenir une des structures possibles des produits terminologiques. Par exemple, il est intéressant de disposer de liens sémantiques entre les entrées de l index plus riches que les seuls liens voir aussi ou le lien de spécialisation. De plus, si on prend en compte les utilisateurs, l'index contiendra plus ou moins de liens suivant que le document doit être consultable par des enfants ou des adultes. Quant au choix de la méthode, elle relève du créateur de l'index. Il n'y a pas une bonne méthode. Les recherches effectuées montre qu'il est nécessaire d'offrir un ensemble d'index validés à partir duquel un auteur pourra créer un index en combinant l utilisation de plusieurs outils de TAL et des techniques de modélisation différentes. 4.3 Impact de l objectif sur le contenu de la structure terminologique Bien que l on cherche le plus souvent à produire une vue consensuelle du domaine au sein d une structure terminologique (ceci est particulièrement souhaité dans une ontologie), nous défendons l idée

298 Actes des deuxièmes assises nationales du GdR I3 qu une ressource terminologique ne peut être construite sans que l on sache à quoi elle va servir. En effet, l organisation de termes et de concepts au sein d un réseau requiert un ensemble de choix. A partir d une même source (ici, des textes), plusieurs personnes vont produire des modèles différents parce qu elles se font une représentation différente de ces connaissances et surtout de leur utilisation. Afin de converger vers un contenu adapté à l application visée, il est donc important d expliciter ces choix et de les justifier également en fonction de l application. Ces choix concernent toutes les décisions de représentation, comme les exemples ci-dessous liés à la construction d une ontologie : - décision ou non de définir un concept ou une relation à partir d une information dans les textes : certains passages peuvent être ignorés car jugés inutiles pour l application ; - place d un concept dans la hiérarchie : dans une ontologie du tourisme, la distinction entre «moyen de transport international» et «moyen de transport urbain» dans le texte conduit à classer «voiture» sous le premier concept et «voiture de location» sous le deuxième concept. En fait, on différencie ici les concepts en fonction de leur utilisation et non de ce qu ils sont physiquement, ce qui aurait conduit à considérer «voiture de location» comme un fils de «voiture» - organisation globale des concepts : pour représenter des logiciels d ingénierie des connaissances, plusieurs structurations des concepts de haut niveau ont été envisagées : l une couvrait tous les concepts de l ingénierie des connaissances (méthodes, outils, langages), parmi lesquels se situent les outils ; l autre se focalise sur les fonctionnalités des outils (aide à la modélisation, aide à l acquisition, aide à la validation). Le premier choix semble mieux adapté à une présentation de travaux de recherches par des équipes, l autre guiderait mieux un cogniticien à la recherche d un outil pour un objectif donné. Ces deux visions correspondent donc à deux applications différentes. 5 CONCLUSION Constituer des produits terminologiques est un enjeu important dans des communautés diverses comme peut le montrer l'action spécifique ASSTICCOT 3. De nombreux paramètres entrent en jeu dans la construction de produits terminologiques, les textes disponibles, les 3 http://www.irit.fr/assticcot/ Action Spécifique du département STIC du CNRS sur COrpus et Terminologie, rattachée au RTP sur le Document RTP-DOC

Constitution de produits terminologiques 299 acteurs disponibles (linguistes, ontologues), les utilisations et les utilisateurs visés. Chaque facteur devrait être pris en compte pour espérer construire des produits utilisables et utilisés. Beaucoup de recherches doivent encore être effectuées pour affiner des critères d'évaluation. Le travail considérable à mettre en œuvre pour élaborer un produit terminologique et le peu de réutilisations envisageables montrent que l'on doit se tourner vers des structures de données plus souples. Leur mise à jour serait plus dynamique, afin de revenir aux sources de connaissances (les textes) et de reconstruire le sens, voire les modèles, en fonction des usages, et de laisser une part active à l utilisateur sans figer le sens. 6 REFERENCES [1] T. Aït El Mekki, A. Nazarenko, Comment aider un auteur à construire l'index d'ouvrage?, actes de CIFT 2002. Oct. 2002 Hammamet (Tunisie). [2] N. Aussenac-Gilles, B. Biébow and S. Szulman, Revisiting Ontology Design: a methodology based on corpus analysis, Knowledge Engineering and Knowledge Management : Methods, Models, and Tools. Proc. of the 12th International Conference, (EKAW'2000), Springer-Verlag, Ed. R. Dieng and O. Corby, LNAI 1937, pp. 172-188, [3] N. Aussenac, P. Seguela, Les relations sémantiques : du linguistique au formel. Cahiers de grammaire, N spécial sur la linguistique de corpus. A. Condamines (Ed.) Vol 25. Déc. 2000. Toulouse : Publication de l ERSS. pp 175-198. [4] B. Bachimont, Engagement sémantique et engagement ontologique : conception et réalisation d ontologies en ingénierie des connaissances. In Ingénierie des connaissances : évolutions récentes et nouveaux défis. Eds. : J. Charlet, M. Zacklad, G. Kassel et D. Bourigault. Paris : Eyrolles, 2000. pp 305-324. [5] M. Bakhtine Esthétique de la création verbale. Paris : Tell,Gallimard., 1984. [6] D.Bourigault, C.Fabre, Approche linguistique pour l'analyse syntaxique de corpus, Cahiers de Grammaire. N spécial sur la linguistique de corpus. A. Condamines (Ed.) Vol 25. Déc. 2000. Toulouse : Publication de l ERSS. pp 131-151. [7] F. Cerbah, Une étude comparative de méthodes de catégorisation sémantique de termes techniques. In TALN 2000. Lausanne (CH), Oct. 2000. [8] Charlet J., Daigney M., Leroux V. Ingénierie des patrimoines informationnels de l établissement de santé. Document Numérique. Vol 3, N 3-4. N spécial «Gestion des documents et gestion des connaissances». Paris : Hermès. 1999. pp 81-99.

300 Actes des deuxièmes assises nationales du GdR I3 [9] A. Cherfi, Y. Toussaint, How far can Asssociation Rules and Statistical Indices help Structure Terminology? in ECAI Workshop on Machine Learning and Natural Language Processing for Ontology Engineering. Lyon (F), Juillet 2002. [10] A. Condamines A, Corpus Analysis and Conceptual relation Patterns. Terminology 2002. pp 141-162. [11] Enguehard C. & Pantéra L. (1995), Automatic natural acquisition of terminology. Journal of Quantitative Linguistics, vol.2, n 1, 27-32. [12] D. Faure,C. Nedellec, Knowledge Acquisition of Predicate Argument Structures from Technical Texts Using Machine Learning: The System ASIUM Proc. of the 11th European Workshop, Knowledge Acquisition, Modelling and Management (EKAW 99), Juan-les-Pins, France, 329-334. [13] F. Gandon, R. Dieng-Kuntz, Ontologie pour un système multi-agents dédié à une mémoire d'entreprise, in actes des journées Ingénierie des Connaissances IC'2001, Grenoble (F), Juin 2001, pp 1-20 [14] J. Golebiowska, R. Dieng-Kuntz, O. Corby, D. Mousseau, Exploitation des ontologies pour la mémoire d'un projet-véhicule, Actes des 4èmes rencontres "Terminologies et Intelligence Artificielle" (TIA 2001) Nancy, pp 170-179. [15] T. Hamon et A. Nazarenko. Detection of synonymy links between terms: experiment and results, Recent Advances in Computational Terminology. John Benjamins, 2001. [16] G. Kassel, Une méthode de spécification semi-formelle d'ontologies, Actes des 13ièmes journées francophones d'ingénierie des Connaissances (IC 2002),pp 75-87. [17] C. Nédellec et A. Nazarenko. Extraction de connaissances à partir de documents textuels. Journée d'étude du LIPN "Exploration de données issues d'internet", 2 mars 2001. [18] J. Royauté, Les groupes nominaux complexes et leurs propriétés : application à l'analyse de l'information. Thèse de l Université Henri Poincaré-Nancy 1. 19 Juillet 1999. [19] F. Rousselot., http://www-ensais.u-strasbg/liia/likes/likes.html [20] M. Slodzian, WordNet : what about its linguistic relevancy? in Proc. Of the EKAW2002 workshop on Ontologies and texts. Juan-les-Pins (F), Oct. 2000. http://ceur-ws.org/vol-51/ [21] S. Szulman, B. Biébow & N. Aussenac-Gilles, Structuration de Terminologies à l aide d outils d analyse de textes avec TERMINAE, TAL, Paris : Hermès. à Vol 43, N 1. 2002. pp 103-128.R; Troncy, A. Isaac, DOE: une mise en œuvre d'une méthode de structuration différentielle pour les ontologies, Actes des 13ièmes journées francophones d'ingénierie des Connaissances IC 2002, Rouen (F), mai 2002. pp 63-74.

Constitution de produits terminologiques 301 [22] Troncy R. Présentation d un éditeur d ontologies différentielles multilinguqes. Complément aux actes de la plate-forme AFIA2001, Grenoble (F), Mai 2001. [23] P. Zweigenbaum & N. Grabar, Liens morphologiques et structuration de terminologie. In actes d IC 2000 : Ingénierie des connaissances, pp 325-334, Toulouse (F), mai 2000.