Extrait de la norme Afnor Z 47-100 de décembre 2001 Règles d établissement des thésaurus monolingues 2 ROLE DU THÉSAURUS DANS LA FONCTION DOCUMENTAIRE 3 CHOIX DES TERMES DESCRIPTEURS 3.1 CRITERES DE CHOIX DE DESCRIPTEURS 3.1.1 Trois principes doivent être respectés pour le choix des termes à inclure dans un thésaurus : 3.1.2.1.1 Limiter le nombre de descripteurs dans un thésaurus ou limiter le nombre de descripteurs assignés à un document 3.1.3 Identificateurs 4 LES RELATIONS ENTRE DESCRIPTEURS 5 CONSTRUCTION D UN THESAURUS 5.2 COLLECTE DES TERMES SIGNIFICATIFS DU LANGAGE NATUREL, CANDIDATS DESCRIPTEURS 5.2.1 La méthode analytique 5.2.2 La méthode synthétique ou globale 5.2.3 Combinaison des deux méthodes 5.4 VERIFICATION 5.5 CHOIX 7 ESSAI ET MISE A JOUR DU THESAURUS 7.2 MISE A JOUR 7.2.1 Choix de nouveaux descripteurs 7.2.2 Elimination des descripteurs 7.2.3 Conclusion AVANT-PROPOS La présente norme est en concordance technique avec la norme internationale ISO 2788 «Principes directeurs pour l établissement et le développement de thésaurus monolingues» élaborée par le comité technique «Documentation» de l Organisation internationale de normalisation (ISO), avec quelques modifications de rédaction et la présentation de méthodes pratiques rendant plus explicites les règles internationales pour l élaboration des thésaurus en langue française. 2 ROLE DU THÉSAURUS DANS LA FONCTION DOCUMENTAIRE Le thésaurus permet de traduire en termes d indexation ou en termes de recherche tout concept devant entrer ou sortir d un système documentaire donné. Le thésaurus ne doit être confondu ni avec un lexique, ni avec un index, ni avec un dictionnaire. Le thésaurus est constitué par un ensemble de termes (descripteurs ou non-descripteurs) et de relations qui précisent leur environnement sémantique. Le vocabulaire constituant le thésaurus doit être : - non ambigu pour que les mêmes termes de ce vocabulaire identifient systématiquement les mêmes concepts
- structuré pour assurer une meilleure définition de chaque terme et pour permettre des recherches à différents degrés de généralité ou de spécificité. 3 CHOIX DES TERMES DESCRIPTEURS 3.1 CRITERES DE CHOIX DE DESCRIPTEURS 3.1.1 Trois principes doivent être respectés pour le choix des termes à inclure dans un thésaurus : a) Un descripteur doit en règle générale représenter une seule notion. La structure du thésaurus, notamment les relations hiérarchiques précisent souvent implicitement le concept exprimé par un terme. Au cas où la description du concept ne serait pas suffisamment explicite, il y a lieu de mieux définir le sens par une note d application. b) Lorsqu un concept peut être exprimé par plusieurs synonymes, un seul terme doit être choisi comme descripteur et utilisé pour l indexation. Avant d accepter un terme, il faut donc rechercher si d autres synonymes n ont pas été introduits avant dans le thésaurus. c) Un descripteur peut comprendre un ou plusieurs mots. En règle générale, le descripteur doit refléter la terminologie du sujet, sans tenir compte du nombre de mots nécessaires pour représenter la notion. Mais dans la mesure du possible, un descripteur doit comprendre le minimum de mot, et de préférence, un seul. 3.1.2.1.1 Limiter le nombre de descripteurs dans un thésaurus ou limiter le nombre de descripteurs assignés à un document Pour réduire le volume d un thésaurus, il faut utiliser au maximum des descripteurs simples, en pensant qu il faudra assigner un plus grand nombre de descripteurs à un document. Le nombre de descripteurs spécifiques sera par là même réduit. On restreint également la possibilité de hiérarchisation entre les descripteurs. On diminue alors le risque de silence lors de la recherche tout en augmentant le risque de bruit. 3.1.3 Identificateurs Il existe un type de termes particuliers pouvant être utilisés comme termes d indexation sans être intégrés dans le thésaurus ; ils figurent dans des listes annexes ouvertes ; ce sont généralement des noms propres : collectivités, marque de fabrique, lieux géographiques, abréviations. La forme des identificateurs doit être normalisée et contrôlée comme celle des descripteurs. 4 LES RELATIONS ENTRE DESCRIPTEURS Une des fonctions primordiales d un thésaurus est de représenter les relations entre concepts par l indication des rapports entre les termes utilisés pour les décrire. Le réseau des relations d un descripteur avec les autres termes («descripteurs» ou «non descripteurs») fournit ainsi une sorte de définition et concourt à réduire les risques d ambiguïté en situant le descripteur dans un contexte qui en précise le sens. Ces relations ne doivent ni être choisies au hasard ni selon des associations d idées purement personnelles mais selon un plan d ensemble qui replace tous les éléments les uns par rapport aux autres avec comme principal souci d augmenter la précision de chaque concept et de supprimer au maximum les causes possibles de silence ou de bruit soit à l indexation, soit à l interrogation. La valeur d un thésaurus en tant qu outil documentaire réside autant dans le choix des termes que dans le choix des relations conceptuelles qui en définissent les modalités d application. 2
5 CONSTRUCTION D UN THESAURUS 5.2 COLLECTE DES TERMES SIGNIFICATIFS DU LANGAGE NATUREL, CANDIDATS DESCRIPTEURS Il n existe aucune méthode systématique de collecte de termes qui soit fondée sur une analyse linguistique rigoureuse, mais empiriquement on peut distinguer deux méthodes fondamentalement différentes. 5.2.1 La méthode analytique Cette méthode consiste à regrouper les mots significatifs du langage naturel dans le domaine considéré à partir des sources suivantes : - documents de littérature courante ; - questions des utilisateurs, spécialistes du domaine - descriptions ou indexations expérimentales de documents (effectuées sans thésaurus). Il est essentiel de choisir des textes et questions représentatifs des catégories de documents à exploiter ainsi que du domaine couvert et des catégories de besoins. Il est tout aussi naturel de limiter la durée de la période de collecte pour constituer rapidement un noyau de termes spécifiques d apparition de termes nouveaux, et la méthode analytique n a plus autant d intérêt lorsque cette fréquence devient trop faible. 5.2.2 La méthode synthétique ou globale Cette méthode consiste à rechercher les termes significatifs du domaine ; non dans des textes mais a priori dans des sources de référence qui sont déjà sous forme de listes lexicales : - les fichiers existants ; - les dictionnaires ; - les index d ouvrages - les listes de classifications et les traités terminologiques (normes, etc.) ; - les tables de matières ; - les manuels d ouvrages d enseignement ; - les nomenclatures ; - les thésaurus existants Il est essentiel de choisir ces listes de manière qu elles couvrent le domaine et répondent aux objectifs qui ont été définis. ( ) En revanche, rien ne peut assurer l exhaustivité de la liste constituée, il est fort possible que des termes importants, parfois fondamentaux, n apparaissent par parce que leur secteur n a pas été pris en compte. 5.2.3 Combinaison des deux méthodes Les deux méthodes de collecte de termes sont pragmatiques, et ni l un ni l autre n est à utiliser seule, on s accorde généralement à considérer qu une combinaison des deux assure de bons résultats. Une première combinaison peut s effectuer de la manière suivante : Au moyen d une indexation expérimentale d une petite série de documents couvrant le domaine, on établit une première liste de termes (application de la méthode analytique) qui constitue un cadre de mots fondamentaux généralement bien répartis dans le domaine. Cette liste est ensuite complétée au moyen de la méthode synthétique ; on la subdivise pour cela en autant de secteurs qu il est nécessaire et on enrichit le vocabulaire de chaque secteur au moyen des listes lexicales dont on peut disposer. Cette solution offre l avantage d assurer, pour tous les secteurs du thésaurus, un niveau de spécificité constant. 3
5.4 VERIFICATION Quelle que soit la méthode de collecte retenue, il faut vérifier la valeur scientifique des descripteurs choisi, en consultant des dictionnaires ; d autres vocabulaires d indexation ou vocabulaires normalisés, des index des périodiques techniques primaires et secondaires, des ouvrages de référence de la spécialité, en se référant à l usage, et surtout en demandant leur avis à des spécialistes du sujet. Il faut écarter les termes qui ne sont pas usités, ou, si on les retient, que ce soit pour signaler qu ils sont proscrits. 5.5 CHOIX Pour établir l utilité des descripteurs possibles, il faut rechercher pour chacun d eux : - s il apparaît fréquemment dans la littérature ou dans les informations existantes. - quelle est son incidence probable sir les demandes formulées. - s il exprime bien ou commodément le ou les sens de la notion en question. - quelle est sa relation avec les descripteurs déjà acceptés - s il occupe une position charnière dans la structure hiérarchique - s il est identique dans sa forme et dans son sens aux descripteurs utilisés dans les thésaurus avec lesquels on recherche une compatibilité. Aucun de ces facteurs d appréciation ne doit être envisagé isolément, et il faut prêter une attention toute particulière aux domaines périphériques, pour lesquels on ne demande pas au descripteur d être aussi parfaitement exhaustif et spécifique qu en ce qui concerne le domaine principal. 7 ESSAI ET MISE A JOUR DU THESAURUS 7.2 MISE A JOUR Toute évolution d un pôle d intérêt rend nécessaire une mise à jour. L évolution du vocabulaire scientifique qui en découle conduit à une remise en cause permanente du contenu de chaque thésaurus. (..) Il faut contrôler la fréquence d usage des descripteurs. Chaque fois qu une recherche ne permet pas de récupérer toute l information que l on croyait pouvoir recueillir, il faut procéder à une évaluation critique des descripteurs qui ont été employés ou qui auraient dû l être. 7.2.1 Choix de nouveaux descripteurs Si pendant l indexation ou la recherche documentaire, on constate que des notions ou des relations entre les notions n ont pas été suffisamment précisées dans le thésaurus, il faut trouver un nouveau descripteur ou de nouvelles relations. De plus, les indexeurs et les utilisateurs doivent constamment vérifier s il n apparaît pas de termes susceptibles de constituer des descripteurs nouveaux, représentant soit des notions nouvelles, soit des points de vue différents relatifs à des notions anciennes ou qui sont assimilés à des synonymes de termes existants. Avant de les admettre définitivement, l utilité des termes nouveaux et des relations doit être évaluée. 7.2.2 Elimination des descripteurs Lorsque l on constate que la fréquence d utilisation est très faible, il faut s assurer que ce n est pas dû exclusivement à la pénurie de documents employant cette notion particulière. Théoriquement, on ne devrait supprimer un descripteur particulier que s il n a jamais été utilisé, ni pour l indexation, ni pour la recherche documentaire. Il est plus commode d indiquer par une référence préférentielle (référence EMPLOYER), où se situe, le cas échéant, le terme de remplacement. 4
Un descripteur qui a été éliminé, peut être conservé comme synonyme et être utilisé pour la recherche, afin d éviter la nécessité de réindexer les documents qui utilisaient ce descripteur. A chaque fois, il faut examiner et réadapter les relations du descripteur éliminé ou modifié. 7.2.3 Conclusion D une façon pratique, la modification, l adjonction ou la suppression d un certain nombre de termes du thésaurus entraînent un nombre important de corrections et la mise à jour de l ouvrage se réalise plus aisément par une réédition complète que par l adjonction de rectificatifs. Le thésaurus est avant tout un outil évolutif et les mises à jour doivent être périodiquement réalisées pour adapter l outil à sa fonction documentaire. Le processus d essai et de mise à jour constitue une méthode d approximations successives nécessaire à l obtention d un thésaurus opérationnel. Il ne faut pas oublier que le temps seul décide de la taille et de la forme du thésaurus : l ouvrage n est jamais terminé. 5