09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT Equipe de Recherche en Syntaxe et Sémantique CNRS - Université Toulouse le Mirail et Groupe «Terminologie et Intelligence Artificielle» AFIA GDR I3 didier.bourigault@univ-tlse2.fr Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 1 Plan Introduction et position Les candidats termes L étiquetage morphosyntaxique L analyse distributionnelle L interface Conclusion Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 2 1
Construction d ontologie à partir de textes Les connaissances sont accessibles dans les textes. Les connaissances sont produites, transmises essentiellement dans les textes. Autres sources : les spécialistes les ressources existantes : ontologies métier, thesaurus, lexiques, dictionnaires spécialisés, etc. Les contextes d utilisation des ontologies sont (de plus en plus) des applications de traitement de l information textuelle Ex : recherche d information, filtrage, résumé, classification de documents, extraction d information L ontologie doit être construite à partir de textes pour permettre un meilleur traitement des textes. Des outils de traitement automatique des langues rendent réalisable la tâche de construction d ontologie à partir de textes. Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 3 Corpus : Le corpus Ensemble de textes que l ingénieur de la connaissance rassemble pour élaborer l ontologie Type de textes : documentation technique, transcription d entretiens, articles scientifiques,... Construire le corpus est une tâche délicate spécialistes ressources Ingénieur de la connaissance corpus Ontologie Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 4 2
Ontologie, ressource terminologique Ressource terminologique (RT) : une description du vocabulaire utilisé dans un domaine spécialisé, élaborée pour une application de traitement de l information (= une représentation des connaissances du domaine) Types de RT thesaurus pour système d indexation automatique lexique bilingue pour système d aide à la traduction lexique sémantique pour système d extraction d information réseau lexical pour système de recherche d information index hypertextuel pour documentation électronique index thématique pour ouvrage «papier» Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 5 Postulat : ontologie et point de vue Soit un «domaine», communauté d acteurs liée à une pratique il n existe pas UNE ontologie de ce domaine. Il y a autant de ressources terminologiques que de type d applications. La construction de la ressource terminologique est guidée par un point de vue, celui de l application cible la sélection des unités (termes, concepts) et le mode de description (structuration) dépendent de l application cible. IC Application corpus Ressource terminologique Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 6 3
Outils de traitement automatique des langues (TAL) Ingénierie des connaissances et TAL L approche sur corpus n est possible que parce que des outils et des méthodes d analyse de corpus sont disponibles. groupe «Terminologie et intelligence artificielle» (AFIA, GDR I3) Outils d analyse de corpus pour l aide à la construction de ressources terminologiques à partir de corpus Les outils analysent le corpus et proposent, l ingénieur de la connaissance dispose et modélise. corpus Outils de TAL IC Application Ressource terminologique Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 7 Outils linguistiques Les outils effectuent des traitements de type linguistique (vs statistique) catégorie grammaticale nom, verbe, adjectif, variation morphologique genre et nombre pour les noms, les adjectifs personne, temps, voie pour les verbes groupe syntaxique syntagme nominal syntagme verbal relation syntaxique sujet de verbe, complément de verbe ou de nom, épithète morphologie syntaxe (sémantique) Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 8 4
candidats termes (CT) Exemple : liste de candidats termes mot ou suite de mots susceptible d être retenue comme entrée (terme, concept) dans une ressource terminologique Noms Syntagmes nominaux connaissance 1757 modèle 924 système 839 concept 771 domaine 713 problème 561 méthodes 530 type 514 cas 513 relation 490 exemple 482 objets 467 niveau 459 tâche 451 terme 436 acquisition des connaissances 133 base de connaissances 128 résolution de problème 123 modèle conceptuel 122 ingénierie des connaissances 105 point de vue 98 système d'information 87 modèle d'expertise 55 représentation des connaissances 53 génie logiciel 46 candidat terme 46 structure prédicative 42 gestion des connaissances 41 méthode de résolution de problèmes 40 modélisation des connaissances 40 corpus : articles du livre IC200 (Charlet et al. 2000) Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 9 Structuration de la liste des candidats termes dépendance syntaxique Chaque terme complexe se décompose en une Tête et une Exapnsion ontologie ~ T ---- disponible ---- définie ---- explicite ---- formelle ---- référentielle ---- régionale ---- résultante ---- spécialisée ---- universelle ~ de base de connaissance E ---- concepteur ---- conception ---- construction ---- maintenance ---- raffinement ---- structure ---- usage ---- validation ---- vérification Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 10 5
Propositions de liens entre candidats termes relation syntagmatique exemples : [Nom Propre] est un [SN] Un [SN] est un [SN] LEXTER est un logiciel d'extraction de terminologie. [Assadi] MANTEX est un logiciel en cours d'expérimentation, dont la fonction est de mettre en évidence dans des textes des regroupements signicatifs de mots [Frath] Un GC est un graphe bipartie étiqueté, i.e. un graphe utilisant deux types de noeuds ( sommets ). [Nobécourt] Un mécanisme de coordination est un construit, consistant en un protocole de coordination et en un artefact [Roche] LEXTER logiciel d extraction de terminologie MANTEX logiciel en cours d expérimentation graphe conceptuel graphe bipartie étiqueté mécanisme de coordination construit Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 11 Regroupement de candidats termes proximité distributionnelle Deux termes sont rapprochés s ils apparaissent dans les mêmes contextes syntaxiques. ontologie taxinomie contextes insertion dans ~ classer dans ~ structurer ~ organisation de ~ réaliser ~ Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 12 6
La première brique : l étiquetage morphosyntaxique Étiqueteur : Outil de traitement automatique des langues dont la fonction est d attribuer à chaque mot d un texte une catégorie grammaticale (nom, verbe, adjectif, ) En général, les étiqueteurs sont aussi des lemmatiseurs : ils fournissent le lemme des mots. Lemme : forme canonique du mot (infinitif pour le verbe, la forme au singulier pour le nom, la forme au masculin singulier pour l adjectif) Pour le français : Cordial analyseur, Sylex, WinBrill, Un éqiqueteur est un outil d ingénierie linguistique dont la fonction est d associer à chaque mot d un texte une catégorie morphosyntaxique. N mot lemme Catégorie 1 Un un DETIMS (déterminant) 2 étiqueteur étiqueteur NCMS (nom) 3 est être VINDP3S (verbe) 4 un un DETIMS (déterminant) 5 outil outil NCMS (nom) 6 d' de PREP (préposition) 7 ingénierie ingénierie NCFS (nom) 8 linguistique linguistique ADJSIG (adjectif) 9Ingénierie des dontconnaissances Constructuction dont d ontologies... PRI (D. Bourigault) (pronom «relatif)» 13 10... Extraction de candidats termes complexes Deux techniques simples et robustes, basée sur la structure interne des unités patrons élémentaires NOM de NOM NOM ADJ ADJ NOM expression maximale ADJ? NOM [NOM ADJ de]+ [NOM ADJ] ( ) cet outil est un logiciel d extraction de termes complexes qui ( ) logiciel d extraction extraction de termes termes complexes logiciel d extraction de termes complexes Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 14 7
Extraction de candidats termes complexes Limites : analyse «étroite» sur-génération, sous-génération, pas de structuration restrictif quant aux structures Prépositions autres que «de», déterminants Syntagmes verbaux Nécessité d une analyse syntaxique «large» Structure syntaxique des phrases logiciel d extraction de termes complexes logiciel extraction de termes complexes extraction termes complexes termes complexes Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 15 Analyse syntaxique identification des relations syntaxiques entre les mots de la phrase: sujet de verbe complément d objet direct de verbe complément d objet indirect de verbe complément de nom complément d adjectif épithète de nom exercice : Le petit garçon donne une boite pleine de bonbons à la fraise à sa sœur. SUJ? Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 16 8
Corrigé Le petit garçon donne une boite pleine de bonbons à la fraise à sa sœur. Régi relation recteur petit épithète de garçon garçon sujet de donne boite complément d objet de donne pleine épithète de boite de bonbons complément de l adjectif pleine à la fraise complément du nom bonbons à sa sœur complément d objet indirect de donne Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 17 Ambiguïté de rattachement adjectival : 'Nom Prep Nom Adj' Contexte (1) La discontinuité est marquée par les réfractions d'ondes séismiques. (2) Il se crée une vague d'érosion remontante qui creuse une gorge. (3) Se constitue ainsi une plaine de bordure karstique.? Analyses concurrentes (1) a- réfractions d' [ ondes séismiques ] b- [ réfractions d' ondes ] séismiques (2) a- vague d' [ érosion remontante ] b- [ vague d' érosion ] remontante (3) a- plaine de [ bordure karstique ] b- [ plaine de bordure ] karstique Quelle stratégie de désambiguïsation? Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 18 9
Ambiguïté de rattachement prépositionnel : 'Vb Det Nom Adj en Nom'? Contexte d'extraction (4) L'érosion a disséqué le plateau rocheux en chevrons. (5) On observe une charge importante en trouble dans les rivières (6) Il faut distinguer les roches pauvres en magnésium. Analyses concurrentes (4) a- disséquer [ le plateau [ rocheux en chevron ] ] b- disséquer [ [ le plateau rocheux ] en chevron ] c- [ disséquer [ le plateau rocheux ] ] en chevron (5) a- observer [ une charge [ importante en trouble ] ] b- observer [ [ une charge importante ] en trouble ] c- [ observer [ une charge importante ] ] en trouble (6) a- distinguer [ les roches [ pauvres en magnésium ] ] b- distinguer [ les roches pauvres ] en magnésium ] c- [ distinguer [ les roches pauvres ] ] en magnésium Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 19 Comment résoudre les ambiguïtés de rattachement Utiliser des ressources sémantiques externes Des ressources générales? WordNet, dictionnaires généraux, ontologies universelles, Non Des ressources spécialisées : dictionnaires spécialisés, thesaurus, ontologies métiers, Eventuellement S appuyer sur le corpus : apprentissage endogène (LEXTER/SYNTEX) Le système acquiert par lui-même les informations susceptibles de lui permettre de résoudre les cas d ambiguïté de rattachement. Le corpus : Objet d analyse Source d information Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 20 10
Où est la sémantique? Ressources sémantiques (spécialisées/générales) Corpus (d apprentissage) ici pas là textes... ici IC Outils de TAL RT Système de TI pas là Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 21 Analyse distributionnelle Principe : Z. Harris Technique : regrouper les termes qui apparaissent dans des contextes syntaxiques identiques concept de «double-clique» Exemple : termes base de connaissance modèle de l expertise ontologie contextes élaborer ~ utiliser ~ maintenance de ~ structure de ~ construction de ~ Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 22 11
Exemples de double-cliques termes logiciel méthode modèle outil système contextes ~ permettre utiliser ~ utilisation de ~ construction de ~ validation de ~ développement de ~ développer ~ offrir ~ termes concept entité relation primitive contextes définir ~ type de ~ représenter ~ description de ~ modéliser ~ propriété de ~ nombre de ~ Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 23 Liste des candidats termes extraits par Lexter d un article de Biebow & Szulmann Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 24 12
Liste des candidats termes dont «modèle conceptuel» est en expansion Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 25 Conclusion Construire les ontologie à partir de textes C est une nécessité. C est une tâche ardue : le «mur des mots» Les outils : Travaillent sur la forme (morphologie, syntaxe), pas le sens Fonction : construire un ensemble structuré de mots et syntagmes Il n y pas de critères statistiques décisifs pour filtrer, mais l utilisation de critères numériques permet de guider le travail Les outils permettent une lecture «efficace» du corpus C est l ingénieur de la connaissance qui analyse et modélise Compétences en analyse de corpus Il reste à préciser une méthodologie Alternance : analyse guidée par les résultats des outils d analyse de corpus («bottom up») Analyse guidée par les spécification de l application («top down») Ingénierie des connaissances Constructuction d ontologies... (D. Bourigault) 26 13