DICTIONNAIP,.E AUTOMATIQUE ET DICTIONNAIRE-MACHINE: UNE HYPOTI-~SE



Documents pareils
Optimiser les performances du mouvement de monte de l Axe Z.

Hémomixer Etude des sollicitations du corps d épreuve

NOTE SUR LA GESTION AUTOMATIQUE DE LA Rt~SERVE POUR SINISTRES EN ASSURANCE AUTOMOBILE*) par. J~AN i~t:t. Paris

LA RECHERCHE DOCUMENTAIRE

APER~U DU CHAMP D'APPLICATION DE LA THI~ORIE DU RISQUE DANS L'ASSURANCE DE CHOSES EN AUTRICHE

TEXT MINING von 7

! Text Encoding Initiative

SUR L'EFFICACITE DES CRITERES DE TARIFICATION DE L'ASSURANCE CONTRE LES ACCIDENTS D'AUTOMOBILES

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

LE MODELE CONCEPTUEL DE DONNEES

Equilibre technique d'un exercice de souscription

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

AVIS RENDU EN VERTU DE L'ARTICLE 228 DU TRAITÉ CE. Prise de position de la Cour

i. La Survena.nce des accidents

MODE D'EMPLOI DE LA CALCULATRICE POUR LES COURTS SÉJOURS DANS L'ESPACE SCHENGEN

Le mécanisme du processus de traduction *

VÉRIFICATEUR ORTHOGRAPHIQUE POUR LE BAMBARA PRÉSENTATION & MODE D'EMPLOI

Agence France Presse,

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Concevoir sa stratégie de recherche d information

OASIS Date de publication

Les membres sont invités à prendre note des modifications proposées et à faire part de leurs observations éventuelles.

LES INTERFACES HOMME-MACHINE

L'appel public à l'épargne, pour quel besoin de financement? (2/3)

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Convention européenne sur la promotion d'un service volontaire transnational à long terme pour les jeunes

LOI du 4 FEVRIER 2000 relative à la création de l'agence fédérale pour la Sécurité de la Chaîne alimentaire (Mon. 18.II.2000) (1)

LEXOS, logiciel d'étude lexicale et de conjugaison

CENTRE NATIONAL DE LA FONCTION PUBLIQUE TERRITORIALE ASSISTANTE DE DIRECTION

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

LECTURE, RECHERCHE DOCUMENTAIRE ET INDEXATION

a- par la Surveillance du Portefeuille.

Chapitre 1 : Introduction aux bases de données

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Texte de l'arrêté "Site e-business"

])r. ANTONI BANASINSI<I l'ologne

Louer et utiliser un Hébergement Mutualisé OVH (Version 1.0)

DES GOUVERNEMENTS DES ETATS MEMBRES Secrétariat CONF 3980/96

UNIVERSITE PARIS 1 - PANTHEON SORBONNE. Année universitaire MASTER PROFESSIONNEL "TOURISME" (2 e année)

Amélioration de la propreté urbaine et campagne de sensibilisation

Travaux pratiques avec RapidMiner

Comité sectoriel de la Sécurité sociale et de la Santé Section «Sécurité sociale»

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

REPIUDWIIE DII MNIGER J. MNISiERE DE LjAR UTR. T iti k% r I, NI.,

CHAPITRE VIII : Les circuits avec résistances ohmiques

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

«La pomme qui voulait voyager»

Compte rendu de la formation

NOTIONS DE PROBABILITÉS

Le Web, les réseaux sociaux et votre entreprise. Applaudissons les Visionnaires 2009 de Québec. La génération C et le marché du travail

BADPLUS V5 MANUEL D'UTILISATION. Imports de données joueurs à partir de la base fédérale en ligne Poona. Stéphan KIEFFER - Dominique BOSSERT

SAGE. SAGE comptabilité

Le modèle standard, SPE (1/8)

Google fait alors son travail et vous propose une liste de plusieurs milliers de sites susceptibles de faire votre bonheur de consommateur.

Ressources lexicales au service de recherche et d indexation des images

Développement d'un projet informatique

Trier les ventes (sales order) avec Vtiger CRM

François Émond psychologue 2003 Centre François-Michelle. Liste des 24 catégories de connaissances et compétences à développer

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Paris, le 17 mai 2010

CONTRÔLES D'ACCÈS PHYSIQUE AUTOMATISÉS

Coût total de possession des solutions CRM : frais, abonnements et coûts cachés

Contrôle interne et organisation comptable de l'entreprise

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

3 Les premiers résultats des plans d'actions

PLAN D ÉTUDES. école fondamentale

Calculons avec Albert!

TABLE DES MATIÈRES I. INTRODUCTION... 3 II. PIANO D'ACCOMPAGNEMENT...

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Conclusions de M. l'avocat général Jean Spreutels :

PREMIERS PAS SUR PUBMED

Le chiffre est le signe, le nombre est la valeur.

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Vers l'ordinateur quantique

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

ÉCOLE : cycle 3 (CM2) Sciences de la vie et de la Terre S INFORMER : organiser l information Classer, trier, assembler, grouper, distinguer

Fiche méthodologique Rédiger un cahier des charges

Nom et adresse officiels de l'organisme acheteur : GROUPEMENT D'INTERET ECONOMIQUE HAROPA

TITRE DE L ACTIVITÉ : Vivre en groupe chez les animaux. DISCIPLINES ET DOMAINES D ACTIVITÉ de la discipline

Rapport candidat. John Sample. 6 juillet 2012 CONFIDENTIEL

Observation des modalités et performances d'accès à Internet

DOSSIER D'APPEL D'OFFRES POUR LE PROJET PILOTE RELAT!F AU RESEAU D'ASSAINISSEMENT

v7.1 SP2 Guide des Nouveautés

Définition des termes ARTICLE 1 - Objet : ARTICLE 2 - Règles : ARTICLE 3 - Participation : REGLEMENT GENERAL DES JEUX SMS DE SYSEXPERT

Guide d'initiation aux. certificats SSL. Faire le bon choix parmi les options qui s'offrent à vous en matière de sécurité en ligne. Document technique

A 1 auteur. Captures accessoires par les chalutiers gu~b~cois en 1979

L action récursoire contre le producteur d un bien de consommation

données à caractère personnel (ci-après la "LVP"), en particulier l'article 29 ;

Article 1 : analyse du bilan. article destiné à l'opticien lunetier. 25 décembre 1996 LES DOCUMENTS COMPTABLES : UN ATOUT POUR RÉUSSIR

1 - Clients 2 - Devis 3 - Commandes 4 - Livraisons 5 - Factures 6 - Avoirs 7 - Modèles

Transcription:

GIACOMO FERRARI DICTIONNAIP,.E AUTOMATIQUE ET DICTIONNAIRE-MACHINE: UNE HYPOTI-~SE 1. Pendant quatre ans le groupe de recherche linguistique du CNUCE a produit un dictionnaire automatique de la langue italienne, c'est-fi-dire tree liste de toutes les formes, lemmatis~es et enregistr~es sur m~moire p6riphdrique. Pour cette production on a employs: a) une liste d'entr~es d6crites soit sous raspect lexical, soit sous l'aspect.morphologique; b) des programmes de flexion portant soit sur des r~gles g~n~tales, soit sur l'interrogation de codes morphologiques particuliers de l'entr6e. Etant donnd qu'un tel dictionnaire a 6t6 projet6 pour &re employ~ dans les procedures de lemmatisation automatique, ~ l'heure actuelle il est utilisable, bien qu'il puisse &re consid6r6 termin6 ou non termin6 suivant le degr6 de precision de la lemmatisation que l'on veut obtenir et le degr6 de sophistication des procddures que l'on veut employer pour lemmatiser. Mais on s'attend aussi ~ ce qu'il soit employ~ comme partie d'une machine pour l'analyse linguistique d'un texte. Cet emploi demande une predisposition du dictionnaire ~l fournir non seulement des donn6es sur l'accord morphologique dans la phrase, mais aussi des traits de s61ection qui permettent de r~duire le hombre trop dlev6 de s~quences possibles ~l un hombre plus proche de celui des phrases grammaticales de fa~on h nous mettre en condition d'exercer un choix plus fin entre arbres alternatifs. 2. I1 est dvident que le projet n'est qu'un perfectionnement des deux moyens d6fii employds dans la production de notre dictionnaire. D'un c6t~ on devra gdndraliser les programmes de flexion en en faisant une structure capable d'analyser. Ce n'est pas notre intdr~t ici de parler de cette branche du projet; il suffit de dire que la gdn6ralisation des 17

258 GIAEOMO FERI~RI r~gles morphologiques entra~me un processus de precision aussi des codes morphologiques attaches aux entr~es. Le projet que nous sommes en train de d6velopper est, au contraire, la recherche et l'assignation des traits s~lectifs et des codes syntaxicos~mantiques des entr~es ce qui n'est qu'un raffmement des codes lexicaux que nous avons employ6s dans la phase pr~c~dente. Nous justifierons ensuite notre confusion entre traits lexicaux et traits syntaxiques, mais je oudrais souligner, avant de commencer, l'importance de deux autres probl~mes: a) l'6conomie d'espace, que nous devrons r6aliser non seulement avec des moyens techniques, mais aussi en essayant de concentrer et de distribuer l'information d'une fa~on plus simplement utilisable; b) l'organisation des entr6es qui devra refl6ter n~cessairement la disposition de l'information pour r6aliser le principe d'~conomie. 3. Pour nous mettre au travail il nous faut partir d'une s~rie d'observations et de postulats. 3.1. La premiere observation est que nous sommes partis d'un travail lexicographique et que nous sommes oblig6s de continuer ~ travailler sur le lexique. Nous aurions eu une autre solution: nous aurions pfi essayer notre dictionnaire, mot apr~s mot, dans de petites phrases correspondant k une syntaxe tr~s r6duite et simple, en classant chaque mot suivant son fonctionnement dans le contexte. Mais l'extension du dictionnaire rend presque infini le nombre des combinaisons. D'autre part, en travaiuant avec une petite syntaxe invent6e dans ce but, on a la certitude que notre classement aura les limites de la syntaxe m~me. En effet, un dictionnaire exhaustif ne peut ~tre exhaustivement trait6 et class6 si ce n'est au moyen d'une syntaxe exhaustive. On a pens6, donc, de renverser l'ordre des choses et de continuer ~, d6crire le vocabulaire en cherchant, parall~lement, les r~gles syntaxiques capables de traiter les cat6gories que nous trouvons. 3.2. Pour justifier cette position, nous acceptons le postulat que chaque article d'un dictionnaire quelconque ne soit que la neutralisation d'un ou plusieurs types de contextes de l'entr6e. Suivant ce postulat il sera possible de d6gager une s6rie de traits syntaxiques par la simple interpr6tation d'un article de notre dictionnaire de base. Notre confusion entre donn6es lexicales et donn6es syntaxiques se justifie par le fait clue nous employons un article comme

DICTIONNAIRE AUTOMATIQUE ET DICTIONNAIRE-MACHINE 259 image d'tme s&ie de contextes et la s6rie de contextes comme image d'une structure syntaxique. 3.3. Ce principe entralne un autre postulat. La d6finition que le dictionnaire attache ~t chaque entr6e, d'un c6t6 a la fonction de nous faire comprendre le signifi6 d'un mot, de l'autre repr6sente effectivement les traits contextuels que nous cherchons. Elle appartient, donc, au langage, puisqu'elle nous renseigne sur tree certaine r&lit6, parfois concr&e, parfois linguistique, et ~ un m&alangage, puisque chaque ~l~ment, ou certains ~ldments les plus significatifs, peut &re consid~r~ comme le symbole d'tm certain trait. Si, par ex., BEA UTI~ est d6fini ~ Qualit6 de ce qui est beau ~), nous sommes renseign6s sur ce qu'est la ~, beaut~,), mais nous savons aussi que le mot BEAUT~ appartient ~ la classe qualit~ et aura une certaine s&ie de compatibilit6s d6finies par cette classe. De msme, si CHIEN est r~ellement un ~, Mammif~re domestique des Carnivores )~ il est vrai aussi que le mot CHIEN appartient ~t la classe linguistique des mammif~res et, donc, aura, parmi la classe des animaux, les compatibilit6s caract6ristiques des mammif~res, tel que, p. ex., la famille des verbes qui comprend ACCOUCHER, POULINER, VELER, METTRE BAS etc. 4. Evidemment, sur cette route se posent d~j~ des difficult~s. La premiere est que, ayant choisi un dictionnaire de base, il faut en d&oder le m&alangage et distinguer les diff~rents niveaux d'analyse lexicale et syntaxique. En effet, suivant notre experience, nous savons que les explications peuvent avoir la forme d'un synonyme, d'une description ou simplement d'une relation syntaxique par rapport ~t une entree-base. La question se pose, donc, de savoir s'il s'agit de substances diff~rentes, de diff&ents niveaux d'analyse ou, plus simplement, de moyens cliff, rents arbitrairement employ& pour d~crire la m~me chose. Or, si nous acceptons le point de vue optimiste qu'un dictionnaire, en tant qu'il repr6sente une certaine tradition lexicographique, emploie des moyens assez r~guliers, formalis& et, par consequent, d&hiffrables et immddiatement employables comme symbole univoque d'un m&alangage unitaire, les difficultds seront r6solues par tm processus de d&odage, interpr&ation et traduction en symboles mdcaniquement utilisables.

260 GIACOMO FERRARI 5. Pratiquement le projet se ddveloppe en trois phases dont nous sommes en train d'accomplir la premiere: a) Nous transcrivons, en correspondance de chaque entr6e, lad& finition, ou les d6finitions, qui lui sont attach6es par le dictionnaire, et toutes les autres indications qui peuvent avoir une fonction de s61ection pr6alable, telles que l'indication de langage sp6cialis6, de proc6d6 de d~placement s~mantique etc. La transcription de la d6finition doit ~tre faite suivant certaines r~gles qui visent ~t la r6duire ~t l'essentiel en en mettant en ~vidence les termes les plus significatifs. I1 s'agit d'une significativit~ par rapport l'article m~me et non pas par rapport ~ l'hypoth~se g6n6rale. En effet, on a invent6 des r~gles de lecture et d'interpr&ation formelle de l'article, justement pour emp~cher toute intervention subjective. Surtout l'article doit ~tte lu simplement comme un article de dictionnaire sans aucune conscience de la double fonction dont nous avons parl6 plus haut. D'autre part, on emploie trois types de formats de transcription, suivant les trois types de d6finition grossi~rement d~crits. b) Successivement on se propose d'essayer des groupements grossiers de mots suivant leurs explications, ou, pour se rattacher ~ l'hypoth~se, suivant leurs traits syntaxico-s6mantiques. Le syst~me plus g6- n6ral devrait consister ~ trier une premiere fois les ddfinitions, de fa~on que l'on puisse observer, d'un c6td, d'dventuelles d~viations du m~talangage fix6 par le dictionnaire de base, et, de l'autre, les 616ments constants de la d6finition. A partir de ce moment on pourra commencer ~ faire un travail originel, parce que seulement ici on aura dficod~ le m6talangage du dictionnaire et on pourra essayer d'6conomiser les ~l~ments constants des dffinitions, en commengant k les utiliser r~euement comme des traits s~lectifs par rapport k un contexte. Avant de continuer il faut souligner que, bien qu'ici on ne parle que d'une mdthode g6n6rale, on est conscient qu'il sera n&essaire d'aborder le travail avec plusieurs syst~mes d'analyse. En effet, l'emploi des diff6reuts formats de transcription a justement la fonction de faciliter une premiere division du travail suivant une certaine hypoth~se que nous avons dnonc6. De m~me, je n'ai pas parle, jusqu'ici, de classement ou d'encodage parce que notre exp6rience nous rend stirs que seulement le premier tri nous donnera les connaissances suftisantes pour projeter les proc6d6s corrects.

DICTIONNAIRE AUTOMATIQUE ET DICTIONNAIRE-MACHINE 261 Aux lexicographes je rappelle l'importance msme de la premiere partie de ce projet qui nous lib~re de l'esclavage de la consultation du dictionnaire pour toute op6ration de lemmatisation. c) Nous passons donc ~l la troisi~me phase qui est compl~tement hypoth&ique. Nous sommes stirs, du moins, que nous aurons la possibilit6 de traduire certaines sequences en codes generaux appartenants un metalangage plus abstrait que le m6talangage que nous avons re~u du dictionnaire. Nous savons, d'autre part, que cette classification n'est pas sul fisante pour la cr&tion d'un instrument d'analyse assez puissant pour &re exhaustif. Pour citer tin exemple, si la definition de BEAUTt~ est ~ QualitE de ce qui est beau ~>, je peux lui attacher le code indiquant qu'il s'agit d'un abstrait, ce qui constitue d6j~i une sdlection, mais ne me renseigne pas sur le fair qu'il s'agit d'une quality, par opposition, p.ex., ~ sentiment, vertu etc. L'objection la plus facile serait pourquoi ne pas attacher un code g6n~ral indiquant abstrait et un code plus particulier qui serait la traduction immddiate du premier terme de la d~finition, qualitd, sentiment, ou vertu. Ceci est sans doute vrai, mais ne r6sout le probl~me qu'~ moiti& I1 existe, en fair, tree large quantit~ de catdgories repr6sent6es par un ou deux roots dont la traduction en codes serait peu ~conomique. Mais si nous revenons tin instant ~ notre postulat suivant lequel nous traitons un metalangage qui n'est que l'emploi metalinguistic/ue du langage, nous voyons que nous n'avons pas besoin de tellement de codes. I1 sera suflis,~nt de renvoyer une classe de roots au mot du dictionnaire qui constitue le premier 6IEment de la definition. Le msme processus peut 8tre appliqud aux dlements successifs, s'ils apparaissent suffisamment significatifs. A la fin de ce travail on aura renferm~ le vocabulaire dans un r& seau de branchements constitu~ par: a) une serie de categories g6n~rales qui repr6sentent tree premiere division en branches du vocabulaire; b) des branchements exprimant des rapports hi6rarchiques entre les roots du vocabulaire; c) des branchements exprimant des rapports d'6quivalence entre certains roots. 6. On arrive, donc, ~t concevoir le dictionnaire comme tin arbre dont les premiers noeuds sont des cat6gories g6nerales et les noeuds inf6rieurs sont les mots du vocabulaire hi6rarchiquement ranges.

262 g~^como r~aaaai La caract6ristique fondamentale de cet arbre est que chaque noeud peut ~tre constitu6 d'un ou plusieurs roots, de re@me qu'un mot peut repr6senter un ou plusieurs noeuds. I1 reste encore un point ~t 6claircir, l'emploi de cet arbre, 6tant donn6 surtout qu'il s'agira de plusieurs arbres, du moins un arbre pour la pattie nominale du discours et un arbre pour les verbes. I1 est 6vident qu'en phase de recherche syntaxique il sera assez facile de descendre les arbres et v6rifier une r~gle sur deux ou plusieurs branches que nous savons d6j~t compatibles entre elles. En termes plus pratiques, il sera facile de prendre tousles noeuds 6quivalents des arbres produits en traitant par une r~gle seulement ce qui se trouve au dessous de ces noeuds. Mais le contraire est vrai aussi: ~tant donn6 une phrase, une syntaxe et une table de compatibilit~ entre les sous-branches des arbres, on pourra limiter le dictionnaire pour l'analyse de la phrase aux sousbranches compatibles avec la sous-branche du premier mot, de faqon que si dans la recherche m6canique un mot manque, la phrase n'aura aucun sens, ou le mot sera employ6 dans tm signifi6 que nous ne connaissons pas. 7. Seulement dans ce sens nous r~aliserons l'~conomie d'espace et d'information dont nous avons parl6. Nous aurons la possibilit6 de travailler sur des petites tranches de vocabulaire ~t la fois. D'autre part, si, une fois l'analyse termin~e, on a besoin d'en classer les 616ments lexicaux, on n'aura qu'~t remonter les arbres en en m6morisant les noeuds, pour avoir le classement et une sorte d'explication.