5-8 COLLOQUE INTERNATIONAL LEXIQUE ET G R A M M A I R E INTERNATIONAL CONFERENCE LEXIS AND G R A M M A R. Octobre/October. Conférenciers Invités

Transcription

1 Département d'etudes françaises et de Langues vivantes Department of French Studies and Modern Languages COLLOQUE INTERNATIONAL LEXIQUE ET G R A M M A I R E INTERNATIONAL CONFERENCE LEXIS AND G R A M M A R Conférenciers Invités Keynote Speakers Georges Kleiber (Strasbourg) Octobre/October Margarita Alonso Ramos (Coruña) Raffaele Simone (Rome 3) Comité d'organisation Organising Committee Fryni Kakoyianni-Doa (Cyprus) Matthieu Constant (Paris-Est Marne-la-Vallée). Université de Chypre Salle de Conférences 75, rue Kallipoleos Nicosie University of Cyprus Conference Room 75, Kallipoleos Street Nicosia Sébastien Paumier (Paris-Est Marne-la-Vallée) Partners Partenaires Sponsors Secrétariat du Colloque Conference Secretary Thekla Constantinou (Cyprus) design by Andri Nikiforou

2

3 Table des Matières / Table of Contents Conférence plénière / Keynote Address Kleiber Georges ÉNONCIATION ET ESPACE : LE CAS D ICI... 1 Alonso Ramos Margarita STRUCTURE ARGUMENTALE ET COLLOCATIONS VERBALES... 7 Simone Raffaele DISCOURSE OPERATIONS Abeillé Anne, Vivès Robert LES CONSTRUCTIONS À VERBE SUPPORT DANS LA GRANDE GRAMMAIRE DU FRANÇAIS Andriamise Lakoarisoa, Ranaivoson Jeannot Fils, Rakotoalison Sylvie Fanjanirina LES LOCUTIONS SUPPORTS EN MALGACHE : LE CAS DE MISY AZY Bloch-Trojnar Maria MORPHOSYNTACTIC AND ASPECTUAL CHARACTERISTICS OF PREDICATIVE VERBAL NOUNS IN LVCS IN IRISH Botouhely Jean Lewis, Ralalaoherivony Baholisoa Simone LES ADJECTIFS DE PROPRIÉTÉ HUMAINE DU PARLER (MALGACHE) DU NORD : ACTUALISATION ET ASPECTS Brugman C.,Conners T., David A., Gnanadesikan A. BEYOND ASPECT: THE PARTICIPANT IN SOUTH ASIAN LVCS Constant Matthieu, Dister Anne et Nakamura Takuya DE LA LIBERTÉ COMBINATOIRE AU FIGEMENT. LE VERBE FAIRE DANS UN CORPUS DE FRANÇAIS PARLÉ D Agostino Emilio À PROPOS DES NOMS SUPPORTS ET PRÉDICATS ET DES OPÉRATEURS DISCURSIFS Edoardo Lombardi Vallauri LEXICALIZATION OF JAPANESE LIGHGT VERB CONSTRUCTIONS BETWEEN MORPHOLOGY AND SYNTAX i

4 Elia Annibale, Marano Federica, Monteleone Mario, Monti Johanna, Napoli Antonella, Vellutino Daniela LINGUISTICALLY MOTIVATED KNOWLEDGE MANAGEMENT: EXPLOITATION OF LANGUAGE RESOURCES FOR NLP APPLICATIONS Elia Annibale ON LEXICAL, SEMANTIC AND SYNTACTIC GRANULARITY OF ITALIAN VERBS Fista Evangelia, Kyriacopoulou Tita, Tziafa Eleni LES NOMS PRÉDICATIFS DANS LA LANGUE SPÉCIALISÉE DE LA BOURSE Foufi Vassiliki LES NOMS COMPOSÉS A(A)N DU GREC MODERNE ET LEURS VARIANTES Garcia-Vega Michelle, Machonis A. Peter THE SUPPORT VERB TAKE Garnier-Oeliarisoa Dina, Battistelli Delphine, Minel Jean-Luc VERS L'ANNOTATION AUTOMATIQUE DES NOMS PRÉDICATIFS D'ÉVÉNEMENTS MÉDIATIQUES Geierhos Michaela TOWARDS A LOCAL GRAMMAR-BASED PERSONDATA GENERATOR FOR WIKIPEDIA BIOGRAPHIES Ioannidou Kyriaki, Tolone Elsa CONSTRUCTION DU LEXIQUE LGLEX À PARTIR DES TABLES DU LEXIQUE- GRAMMAIRE DES VERBES DU GREC MODERNE Khemakhem Aïda, Gargouri Bilel, Hammadou Abdelmajid Ben MODÉLISATION SYNTAXICO-SÉMANTIQUE NORMALISÉE POUR LA LANGUE ARABE Kyriacopoulou Tita, Martineau Claude, Mavropoulos Thanassis LES NOMS PROPRES EN FRANÇAIS ET GREC : RECONNAISSANCE, EXTRACTION ET ENRICHISSEMENT DE DICTIONNAIRES Lim Joon Seo UNE ÉTUDE SUR LA DESCRIPTION LEXICO-SYNTAXIQUE DU VERBE DOEDA EN CORÉEN Marque-Pucheu Christiane POUR UNE GRAMMAIRE LOCALE DES VERBES INTRODUCTEURS D EXCLAMATIVE INDIRECTE ii

5 Martineau Claude, Voyatzi Stavroula CONSTRUCTION DES RESSOURCES POUR LA DÉTECTION D OPINIONS ET L ANALYSE DE SENTIMENTS : ATTRIBUTION DE POLARITÉ ET CALCUL INCRÉMENTAL DE L INTENSITÉ Márton Náray-Szabó LES CONSTRUCTIONS À VERBE SUPPORT ET L AFFIXATION EN HONGROIS Mirto Mauro Ignazio METAPHORICAL VS. LITERAL: NOTES ON THE ITALIAN VERB STRAPPARE Monville-Burston Monique, Kakoyianni-Doa Fryni PRÉPOSITIONS /CONJONCTIONS TEMPORELLES AVEC ORIENTATION PROSPECTIVE : JUSQUE/UNTIL/MECHRI Nguyen Tien Van, Gaio Mauro UTILISATION DE LA RELATION «VERBE PRÉPOSITION TOPONYME» POUR UN INVENTAIRE LEXICAL AUTOMATIQUE Paumier Sébastien, Nam Jeesun UN SYSTÈME DE DICTIONNAIRE DE MOTS SIMPLES DU CORÉEN Piot Mireille SYNTAXE VS PHONOLOGIE DANS LA FORMATION DU SYSTÈME ROMAN DES CONJONCTIONS DE SUBORDINATION : LA QUESTION DES ORIGINES DES COMME ET DE LEURS ÉQUIVALENTS ROMANS Ranaivoson Jeannot Fils, Andriamise Lakoarisoa LES VALEURS SÉMANTIQUES DES SUPPORTS EN MALGACHE Ronan Patricia FUNCTIONS OF SUPPORT VERB CONSTRUCTIONS IN EARLY ENGLISH Samvelian Pollet, Danlos Laurence, Sagot Benoît ON THE PREDICTABILITY OF LIGHT VERBS Schneider Gerold USING AUTOMATICALLY PARSED CORPORA TO DISCOVER LEXICO- GRAMMATICAL FEATURES OF ENGLISH VARIETIES Sigogne Anthony, Constant Matthieu, Laporte Éric INTÉGRATION DES DONNÉES D UN LEXIQUE SYNTAXIQUE DANS UN ANALYSEUR SYNTAXIQUE PROBABILISTE iii

6 Tolone Elsa, La Clergerie Éric, Sagot Benoît ÉVALUATION DE LEXIQUES SYNTAXIQUES PAR LEUR INTÉGRATION DANS L'ANALYSEUR SYNTAXIQUE FRMG Tovena M. Lucia, Colinet Margot ARGUMENTS OF DEADJECTIVAL VERBS AND FACETS OF ADJECTIVAL BASES Ulland Harald LOOKING FOR SEMANTICALLY EMPTY SUPPORT VERBS: THE CASE OF THE VERBS FORETA AND UTFØRE IN NORWEGIAN Valetopoulos Freiderikos, Lamprou Efi LES VERBES SUPPORTS DES NOMS DE SENTIMENTS EN GREC MODERNE : NOUVEL ÉTAT DES LIEUX Varga Lidia VERBE SUPPORT ET NOMS PRÉDICATIFS À L ACCUSATIF DU HONGROIS Vetulani Zygmunt, Vetulani Grażyna THROUGH WORDNET TO LEXICON GRAMMAR Walther Géraldine, Sagot Benoît PROBLÈMES D INTÉGRATION MORPHOLOGIQUE D EMPRUNTS D ORIGINE ANGLAISE EN FRANÇAIS iv

7 Kleiber Georges Université de Strasbourg ENONCIATION ET ESPACE : LE CAS D ICI Introduction Nous nous proposons «ici» d aborder l adverbe spatial ici de manière inhabituelle. Non pas en en donnant une définition générale que viendraient conforter ensuite deux ou trois exemples authentiques ou attestés particulièrement bien choisis, mais en «décortiquant» à fond un exemple précis pour montrer, de manière explicite, comment il fonctionne réellement, c est-àdire comment en partant de l occurrence d ici analysée on est finalement conduit au lieu visé par l adverbe. Notre objectif sera de mettre en lumière les différentes étapes du processus référentiel accompli par ici et de montrer ainsi la complexité réelle de son fonctionnement. Les raisons de notre choix sont claires. Comme nous l avons montré ailleurs (Kleiber, 2008 et 2010), les approches classiques d ici se contentent le plus souvent d indiquer qu ici renvoie au lieu où se trouve le locuteur ou qu il marque le lieu d énonciation de l occurrence, ou, en termes de distance, qu il marque un lieu proche du locuteur, ou encore, en termes non spatiaux, qu il correspond à l engagement du locuteur (Smith, 1992). Ce faisant, elles pensent que l affaire est pliée et en restent généralement là 1. Or, il suffit de mettre à l épreuve leurs définitions pour s apercevoir qu elles présentent deux défauts majeurs. Le premier est qu elles ne conviennent chacune qu à un type d emploi d ici. Elles sont toutes monofonctionnelles en ce qu elles attribuent à ici un sens déterminé quant au type de lieu dénoté, alors qu une des caractéristiques principales d ici est d être de ce point de vue-là sous-déterminé ou sous-spécifié. Il peut renvoyer certes au lieu où se trouve le locuteur, mais il peut aussi dénoter un lieu proche du locuteur ou encore le lieu délimité par sa propre occurrence ou par un geste du locuteur, etc. Il apparaît sous-déterminé par rapport à ces différentes spécifications. Ce qui est commun à tous ses emplois, c est qu il renvoie à son référent spatial par l intermédiaire d éléments reliés spatio-temporellement à son occurrence 2. Autrement dit, pour trouver le lieu visé, il faut partir de l occurrence même d ici et identifier les éléments intermédiaires contigus qui conduisent à ce lieu, ces éléments pouvant varier selon le type d emploi réalisé. Le second défaut est que, même dans le cas des emplois qui leur sont favorables, les approches classiques n explicitent pas entièrement comment s effectue la «trouvaille» du lieu auquel renvoie ici. Dire qu ici renvoie au lieu où se trouve le locuteur ne permet pas de rendre compte de la différence de lieu dénoté dans les deux exemples suivants : (1) Ici on travaille dur (un ouvrier en parlant de son usine) (2) Viens ici! (un père à son fils) Même si dans les deux cas il s agit bien du lieu où se trouve le locuteur, ce lieu n est pas du même type : dans le premier énoncé, il s agit d un lieu englobant, qui n est pas délimité par le locuteur, mais dans lequel se trouve le locuteur, alors que dans le second, le lieu visé est celui 1 Voir par exemple le peu de place qu occupent les adverbes spatiaux dans Borillo (1998). 2 Dans la littérature spécialisée, on parle de token-réflexivité ou de réflexif d emploi. On peut aussi utiliser le terme de symbole indexical. 1

8 même déterminé par la position précise du locuteur. D où la nécessité de mettre la main à la pâte et de voir en détails et sur pièce comment «roule» réellement l adverbe spatial ici. La «pièce» choisie sera l énoncé : (3) Il fait chaud ici (un professeur à ses étudiants dans la salle de cours) qui nous a servi tout au long de notre parcours dans le domaine de la deixis spatiale 3 et que nous avons choisi, parce qu apparemment il ne pose aucune difficulté d analyse. Nous exposerons d abord le problème que pose le calcul de la référence d ici. Nous rechercherons ensuite quels sont les éléments spatio-temporellement contigus qui mènent au référent et décrirons en dernier comment se fait le choix du lieu pertinent. 1. Le problème posé : comment arriver d ici à la salle de cours? Nous admettrons que, dans (3), le lieu visé est bien la salle dans laquelle fait cours l enseignant. On admettra aussi que, par la partie symbolique de son sens, ici restreint le référent à être un lieu (une portion d espace). Il reste donc à trouver le lieu en question et ceci en se conformant à l instruction déictique sous-déterminée véhiculée par ici, qui stipule que le lieu visé doit être trouvé par l intermédiaire d éléments spatio-temporellement reliés à l occurrence même d ici. Si l on considère que l occurrence d ici dans la situation envisagée est une entité sonore, non spatiale donc, mais temporelle et en conséquence unidimensionnelle, et que le lieu visé (la salle de cours) est une entité spatiale tridimensionnelle, on voit quel est le problème posé : il faut pouvoir expliquer par quel moyen spatio-temporel l entité spatiale tridimensionnelle qu est la salle de cours est reliée à l occurrence temporelle unidimensionnelle ici. Comment passe-t-on d une entité non spatiale, temporelle, à une entité spatiale non temporelle? Bref, quel est l élément intermédiaire contigu à l occurrence d ici de (3) qui permet d atteindre la salle de cours? On notera que cet élément intermédiaire doit être une interface telle qu elle puisse relier du temporel (unidimensionnel) à du spatial. 2. L endroit où est prononcée l occurrence d ici? On peut tout d abord penser que cet élément intermédiaire est le lieu où est prononcée l occurrence d ici (Perret, 1991). Une occurrence se produisant dans un lieu, ce lieu est en relation spatiale avec cette occurrence et le passage de l occurrence d ici à la salle de cours peut par conséquent s appuyer sur ce lien spatial : il suffit en effet de voir quel est le lieu où est prononcée l occurrence d ici pour aboutir dans la situation analysée à la salle de cours. Cette solution a donc incontestablement de quoi séduire. Malheureusement, une étape du raisonnement sur lequel elle est construite s avère erronée, celle qui postule que l entité temporelle (unidimensionnelle) qu est l occurrence orale d ici est reliée directement à une entité spatiale, tridimensionnelle, le lieu d énonciation (la salle de cours). Une telle relation n est évidemment pas possible : il n y a pas de lien immédiat possible entre une entité temporelle, qui n occupe pas d espace, et une entité spatiale tridimensionnelle. Dit autrement, on ne peut passer sans intermédiaire, de l occurrence orale d ici à un lieu ou endroit qui est une entité spatiale tridimensionnelle. Le statut temporel d une occurrence orale ne lui permet pas, en effet, d entrer directement en contact avec un lieu. Il faut une autre interface qui, comme nous l avons dit cidessus, soit reliée à l occurrence temporelle d ici et à l espace tridimensionnel de la salle de cours. 3 Voir Kleiber (2008 et 2010) dont nous reprenons ici certains développements. 2

9 La dépendance ontologique des événements vis-à-vis des entités matérielles montre que l élément intermédiaire, donc l interface pertinente, à prendre en considération est ici le locuteur (ou l interlocuteur). 3. L endroit où se trouve le locuteur de l occurrence d ici C est en effet le locuteur qui assure le lien spatio-temporel entre l occurrence d ici et le lieu dénoté. Il peut remplir le rôle d interface entre ces deux entités dans la mesure où il est à la fois une entité temporelle et une entité matérielle, tridimensionnelle, qui occupe une portion d espace. Comme il est dans une relation causale avec l occurrence d ici c est lui qui l a prononcée et comme il est une entité spatiale, il constitue l élément contigu à l occurrence d ici qui est nécessaire pour assurer le passage d ici à un lieu. Quel est ce lieu ou cet endroit? En tant qu entité matérielle, le locuteur occupe, nous l avons dit, une certaine partie de l espace et peut donc servir d élément pour référer à l endroit où il se trouve. L intéressant, c est qu il occupe, comme nous l avons déjà vu avec (1) et (2) ci-dessus, en fait deux endroits ou deux positions en même temps accessibles à l aide d ici. Ou, dit autrement, il y a deux façons de comprendre l endroit où se trouve le locuteur dénoté par ici : (i) le locuteur détermine comme lieu la portion d espace qu il occupe (ii) le locuteur détermine un lieu déjà constitué en lieu Il y a, en effet, d une part l endroit précis délimité par la position exacte de son corps. Cet endroit change donc avec chaque déplacement du corps. Il y a d autre part aussi le ou les lieux englobants ou incluants, qui contiennent en quelque sorte le locuteur. La position exacte qu occupe le corps à l intérieur de ces espaces inclusifs n est cette fois-ci plus pertinente : le locuteur peut y changer de place sans pour autant changer de lieu. Ce n est en effet plus le locuteur qui détermine avec son corps le lieu, mais c est le lieu englobant qui permet de le repérer (cf. je suis en France/ à Strasbourg/ dans la cuisine, etc.). Le test du déplacement révèle clairement quel lieu est pertinent pour Il fait chaud ici. Il s agit d un espace inclusif. Le professeur peut être au tableau ou au fond de la salle au moment où il prononce son énoncé : ici continue de renvoyer à la salle de cours. Il n en va pas de même avec notre deuxième type d emploi d ici : (2) Viens ici! Là, c est la position exacte du corps qui s avère décisive : si le locuteur se déplace du tableau vers le fond de la salle, le lieu auquel renvoie ici changera avec le déplacement. On est à présent en mesure de compléter la chaîne référentielle indexicale qui mène de l occurrence temporelle d ici à l entité spatiale non temporelle tridimensionnelle qu est la salle de cours. Il faut ajouter à notre résultat précédent que l endroit où se trouve le locuteur est un lieu inclusif : ici renvoie à la salle de cours en tant qu elle est un lieu qui contient le locuteur. L enquête n est pas close pour autant. Il s agit encore de préciser le statut de ces lieux englobants. Comme ce n est pas la position exacte du corps qui délimite le lieu et qu ici ne comporte aucune indication sur son extension, il faut qu il soit en quelque sorte déjà constitué comme lieu. Il n y a en effet aucun autre moyen pour tracer un tel lieu que la connaissance a priori sur ce qui est un lieu inclusif. Tout espace qui englobe le locuteur ne saurait ainsi, comme l a souligné Klein (1982 : 165), devenir un lieu pertinent pour ici : «It is very unlikely that a particular here will be used to refer to a chair (with speaker) ant the surrounding space at an exact distance of 69.3 cm, or to the room and the two adjacent rooms...». Même s il fait aussi chaud dans le couloir que dans la salle de cours, ici ne saurait dans notre exemple-fil rouge 3

10 renvoyer à l ensemble inclusif formé par la salle de cours et le couloir, parce qu un tel ensemble n est pas reconnu comme une unité englobante. On ne peut en conséquence tracer sans plus des cercles concentriques autour du locuteur pour marquer l aire d application d un ici inclusif : seuls les ensembles englobants qui sont déjà ou qui peuvent être reconnus comme lieux englobants, de façon stéréotypique ou situationnelle, peuvent être retenus comme candidats éventuels. Nos connaissances sur le monde et des phénomènes de perception entrent ici en ligne de compte et montrent que la question est d ordre cognitif : toute portion d espace n est pas reconnue ou appréhendée comme lieu. 4. La détermination du lieu englobant pertinent? L élimination des portions d espace englobantes non pertinentes au moyen de la contrainte cognitive de lieu inclusif n aboutit pas à l univocité : si tout espace autour d un locuteur ne peut convenir, il y a tout de même, nous l avons vu, plus d un lieu englobant possible. Pourquoi, dans le contexte imaginé pour Il fait chaud ici, est-ce alors plutôt la salle de cours qui est retenue que le fond de la salle, ou l Université, ou encore la ville dans laquelle se trouve l Université, etc.? L équivoque n est pas impensable, même si dans la majorité des cas elle ne se produit pas. Une histoire de contrôleurs de train helvétiques illustre plaisamment la question : pour apprendre le métier à un jeune collègue qui le remplacera, un contrôleur proche de la retraite lui enseigne de répéter ses gestes et ses paroles lors du trajet Yverdon-Neuchâtel qu ils effectueront ensemble, l apprenti en queue de train et le maître en tête. Lorsque le train arrive en gare de Neuchâtel, le contrôleur aîné ouvre la portière du premier wagon et d une voix assurée par l expérience et la compétence lance un tonitruant : (4) Ici, Neuchâtel! Lui répond alors en écho dans le dernier wagon le jeune contrôleur avec un tout aussi tonitruant : (5) Ici aussi!.on laisse au lecteur le soin de démonter le mécanisme, plus complexe qu il n y paraît, de l équivoque spatiale sur laquelle est construite cette hélvétique histoire ferroviaire. L important pour notre propos est d apporter des éléments de réponse à la question qu elle illustre : comment se fait le choix du lieu englobant pertinent? Le point à ne pas perdre de vue est que l élément intermédiaire, à savoir le locuteur, ne donne pas le lieu directement luimême. C est un endroit englobant dans lequel se trouve le locuteur, nous l avons vu, mais comme il n y en a pas qu un de possible, celui qui se trouve être le bon n est pas pointé par le locuteur. Autrement dit, l attention de l interlocuteur n est pas dirigée sur le lieu en question, comme elle l est avec un ici gestuel, par exemple. C est l interlocuteur qui doit l inférer à partir des différentes connaissances présumées partagées ou manifestes dans la situation d énonciation. C est dire que le lieu en question est présumé être accessible à l interlocuteur à partir de l élément intermédiaire qu est le locuteur et à partir des autres informations contextuelles. La preuve en est que dans l hypothèse où le locuteur estime que l interlocuteur ne peut accéder à l interprétation spatiale pertinente de l endroit où se trouve le locuteur, il fait suivre son ici englobant d une apposition identifiante qui lève toute ambiguïté : (6) Ici, à Pfaffenheim / dans le vignoble/ dans le Haut-Rhin/ en Alsace, le Gewürztraminer se boit comme du petit lait Dans la plus grande partie des cas, le locuteur présume que le lieu en question est accessible, c est-à-dire que l interlocuteur dispose des moyens nécessaires pour accéder à la bonne 4

11 interprétation et qu il saura reconnaître, en somme, parmi les lieux potentiels, lequel est le bon endroit. C est ici qu on peut faire jouer des théories interprétatives comme la théorie de la pertinence de Sperber et Wilson (1986) pour modéliser le mécanisme de sélection de la bonne interprétation. Deux facteurs, dont le premier n est en fait qu un élément du second, nous semblent primordiaux dans la stratégie de recouvrement du lieu pertinent : a) la connaissance qu a l interlocuteur de la situation ou position du locuteur au moment où il prononce l occurrence d ici ; b) le contexte sur lequel s appuie l énonciation de la phrase comportant ici. Le premier facteur n est que la conséquence de la nécessité de trouver un endroit englobant le locuteur : la perception et les connaissances qu a l interlocuteur sur la situation ou position du locuteur se révèlent ainsi déterminantes dans le calcul pour inférer le lieu pertinent. Si la pièce dans laquelle téléphone le locuteur ne se révèle pas appropriée comme référent d ici et que l on choisisse plutôt des entités comme la ville, la région ou le pays où se trouve le locuteur, c est parce que la situation d échange téléphonique rend saillant l éloignement entre locuteur et interlocuteur et que, donc, pour l interlocuteur, le lieu-où-se-trouve-le-locuteur pertinent est celui qui marque cet éloignement. Cela peut être ainsi une pièce, un bureau, par exemple, si locuteur et interlocuteur se téléphonent à l intérieur d un même immeuble. Le second facteur découle de la nécessaire intégration de tout énoncé dans un contexte, le contexte (certains parlent de modèle discursif ou contextuel ou encore construction de sens) en vigueur au moment de son énonciation. Il est en effet clair que si dans un tel modèle contextuel le type de lieu englobant, par exemple, se trouve déjà activé, l interprétation d ici en sera forcément affectée, comme l illustrent (7) et (8) : (7) Là-bas commence ici (publicité dans l aéroport d Enztheim-Strasbourg) (8) En Allemagne, la réunification divise. Ici, la division réunifie (journal humoristique) Conclusion Nous sommes au bout de notre périple, puisque nous avons mis au jour, comme annoncé, les différentes étapes du processus référentiel effectué par ici dans Il fait chaud ici. Nous espérons avoir montré que ce processus est beaucoup plus complexe qu on ne peut le penser de prime abord et, surtout, qu il consiste en une subtile recherche des éléments intermédiaires spatiotemporellement reliés à l occurrence d ici. En abordant d autres types d emplois, on verrait que d autres éléments que le locuteur peuvent être mis à contribution, que les types de lieu peuvent varier, que la dimension spatiale que présente une occurrence écrite d ici entraine plutôt la mise en avant du lieu spatial où figure ici, etc. Il faudrait raccrocher son fonctionnement à celui de làbas décrit par Brault (2001) et surtout l opposer inter-catégoriellement de façon détaillée à là, que nous avons placé dans le giron des expressions anaphoriques et non plus déictiques (Kleiber, 1993, 1995 a, b et c, 1997). Nous ne conclurons donc pas 5

12 Bibliographie Borillo, A., 1998, L espace et son expression en français, Gap, Ophrys. Brault, G., 2001, Les adverbes spatiaux. Le cas de là-bas, Strasbourg, Thèse de Doctorat, Université Marc Bloch de Strasbourg. Kleiber, G., 1993, «L'espace d'ici: sur la pragma-sémantique des adverbes spatiaux», Cahiers de Linguistique Française, 14, Kleiber, G., 1995 a, «D'ici à là et vice versa: pour les aborder autrement», Le Gré des Langues, 8, Kleiber, G., 1995 b, «Ici on ne peut pas utiliser là», in A. Figueroa & J. Lago (eds), Estudios en homenaxe ás profesoras Françoise Jourdan Pons e Isolina Sánchez Regueira, Saint-jacques de Compostelle, Université de Saint-Jacques de Compostelle, Département de Philologie Française et Italienne, Kleiber, G., 1995 c, «Pour une nouvelle approche des adverbes spatiaux ici et là», in Sypnicki, J. (ed.), Les acquis de la linguistique et l'enseignement du français langue étrangère, Lódz, Wydawnictwo Uniwersytetu Lódzkiego, Kleiber, G., 1997, «Pourquoi faut-il éteindre la cigarette ici et non là?», in K. Bogacki, & T. Giermak-Zielinska, (éds), Espace et temps dans les langues romanes et slaves), Varsovie, Institut de Philologie Romane de l Université de Varsovie, Kleiber, G., 2008, «Comment fonctionne ICI», Cahiers Chronos, 20, 2008, Kleiber, G., 2010, «La deixis d ICI», in Maass, C., & Schrott, A. (Hg.), Wenn Deiktika nicht zeigen : zeigende und nichtzeigende Funktionen deiktischer Formen in den romanischen Sprachen, Berlin, LIT Verlag Dr. W. Hopf, Klein, W., 1982, «Local Deixis in Route Directions», in Jarvella, R. et W. Klein (eds), Speech, Place and Action. Studies in Deixis and related Topics, Chichester, John Whiley & Sons LTD, Perret, M. (1991), Le système d opposition ici, là, là-bas en référence situationnelle, in Ezkénazi, A. et Perret, M., Etudes de linguistique française à la mémoire d Alain Lerond, Nanterre, Numéro spécial de LINX, Nanterre, Université de Paris X, Smith, J.-C., 1992, «Traits, marques et sous-spécification : application à la deixis», in M.-A. Morel et L. Danon-Boileau (éds), La deixis, Paris, PUF, Sperber, D. et Wilson, D., 1986, Relevance : Cognition and Communication, Oxford, Basil Blackwell. Trad. Française : La pertinence : communication et cognition, Paris, Minuit,

13 Alonso Ramos Margarita Universidade da Coruña (Espagne) STRUCTURE ARGUMENTALE ET COLLOCATIONS VERBALES Ce travail porte sur les collocations verbales espagnoles comme declarar su admiración déclarer son admiration, planear un atentado planifier un attentat, promover una campaña promouvoir une campagne, organizar una expedición organiser une expédition, vencer las dificultades vaincre les difficultés, etc. Dans les collocations, la base joue le rôle principal puisqu elle détermine la sélection lexicale du collocatif. Dans nos exemples, c est le nom qui joue le rôle de base ; le verbe, étant sélectionné lexicalement, a un poids sémantiquement inférieur. Ceci ne signifie pas qu il est sémantiquement vide. Bien au contraire, tout le monde serait d accord pour dire que ces verbes sont sémantiquement pleins. Or, ces verbes partagent certaines propriétés avec les verbes supports (comme dans dar un paseo faire une promenade, hacer uso faire usage, ou tener miedo avoir peur ). Cette ressemblance vient du fait que le prédicat sur lequel la structure argumentale est organisée correspond au nom et non pas au verbe. En d autres termes, on pourrait dire que la situation linguistique (dans le sens de Mel čuk 2004) exprimée par ces collocations est désignée par la base nominale (admiración, dificultad, expedición, paseo, uso ou miedo) plutôt que par le collocatif verbal (declarar, planear, organizar, etc.). Les verbes collocatifs, y compris les verbes supports, ont la capacité de partager les actants des noms prédicatifs, qui jouent le rôle de base de la collocation. Ainsi, le sujet grammatical de ces verbes est coindexé avec le premier argument du prédicat exprimé par le nom objet ; par exemple, celui qui déclare l admiration pour quelqu un désigne le même référent que celui qui éprouve de l admiration (on pourrait le nommer un admirateur et non pas un déclarant). Le fait de partager les mêmes arguments peut expliquer pourquoi, à l instar des constructions à verbe support, les verbes de ces collocations présentent ce qu on appelle la «double analyse» (Giry-Schneider 1987 : 45-58) : (1) a. La admiración por el profesor que Pedro declara es L admiration pour le professeur que Pedro déclare est b. La admiración que Pedro declara por el profesor es... L admiration que Pedro déclare pour le professeur est (2) a. La expedición al Himalaya que Pedro organizó L expédition à l Himalaya que Pedro a organisé b. La expedición que Pedro organizó al Himalaya L expédition que Pedro a organisé à l Himalaya 7

14 Il découle de ces exemples que les verbes collocatifs permettent de détacher le groupe nominal du groupe prépositionnel, ce qui n est pas possible lorsqu ils apparaissent dans des combinaisons libres. Ainsi, le comportement du verbe organizar dans (3) est différent de celui qu il présente dans (2): (3) a. La información sobre los últimos atentados que el periodista organizó L information sur les derniers attentats que le journaliste a organisé b. *La información que el periodista organizó sobre los últimos atentados L information que le journaliste a organisé sur les derniers attentats En effet, le verbe organizar a trois actants syntaxiques dans (2b), tandis que dans (3) il en a seulement deux, car il n existe pas de relation lexicale spéciale entre le verbe et le nom información, ce qui permettrait le transfert d arguments du nom prédicatif vers le verbe. Pour pouvoir expliquer ce transfert d arguments, il est nécessaire d effectuer une distinction entre le niveau sémantique et le niveau syntaxique, comme celle qui est proposée dans le cadre théorique de la Théorie Sens-Texte (Mel čuk 2004). Le débat sur le syntagme prépositionnel (comme al Himalaya dans 2b) et son statut de complément du verbe ou de complément du nom n est pas posé ici car nous distinguons d un côté, les actants sémantiques du nom et, d un autre côté, les actants syntaxiques du verbe. Dans l exemple (2b), le syntagme prépositionnel al Himalaya est un actant syntaxique du verbe et simultanément, un actant sémantique du nom expedición. Cette recherche est encadrée donc dans la Lexicologie Explicative et Combinatoire, qui est la composante lexicale de la Théorie Sens-Texte (TST, Mel čuk 1997, Mel čuk et al. 1995, entre autres). La TST est particulièrement pertinente pour le problème qui nous intéresse, étant donné son approche particulièrement lexicaliste et l importance qu elle accorde au concept théorique d actant. Nous articulerons ce travail de la façon suivante : nous commencerons par clarifier certains concepts sémantiques et lexicaux qui aideront à mieux comprendre ce qu est une collocation. Après avoir exposé ce qu on entend par «être un prédicat» et «être prédicat de», nous présenterons la notion d actant dans notre cadre théorique, cadre qui distingue, d un côté, entre «participant» et «actant» et d un autre côté, entre «actants sémantiques» et «actants syntaxiques». Nous ferons une comparaison du traitement offert par la TST avec celui qui est offert dans d autres cadres théoriques qui font usage du concept de la co-composition (Pustejovsky 1995). Finalement, nous étudierons le traitement lexicographique des actants dans les collocations verbales. 8

15 Références Giry-Schneider, J., 1987, Les prédicats nominaux en français : les phrases simples à verbe support, Genève/Paris, Droz. Mel čuk, I., 1997, Vers une linguistique Sens-Texte, Paris, Collège de France. Mel čuk, I., 2004, Actants in Semantics and Syntax I: actants in Semantics, Linguistics, 42-1, Mel čuk, I., A. Clas, A. Polguère, 1995, Introduction à la lexicologie explicative et combinatoire, Louvain-la-Neuve, Duculot. Pustejovsky, J., 1995, The Generative Lexicon, Cambridge, MIT Press. 9

16 10

17 Raffaele Simone Université de Rome 3, Italie DISCOURSE OPERATIONS Abstract This paper proposes the notion of 'discourse operations' as atheoretical construct able to explain various phenomena, in particular most of the seemingly extravagant or even erroneous innovations that take place in discourse. Two classes of such operations are proposed: format coercions and transpositions: the former expand and modulate the meaning of lexical units according to principles; the latter overcome occasional gaps in the system through the pattern-sensitive combination of units. Some of such solution may eventually be incorporated into the systems. Data from various languages corroborate the theoretical hypotheses. 11

18 12

19 Abeillé Anne Université Paris 7 abeille@linguist.jussieu.fr Vivès Robert Université Paris 8 rvives@club-internet.fr LES CONSTRUCTIONS A VERBE SUPPORT DANS LA GRANDE GRAMMAIRE DU FRANÇAIS Résumé Nous présentons la notion de verbe support telle qu elle est redéfinie dans le projet de Grande Grammaire du français (Abeillé et al 2007, 2010). Tout en s inspirant des travaux du LADL, nous nous efforçons d inclure ces constructions dans la catégorie plus générale des constructions à prédicat complexe (Abeillé et Godard 2003). 1. Le projet de Grande grammaire du français Le projet de Grande Grammaire du français, est un ouvrage collectif en préparation depuis 2004, sous l'égide du CNRS et de la DGLFLF. Il réunit une cinquantaine d auteurs linguistes, et s'inspire des grandes grammaires encyclopédiques, écrites par des universitaires à l usage du grand public (par exemple, pour l italien la Grande Grammatica italiana di consultazione, ( ), pour l espagnol la Gramatica descriptiva de la lengua española, (1999) et pour l anglais la Cambridge Grammar of the English Language, (2002). Il vise à présenter dans un cadre unifié une synthèse des connaissances disponibles sur la syntaxe du français et ses interfaces avec le lexique, la sémantique, le discours et la prosodie. Cet ouvrage a un but descriptif et non pas normatif, et ne s'appuie pas sur un modèle formalisé car il prétend s'adresser aussi à un public de non linguistes. Il s'appuie sur un cadre descriptif basé sur des structures de constituants les plus simples possibles, et sur une séparation plus rigoureuse que celle qu'on trouve habituellement dans les grammaires, entre catégorie et fonction grammaticale, mais aussi entre catégorie et valence, et entre fonction grammaticale et rôle sémantique. Ceci nous amène ainsi à revoir la terminologie usuelle et à parler simplement de complément oblique, là où la tradition distingue "complément d'agent", "complément d'attribution" etc. Les principes gouvernant les choix terminologiques ont été présentés dans Abeillé et al Nous utilisons à la fois les exemples construits (surtout pour les variantes agrammaticales) et sur des exemples attestés. Contrairement aux grammaires existantes qui se basent essentiellement sur le français écrit, littéraire (Le bon usage) ou journalistique (Grammaire méthodique du français), avec un empan chronologique assez large (concluant notamment Molière ou Marivaux), nous nous appuyons sur des données attestées représentatives du français contemporain (à partir de 1950). Sans nous interdire le recours à certains textes littéraires (notamment via la base Frantext catégorisée), nous utilisons principalement des données représentatives de ce que F Gadet appelle le français "ordinaire". Nous nous appuyons en particulier sur les corpus de français parlé disponibles (Corpaix, CRFP, CFPP, C-Oral-rom, ESLO, Valibel...) mais incluons aussi une étude des usages sur internet ou des SMS (Fairon et al 2009). Nous ne nous limitons pas à la France, mais tentons de faire le point sur la variété des usages dans les principaux pays francophones (Canada, Belgique, Suisse...). Nous proposons un marquage des données selon leur statut (grammatical, douteux ou agrammatical) et selon leur origine (Régional, Belgique...), y compris un marquage comme non standard (courant mais 13

20 stigmatisé), comme variable (accepté seulement par certains locuteurs mais sans stigmatisation), ou comme archaïque. 2. La notion de prédicat complexe On appelle «prédicat complexe» une séquence formée de deux verbes, ou d un verbe et d un prédicat non verbal, qui se comporte du point de vue syntaxique comme un verbe simple, c est-à-dire qui forment un seul domaine syntaxique. C est le cas par exemple des auxiliaires de temps être et avoir suivis d un participe passé : (1) a Paul a réparé la voiture. b Paul est allé à Rome. L auxiliaire et le participe ont forcément le même sujet, mais ils partagent également les mêmes compléments. Le fait que les compléments attendus par le participe soient également sélectionnés comme compléments de l auxiliaire se voit quand on les pronominalise : les clitiques correspondants se placent obligatoirement sur l auxiliaire : (2) a Paul l a réparée. b Paul y est allé. c * Paul est y allé Ces séquences se distinguent d autres périphrases comme aller et venir qui ne permettent pas cette pronominalisation précoce, et ne forment donc pas des prédicats complexes : (3) a Paul va aller à Rome / va y aller / * y va aller b Paul vient de réparer la voiture / vient de la réparer / * la vient de réparer Ce placement précoce des proformes clitiques s observe avec d autres séquences de verbes comme certains verbes causatifs (faire) ou certains verbes de perception (voir, entendre) : (4) a Paul fait réparer la voiture à Jean / la fait réparer à Jean/ *fait la réparer à Jean b Paul a entendu dire cela / l a entendu dire /* a entendu le dire Il s observe aussi avec des séquences formées d un verbe et d un prédicat non verbal comme les constructions avec un attribut adjectival ou un verbe support suivi d un nom prédicatif : (5) a Paul est fidèle à ses amis/ leur est fidèle. b Paul fera le résumé de l émission/ en fera le résumé. En (5a) la proforme leur correspond au complément de l adjectif fidèle, et en (5d) la proforme en correspond au complément du nom résumé. Les auxiliaires de temps ont une seule structure associée (la structure plate) mais pour les autres constructions, on a une double analyse possible : - Soit le prédicat qui suit le verbe tête forme un seul syntagme complément (structure hiérarchique) et on a ainsi : Fidèle à ses amis, Paul l est, - Soit le verbe tête hérite des compléments du prédicat qui le suit (structure plate) et on a ainsi : Fidèle Paul l est à ses amis ou C est à ses amis que Paul est fidèle. 14

21 On résume dans le tableau 1 les différentes constructions à «prédicat complexe» du français, (voir aussi Abeillé et Godard 2003). On dit que la phrase correspondante comprend une seule tête syntaxique, c est-à-dire un seul domaine pour la sous-catégorisation. On parle aussi de constructions monoclausales ou de monoclausalité. Les constructions Prédicat complexe Placement des proformes clitiques Auxiliaires de temps être et avoir Jean est allé à Paris Jean a mangé le pain Jean y est allé Jean l a mangé Constructions attributives Jean est fidèle à ses amis L histoire nous a rendus sensibles à ce sujet Jean leur est fidèle L histoire nous y a rendus sensibles Constructions causatives Jean fait lire le livre aux enfants Jean le fait lire aux enfants Faire, laisser Constructions à verbe support : avoir, faire, prendre etc Verbes de perception : voir, entendre, sentir Jean laisse parler Marie du sujet Jean a peur des araignées Jean fera un résumé du sujet Jean entend dire des bêtises Jean verra construire la maison Jean en laisse parler Marie Jean en a peur Jean en fera un résumé Jean en entend dire Jean la verra construire 3. Les constructions à Vsup dans la GGF Si l on compare les propriétés des phrases à verbe simple et des phrases à verbe support, on peut avoir l impression que les deux phrases (6a) et (6b) sont organisées de façon similaire si l on ne tient pas compte du sens des noms bonbon et gifle : (6) a Jean donne un bonbon à Bob [phrase à verbe simple] b Jean donne une gifle à Bob [phrase à Vsup] Elles présentent toutefois des différences bien connues : - le déterminant du nom objet direct est plus contraint en (6b) qu en (6a), - une nominalisation du verbe est possible en (6a) et pas en (6b), - on peut former un SN dont la tête est bonbon ou gifle en conservant le complément en (6b) mais pas en (6a) : (7) a Jean donne un / mon / le bonbon à Bob b Jean donne une /?ma /?la gifle à Bob c Le don d un bonbon est mal vu dans cette école d *Le don d une gifle est mal vu dans cette école e *Son bonbon à Bob était acidulé f Sa gifle à Bob était inutile Ces différences sont liées au fait qu en (6a), le prédicat principal est donner, qui a trois arguments sémantiques, Jean, bonbon et Bob, et la phrase décrit un transfert d objet. En (6b), le prédicat principal est le Npréd gifle associé au verbe support donner. Ce prédicat n a que deux arguments, Jean et Bob, et la phrase décrit un coup Critères définitoires Parmi l ensemble des propriétés des phrases à Vsup, on retient comme définitoires : - le caractère obligatoire du nom prédicatif, 15

22 - la formation d'un SN complexe avec le nom prédicatif comme tête, le sujet de la phrase étant conservé et introduit par la préposition de (ou par), tout comme les compléments éventuels qui peuvent être introduits de la même façon que dans la construction à Vsup: (8) a Jean donne une gifle à Bob => la gifle de Jean à Bob b Paul a envie de chocolat / de partir / qu il neige => l envie de Paul de chocolat / de partir / qu il neige c Paul fait un voyage en Espagne => le voyage de Paul en Espagne Le fait que le sujet du Vsup corresponde à un complément du nom prédicatif dans le SN correspondant est une propriété qui permet de distinguer les phrases à verbe support d autres expressions plus ou moins figées. Ainsi avoir le désir de est une expression à Vsup, avoir le temps de n'en est pas une, avoir faim est une expression à Vsup, avoir froid n'en est pas une : (9) a Paul a le désir de venir => le désir de Paul de venir b Paul a le temps de venir => * le temps de Paul de venir c Paul a faim => la faim de Paul d Paul a froid => *le froid de Paul Le fait que le Vsup ne sélectionne pas le sujet ni les autres compléments, et ne leur assigne pas de rôle sémantique, explique que le Npred soit obligatoire. Ce caractère obligatoire du Npred permet également de distinguer les phrases à Vsup de constructions à objet informationnel, ou thème incrémental, tel que livre, film, match etc. qui peuvent permettre la formation d un SN complexe (10a,b). Dans ces constructions en effet, le complément du nom peut aussi être analysé comme complément du verbe (10c,d), et on peut dire qu il y a identité d arguments entre le verbe et le nom, mais le nom n est pas toujours obligatoire, et le verbe a le même sens sans le nom (10e,f): (10) a Paul a écrit un livre sur les Indiens le livre de Paul sur les Indiens b Lyon a joué un match contre Metz le match de Lyon contre Metz c. C est un livre sur les Indiens que Paul a écrit d. C est un livre que Paul a écrit sur les Indiens e Paul a écrit sur les Indiens f Lyon a joué contre Metz 3.2. Diversité des constructions à Vsup Du point de vue syntaxique, on analyse le verbe support comme la tête car c est lui qui détermine le mode et le temps de la phrase, et le nom prédicatif comme un valent. Le nom prédicatif peut avoir plusieurs fonctions syntaxiques. C est généralement la tête d un complément d objet direct, qui peut parfois devenir sujet au passif (11a,b): (11) a Paul fera le résumé de la pièce b Le résumé de la pièce sera fait par Paul. Quand le passif n est pas possible, un autre test pour analyser le Npred comme un complément d objet est fourni par les constructions causatives. Dans la construction causative, le Vsup se comporte bien comme un verbe transitif direct et non comme un verbe intransitif, c est-à-dire que le causataire (interprété comme sujet de l infinitif) doit être introduit par la préposition à (12c), ce qui n est pas le cas avec un verbe intransitif comme fuir (12d) : (12) a Paul fuit / prend la fuite b *Le loup fait prendre la fuite Paul c Le loup fait prendre la fuite à Paul 16

23 d. Le loup fait fuir Paul / *à Paul On analyse donc le résumé et la fuite en (11a, 12a) comme des compléments d objet des Vsup faire et prendre, respectivement. Le nom prédicatif peut aussi avoir d autres fonctions syntaxiques: - complément oblique : Paul procède à l arrestation des suspects - sujet : Le bruit court que Paul va gagner On a donc une certaine variété de constructions à Vsup, selon la fonction du Nom prédicatif, et selon la présence d un ou plusieurs compléments additionnels, qu on peut résumer dans le tableau 2. Fonction du Construction à Vsup Exemple Npred Sujet Npred Vsup Un orage éclate Sujet Npred Vsup SN La peur prend Max Sujet Npred Vsup SP Une malédiction pèse sur Max Sujet Npred Vsup Phrase Le bruit court que vous gagnerez Sujet Npred Vsup SVinf L envie prend Max de partir Objet Vsup Npred Max prend une douche Objet Vsup Npred SP Max fait le portrait de Marie Objet Vsup Npred Phrase Paul a le désir que vous veniez Objet Vsup Npred SVinf Max a besoin de parler Objet Vsup Npred SP SP Max fait le récit de ses aventures à Luc Objet Vsup Npred SVinf SP Paul donne l autorisation de partir à Luc Objet Vsup Npred Phrase SP Paul donne l ordre que tout soit fait à Luc Cplt oblique Vsup Prep Npred Paul jouit d une bonne santé Cplt oblique Vsup Prep Npred SP Paul procède à l arrestation de Max Cplt oblique Vsup SN Prep Npred Max accable Luc de reproches Tableau 2. Principales Constructions à Vsup Ces constructions présentent donc une discordance entre la fonction syntaxique et le rôle sémantique : - du point de vue syntaxique, le Vsup est la tête et le Npred est un valent (sujet, objet, ou complément oblique), - du point de vue sémantique, le Npred est le prédicat principal, et peut assigner un rôle sémantique aux autres valents, tandis que le Vsup fournit essentiellement des informations sur le temps, l aspect et la modalité. 3.3 La liste des Vsup La plupart des verbes ont des emplois comme verbes simples et des emplois comme Vsup, d où des ambiguïtés possibles. Le verbe prendre peut être interprété comme verbe simple en (13a) ou bien comme verbe support en (13b), et la combinaison signifie photographier, comme en témoignent les continuations différentes: (13) a Marie prend une photo de Luc (parmi celles qui sont sur la table) [verbe simple] b Marie prend une photo de Luc (en train de rire) [verbe support] 17

24 Quelques verbes comme commettre, perpétrer, asséner et intenter ne semblent pouvoir se construire qu avec un Npred et sont donc uniquement des verbes supports : (14) a Max assène des coups à Luc => les coups de Marc à Luc b Max intente une action en justice contre Luc => l action en justice de Max contre Luc c *Max assène un marteau d *Max intente de sortir On compte environ 350 Vsup différents en français, dont voici la liste des plus courants, avec un exemple de Npred pour chacun. Liste de Vsup pour la construction Npred Vsup (un événement) arriver, (un accident) avoir lieu, (un bruit) courir, (un spectacle) se donne, (le match) se déroule, (un orage) éclater, (le silence) régner, (une histoire) se passer, (un événement) se produire, (une réunion) se tenir, (un événement) survenir Liste de Vsup pour la construction Npred Vsup SN (une tempête) frapper, (un événement) prendre place, (une fête) tomber, (un ouragan) toucher Liste de Vsup pour la construction Vsup Npred : accumuler (les erreurs), adopter (une position), avoir (du courage), arborer (une mine fière), arrêter (une décision), attraper (un coup de soleil), bâtir (un projet), concevoir (une idée), connaître (la sérénité), dégager (une odeur), détenir (un secret), dresser (un constat), édifier (un projet), édicter (un règlement), effectuer (une opération), endurer (des souffrances), entreprendre (une action), éprouver (de la joie), essuyer (un orage), fixer (une règle), forger (un plan), former des vœux, goupiller (une plan), instaurer des règles, instruire (une affaire), jouer (un rôle), manifester (du mécontentement), mitonner (un plan), monter (une combine), montrer (de la légèreté), opérer (une retraite), passer (un examen), posséder (un savoir-faire), pousser (un cri), pratiquer (une opération), prendre (la fuite), promulguer (un décret), prononcer (un discours), propager (une rumeur), ressentir (de la tristesse), relever (un défi), souscrire (une assurance), soutenir (une idée), subir (un orage), tisser (des intrigues) Liste de Vsup pour la construction Vsup Prep Npred : s adonner (à l escrime), faire étalage (de courage), faire montre (de courage), faire preuve (d intelligence), jouir (d une bonne santé), procéder (à une opération), procéder (d une grande méchanceté), se livrer (à des confidences) Liste des Vsup pour la construction Vsup Npred SP administrer (une correction à), accorder (son pardon à), adresser (des reproches à), allonger (une gifle à), allouer (une indemnité à), asséner (une gifle à), balancer (une plaisanterie à), bercer (le projet de), brandir (une menace contre), caresser (le projet de), commettre (un crime contre), concéder (un prêt à), conduire (une enquête sur), conférer (une distinction à), contracter (un engagement avec), cracher (des injures à), déposer (une plainte contre), dicter (ses ordres à), diriger (une enquête sur), dispenser (des consolations à), donner (son accord à), émettre (un avis sur), élever (une objection contre), engager (une discussion avec), exercer (une influence sur), faire (l éloge de), ficher (des coups à), filer (des coups à), flanquer des coups à, formuler (des remarques à), impartir (un délai à), infliger (des reproches à), intenter (un procès à), intimer (un ordre à), lâcher (des injures à), lancer (un défi à), libeller (un message à), livrer un combat contre, machiner (un complot contre), magouiller (une escroquerie contre), marteler (un ordre à), mener (un combat contre), nourrir (l espoir de), octroyer (une aide à), offrir (son aide à), ourdir (un complot contre, passer (un accord avec), perpétrer (un crime contre), piquer (une colère contre), pondre (un article sur), porter (une attaque contre), poser (une question à), prêter (un appui à), procurer (une aide à), prodiguer (des conseils à), produire (un effet sur), ratifier (un accord avec), recevoir (un conseil de), soulever (une objection contre), tramer (un complot contre), vouer (une grande admiration à) 18

25 Liste de Vsup pour la construction Vsup SN Prep Npred accabler X (de reproches), gratifier X (d une récompense), nantir X (de provisions), soumettre X (à la torture) Beaucoup de Vsup entrant dans la construction Vsup Npred SP entrent également dans la construction Vsup Npred SP SP, selon que le Npred prend un autre complément prépositionnel: lancer à X l ordre de, contracter avec X l engagement de, faire à X l éloge de 3.4. L analyse syntaxique des constructions à Vsup On analyse le verbe support comme un verbe à héritage, qui hérite les valents attendus par le nom prédicatif, et les constructions à verbe support comme des prédicats complexes car les compléments éventuels du nom prédicatif se pronominalisent sur le Vsup : (15) a Paul a envie de chocolat / en a envie. b Paul fait un voyage en Espagne / y fait un voyage. Comme les autres constructions à prédicat complexe, les constructions à Vsup ont une double structure syntaxique (voir aussi M Gross 1976). Quand le nom prédicatif sélectionne un complément, celui-ci a une double réalisation possible : soit comme complément du nom prédicatif, soit comme complément du verbe support. Il en résulte une structure enchâssée (A) ou une structure «plate» (B), analogue à celles qu on trouve avec les temps auxiliés, les verbes attributifs ou les verbes causatifs : Structure A Structure B SV SV Tête complément Tête Complt Complt SN V SN SP V N SP fait le résumé du livre fait le résumé du livre Figure 1. Les deux structures des phrases à verbe support La structure enchâssée (A) est la plus générale, et la seule qu on trouve quand le Npred est complément oblique. En effet, dans ce cas, on ne peut pronominaliser le complément du Npred sur le Vsup, ni permuter le Npred et son complément, ni extraire le Npred sans son complément : (16) a Paul procède [au recyclage des ordures] b *Paul en procède au recyclage c * Paul procède des ordures au recyclage d C est [au recyclage des ordures] que Paul procède e * C est au recyclage que Paul procède des ordures On considère donc que le Npred marqué par une préposition forme toujours un seul constituant avec son complément éventuel. Quand le Npred est sujet ou complément d objet, la structure B permet plus de possibilités que la structure A concernant l ordre des mots, l extraction ou la pronominalisation. Nous allons les examiner successivement. 19

26 Le complément prépositionnel peut précéder le nom prédicatif si celui-ci a un déterminant (voir Abeillé et Godard 2004 pour une contrainte de légèreté plus générale concernant les noms sans déterminant): (17) a Paul a fait de votre dernier livre un résumé magnifique b Paul a de ce tableau une terrible envie c *Paul a de ce tableau envie On peut extraire, dans une interrogative ou une construction clivée (c est que), le Npred seul, le complément seul ou les deux en un seul constituant: (18) a De quel livre a-t-il fait le résumé? b Quel résumé a-t-il fait de votre livre? c Quel résumé de votre livre a-t-il fait? d C est de votre livre que Paul a fait un résumé e C est un résumé de votre livre que Paul a fait f C est un résumé que Paul a fait de votre livre On peut reprendre par un pronom le Npred avec son complément, mais aussi le Npred seul ou le complément seul : (19) a Ce résumé, Paul l a fait de son dernier livre b Ce résumé de son dernier livre, Paul l a fait hier c Paul en a fait le résumé hier Cette double analyse du SP, comme complément du Npred ou du Vsup, s observe également lorsque le complément est une complétive ou un infinitif. On peut avoir une permutation, comme entre deux compléments de verbe (20a). On peut cliver (entre c est et que) le nom prédicatif seul ou avec l infinitive, ou l infinitive seule, ce qui montre qu ils peuvent former un SN complexe ou deux compléments indépendants. Dans une relative, on peut avoir l infinitive à la suite du Npred ou à la suite du Vsup (20e): (20) a Paul avait [un grand désir] [de venir] / [de venir] [un grand désir] b C est [un grand désir] que Paul avait [de venir] c C est [un grand désir de venir] que Paul avait d C est [de venir] que Paul avait un grand désir e Le désir de venir qu il avait / qu il avait [de venir] Références A. Abeillé, D Godard, Les prédicats complexes, in D. Godard (Ed.) Les Langues Romanes, Paris, CNRS Editions. p A. Abeillé, D. Godard De la légèreté en syntaxe, Bulletin Société Linguistique de Paris, XCIX/1, A.Abeillé, A. Delaveau, D. Godard, La Grande Grammaire du français : principes de construction, Revue roumaine de linguistique, 2007, LII, 4. p A. Abeillé, D. Godard, The Grande Grammaire du français project, Conférence LREC, Malte. L. Danlos Support Verb Constructions: linguistic properties, representation, translation. Journal of French Language Studies 2(1): J. Giry-Schneider, Les prédicats nominaux en français : les phrases simples à verbe support. Genève/Paris, Droz. J. Giry-Schneider, Les nominalisations en français : l opérateur FAIRE dans le lexique. Genève/Paris, Droz. G. Gross Les constructions converses du français. Genève, Paris : Droz. M Gross 1976 Sur quelques groupes nominaux complexes, in Méthodes en grammaire française (Chevalier & Gross éds), Paris: Klincksieck. M Gross 1998 La fonction sémantique des verbes supports. Travaux de linguistique 37, p É. Laporte, E. Ranchhod, A. Yannacopoulou Syntactic variation of support verb constructions. Lingvisticae Investigationes. 31 (2)

27 Andriamise Lakoarisoa Université d Antananarivo lakoandriamise@yahoo.fr Ranaivoson Jeannot Fils Université d Antananarivo jfranaivoson@yahoo.fr Rakotoalison Sylvie Fanjanirina Université d Antananarivo rakotoalison@gmail.com LES LOCUTIONS SUPPORTS EN MALGACHE LE CAS DE MISY AZY Résumé La présente étude porte sur la locution support misy azy dans les constructions du type Misy azy Prép Npréd N 0. Sa fixité morphosyntaxique, son figement sémantique, sa correspondance avec des affixes à valeur grammaticale et sa combinaison avec un nom prédicatif ainsi que sa désémantisation et la prise en charge exclusivement de la valeur sémantique par le NPréd nous ont permis d affirmer qu il s agit bien d une locution support. Outre sa fonction d actualisateur diathétique, la Lsup misy azy comporte une valeur d intensif. Elle est utilisée pour parler d un comportement, d un sentiment, d un état physiologique ou psychologique. La structure dans laquelle elle opère est différente des structures à support ordinaire. Dans la construction à Lsup misy azy, le NPréd est obligatoirement introduit par la préposition amina.(en, par, dans, à). Mots clés: Locution support, Malgache, Valeur aspectuelle, Intensif, Nom prédicatif Introduction L étude des supports autres que les supports élémentaires n est pas encore faite en malgache. Si les valeurs grammaticales de ces éléments ont été plus ou moins décrites, leurs valeurs sémantiques ne l ont été que de manière subsidiaire. Nous nous proposons de combler cette lacune autant que faire se peut. La présente étude porte sur la locution misy azy 1, considérée comme un support, dans les constructions du type Misy azy Prép NPréd N 0 (1) Misy azy amin ny ditra Rabe (il y a lui (à + en + dans) le entêtement Rabe) (De l entêtement, Rabe en a.) (2) Misy azy amin ny avona Rabe (il y a lui (à + en + dans) le dédain Rabe) (Du dédain, Rabe en a.) Dans ces construction, le NPréd peut se placer indifféremment avant ou après le sujet sans déclencher ni changement morphologique, ni variation sémantique. (1) a exactement le même sens que (1a) et (2) que (2a). (1a) Misy azy Rabe amin ny ditra (il y a lui Rabe (à + en + dans) le entêtement) (De l entêtement, Rabe en a.) (2a) Misy azy Rabe amin ny avona (il y a lui Rabe (à + en + dans) le dédain) (Du dédain, Rabe en a.) Ces genres de construction nominale relèvent plutôt de la langue orale. Dans la langue écrite, ce sont les phrases verbales ou adjectivales correspondantes qui sont plus fréquentes. (1) correspond à la phrase adjectivale (1 ) (1 )Maditra be Rabe (têtu très Rabe) (Rabe est très têtu) 1 Généralement, misy azy signifie «en avoir», misy «exister», «il y a». azy est un pronom personnel au troisième personne du singulier à la forme accusative disjointe 21

28 (2) à la phrase verbale (2 ) (2 ) Miavona be Rabe (hautain très Rabe) (Rabe est très hautain) 1 Fonction de misy azy Misy azy répond à toutes les définitions afférentes au support. D une part, «Un verbe support est un verbe sémantiquement vide». Dans les phrases (1) et (2), les contenus sémantiques sont véhiculés respectivement par ditra (entêtement) et avona (dédain), qui sont les vrais prédicats des deux phrases 2. Misy azy est une séquence sémantiquement vide. Elle correspond quasi-systématiquement à un affixe grammatical. Ceci confirme que la valeur de cette séquence n est pas lexicale mais grammaticale. Dans (1a) et (2a), elle correspond respectivement au préfixe ma-, formatif d adjectif et mi-, formatif de verbe. D autre part, dans les langues comme le français, un support sert à actualiser un nom ou un adjectif prédicatif. L actualisation consiste en l insertion dans le temps (conjugaison) de ces éléments. En malgache, les noms et les adjectifs peuvent recevoir des affixes temporels. L actualisation est donc d un autre type que nous appellerons désormais, actualisation diathétique. En l occurrence, misy permet la transformation causative qui est impossible avec les noms prédicatifs seuls. De (1) et (2), nous avons les formes causatives suivantes : (1 ) Mampisy azy an-drabe amin ny ditra ny nitaizan-drenibeny azy. (faire avoir lui à Rabe (à + en + dans) le entêtement le élevé de grand-mère de lui lui) (Rabe est d un entêtement extrême à cause qu il a été élevé par sa grand-mère) (2 ) Mampisy azy an-drabe amin ny avona ny tsy fahampian ny fahalalany. (faire avoir lui à Rabe (à + en + dans) le dédain le non suffisant de la connaissance de lui) (Rabe a de l dédain de façon excessive à cause de son manque de culture) Par ailleurs, misy azy est effaçable dans ces constructions sans que la phrase perde son statut. Il en est ainsi dans la nominalisation suivante : (1)Misy azy amin ny ditra Rabe Ny ditra izay mampisy azy an-drabe (l entêtement qui faire avoir lui à Rabe / l entêtement qui fait que Rabe fait parade) Ny ditran-drabe (l entêtement de Rabe) Ces caractéristiques de misy azy nous permettent d affirmer que la séquence est un support. 2 Statut lexical de misy azy Intuitivement, il semble que misy azy est une locution. Le premier critère d une locution est la polylexicalité. Dans ces constructions, la séquence misy azy est constituée par le verbe misy et la forme accusative du pronom personnel à la troisième personne du singulier azy. Le second critère est l opacité sémantique. Comme nous l avons déjà annoncé précédemment, la suite misy azy, dans ces constructions, n a pas de contenu lexical mais une simple idée d intensité. Or, misy signifie «exister», «y avoir» et azy, «lui», «elle». La séquence misy azy n a rien avoir avec la combinaison des sens de misy et de azy. Le troisième critère est le blocage des propriétés transformationnelles. En construction libre, la séquence misy azy présente une relation verbe-objet. Dans ce cas, elle peut faire l objet d un certains nombres de transformations. Par contre, dans les exemples que nous 2 En malgache, tous les noms sont prédicables mais tous ne sont pas prédicatifs. Appartiennent à cette deuxième catégorie les noms qui fonctionnent comme prédicat au moyen des supports. Il s agit de noms abstraits tel que les noms d action, les noms d état et les noms d événement. 22

29 avons pris, ces transformations sont refusées. La forme attendue dans la nominalisation de misy (il y a + exister) est fisiana (existence) mais elle n est pas attestée dans le contexte qui nous intéresse. Les phrases (1) et (2) n ont pas de correspondantes nominales du type *Ny fisiany amin ny ditra Rabe. (Le existence de lui (à + en + dans) le entêtement Rabe) *Ny fisiany amin ny avona Rabe. (Le existence de lui (à + en + dans) le dédain Rabe) La substituabilité est aussi un autre critère pouvant confirmer le caractère libre ou figé d une séquence. Dans son emploi ordinaire, misy peut commuter avec manana (avoir), comme dans (misy + manana) vola izy (il a de l argent) ou avec feno (plein) comme dans (misy + feno) olona ny trano ((il y a + plein) personne la maison) (il y a des personnes dans la maison, la maison est pleine de gens). Aucun de ces éléments ne peut se substituer à misy dans les phrases (1) et (2) *(Manana + feno) azy amin ny ditra Rabe. ((avoir + plein) lui en matière de entêtement Rabe) *(Manana + feno) azy amin ny avona Rabe. ((avoir + plein) lui en matière de dédain Rabe) Azy (à lui) commute naturellement avec les autres pronoms personnels à l accusatif. Or, cette opération est impossible avec les phrases soumises à l étude. *Misy (ahy + anao + anareo) amin ny ditra Rabe (il y a (à moi + à toi + à vous) (à + en + dans) le entêtement Rabe) De par ces différents constats, il n est plus hasardeux de dire que dans les constructions qui nous intéressent, misy azy est une locution. En récapitulant ce que nous avons dit, la fixité morphosyntaxique de misy azy, son figement sémantique, sa correspondance avec des affixes à valeur grammaticale ainsi que sa combinaison avec un nom prédicatif sont des critères suffisants pour affirmer qu il s agit bien d une locution support, désormais noté Lsup. 3 Lsup misy azy et les autres emplois de la suite La suite misy azy est soit une séquence ordinaire, soit une séquence figée. 3.1 Premier cas : séquence ordinaire Et tant que séquence ordinaire, elle assume - soit la fonction de modifieur d un nom signifiant un lieu comme dans : (toerana + faritra + trano + ) misy azy ((lieu + maison + ) où il est) qu on peut voir dans la phrase Madio ny trano misy azy. (propre la maison il y a lui / la maison où il (est + habite) est propre.) Dans ces cas, le sens de la suite est entièrement compositionnel. Misy est un verbe ordinaire qui signifie «être» et azy, un pronom personnel à l accusatif. Chacun des deux éléments est éminemment substituable. (toerana + faritra + trano + ) ahitana azy ((lieu + maison + ) être vu lui) ((lieu + maison + ) où on le ou la voit) (toerana + faritra + trano + ) misy (ahy + anao + anareo + ) ((lieu + maison + ) il y a (moi + toi + vous)) ((lieu + maison + ) où (je suis + tu es + vous êtes)) - soit la fonction d auxiliaire à valeur partitive suivi du prédicat comme dans : Misy azy amin ireto trano ireto. (il y a à lui parmi ces maisons) (il y a certaines qui lui appartiennent parmi ces maisons) qui s oppose à azy ireto trano ireto (à lui ces maisons) (ces 23

30 maisons lui appartiennent). Dans ce cas, misy signifie bien «exister» ou «être» et azy, pronom personnel à valeur possessive qui signifie «à lui, à elle». 3.2 Deuxième cas : séquence figée Dans les constructions : (3) Misy azy ery ny morona, noho izato hamevamevany ( il y a lui la berge, à cause cette beauté de lui) (la berge est fière à cause de sa beauté 3 ) (4) Misy azy ery ny vorona, mipetra-mora aevaevany. (il y a lui les oiseaux, perchés doucement bércés) (les oiseaux sont fiers, bercés doucement) (5) Misy azy amin ny tsy antony iny zaza iny raha vao mahazo zavatra kely. ( il y a lui (à + en + dans) le non cause cet enfant là dès que obtenir chose petite) (cet enfant est fanfaron à propos de n importe quoi) Misy azy signifie «être fier» ou «être fanfaron». Or, l idée «être fier» ou «être fanfaron» n a rien à voir avec la combinaison du sens de misy et de celui de azy. De par cette opacité sémantique, misy azy est donc une locution. Le problème est la distinction entre misy azy dans ces dernières phrases et misy azy dans les phrases (1) et (2). Lsup misy azy concernée par cette étude commence une phrase contrairement à celle qui fonctionne comme modifieur dans (toerana + faritra) misy azy (lieu où il est) qu on peut voir dans la phrase Si on fait abstraction des subordonnées dans (3), (4) et (5), ces phrases s analysent en misy azy Dét N où la charge sémantique est entièrement assumée par misy azy. Dans les phrases (1) et (2) qui s analysent en misy azy PrépN Dét N 0, cette charge sémantique, comme il a été démontré plus haut, est assumée par N et pas par misy azy. Dans les phrases (3), (4) et (5), misy azy est une locution verbale fonctionnant comme prédicat. Dans les phrases (1) et (2), elle est aussi une locution mais fonctionnant comme support d un nom prédicatif. 4 La valeur sémantique de misy azy Outre sa fonction d actualisateur, la Lsup misy azy comporte une valeur d intensif. Cette valeur s appréhende par la mise en parallèle des phrases nominales et des phrases verbales ou adjectivales. (6) Misy azy amin ny hadalana Rabe ((il y a lui (à + en + dans) la bêtise Rabe) (Rabe est très bête) est le synonyme de Adala be Rabe (bête très Rabe) où on a l adverbe be (très) à valeur d intensif. On sait que le passage d un adjectif à un substantif n apporte pas cette valeur. Entre adala (fou) et hadalana (folie), on ne décèle aucune idée d intensité. C est donc la Lsup qui est chargée de l expression de cette valeur aspectuelle. Lsup misy azy est utilisé pour parler d un comportement, d un sentiment, d un état physiologique ou psychologique si extraordinaire qu il paraît impossible de l exprimer autrement qu avec une forte intensité ou un haut degré. (7 )Tezitra mafy Rabe raha vao nandre izany vaovao izany (en colère très Rabe dès que entendre cette nouvelle) (Rabe était très en colère dès qu il a entendu cette nouvelle), 3 Cela renvoie à raphia du poème de Dox intitulé Rafia 24

31 (7) Nisy azy tamin ny hatezerana Rabe raha vao nandre izany vaovao izany ((pass)il y a lui (à + en + dans) la colère Rabe dès que entendre cette nouvelle) (Rabe était très en colère dès qu on lui a annoncé cette nouvelle), (8 ) Ho faly aokizany Rabe raha afa-panadinana ianao ((fut)content comme cela Rabe si reussir examen tu) (Rabe serait très content si tu réussis ton examen), (8) Hisy azy amin ny hafaliana Rabe raha afa-panadinana ianao ((fut) il y a lui (à + en + dans) la joie Rabe si reussir examen tu) (Rabe serait très content si tu réussis ton examen), 5 Propriétés distributionnelles des noms prédicatifs ayant comme support misy azy Dans la construction à Lsup misy azy, NPréd est obligatoirement introduit par la préposition amina.(en, dans, à) : Misy azy (*E + *ny + amina) ditra Rabe (il y a lui (*E + *le + (à + en + dans)) le entêtement Rabe) (Rabe est très têtu). Misy azy (*E + *ny + amina) avona Rabe (il y a lui (*E + *le + (à + en + dans)) le dédain Rabe) Rabe est très dédaigneux). Ce comportement est très spécifique, puisque la plupart du temps, entre le support et le nom supporté, il n y a aucun élément grammatical tel que les prépositions ou les déterminants. Manao (E + *ny + *amina) baolina ny ankizy (Faire (E + *le + * (à + en + dans )) ballon les enfants) (Les enfants jouent au ballon) Ces Npréd appartiennent à des classes de noms différentes. Ils sont soit : - Des noms de comportement comme ditra (entêtement), avona (dédain) et rehareha (fierté) - Des noms de sentiment comme hafaliana (joie), hatezerana (colère), alahelo (tristesse) - Des noms d état physique comme hatsaran-tarehy (beauté), halavana (hauteur, grandeur ), hahiazana (maigreur) - Des noms d état psychologique comme habadoana (ignorance), haranitantsaina (intélligence), fahendrena (sagesse) Sont par contre exclus les noms d action comme fianarana (étude), fambolena (plantation), filalaovana (jeux), les noms concrets comme trano (maison), omby (bœuf), soratra (écriture) sauf en cas d emploi métaphorique ou métonymique de ces derniers comme dans (9) Misy azy amin ny vava Rabe (Il y a (à + en + dans) la bouche Rabe) ( Rabe est une grande gueule / Rabe est très bavard) (10) Misy azy amin ny tenda Rabe (Il y a (à + en + dans) la gorge Rabe) (Rabe est très gourmand) Les noms de comportement, de sentiment et d état psychologique sélectionnent comme on s y attend un sujet humain ou du moins animé. Misy azy amin ny (ditra + hatezerana + habadoana) (Rasoa + *ny voninkazo) (Il y a lui (à + en + dans) le (entêtement + colère + ignorance) (Rasoa + *les fleurs) (De le (entêtement + colère + ignorance), (Rasoa + *les fleurs) en a) Par contre, les noms d état physique acceptent des noms concrets non humains comme sujet. Misy azy amin ny hatsaran-tarehy (Rasoa + ny voninkazo) (Il y a lui (à + en + dans) la beauté (Rasoa + les fleurs) (De la beauté, (Rasoa en a + les fleurs en ont)) 25

32 Misy azy amin ny siaka (Rabe + ny omby + ny sakay) (Il y a lui (à + en + dans) la (méchanceté + goût piquant) (Rabe + le bœuf + le piment)) (De la méchanceté, (Rabe + le bœuf) en a / Du goût piquant, le piment en a) Les schémas prédicatifs des substantifs en question dépendent de la classe d objet à laquelle ils appartiennent. En général, les noms de comportement selectionnent un complément datif de forme Prép N tel que Prép = amina. (2b) Misy azy amin ny avonavona amin ny mpiara-miasa aminy Rabe. (Il y a lui (à + en + dans) le dédain envers les collègues à lui Rabe) (Rabe est très dédaigneux envers ses collègues) (1b) Misy azy amin ny ditra amin ny ray aman-dreniny Rabe. (Il y a lui (à + en + dans) le entêtement envers les parents de lui Rabe) (Rabe est très entêté envers ses parents) Mais les substantifs noms de sentiment semblent refuser ce type de complément 4. *Misy azy amin ny hafaliana aminao izy. (Il y a lui (à + en + dans) la joie envers toi il) *Misy azy amin ny hatezerana amin-dreniny izy. (Il y a lui (à + en + dans) la colère envers mère de lui il) Il en est de même pour les substantifs noms d état physique ou psychologique. *Misy azy amin ny halavana amin ny olona Rabe (Il y a lui (à + en + dans) la longueur envers les gens Rabe) *Misy azy amin ny hahiazana amin ny zokiny Rabe (Il y a lui (à + en + dans) la maigreur envers le ainé de lui Rabe) *Misy azy amin ny habadoana amiko Rabe (Il y a lui (à + en + dans) l ignorance envers moi Rabe) Il semble que dans une construction misy azy Prép N Prép N 1 Dét N 0, où N 1 est un datif, N est nécéssairement un nom de comportement. En ce qui concerne les circonstants, tous les substantifs qui nous intéressent, acceptent une circonstance de cause. Néanmoins, les noms de comportement, d état physique et psychologique choisissent des causes «logiques», et les noms de sentiment, des causes «accidentelles». Nous appellons causes «logiques» celles qui sont plus ou moins permanentes et «accidentelles» celles qui sont ponctuelles. (2c) Misy azy amin ny avonavona noho ny tsy fahampiam-pahalalany Rabe (Il y a lui (à + en + dans) le dédain à cause de le non suffisance culture à lui Rabe) (Rabe est très dédaigneux à cause de son ignorance) (2d) *Misy azy amin ny avonavona noho ny fahatongavanao Rabe (Il y a lui (à + en + dans) le dédain à cause de la venue de toi Rabe) (8d) *Misy azy amin ny hafaliana noho ny tsy fahampiam-pahalalany Rabe (Il y a lui (à + en + dans) la joie à cause de le non suffisance culture de lui Rabe) (8c) Misy azy amin ny hafaliana noho ny fahatongavanao Rabe (Il y a lui (à + en + dans) la joie à cause de la venue de toi Rabe) (Rabe est très content de ta venue) 4 Les adjectifs et les verbes correspondants à ces NPréd acceptent bien un complément datif. Faly aminao izy (Content envers toi il) (Il est content de toi) Tezitra amin-dreniny izy (En colère envers mère de lui il) (Il est en colère contre sa mère) C est donc la Lsup qui bloque ce type de complémentation. 26

33 Conclusion Ce bref survol sur le fonctionnement des constructions à misy azy, nous a permis de constater que dans la structure misy azy PrépN N 0, misy azy est une locution support en ce sens qu il actualise diathétiquement le nom prédicatif tout en apportant la valeur aspectuelle d intensif. La structure dans laquelle elle opère est différente des structures à support ordinaire vu qu elle requiert une préposition devant le NPréd. Etant donné que misy azy est totalement désémantisé et que la charge sémantique lexicale est assumée exclusivement par le substantif, la forme misy azy Prép N est donc un prédicat constitué d un nom supporté par une locution. La valeur d intensif de la locution soumise à l étude a été démontrée tout au long de l étude par comparaison avec les phrases adjectivales ou verbales correspondantes à la forme nominale. Par contre, aucun support neutre ou qui n ait de valeur intensive ne peut commuter avec misy azy. Ce constat ouvre un boulevard dans l étude des constructions à support en malgache. 27

34 Bibliographie Abinal et Malzac, RR.PP, 1888, Dictionnaire Malgache-Français, Edition de 1993, Fianarantsoa : Librairie Ambozontany. Benveniste, E., 1974, Problèmes de linguistique générale II, Paris : Éditions Gallimard. Giry-Schneider, J, 1991, L article zéro dans le lexique-grammaire des noms prédicatifs, Langages, 102, pp Giry-Schneider, J., 1978, Les constructions du verbe faire. (L opérateur faire dans le lexique), Genève : Droz. Giry-Schneider, J Les prédicats nominaux en français. Les phrases simples à verbe support. Genève-Paris : Droz. Gross, G., Les constructions converses du français. Genève-Paris : Droz. Gross, G., 1981, Prédicats nominaux et compatibilité aspectuelle, Langages, 121, pp Gross, G., 2011, Manuel d analyse linguistique, manuscrit. Gross, G., Les expressions figées en français, Collection l essentiel français. Paris : OPHRYS. Gross, M Grammaire transformationnelle du français. Syntaxe du verbe. Paris : Larousse. Gross, M., 1975, Méthode en syntaxe, Paris : Hermann. Harris, Z. S., 1976, Notes du cours de syntaxe, Paris : Le seuil. Rabenilaina, R. B., 1985, Lexique-grammaire du malgache. Constructions transitives et intransitives, Thèse de doctorat d Etat, Université Paris VII, L.A.D.L. Raharinirina-Rabaovololona, L., 1991, Lexique-grammaire des composés malgaches, Thèse de doctorat, Université Paris VII, L.A.D.L. Rajaona, S., 1972, Structures du malgache. Etude des formes prédicatives, Fianarantsoa, Librairie Ambozontany. Ralalaoherivony, B. S., 1994, Lexique-grammaire du malgache. Constructions adjectivales, Thèse de doctorat, Université Paris VII, L.A.D.L. Ranaivoson J. F. 1996(a), La nominalisation en malgache. Etude des formes manaon, Thèse de doctorat de troisième cycle, Université d Antananarivo, Département de Langue et Lettres Malgaches. Ranaivoson J. F. 1996(b), Etude des constructions à prédicat mx-n en malgache. Classe d objets et traduction, Thèse de doctorat, Université Paris XIII, L.L.I. 28

35 Bloch-Trojnar Maria University of Lublin MORPHOSYNTACTIC AND ASPECTUAL CHARACTERISTICS OF PREDICATIVE VERBAL NOUNS IN LVCS IN IRISH Abstract This paper is a qualitative study of the morphosyntactic and aspectual properties of predicative verbal nouns (VNs) in Light Verb Constructions (LVCs) in Modern Irish. VNs in combination with light verbs display the characteristics typical of heads of regular noun phrases in object position. However, they form a unique morphological class and should be conceived of as count nouns having a distinct genitive ending but incapable of pluralizing. LVCs are argued to have a telicizing effect which results from the interaction of syntax and lexical information regarding the internal structure of the event denoted by the VN complement. Key words: Light Verb Construction, Verbal Noun, Aktionsart, Telicity, Irish. 1 Introduction Predicative verbal nouns (VNs) in Light Verb Constructions (LVCs) in Irish are the focus of this paper. There is no unambiguous definition of a LVC to be found in the pertinent literature and the term can be used with reference to disparate phenomena in diverse languages (cf. Butt and Geuder 2001, Butt 2003, Bowern 2006). Here it is applied to complex predicates consisting of a semantically bleached verb of general meaning and a deverbal nominalization. English LVCs provide a useful analogy since both languages express aspectual distinctions by contrasting inflected forms of the verb with periphrastic progressive constructions and in both languages LVCs have been argued to have a telicizing effect, i.e. they specify a spatiotemporal limit on the entities in the extension of the predicate. 1 However, we can observe interesting differences in the morphosyntactic characteristics of predicative nouns. In English we have to do with count nouns, 2 whereas predicative VNs in Irish seem to be neither count nor mass an intermediate category which can be counted but not made plural. The paper is organized as follows: in section 2 basic facts about VNs and LVCs in Irish are presented. Section 3 deals with determiner constraints on predicative VNs and their morphological properties. Section 4 is devoted to their aspectual characteristics. It will be demonstrated that morphological countability of predicative VNs is not a necessary prerequisite to the telicizing effect of LVCs and that it can be achieved though the interaction of syntactic determiners and modifiers with the semantics of the VN. 2 LVCs and VNs in Irish an overview The category of verbal nouns lies at the heart of Irish grammar on account of its formal complexity and the variety of syntactic functions it fulfils. Some of the contexts which feature VNs are set out in (1), where socrú is a VN form of the verb socraigh settle, arrange. 3 1 Wierzbicka (1982), Brinton (1998), Willim (2006) argue for the telicizing character of LVCs in English. An element of boundedness or telicity in LVCs can also be observed in Urdu, Hindi and other South Asian languages (see Butt 2003 and the references therein). 2 In English nominals featuring in LVCs are countable, which means that they can take overt plural markers and occur with the indefinite article, cardinal numbers and enumerative determiners as in, e.g. They gave each other glances, I took several rides in his car [...], Can I have two guesses? (Cetnarowska, 1993:43). 3 The Irish examples cited throughout this paper come mostly from standard dictionaries and grammar books such as Ó Dónaill (1977), de Bhaldraithe (1959, 1985) and Ó hanluain (1999). A corpus devised by Ó Duibhín 29

36 (1) a. Caithfidh mé fiacha a shocrú. must I debt-pl. PRT settle-vn I have to settle debts. Táim tar éis iasacht a shocrú. I-am after loan PRT settle-vn I have arranged a loan. Tá an aimsir ag socrú. is the weather PRT settle-vn The weather is becoming settled. b. socrú gaoithe, gleo settle-vn wind-gen., noise-gen. abatement of wind, noise socruithe sochraide settle-vn-pl. funeral-gen. funeral arrangements Infinitive Participle Progressive Verbal Aspect Action Nominalization (uncountable) Lexicalised Nominalization (countable) VNs can discharge the function of non-finite verb forms (1a) and lexical derivational categories (1b). VNs also feature in LVCs, as in (2) below. (2) Déanfaidh an Chúirt socrú chun duine a dhul in ionad an Chláraitheora. make-fut. the court settle-vn to man PRT go-vn in place of the registrar-gen. The court shall arrange for replacement of the Registrar. Apart from the general verb of action déan do, make, LVCs include the following light verbs: tabhair give, lig let, caith spend, throw, faigh get, cuir put, téigh go, tag come and bain take, extract (Ó Siadhail 1989: , Wigger 2008, Bloch-Trojnar 2009a). In view of the multiplicity of syntactic functions and surface homonymy, the categorial status of the VN complement in LVCs is not immediately evident 4 and in the following section we shall present arguments for regarding it as an abstract action nominal, which with respect to the cline presented in (1) above should be positioned between uncountable action nominals and countable lexicalised nouns. LVCs are employed in cases where there is no verb to denote the relevant notion, the verb does exist but is stylistically marked or is defective and occurs only in the progressive as illustrated in (3a) and (3b) respectively. As far as the majority of verbs is concerned, i.e. verbs with a full set of inflected forms, LVCs may appear as an alternative means of expressing perfective aspect (3c). (2006) was the main source of literary examples. The starred forms reflect grammaticality judgments of proficient speakers of Irish. The data were verified among others at the colloquia of Societas Celto-Slavica in Dubrovnik 2008 and Lodz The creation of a 30 million word corpus of Irish Texts (New Corpus for Ireland) opened up new promising vistas of research in Computational Linguistics for Irish, which remains largely an uncharted area (with notable exceptions of Wigger 2008 and Uí Dhonnachadha 2008). Uí Dhonnachadha (2008) aims to develop tools and methods for automatic part-of-speech tagging and partial parsing. However, the identification of relationships between chunks and long distance dependencies is beyond the scope of her work. Research is thwarted by the fact that Irish is a VSO language with a lot of surface homonymy and unclear status of aspectual structures. 4 Even in English the nominal status of the complement in LVCs is not taken for granted, e.g. Wierzbicka (1982), Kearns (2002), Stevenson et al. (2004) regard it as a verbal element whereas Jespersen (1954), Cattell (1984), Cetnarowska (1993) argue for its nominal status. 30

37 (3) LVC Finite verb Periphrastic progressive a. Rinne sé geoin díom. *Gheoin sé díom. *Tá sé ag geoin díom do-past he derision to-me He ridiculed me. b. Rinne sé gáirí. do-past he laugh-vn/laughter He laughed. *Gháir sé. Bhíodar ag gáirí. be-past3rd pl. PRT laugh-vn They were laughing. c. Thug sé diúltú. give-past-3rdsg.ind. he refuse-vn He gave a refusal/he refused. Dhiúltaigh sé. refuse-past-3rdsg.ind. he He refused. Tá sé ag diúltú is an bhia. he PRT refuse-vn the food-gen. He is going off his food. Such constructions are used to achieve a partitive or singulative effect, i.e. to refer to an action of a limited duration or a single occurrence respectively (Ó Siadhail 1989: 307, Wigger 2008, Bloch-Trojnar 2009a). 3 Morphosyntactic properties of VNs in LVCs The range of determiners and modifiers accompanying the VN in LVCs leaves no doubt as to its nominal status (Bloch-Trojnar 2009b). VNs in LVCs are accompanied by the definite article, 5 possessives, demonstratives, NPs in the genitive case and adjectives, as depicted in (4) below: (4) a. an spreagadh nach bhfuair sé the urge-vn PRT-rel.neg. get-past he the encouragement he didn t get b. Ní raibh blas caitheamh ina dhiaidh acu an liúradh sin a thabhairt do na ministéaraí. not was nothing regret afterwards at-them the trounce-vn that PRT give-vn to the ministers They hadn t the slightest regret about giving that trouncing to the ministers. c. Fuair mé mo chéasadh leo. get-past I my torment-vn with-them They were the bane of my life. d. Tabhair fuarú gaoithe duit féin. give-imper.sg. cool-vn wind-gen. Let the breeze cool you. e. Déan géarú beag. do-imper.sg. quicken-vn small Hurry on a bit. to-you self Morphological evidence, however, is somewhat equivocal. Plural and case inflection are morphological hallmarks of nouns. VNs in LVCs can inflect for case but not for number, even though the nouns involved have the morphological form of the plural available. The object NP following a verb in the progressive in Irish is as a rule in the genitive case. When light verbs in LVCs are in the progressive 6 they require the genitive case of the following verbal nominal, as depicted in (5) below. 7 5 There is no indefinite article in Irish. 6 LVCs in the progressive are very hard to come by since their primary function is to provide a telic or antidurative interpretation. They are supposed to contrast with verbs in the progressive. 7 The number in bold stands for the noun class to which a given noun belongs. 31

38 (5) VN VN-gen. VN-gen. in LVCs a. toirmeasc,1 gen.sg. & nom.pl -misc, pl. ~ prohibit-vn an rud atá ag déanamh toirmisc the thing is PRT do-vn what is holding me back b. teilgean, 1 gen.sg. -gin cast, ag cur teilgin (ar phrátaí) throw-vn PRT put-vn throw-vn-gen.sg. on potatoes d. léim, 2 gs. léime, pl. léimeanna jump-vn e. féachaint,f. 3 gs. féachana, pl. féachaintí look-vn, test-vn f. troid, 3 gen.sg. -oda, pl. -eanna quarrel-vn, fight earthing potatoes ag caitheamh léime PRT throw-vn jump-vn-gen.sg. dom prohibit-vn-gen.sg. to-me jumping Ní raibh siad ach ag cur féachana ort. not were they but PRT put-vn look-vn-gen.sg. on-you They only wanted to know how you would react. Ná bí ag baint troda as. PRT-neg. be-imper. PRT extract-vn quarrel-vn-gen. from-him Don t pick quarrels with him. VNs in LVCs do not feature in the plural, despite the fact that lexical entries of some of them contain a plural form. (6) faisnéis, 2 gen.sg. faisnéise, pl. faisnéisí relate, inquire-vn Bhí sé ag cur d fhaisnéise / *faisnéisí. was he PRT put-vn your inquire-vn-gen.sg. / *inquire-vn-gen.pl. He was inquiring about you. However, the ability to pluralize is an indication of lexicalization, i.e. loss of an actional interpretation, as illustrated in (7). VNs in LVCs retain an actional reading. (7) Verb VN Nominalization (plural) imigh imeacht go, go on imeachtaí an lae events of the day buail bualadh hit bualaí cloiche bruises from stones on the feet tóg tógáil lift, raise Is breá na tógálacha iad. They are fine structures. abair rá say ráite béil statements, remarks Paradoxically, VNs cannot be pluralized but they co-occur with quantifying expressions which point to their countability. These include the numeral amháin one and eile which combines with a singular countable noun to mean another. (8) a. Thug mé féachaint amháin orthu. give-past I look-vn one on-them I took a glance at them. b. Tabhair téamh beag eile don bhainne. give-imper.-you warm-vn small another Warm the milk a little more. to-the milk There is a fair number of examples with modifiers which make it clear that more than one instance or occurrence of a given action is referred to, i.e. cardinal numbers and quantifiers such as iomaí many or cúpla a few, which as a rule are followed by singular count nouns. (9) a. Chuir sé na seacht seachaint orm. put-past he the seven guard-vn on-me He warned me (repeatedly) to be careful. 32

39 b. Is iomaí tiortáil a fuair sé ina lá. is many knock about-vn PRT get-past he in-his day He took many a knock in his day. c. Déan cúpla scrabhadh leis an scian air. do-imper. a few scratch-vn Score it a few times with a knife. with the knife on-it VNs are also attested with modifiers which are used with both count and non-count nouns. (10) a. Ní mórán breathnú a thug mé air. is-not many/much look-vn PRT give-past I on-it I did not look too closely at it. b. i gcomhar éinne a dhéanfadh aon bhagairt ortha with anyone PRT would-do any threaten-vn on-them for anyone who would threaten them in any way In view of the facts presented above, we can conclude that nominalisations in LVCs in Irish are morphologically singular, but different from mass nouns. In the lexical process of verb to noun transposition the resulting noun is equipped with Number features [0Sg, 0Pl]. The fact that VNs cannot be made plural in LVCs but some of them have the plural form available in other contexts (cf. (5) and (7) above), would suggest that the feature plural is present in the representation of VNs in LVCs but with no specified value. The fact, that they occur with modifiers sensitive to the feature [+Sg] (e.g. eile another ) implies that it is also present in their representation. Consequently, we will argue that in contradistinction to their English opposite numbers, LVCs in Irish require a morphologically singular deverbal noun, which bears the feature complex [+Sg, 0Pl]. Their status is intermediate between count nouns [+Sg, -Pl] and mass nouns [0Sg, 0Pl]. 8 In the approach to transposition adopted here (Beard 1995) number features may be left unspecified if there is noun class marking. Lexicalized nominals belong to one of the five declension classes traditionally identified for Irish. Nominalizations characterized by productive exponents -(e)adh and -ú lend support to an analysis on which two classes of actional nominals are recognized. Transnumeral VNs form a class characterised by a distinct genitive ending -t(h)a/-t(h)e (Carnie 2008), whereas the genitive form of VNs in LVCs is best analysed as class 4, i.e. a class in which the genitive form is the same as the common form (Bloch-Trojnar 2010). (11) VN VN-gen. VN-gen. in LVC a. milleadh millte (act of) damaging ag déanamh milleadh doing damage/ruin b. athrú athraithe (act of) changing ag déanamh athrú making alteration 4 The telic character of LVCs in Irish LVCs in Irish are a means of telicizing activities. According to Brinton (1998: 38-9) the entire VP enters into the expression of aktionsart, e.g. run is an activity verb (atelic), but the 8 For a detailed discussion of the representation of count and mass nouns as advocated here see Beard (1995: 177-9). Count nouns are singular because they refer to one member of a set of objects, but the conceptual distinction of singular and plural is irrelevant as far as mass nouns are concerned. They are singular by default because the singular is the morphologically unmarked number used where number is irrelevant or ambiguous (Beard 1982: 144). According to Acquaviva (2005: 259) nouns that denote activity predicates together with homogenous masses, collective masses and abstract nouns are transnumeral. They form categories that transcend the semantic opposition between singular and plural and in all these cases, the nouns domain of reference is non-discrete. 33

40 predicate run (home, to the corner) contains an endpoint/goal and is thus an accomplishment (telic). Therefore, the aspectual interpretation of complex predicates must comprise both the temporal characteristics of states of affairs denoted by particular VN complements (their Aktionsart) 9 and the range of quantifying, nominal and spatio-temporal expressions accompanying the VN. A traditional classification of situation types (Vendler 1967) distinguishes between continuities and events. The former encompass states and activities whereas the latter subsume accomplishments, achievements and semelfactives. The table below (modelled on the figure form Brinton 1998: 38) lists the five abovementioned situation types together with their characteristics and examples from Irish. (12) Situation type Characteristics Irish states static, durative, nontelic amharc see, creid believe activities dynamic, durative, nontelic ól drink, imir play, codail sleep accomplishments dynamic, durative, telic teach a thógáil build a house, rás a rith run a race achievements dynamic, punctual, telic dúnmharaigh murder, dúisigh wake semelfactives dynamic, punctual, telic léim jump, spléach glance iterative meaning in the progressive Let us now examine how the syntactic contribution varies depending on the situation type of the verb which serves as the base for the VN. Verbal predicates which contain an inherent endpoint or individuating boundary due to their lexico-semantic specification (i.e. are telic) do not require additional individuation at the syntactic level. Hence, LVCs with VNs derived from accomplishments and achievements are equivalent to inflected verbs and need not be further individuated contextually, as in (3c) above and in (13) below: (13) Ná déan aon athrú air. PRT-neg. do-imper. any change-vn Make no change(s) in it. on-it Ná hathraigh é. PRT-neg. change-imper. it Don t change it. VNs derived from semelfactive verbs such as léim jump impose a single event reading (cf. Cetnarowska 1993: 44-46, Brinton 1998: 5, Willim 2006: 119). Being inherently individuated they can be counted and multiplied. (14) a. Thug sí léim eile agus thúirling sí thar náis. give-past she jump-vn other and descend-past she back She gave another jump and descended back. b. thug sí aon léim amháin ar deire thiar thall give-past she any jump one in the end west beyond She gave one jump in the end However, syntax has an important contribution to make in LVCs involving VNs derived from continuities. The telicizing nature of LVCs manifests itself in their occurrence with cardinal numbers, enumerative determiners (e.g. amháin one, eile another, chéad first, iomaí many, cúpla a few ) 10 and adverbials (cúpla uair a few times, arís again 11 ), which 9 For a detailed explanation of the Aspect vs. Aktionsart distinction the reader is referred to Brinton (1988). 10 Brinton (1998: 50) explains that the result of multiplying situations (no matter what their type) a specific number of times is a situation of the accomplishment type. Thus, to ascend a mountain (an accomplishment) two times or to run (an activity) five times both take a certain amount of time; they have necessary endpoints, namely when the two or five repetitions are completed. 11 If activities are perceived as occurring in bounded episodes they are replicable (Langacker 1987: 80). 34

41 provide the necessary counting criterion. States are homogenous as any part of the situation they denote is like the entire situation and in LVCs we can only count the occasions of a given state, as shown in (15). (15) a. D imíomair orainn siar abhaile, agus go fuaireas mo chéad amharc ar Thomás. go-past-we on-us westwards home and PRT get-past-i my first see-vn at Tomas We proceeded homewards, and I first saw Tomas. b. Bean a bhí thoir in aice le hoileán Ciarraí a fuair amharc súl ar Phiaras cúpla uair woman that was east near island Kerry that get-past see-vn eye-pl. on Piaras couple time There was a woman over east in Castleisland who saw Piaras a couple of times. Examples in (8) and (9) above and those in (16) below illustrate LVCs with VNs based on activity verbs. (16) a. cuireann siad ag beirbhiú iad go dtí go mbaineann siad dhá fhliuchadh asta put-pres.ind they PRT boil-vn them until PRT g et-pres.ind. they two wet-vn from-them they boil/bake them until they have wetted them (added water to them) twice. b. Is iomaí cardáil a rinneadh ar an scéal sin. is many wool-carding-vn PRT was-done on the story that That story has often been sifted, debated. c. Déan do mhachnamh arís air. do-imper.-you your think-vn Think it over. again on-it Activities give rise to two dominant readings in LVCs. Firstly, continuous activities, such as sleeping or walking denote an activity lasting for some unspecified but limited period of time, i.e. a bounded portion. Note the modifier geábh in (17a), which means (short) run, (quick) trip, (hurried) spell of activity. Atelic verbs can denote conclusive situations if they are accompanied by time adverbials containing an endpoint in their semantic structure or adverbials indicating destination John was walking (activity) vs. John walked to the shore (accomplishment). (17) a. geábh siúil a dhéanamh to do a spell of walking b. ní mór an codladh a dheineann siad an oidhche sin is-not big the sleep-vn that make they the night that they don t get much sleep that night c. Pé siúl a dhein an t-iascaire go dtí an dtig... whatever walk-vn PRT did the fisherman to the house The fisherman happened to walk to the house... Iterative activities which can be conceptualized as a series of discrete parts such as shaking when nominalised in LVCs will refer to a single subevent (a semelfactive). (18) Bhain sé croitheadh as an buidéal. extract-past he shake-vn He shook the bottle. from the bottle In sum: the situation types in LVCs are accomplishments, achievements or semelfactives. 35

42 5 Conclusion LVCs in Irish are a means of telicizing activities. Irish VNs are not morphologically countable but are attested with determiners used with count nouns. Telicity of LVCs in Irish is compositional in that it results from the interaction of lexical information and syntax. Nominalizations derived from atelic verbs are more likely to accept determiners and modifiers which measure-out or delimit the event denoted by the base verb. Nominalizations which are delimited (telic) show no need for further individuation. References Acquaviva, P The morphosemantics of transnumeral nouns. In Morphology and linguistic typology. Online Proceedings of the Fourth Mediterranean Morphology Meeting (MMM4), ed. G. Booij, E. Guevara, A. Ralli, S. Sgroi, and S. Scalise, University of Bologna (URL Beard, R Lexeme Morpheme Base Morphology. Albany, NY: SUNY Press. Beard, R Plural as a lexical derivation. Glossa 16, Bloch-Trojnar, M. 2009a. Aspectual characteristics of light verbs constructions in Modern Irish. In Perspectives on Celtic languages, ed. M. Bloch-Trojnar, Lublin: Wydawnictwo KUL. Bloch-Trojnar, M. 2009b. On the nominal status of VNs in light verb constructions in Modern Irish. In PASE Papers Vol.1. Studies in Language and Methodology of Teaching Foreign Languages, ed. M. Kuźniak and B. Rozwadowska, Wrocław: Oficyna Wydawnicza ATUT. Bloch-Trojnar, M Verb to noun transposition in Modern Irish evidence from inflectional paradigms. In Verb Structures. Between Phonology and Morphosyntax, ed. E. Cyran and B. Szymanek, Lublin: Wydawnictwo KUL. Bowern, C Inter-theoretical approaches to complex verb constructions. A position paper for the Eleventh Biennial Rice University Linguistics Symposium March 16th 18th, Brinton, L The Development of English Aspectual Systems. Cambridge: CUP. Brinton, L Aspectuality and countability: a cross-categorial analogy. English Language and Linguistics 2, Butt, M The Light Verb Jungle. Butt, M. and Geuder, W., 2001, On the (semi)lexical status of light verbs. In Semilexical Categories: On the Content of Function Words and the Function of Content Words, ed. N. Corver and H. van Riemsdijk, Berlin: Mouton de Gruyter. Carnie, A Irish Nouns. Oxford: OUP. Cattell, R Composite Predicates in English. Sydney: Academic Press. Cetnarowska, B The Syntax, Semantics and Derivation of Bare Nominalisations in English. Katowice: Uniwersytet Śląski. de Bhaldraithe, T English Irish Dictionary. Dublin: An Gúm. de Bhaldraithe,T. 1985: Foirsiún Focal as Gaillimh. Dublin: Acadamh Ríoga na héireann. Jespersen, O A Modern English Grammar. London: George Allen and Unwin Ltd. Kearns Light verbs in English. Langacker, R. W Nouns and verbs. Language 63, Ó Dónaill, N Foclóir Gaeilge-Béarla. Dublin: An Gúm. Ó Duibhín, C. Tobar na Gaedhilge, version 1.3 (2006), Gaelic textbase and retrieval system. Freely downloadable from Ó hanluain, L. A Graiméar Gaeilge na mbráithre Críostaí. Dublin: An Gúm. Ó Siadhail, M Modern Irish. Grammatical Structure and Dialectal Variation. Cambridge: CUP. Stevenson, S., Fazly, A. and R. North Statistical measures of the semi-productivity of light verb constructions. Uí Dhonnachadha, E Part-of-Speech Tagging and Partial Parsing for Irish Using Finite-State Transducers and Constraint Grammar. PhD Dissertation. Dublin City University. doras.dcu.ie/2349/1/phd_elaine_final.pdf Vendler, Z Linguistics in Philosophy. New York: Cornell University Press. Wierzbicka. A Why can you have a drink when you can t *have an eat? Language, 58(4), Wigger, A Advances in the lexicography of Modern Irish verbs. In Issues in Celtic Linguistics, ed. A. Bloch-Rozmej, Lublin: Wydawnictwo KUL. Willim, E Individuation and Countability: A Study with Special Reference to English and Polish. Kraków: Jagiellonian University Press. 36

43 Botouhely Jean Lewis Université d Antsiranana Madagascar bjnlew.s@gmail.com Ralalaoherivony Baholisoa Simone Université d Antananarivo Madagascar rabaholy@gmail.com LES ADJECTIFS DE PROPRIETE HUMAINE DU PARLER (MALGACHE) DU NORD : ACTUALISATION ET ASPECTS Résumé Par rapport aux adjectifs d état qui ont trait à un état passager et ponctuel, les adjectifs de propriété relèvent d un tempérament ou d un comportement habituel. La présente étude devrait nous permettre de nous renseigner sur les propriétés syntaxico-sémantique des adjectifs de propriété humaine du parler (malgache) du Nord en termes d actualisation et de système aspectuel et d élaborer une liste des verbes supports susceptibles d actualiser ces prédicats relevant des qualités permanentes et/ou naturelles à une personne. Dans le parler du Nord, comme en français, la préposition joue un rôle aussi important dans l expression de l aspect. Mots-clés: humain, adjectifs, propriété, actualisation, aspect. Présentation de l objet d étude Par rapport aux adjectifs d état qui ont plutôt trait à un état passager et ponctuel, les adjectifs de propriété relèvent d un tempérament ou d un comportement habituel. Cependant, nous tenons à préciser que dans le cadre du présent article, nous optons pour les adjectifs relevant des comportements et des tempéraments à aspect plus ou moins duratif, c est-à-dire des tempérament ou comportements soit à caractère permanent et naturel (inné, intrinsèque), soit à caractère permanent empirique 1, soit à fréquence répétitive 2. En aucun cas, nous ne parlerons d adjectif comme kajo «être fatigué» qui relève d un état ponctuel, par opposition à des adjectifs de propriété du type mahay «intelligent». Nous avons choisi d inscrire notre analyse dans le cadre de la théorie des classes d objets, une approche qui permet de mieux connaître les emplois et vis-à-vis du problème posé par la polysémie, elle permet de lever les ambiguïtés et de savoir de quel emploi il s agit. 1. L actualisation 1.1. L information temporelle Pour parler de l actualisation, nous rappelons que «tous les prédicats sont soumis au temps» (Valetopoulos, 2003 : 137). Qu il s agisse de prédicat nominal, adjectival ou verbal, ceci est vrai mais le phénomène est beaucoup plus apparent dès lors qu il s agit d un verbe à cause de la conjugaison. Contrairement aux verbes, les adjectifs du français ne peuvent pas fournir des informations temporelles mais ils sont actualisés par des verbes supports 3, généralement le verbe «être». Dans le cas de la langue malgache en général, soulignons que «le verbe être [ ] n a pas de correspondant» (Rahajarizafy, 1960). Ainsi, contrairement à 1 Dont on connaît le début et/ou la fin. 2 Voire à caractère habituel. 3 Z. S. Harris, 1964 ; E. Laporte, 1992 ; M. Gross,

44 l actualisation des adjectifs du français, l actualisation des adjectifs de propriété humaine du malgache ne nécessite pas forcément la présence d un verbe support car sans l intermédiaire de ce dernier, les adjectifs peuvent véhiculer des informations temporelles et aspectuelles. Prenons un exemple : (1) Naditry i Jao. Jao était têtu. Dans la phrase (1), on sait que le n- 4 temporelle que véhicule l adjectif. de l adjectif naditry nous précise l information Toutefois, il existe des adjectifs malgaches qui peuvent être actualisés par des verbes supports. À vrai dire, ces adjectifs ne font pas partie des adjectifs de propriété, mais ce sont des adjectifs d état situationnel et passager. Entre autres, dans le parler du Nord, nous pouvons prendre comme exemple les verbes supports mahareñy, mahatsiaro «se sentir», misöra «sembler, paraître», etc. : (2) Mahareñy kajo i Jao. Jao se sent fatigué. (3) Karaha kajo i Jao. Jao semble fatigué. Ces verbes ont les mêmes propriétés que le verbe support être du français : ils actualisent les prédicats adjectivaux, ils peuvent être effacés, ils ne peuvent pas faire l objet d une prédication (nominale ou adjectivale) et ils prennent en charge les informations temporelles et aspectuelles véhiculées par l adjectif. Cependant, dans le cadre de notre analyse, ces verbes supports ne paraissent pas pertinents étant donné qu ils ne peuvent pas actualiser des adjectifs de propriété : (4) (Mahareñy + E) kajo i Jao. Jao (se sent + *E) fatigué. (5) Mahareñy (kajo + *lava) i Jao. Jao se sent (fatigué + *grand). Contrairement aux cas de karaha «sembler» et mahareñy «se sentir» il existe des verbes supports qui sont susceptibles d actualiser les adjectifs de propriété humaine. C est, entre autres, le cas des verbes supports manjary + mivadiky «devenir», mimpody ndrêky + mieriñy koa «redevenir», vôly + nijanoño «cesser de» et de la locution adverbiale mböla fo qui correspondent au verbe support «rester + demeurer», que nous allons mieux élucider par rapport au système aspectuel du malgache que nous illustrons avec des exemples en parler du Nord : (6) Nanjary kizitiñy i Mbôty. Mbôty est devenue caractérielle. (7) Nimpody ösa ndrêky koa i Jao. 4 Par opposition à m- pour le présent et h- pour le temps futur. 38

45 Jao est redevenu maladif. (8) Mböla makikitry fo i Mbôty. Mbôty demeure avare. (9) Vôly naditry i Jao. Jao a cessé d être têtu La restructuration Les adjectifs de propriété humaine à suffixe iñy sont généralement des adjectifs dérivés d un nom de partie du corps (Npc) comme dans Vavaiñy i Mbôty (de vava «bouche») (Mbôty est bavarde) / Somôriñy i Jao (de sômotro «barbe») (Jao est barbu). Mais ils peuvent aussi être dérivés d un nom de substance pouvant caractériser le comportement physique ou psychique d un humain : Jamalaiñy i Jao (de jamala «drogue») (Jao est nerveux). La plupart de ces adjectifs de structure Npc-iñy accepte la restructuration en be «grand, beaucoup, excessif» Npc (Adj : be Npc). Par exemple : (10) Vavaiñy i Mbôty (de vava «bouche»). = Be vava 5 i Mbôty. Mbôty est bavarde. (11) Somôriñy i Jao (de sômotro «barbe») = Be sômotro i Jao. Jao est barbu. Néanmoins, pour certains de ces adjectifs la restructuration en be Npc est possible mais elle peut engendrer une nuance au niveau de la valeur sémantique que dénotent ces deux structures. Si l adjectif be sômotro (somôriñy) de la phrase (11) n a comme équivalent que l adjectif «barbu», be vava de la phrase (10) peut vouloir dire vavaiñy «bavard(e)» et be vava «avoir une large bouche», selon ses contextes d apparition. Aussi, les adjectifs de propriété humaine à suffixe iñy dérivés d un nom de substance caractérisant le comportement ou le tempérament d un humain font exception et n acceptent pas la restructuration en be N si N indique la substance : (12) Jamalaiñy i Jao (de jamala «drogue») = Be (*jamala + siaka 6 ) i Jao. Jao est nerveux. Contrairement aux adjectifs somôriñy «barbu» et vavaiñy «bavard», l adjectif jamalaiñy «nerveux» n admet pas la restructuration en be N car N relève de la substance jamala «drogue». Dans ce cas, afin de garder à peu près le même sens, il faut remplacer le N (nom de substance) par un autre N relevant plutôt du comportement ou du tempérament qui en résulte comme siaka (nervosité). 2. Le système aspectuel La présence ou l absence d une préposition s avère significative pour l expression de l aspect en français comme dans le parler du Nord. Autrement dit, il existe des prépositions qui sont susceptibles de traduire des informations temporelles et surtout aspectuelles par rapport aux adjectifs de propriété humaine. Dans ce sens, il ne pourrait s agir que soit 5 Be vava au sens de «bavard», contrairement à son sens «avoir une large bouche». 6 Siaka «nervosité» 39

46 d adjectifs de propriété permanente empirique, soit d adjectifs de comportement habituel car, comme nous le signalons à chaque fois, les adjectifs de propriété permanente par définition n admettent que le temps présent. Prenons des exemples : (13) Vêmbaña 7 i Mbôty rango izy dimy taoño. Mbôty est polissonne depuis qu elle avait cinq ans. (14) Naditry i Jao zisk izy telopolo taoño. Jao a été têtu jusqu à l âge de trente ans. Les valeurs aspectuelles des prépositions que comportent les exemples (13) et (14) sont totalement différentes. La préposition rango «depuis» de l exemple (13) exprime le début ou le point de départ (l âge de cinq ans) de la propriété vêmbaña «polisson(ne)». Ainsi, la phrase exprime une propriété présente et à aspect inchoatif 8. Cependant, sur le plan temporel, la préposition rango (lêtry) «depuis» ne s associe qu avec un prédicat conjugué au temps passé. Rares sont les cas où elle se trouve dans une phrase dont le prédicat évoque le temps présent : (15) (*Manjary + Nanjary) vêmbaña i Mbôty rango izy dimy taoño. Mbôty (*devient + est devenue) polissonne depuis qu elle a eu cinq ans. Contrairement à l exemple (13), la phrase (14) exprime la fin de la propriété naditry «têtu». Cette information est contenue dans la valeur aspectuelle de la préposition zisky «jusqu à». Dans ce sens, nous pouvons déduire que, dans le parler du Nord, la préposition zisky «jusqu à» ne peut exprimer qu une propriété permanente empirique (qui n est plus d actualité) à aspect terminatif 9. S agissant des adjectifs de propriété humaine, le seul temps accepté par la préposition zisky «jusqu à» est le passé : (16) (*Maditry + Naditry) i Jao zisk izy telopolo taoño. Jao (*est + a été) têtu jusqu à l âge de trente ans. Ainsi, ce qui fait l objet de notre analyse porte, ici, sur ce que I. Kokochkina appelle «aspect interne» 10, c est-à-dire l état fondamental du prédicat, qui lui est propre par son sémantisme. Prenons un exemple : (17) Nimpody sesitsesiky ndrêky i Jao. Jao est redevenu dyspnéique. Dans cet exemple, d une part, la conjugaison temporelle (le passé) nous permet de savoir qu il s agit ici d une propriété qui a débuté dans le passé. D autre part, le sémantisme du verbe support nimpody ndrêky «redevenir» qui sert à actualiser l adjectif de propriété sesitsesiky «dyspnéique» nous aide à comprendre qu il s agit d une propriété à fréquence 7 Vêmbaña «polisson(ne)» est ici conjugué au passé et devrait être actualisé par le verbe support nanjary «devenir». Autrement dit, il s agit de la forme elliptique de nanjary vêmbaña «est devenu polisson(ne)». 8 G. Gross, idem. 10 Si I. Kokochkina (2004) distingue l «aspect interne» de ce qu elle appelle «aspect externe», F. Valetopoulos (2003) choisit la dénomination «aspect grammatical» et «aspect lexical» pour faire la différence entre «l état fondamental du prédicat, qui lui est propre par son sémantisme» et «les valeurs aspectuelles qui s ajoutent à la valeur essentielle durative ou ponctuelle du prédicat et qui permettent au locuteur de traduire le début, la continuation ou la fin du procès désigné par celui-ci». 40

47 répétitive, donc un comportement habituel. Pour mieux élucider ces phénomènes, nous continuons nos analyses et parlons du cas des verbes supports manjary + mivadiky «devenir», mimpody ndrêky + mieriñy koa «redevenir», vôly + nijanoño «cesser de» et de la locution adverbiale mböla fo correspondant au verbe support «rester + demeurer» Le verbe support manjary + mivadiky «devenir» Le verbe support manjary + mivadiky «devenir» actualise l adjectif de propriété et prend en charge l information aspectuelle véhiculée par l adjectif. Le sémantisme de ce verbe indique un changement d état à un temps t 1 par rapport à un temps antérieur t 0. Cependant, si des chercheurs comme F. Valetopoulos veulent que ce passage soit «vu dans sa phase finale et non dans son évolution» et y trouvent un aspect terminatif (Valetopoulos, 2003 : 142), pour le cas des adjectifs de propriété humaine, nous aimerions plutôt voir ce passage dans sa phase initiale et y trouverions un aspect inchoatif. Nous prenons un exemple : (18) Nanjary kizitiñy i Mbôty. Mbôty est devenue caractérielle. Cette phrase nous traduit que le N 0 hum Mbôty n avait pas l adjectif kizitiñy «caractérielle» comme propriété dans le temps antérieur t 0. Donc, le début de la propriété kizitiñy «caractérielle» est marqué par le temps t 1 qui ne peut exprimer qu un aspect inchoatif par rapport à l adjectif de propriété kizitiñy. Autrement dit, dans le temps t 0 l adjectif dénotant la propriété du N 0 hum Mbôty ne pouvait être que le contraire de kizitiñy. Pour pouvoir «devenir kizitiñy» à partir du temps t 1, il faut que le N 0 hum ait été tsotra «sympathique» dans le temps initial t Le verbe support mimpody ndrêky (E + koa) + mieriñy koa «redevenir» Par rapport au verbe support manjary «devenir», la locution verbale-support mimpody ndrêky (E + koa) «redevenir» marque le passage d un état à un autre et plus précisément le retour vers un état antérieur t 0 par rapport à un autre temps t 1. Dans une phrase, sa vraie structure est Mimpody AdjPréd ndrêky (E + koa) Dét N 0 correspondant à la structure française «Dét N 0 redevenir AdjPréd». Elle dénote un aspect répétitif exprimé par la particule ndrêky «de nouveau». Ainsi la propriété exprimée par des adjectifs actualisés par cette locution ne pourra être que ce que nous appelons un comportement habituel. Par exemple : (19) Nimpody ösa ndrêky koa i Jao. Jao est redevenu maladif. Cet exemple sous-entend qu à un moment supposé t 0, le N 0 Jao a eu l AdjPréd ösa «maladif» comme propriété : (20) Ösa i Jao. Jao est maladif. Après t 0, il y a eu un autre temps t 1 où le N 0 devenait salama «bien portant» (supposé comme AdjPréd1) : (21) Nanjary salama i Jao. Jao devenait bien portant. 41

48 ensuite, il y a encore eu un moment t 2 où le N 0 Jao cesse d être l AdjPréd1 salama «bien portant» et passe de nouveau à la même propriété exprimée par l AdjPréd ösa «maladif» du temps t 0 : (22) Ösa ndrêky koa i Jao. Jao est de nouveau maladif. Notre exemple met en relief le temps t 2 où le N 0 Jao a de nouveau l AdjPréd ösa «maladif» comme propriété. Soulignons, cependant, que cette locution verbale-support mimpody ndrêky «redevenir» ne peut pas s associer avec des adjectifs de propriété humaine irréversibles comme le cas de certains adjectifs de la sous-classe <apparence physique taille> : (23) *Nimpody kana ndrêky koa i Jao. *Jao est redevenu petit La locution adverbiale mböla fo Tout d abord, nous soulignons que la locution adverbiale mböla fo correspond au verbe support «rester + demeurer». À vrai dire, malgré son statut d adverbe, cette locution est susceptible d actualiser un adjectif prédicatif et elle joue ainsi le rôle d un actualisateur. Cependant, par rapport à sa qualité d actualisateur (mböla fo «rester + demeurer»), elle est surtout employée comme adverbe (mböla fo «toujours»). Dans ce cas, la phrase est de structure Mböla AdjPréd fo Dét N 0 correspondant à la structure «Dét N 0 rester AdjPréd» du français : (24) Mböla makikitry fo i Mbôty. Mbôty (demeure + est toujours) avare. par conséquent, les adjectifs de propriété actualisés par mböla fo «rester + demeurer» ne peuvent exprimer qu un aspect duratif. Ils dénotent une propriété qui a commencé dans le passé, qui demeure d actualité au moment présent et n a connu aucun moment de discontinuité. Par rapport à la notion de propriété, l actualisation en mböla fo «rester + demeurer» devrait en constituer un critère définitionnel étant donné qu elle est compatible avec tous les adjectifs de propriété, qu ils soient permanente par définition, permanente empirique ou comportement habituel. Toutefois, il s avère important de signaler que cette locution sous-entend une possibilité de changement à un moment donné dans le futur. Ainsi elle ne peut pas s associer à des adjectifs dénotant un état ou une qualité qui n évolue pas : (25) Mböla (kajo + *kamboty) fo i Jao. Jao demeure (fatigué + *orphelin) Le verbe support vôly «cesser de» Les verbes supports vôly + miahaña + mijanoño 11 «cesser de» expriment un aspect terminatif. Ils dénotent un trait de caractère qui était permanent, qui durait pendant une durée moins succincte mais qui ne reste plus d actualité. Par son sémantisme, les verbes supports 11 Le verbe mijanoño nécessite une attention particulière dans le parler du Nord, car il a deux sens presque opposés : demeurer et cesser de. Il est ici pris au sens de cesser de qui marque la fin d une propriété permanente empirique ou un comportement habituel et annonce un changement. 42

49 vôly + miahaña + mijanoño «cesser de» sous-entendent un contrôle de la part de l individu. C est ainsi qu ils traduisent la fin d une propriété permanente empirique ou encore d un comportement habituel mais pas une propriété permanente par définition : (26) Niahaña (*nahira-tsaiñy + nasiaka 12 ) i Jao. Jao a cessé d être (*doué + méchant). (27) Vôly (naditry + *nahay) i Mbôty. Mbôty a cessé d être (têtue + *brillante). Comme le cas de la locution verbale mböla fo «rester + demeurer», le verbe support vôly «cesser de» ne s associe pas à des adjectifs qui dénotent un état ou une qualité qui ne change pas : (28) Vôly (minêhanêha + *kambaña) i Mbôty ndrêky i Soa. Mbôty et Soa cessent d être (têtues + *jumelles). Outre les locutions verbales, les verbes supports dont nous venons de parler, pour l actualisation des adjectifs, le parler du Nord, considéré sous l optique variationnelle, possède d autres verbes supports comme le cas de mahareñy, mahatsiaro «se sentir», mais dans le cadre de notre étude, l analyse de ces verbes ne s avère pas pertinente étant donné qu ils actualisent plutôt les adjectifs d état passager ou transitoire. 3. Conclusion La présente étude nous a permis de nous renseigner sur les propriétés syntaxicosémantique des adjectifs de propriété humaine du malgache (dans sa manifestationen parler du Nord) en terme d actualisation et de système aspectuel. Nous avons pu élaborer une liste des verbes supports susceptibles d actualiser ces prédicats adjectivaux qui relèvent des qualités permanentes et/ou naturelles (innées, intrinsèques) à une personne, soit à caractère permanent empirique soit à fréquence répétitive. En malgache, comme en français, la préposition joue un rôle important dans l expression de l aspect. Il existe ainsi des prépositions qui sont susceptibles de traduire des informations temporelles et surtout aspectuelles par rapport aux adjectifs de propriété humaine. 12 En tant que comportement et non un tempérament. 43

50 Bibliographie BORILLO, A., 1998, Les adjectifs et l aspect en français, Cahiers Chronos 2, pp ; BOTOUHELY, J. L., 1998, L élargissement de sens dans les emprunts saint-mariens au français, Mémoire de maîtrise, Université Nord Madagascar, 113p ; COMRIE, B., 1995, Aspect, an introduction to the study of verbal aspect and related problems, Cambridge University Press ; DESCLES, J.-P., 1989, State, events, process and topology, General linguistics, N 29-3, pp ; FRANÇOIS, J., 2004, L Adjectif en français et à travers les langues, Presses Universitaires de Caen ; GHIGLIONE, R., BROMBERG, M., FRIEMEL, E., KEKENBOSCH, C., VERSTIGGEL, J.C., 1990, Prédicats d état, de déclaration et d action : essai de classification en vue d une application en analyse de contenu, Langages, N 100, pp ; GODEL, R., 1950, Verbes d état et verbes d événements, Cahiers de Ferdinand de Saussure, N 9, pp ; GROSS, M., 1996, Les verbes supports d adjectifs et le passif, Langages 121, pp ; KOKOCHKINA, I., 2004, Typologie des prédicats d états, Thèse de doctorat sous la direction de G. Gross, Laboratoire de Linguistique Informatique, Université Paris XIII, 330p ; LAPORTE, E., 1997, L analyse des phrases adjectivales par rétablissement de noms appropriés, Langages 126, pp ; LE PESANT, D., MATHIEU-COLAS, M., 1998, Introduction aux classes d objets, Langages 131, pp ; MALZAC, R. P., 1960, Essais de Grammaire malgache, Antananarivo, Imprimerie Catholique, 198p ; MOURELATOS, A. P. D., 1978, Events, processes and states, Linguistics and philosophy, N 2, pp ; RABENILAINA, R.-B. et alii, 1989, Ny fitsipiky ny teny T.11, Antananarivo : FO.FI.PA ; RAHARINIRINA-RABAOVOLOLONA, R. L., 1991, Lexique-grammaire des composés du malgache. Les adverbes de temps, Thèse de doctorat, Université Paris 7 : LADL, Centre d'etudes et de Recherches en Informatique Linguistique ; RAJAONA, S., 1972, Structure du malgache, Etudes des formes prédicatives, Ambozontany, Fianarantsoa, 785p ; RAJAONARIMANANA, N., 1994, Grammaire moderne de la langue malgache, INALCO, Paris, 128 p ; RALALAOHERIVONY, B. S., 1995, Lexique-grammaire du malgache : constructions adjectivales, Thèse de doctorat sous la direction de M. Gross, U.F.R. de Linguistique, Université Paris VII ; SMITH, C. S., 1991, The parameter of aspect, London, Kluwer Academic Publ. ; VALETOPOULOS, F., 2003, Les adjectifs prédicatifs en grec et en français : de l analyse syntaxique à l élaboration des classes sémantiques, Thèse de doctorat sous la direction de G. Gross, Laboratoire de Linguistique Informatique, Université Paris XIII, 351p ; VAN DE VELDE, D., 1999, Adjectifs d état, adjectifs de qualité, Fonctions syntaxiques et rôles sémantiques, Arras : Artois Presses Universitaires, pp

51 Brugman C. Conners T. David A. Gnanadesikan 1 A. cbrugman@umd.edu tconners@umd.edu adavid@umd.edu gnana@umd.edu University of Maryland Center 2 BEYOND ASPECT: THE PARTICIPANT IN SOUTH ASIAN LVCS Abstract This paper makes explicit a particular facet of the semantic contribution of light verbs in a number of South Asian languages. A range of examples is described in terms of a modeling of the role of the participant, in both the narrated and speech event, in a broadly Jakobsonian account. In moving beyond the frequently noted contribution of the LV in terms of aspect and valency, we begin a more systematic account of a range of phenomena common in the South Asian linguistic area. Keywords: Light Verb Constructions; Participant Role; South Asian languages. 1. Introduction 1.1. Background and scope This paper explores a grammatically-defined subset of light verb constructions (LVCs) found in a number of South Asian languages. Representing the beginnings of a larger comparative study of South Asian predication phenomena, the paper focuses on features of the semantic and functional properties of these complex predication constructions and the light verbs (LVs) that characterize them. Cross-linguistically many LVs are form-identical with verbs of posture and verbs of directional motion or directed interaction. For South Asia, LVs include the more productive and common give, take, and go, as well as more restricted LVs such as push, die, hit, and sit. Past analyses of LVs have characterized their contribution to the LVC largely in terms of event semantics, in particular aspect (Butt 2005, Hook 1993, Bashir 1993) and/or thematic role assignment (Grimshaw & Mester 1988, Davies 1993). Those properties of these constructions deserve more attention cross-linguistically. In this paper, however, we assume a basic understanding of those phenomena, and add for consideration some sub-thematic properties of the participant and of the speaker s assessment of the event or its participants an assessment which may focus on a participant or on the event as a whole. Such qualities have been observed by many South Asian scholars; however, they have largely been treated as a series of idiosyncratic curiosities rather than as a feature of these constructions that may be subject to generalization (exceptions include Butt 1993 and Paul 2004). Our more inclusive account moves beyond describing these features of event semantics to sketch out a unified account for this larger range of effects that LVCs can contribute to an utterance. Our approach takes off from Jakobson s 1 This paper has benefitted from discussion with and comments from Kanwal Bashir, Charles Chang, Christopher Green, Mohini Madgavkar, Polly O Rourke, and Tristan Purvis. 2 This material is based upon work supported, in whole or in part, with funding from the United States Government. Any opinions, findings and conclusions or recommendations expressed in this material are those of the authors and do not necessarily reflect the views of the University of Maryland, College Park and/or any agency or entity of the United States Government. 45

52 (1957) formalization for notating linguistically-expressed relationships among the speech event, the narrated event, and their respective participants. 3 According to our working definition (adapted from Butt 2003), light verbs have the following properties: i. The LV is form-identical to a lexical verb, and not subject to phonological reduction; ii. The LV is bleached semantically with respect to its lexical-verb counterpart, but nevertheless contributes lexical semantics to the construction; iii. The LV carries the tense/aspect/modality and agreement inflection, if there is any; iv. The LV and its verbal complement together denote a single event; v. The LV may contribute substantially to the argument structure of the event. Note that property (iv) excludes causative and permissive constructions, which can be analyzed as two separate events (Dowty 1979). Cross-linguistically, LVCs may involve a nominal, adjectival, or verbal complement. Studies of LVCs have focused largely on Japanese, Korean, Australian languages, and to a lesser extent Turkic and Caucasian languages (see Bowern 2005 and 2009 for recent surveys). Here we limit our analysis to those with verbal complements (hereafter V-V LVCs), though we suggest that the analysis can be extended to account for the other types of LVCs. Given the productivity and range of V-V LVCs in both Indo-Aryan and Dravidian languages, these constructions have received relatively little attention in the literature. Those works that have discussed it have largely limited discussion to a few often cited languages such as Hindi/Urdu, Tamil, and to a lesser extent Marathi, Malayalam, and Bangla (cf. Butt 1993, 1995, 2003 on Hindi/Urdu; Fedson 1981, 1993 on Tamil; Saurov 2011 on Bangla; Pandharipande 1993 and Deoskar 2006 on Marathi). Here we consider in addition Divehi and Panjabi Some initial examples South Asian V-V LVCs have been described as conveying certain aspectual interpretations. The following minimal pair from Punjabi shows a typical distinction: (1) a. Billi ne saaraa dúd pitaa. Panjabi cat ERG all milk drink.prf.msg The cat drank all the milk. b. Billii saaraa dúd pii gaii. cat all milk drink go.prf.fsg The cat drank up all the milk. (based on Bhatia 1993:252) In (1b), the LV gaii went makes explicit the telicity of the event that in (1a), which contains a simplex verb, is conveyed only through the quantifier. In addition to telicity, such aspectual contributions of LVs as inception, progressivity, and iterativity have been noted. Another range of previous accounts examines the potential contribution of LVs to the overall argument structure. The two Malayalam LVs tār and koʈukk give increase the number of arguments, as exemplified in (2) (Davies 1993, citing Mohanan 1983). (2) a. Amma kuʈʈikkə pustakam waaŋŋik-koʈuttu Malayalam mother child.dat book bought-gave Mother bought the child the book. 3 Cf. Fedson (1993), who also references Jakobson. 46

53 b. Amma enikkə n inakkə pustakam waaŋŋit-tan n u mother 1SG.DAT/2SG.DAT book bought-gave Mother bought me/you the book. (Davies 1993) Light verbs glossed as give similarly add benefactive arguments in other South Asian languages: denaa in Panjabi (Bhatia 1993), denī in Divehi (Reynolds 2003), and dewa in Bangla (Paul 2004). Davies observes that such LVs impose their thematic role assignments on the sentence containing the construction, that is, the overall argument structure represents the union of the arguments assigned by the complement predicate and those assigned by the light verb. The above examples show that LVCs in Panjabi and Malayalam are associated with some of the same properties of event structure as LVCs in better-studied languages. However, neither aspect nor thematic role assignment can account for a number of effects elaborating the participants behavioral or internal states, or the speaker s assessment of the action or event. Example (3b) represents a step away from event semantics, as it requires reference to both the speech event and its participants as well as the narrated event and its participants: (3) a. onan ne dasiyaa Panjabi they-obl ERG tell.prft.msg They said. (based on Bashir & Kazmi forthcoming) b. smajh naiɳ aandii kyoɳ tuɳh saarii understanding NEG come.prs.fsg why you all gall onuɳ das baiʈhii eɳ! matter her.obl tell sit.pstprt.fsg AUX. 2S.PRS I just don t understand why you ve told her this! (Now she will really exaggerate it and tell the whole city!) (K. Bashir p.c.) In (3b), the LVC conveys the speaker s assessment of some element of the narrated event, an interpretation of inappropriateness that is highly dependent on the surrounding context. 4 It may be for that reason the inextricably pragmatic nature of this feature of meaning that it is not considered within the same traditions of scholarship that have attended to the aspectual and thematic-role contributions of LVCs. In the section below we collect more examples from the literature, classify them in terms of Jakobson s distinctions, and speculate about why LVs should be the source for such a wide range of effects. 2. Two events and their participants Many theorists of linguistic meaning have provided means of articulating the relationships between the speech event and its components including the speaker and the hearer and the narrated event and its components including its participants and its activities (e.g. Allan s (1986) differentiation between the setting and the world spoken of). An early model of this distinction, in the modern western linguistics tradition, was sketched by Jakobson (1957) to provide a means for describing the Russian evidential system a linguistic phenomenon considered at that time to be peculiar. He notes that in order to classify verbal categories two basic distinctions are to be observed: 4 We thank a reviewer for emphasizing this point to us. In what follows, we capture this observation with the use of terms like implicated, without assuming any particular theory of implicature. 47

54 1. speech itself ( s ) and its topic, the narrated matter ( n ); 2. the event itself (E), and any of its participants (P), whether performer or undergoer. Consequently four items are to be distinguished: a narrated event (E n ), a speech event (E s ), a participant of the narrated event (P n ), and a participant of the speech event (P s ), whether addresser or addressee. (Jakobson 1957 : ) Because a complex predicate represents a type of single narrated event E n being denoted by two lexemes, both of which carry some semantic content, it would follow that the event semantics that is, its aspectual and argument-structure properties will be affected by both lexemes. This indeed is what has been observed and well-analyzed. In other words, these categories comfortably account for the minimal pairs in (1) and (2) where telicity and semantic role assignment respectively are contributed by the light verb. Jakobson s model and our working definition of LVCs allow us additionally to suggest how the lexical semantics vestigial in LVs would also be capable of contributing to any other verbal phenomena making reference to E n. That is, aspectual or thematic effects invite inferences that require reference to other verbal categories in which E n plays a role, such as Jakobson s P n E n and P n E n /P s. In what follows, we explain how the former can be associated with agency and the latter, which Jakobson identified with the category of mood, with speaker assessment of P n s action. We additionally posit a category of E n /P s, accounting for the speaker s evaluation of the event; our examples below involve mirativity. Let us begin with the P n E n relationship. Originally conceptualized by Jakobson as accounting for voice, it can also be understood to capture sub-thematic effects in terms of agency, since agency is a property of the relation between the participant and the event. This includes meaning contributions of involvement or increased agency of the actor. Consider the following Divehi examples: (4) a. Hongkonggai 64 aharuge in ir i anhenaku marā-likamuge Divehi HongKong.LOC 64 yr.gen English woman.unspec kill.prspart-put.pstpart-nmlz.gen tuhumatu ai Farīdu namaka kiyā 29 aharuge divehi suspicion.loc Fareed name.unspec.dat-call.prespart 29 year.gen Maldivian irihenaku era u ai hayyaruko ieve. man.unspec that.island.loc arrested.perf.end A 29 year-old Maldivian man named Fareed has been arrested on suspicion of having murdered a 64-year-old English woman in HongKong. (Minivan News 2011) b. bomek govvā-lai de-mīhun marā-laifi-eve. bomb.indef explode.cvb-put.cvb two-people kill.cvb-put.cvb.pfct.end. A bomb exploded violently and killed two people (violently). (adapted from Haama Daily 2010) c. Muzāharāa evvi mīhun-vanī, emerikā e raī bush-akī demonstration.dat gather.pstpart people-be.foc America.GEN president Bush-COP duniy ai mīhun marā, duniy e emme-bo u aniyā-veriyā kama -eve. world.loc people kill.prespart, world.gen single-big violent-person that-end. To the people gathered at the demonstration, American President Bush is the most violent person in the world, killing the people of the world. (Haama Daily 2011) In Divehi, the LV lanī put can contribute shades of meaning regarding degrees of involvement of the participants, which may play out in particular ways depending on other semantic properties of the sentence. In (4a), the verb maranī kills appears in construction with the LV 48

55 lanī puts. The LVC characterizes the agent s activity in terms of increased involvement here, deliberateness conveyed in the translation by the word murder. This LVC also allows nonhuman elements in the agent role; in (4b), for example, increased involvement implicates greater effective force. In (4c), the simple verb maranī kills is used in preference to the LVC, conveying that though there is a human agent, his involvement is less direct or immediate. This triple shows the variation in shades of meaning of the LVC, as well as meaning differences associated with the choice or the avoidance of the LVC. Such effects can be found across languages. Next we look at Jakobson s category P n E n /P s, which we claim captures what other scholars have characterized as speaker attitude; we use instead the term speaker assessment, since it includes inferences based on observable elements of the event, as well as more internallyfocused speaker opinion. For example, the Panjabi LV suʈʈnaa throw may add a characterization of impatience or vehemence on the participant of the narrated event, or P n. Further examples include cheɖɖnaa leave, which may characterize the P n as indifferent or reluctant; maarnaa hit, beat, shut, which may emphasize the vehemence, deliberativeness, or aggressiveness of the action. Similarly, Panjabi vekhnaa see qualifies the action of the agent, or P n, as tentative, experimental or exploratory; jaanaa go when used with psychological verbs adds a characterization of impulsiveness on the part of the agent (for Panjabi see Bhatia 1993, and Akhtar 1997 and 2004). A similar effect of LV dzā go can be found for Marathi: (5) Madhū he bolūn elā Marathi Madhu this say went.sg.m Madhu said this (inadvertently). (Pandharipande 1993) In Divehi annanī gets indicates that the agent is behaving unreservedly (Cain & Gair 2000). In (6a) below, from Marathi, the LV ghenar take reflects the speaker s judgment that in doing work for his mother the agent is actually benefiting himself: (6) a. tyāne āī āʈhī te kām karūn ghetle Marathi he.erg mother.for that work do took He did the work for his mother. (He felt that he was doing it for himself.) (Pandharipande 1993) b. tyāne āī āʈhī te kām kele he.erg mother.for that work did He did the work for his mother. (M. Madgavkar p.c.) Such ascriptions of involvement, affectedness, effectiveness, etc., take a crucial step out into the world of the speech event because they involve speaker assessment of the event participant s actions. All of the above examples may be characterized as inferences by the speaker regarding the participant s internal state. Another type of speaker assessment of the P n would be P s s opinion of P n s action. For example, Tamil taɭɭu push, while imposing iterative aspect on the activity, can further convey the speaker s view of this activity as positive or negative, as in (7), which can convey the speaker s disapproval of the narrated event: (7) Kumār cikaret ūti.t taɭɭukiṟāṉ. Tamil Kumar cigarette smoke.cvb push.3.prs.sg.m Kumar smokes one cigarette after another. (Lehmann 1989) 49

56 An analogous case obtains in Bangla, where the speaker, P s, imputes durative aspect to the narrated event, E n, and additionally assesses it as futile, as exemplified in (8). (8) Ma ʃara-jibon ʃɔnʃarer jonne kheʈe morlen Bangla Mother whole-life family.gen for work.prfpart die.3hon.pst Mother worked the whole of her life for (her) family. [Implying futility] (Paul 2004) This relationship further captures the role of LVs such as Panjabi baiʈhnaa sit in (3b) above, which characterizes the narrated event, E n as inappropriate crucially an assessment made by the speaker, or P s. Finally we consider the category E n /P s, or the relation between the speaker and the narrated event without reference to the event participants. Consider the mirative effect of the Bangla LV bɔʃa sit, which imposes a telic quality on say and further characterizes the narrated event as unexpected or surprising: (9) Ritu ʃɔbar majhe kɔthaʈa bole boslo. Bangla Ritu all.gen among word.clsf say.prfpart sit.3pst Ritu went and said it in the middle of the crowd! (Paul 2004) By contrast with this, the Panjabi LV that conventionally conveys the event s unexpectedness for the speaker is reported to be penaa fall (Bhatia 1993). Not all South Asian languages display the same range of LVs and LVCs. In fact, Divehi seems to be comparatively limited and Panjabi particularly rich in their respective LV inventories. In all cases, however, some notion of Jakobson s participant roles is needed to understand the full range of semantic/pragmatic shadings of the LV and the LVC. Such sublexical semantic properties of the LVs as deictic and directional meaning, volition, and directness within the chain of action can be contributions. In some cases, the relationship between the semantics of the full-verb counterpart and this more abstract contribution is intuitive for instance in (4a) with LV put, involvement in the action and the ab-origo directionality provided by the LV correspond to those properties in the full verb. In (6a), the self-directedness of the action corresponds to the ad-origo directionality of the full verb take. For other cases, such as in (3b) with LV sit, the relationship between the lexical verb and the corresponding LV s contribution to its construction is not so easily discerned; nevertheless, the LVC does conventionalize this meaning. 3. Conclusions and Extensions Given the space limits of this paper, we have, by necessity, excluded discussion of a number of constructions that are both frequently encountered in South Asian languages and are often subsumed in discussions of LVs. These include constructions where a LV appears with a nonverbal complement, a noun or adjective. While we do not discuss these in detail here, we do note that our participant-based account of V-V LVCs has a natural extension to N-V LVCs. We observe first that an LVC can add a participant in the thematic hierarchy. Thus, be verbs generally create intransitive predicates, while do verbs create transitive predicates. This is directly analogous to the way in which give adds a beneficiary to V-V LVCs. Secondly, LVs that govern substantival complements may characterize the event structure or add speaker assessment. Consider the following Tamil examples: (10) a. nān an pōha-māʈʈ n; romba boor aɖikkudu. Tamil 50

57 1sg there go.inf-neg.fut.1sg. very bore beat.pres.3sg. I won t be going there; it s really boring. b. kāppi paɳɳu copy do to copy (neutral) c. kāppi aɖi copy beat to copy (with pejorative connotation of wrongness, unpleasantness, etc.) (based on Schiffman 1999) In (10a), aɖi beat, strike emphasizes the speaker s negative assessment of the event, or E n /P s ; the minimal pair in (10b) and (10c) further illustrate this additional effect of negative speaker assessment that aɖi can have. In this account of V-V LVCs in some South Asian languages we have used Jakobson s primary distinction between the narrated event and the speech event, and his secondary focus on participants especially the agent of the narrated event and the speaker, the analogue in the speech event of the agent. Jakobson s typology allows us to account naturally for a wider range of meaning properties of LVCs than can be covered by linguistic models that ignore the primary distinction. In Jakobson s classification, the participant of the narrated event, P n, is the domain of agency, volitionality, and involvement. The category P n E n /P s includes features of speaker inference and opinion. We note, however, that Jakobson s putative categorical distinction becomes blurred when we try to classify some of the effects that involve sub-thematic properties of P n : any reference to P n s internal state actually involves an inference of the speaker s; however, some inferences are more directly tied to the observable situation E n than others. Additionally, we found that LVCs may implicate P n s assessment of the E n : in particular, the speaker s evaluation of E n as unexpected falls into this category. This paper represents a preliminary sketch of a range of LV behaviors that has hitherto been somewhat neglected. A more systematic study of these constructions, particularly in natural contexts, will enable us to draw cross-linguistic conclusions as to the inventory of LVs used in South Asia, their contribution to the interpretation of the sentence, the interaction between their event-semantics functions, and the ascriptions by and to participants in the narrated event and the speech event. 51

58 References Akhtar, Raja Nasim Affix -s(uu) Constructions in Punjabi. In Spencer, A. ed., Essex Graduate Student Papers in Language and Linguistics. Vol. 1, University of Essex. Akhtar, Raja Nasim Aspectual Complex Predicates in Punjabi. In Singh, Rajendra, ed., The Yearbook of South Asian Languages and Linguistics. The Hague: Mouton de Gruyter. Allan, Keith Linguistic Meaning. Two Volumes. Sydney: Routledge and KeganPaul. Bashir, E Causal Chains and Compound Verbs. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Bashir, Kanwal & Abbas Kazmi. Forthcoming. Punjabi-English Dictionary. Hyattsville, MD: Dunwoody Press. Bhatia, Tej K Punjabi: A Cognitive-descriptive Grammar. London: Routledge. Bowern, Claire Position paper: Symposium on Intertheoretical Approaches to Complex Predicates. Houston. Ms. Bowern, Claire The Historical Linguistics of Complex Predication. Houston. Ms. Butt, Miriam Conscious Choice and Some Light Verbs in Urdu. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Butt, Miriam The Structure of Complex Predicates in Urdu. CSLI: Stanford. Butt, Miriam The Light Verb Jungle. Handout from the Workshop on Multi-Verb Constructions, Trondheim. Cain, Bruce D. & James W. Gair Dhivehi (Maldivian). Languages of the World/Materials 63. Munich: Lincom Europa. Davies, William D A Union Analysis of a Telugu Complex Predicate Construction. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Deoskar, Tejaswini Marathi Light Verbs. Ithaca, NY. Ms. Dowty, David Word Meaning and Montague Grammar. Dordrecht: Reidel. Fedson, V The Tamil Serial or Compound Verb. PhD Dissertation. University of Chicago. Fedson, V Complex Verb-Verb Predicates in Tamil. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Grimshaw, Jane & Armin Mester Light Verbs and Theta-Marking, Linguistic Inquiry 19.2: Hook, Peter E Aspectogenesis and the Compound Verb in Indo-Aryan. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Jakobson, Roman Shifters and Verbal Categories. In Waugh, Linda and Monique Monville-Burston, eds. On Language: Roman Jakobson. Cambridge, MA: Harvard University Russian Language Project Lehmann, Thomas A Grammar of Modern Tamil. Pondicherry: Pondicherry Institute of Linguistics and Culture. Montaut, A Mirative Meanings as Extensions of Aorist in Hindi/Urdu. In R. Singh, ed., The Yearbook of South Asian Languages and Linguistics, Berlin: Mouton de Gruyter. Mohanan, K.P Move NP or Lexical Rules? Evidence from Malayalam Causativization. In L. Levin, M. Rappaport, and A. Zaenen, eds, Papers in Lexical-Functional Grammar. Bloomington, IN: Indiana University Linguistics Club. Pandharipande, Rajeshwari Serial Verb Constructions in Marathi. In M. Verma, ed., Complex Predicates in South Asian Languages, Delhi: Manohar Publishers. Paul, Soma An HSPG Account of Bangla Compound Verbs with LKB Implementation. PhD Dissertation, University of Hyderabad. Reynolds, Christopher A Maldivian Dictionary. London: RoutledgeCuzon. Saurov, Syed Classification of Light Verbs in Bangla. Handout from the Workshop in South Asian Syntax and Semantics, Amherst MA. Schiffman, Harold F A Reference Grammar of Spoken Tamil. Cambridge: Cambridge University Press. 52

59 Constant Matthieu Université Paris-Est Dister Anne Facultés universitaires Saint-Louis NakamuraTakuya Université de Louvain DE LA LIBERTE COMBINATOIRE AU FIGEMENT. LE VERBE FAIRE DANS UN CORPUS DE FRANÇAIS PARLE Résumé Dans cet article, nous analysons les différents emplois de faire dans un corpus de transcriptions de français parlé. Nous avons relevé 4035 occurrences du verbe faire, que nous avons réparties en 7 emplois différents : causatif, passe-partout, verbe support, emploi figé et semi-figé, pro-verbe et une catégorie «divers» qui demandera à être affinée. Nous discutons plus particulièrement de cas problématiques, notamment ceux qui concernent la distinction entre verbe plein et verbe support ou encore la différence entre le verbe plein et le verbe passe-partout. Nous présentons également des données chiffrées de ces différents emplois dans notre corpus d oral spontané. Mots clés: faire, lexique-grammaire, corpus, liberté combinatoire, verbe support. 1. La tripartition du verbe faire dans le cadre du lexique-grammaire Depuis le commencement de l entreprise du lexique-grammaire du français, le verbe faire a toujours reçu une attention particulière, en fonction du développement théorique de ce qu on connait aujourd hui sous le nom de verbe support. Inspiré de Zellig Harris (1965, entre autres) qui a analysé certains types de verbes anglais comme opérateurs unaires de nominalisation qui s appliquent à une phrase verbale, Maurice Gross (1975) a d abord lui aussi introduit la notion de l opérateur de nominalisation dans la description des phrases simples en français : une phrase avec un verbe (ou un adjectif) prédicatif peut avoir une phrase avec un opérateur suivi d un prédicat déverbal (ou désadjectival). La relation d équivalence entre deux types de phrase est une transformation, et théoriquement, elle sert à réduire le nombre d unités lexico-syntaxiques : les deux types de phrases sont des réalisations variantes d un même prédicat (sémantique, cf. Gross 1981) et de ses arguments 1. Parmi ce type d opérateurs unaires, Gross (1975) comptait des verbes comme faire, avoir, être, etc. La période après Méthodes jusqu au milieu des années 80 a vu l application intensive de cette idée de nominalisation avec plusieurs opérateurs, selon la ligne tracée par Gross (1975, 1981). La nominalisation avec l opérateur faire a été étudiée par Giry- Schneider (1978). En conséquence de diverses études de nominalisation avec opérateurs, la notion de l opérateur unaire s est révélée généralisable, au-delà d une relation de nominalisation : en effet, un substantif sans aucun lien morphologique avec un verbe ou un adjectif peut également fonctionner comme prédicat, sélectionnant ses propres arguments, mais il ne peut pas à lui seul construire une phrase simple, pour des raisons morphologiques. Il faut donc un «support» d informations morphologiques de temps, aspect et mode. Ce sont exactement ceux qui ont été appelés opérateurs qui assument cette fonction et les opérateurs s appellent 1 La transformation de nominalisation implique la même grille d arguments pour les deux types de prédicats, verbaux et nominaux. Mais sur l insuffisance de cette hypothèse, voir Nakamura (2009a,b). 53

60 désormais verbes supports. La généralisation de la notion du support a ouvert un vaste champ de description vers les prédicats non verbaux, et leurs études descriptives ont été conduites de la même façon que celles sur les prédicats déverbaux : étant donné un verbe support particulier, il fallait lister tous les prédicats nominaux qui peuvent se combiner avec lui pour former une phrase simple. Une étude exhaustive sur les substantifs prédicatifs qui sont construits avec le verbe support faire a été réalisée par Giry-Schneider (1987). Depuis, l emploi en tant que support du verbe faire a donc été étudié intensivement, en même temps que divers types de substantifs prédicatifs. Il va de soi que l emploi du verbe support est défini d une manière différentielle, c est-àdire, en opposition à un emploi non support du même verbe. Le premier emploi non support du verbe faire est l emploi dit distributionnel (ou plein) : contrairement à une phrase avec le support, une phrase avec l emploi plein de faire est construite autour du prédicat faire et non autour d un substantif prédicatif. Un autre emploi du même verbe, qui ne reçoit pas d habitude une catégorisation particulière, est le verbe faire qui apparait dans une expression figée. Certains faire qui apparaissent dans une expression figée sont considérés comme supports (cf. Giry-Schneider 1987) : mais trop peu d attention a été portée à ce type de faire pour pouvoir trancher sur son statut. Il est donc raisonnable de partir de l hypothèse que les emplois du verbe faire sont tripartites : plein, support et figé. Avec cette distinction comme hypothèse de départ, quelques décennies après les travaux de Giry-Schneider (1978, 1987) sur l opérateur et le support faire, nous revenons sur ce verbe, et nous entreprenons plus spécifiquement une étude descriptive d un corpus du français parlé, ce qui est rare dans le genre. En effet, la classification du lexique-grammaire a presque toujours été conduite sur un lexique théorique et elle n a presque jamais été confrontée à des données attestées, qui plus est issues de l oral. Cette double particularité de notre approche des données attestées issues de l oral non planifié nous a confrontés à un foisonnement d emplois très peu discutés dans le cadre du lexique-grammaire. 2. Corpus et méthodologie Les données sur lesquelles nous avons choisi de travailler sont extraites de la banque de données textuelles orales Valibel (Dister et al. 2009). Il s agit de transcriptions d un oral non planifié, qui relève principalement de deux situations de communication (conversations informelles en famille ou entre amis et entrevues sociolinguistiques) ; les locuteurs ont des profils sociolinguistiques variés, allant d étudiants de l enseignement technique à des cadres de sociétés ou des professionnels de la parole (pour le détail du corpus, voir Dister 2007). Le corpus, composé de 60 textes, comprend mots graphiques et correspond grosso modo à 40 heures de parole. Avec le logiciel de traitement de corpus Unitex (Paumier 2003), nous avons extrait automatiquement toutes les occurrences du verbe faire. Après avoir éliminé manuellement les occurrences non souhaitées (où l une des formes potentiellement fléchies de faire correspond dans nos données à une occurrence d une autre classe grammaticale), nous avons obtenu 4035 formes que nous avons systématiquement codées pour ce qui est des emplois du verbe faire (cf. section 2). Chacun d entre nous a effectué le codage sur un tiers des données, celles-ci étant triées sur la concordance où les occurrences de faire étaient classé dans l ordre alphabétique. Ensuite, les données ont été triées suivant le nom remplissant la place syntaxique de N1 (qu il soit prédicatif ou pas), afin de valider le 1er codage. Cette manière de procéder en deux passes, avec trois codeurs différents ayant élaboré en commun les critères de classification, nous semble garantir une homogénéisation du codage, même si et cela semble inhérent à la tâche de nombreux cas problématiques demeurent. 54

61 3. Typologie des emplois de faire Cette étude nous a amenés à établir une typologie des différents emplois du verbe faire trouvés dans le corpus. En partant de la tripartition classique du lexique-grammaire, de l'étude de Giry-Schneider (1987) et des différentes observations sur les données, nous avons réparti les occurrences de faire en 6 classes. Les emplois causatifs (fac) 2 Certaines occurrences de faire jouent le rôle d'un opérateur causatif. Le plus souvent, elles sont détectables par la construction syntaxique dans laquelle rentre faire : il admet comme complément une complétive ou une infinitive. je crois que je vais la faire agrandir il ne parvient pas à faire passer son message Nous considérons aussi comme causatives les constructions syntaxiques N0 faire N1 de N2 paraphrasables en N0 transformer N2 en N1 : je n'ai pas envie qu'on en fasse un enseignement obligatoire = Je n'ai pas envie qu'on le transforme en enseignement obligatoire = Je n'ai pas envie qu'on fasse que cela devienne un enseignement obligatoire Comme le note Giry-Schneider (1987), il existe également des cas causatifs de la forme faire N. En général, soit le sujet est non agentif et non restreint, soit le complément N est une réduction d une phrase élémentaire. c'est un trait un peu relâché qui fait un peu paysan il fait le désespoir de son père = il cause le désespoir de son père = il fait que son père a du désespoir Les emplois «passe-partout» (pp) Le verbe faire a parfois la particularité de remplacer un verbe plein. Il joue alors le rôle d'un verbe «passe-partout» 3. Giry-Schneider (1987) utilise quant à elle le terme «pro-verbe», que nous réservons quant à nous à un autre emploi (cf. ci-dessous). Dans un grand nombre de cas, le verbe substitué a le sens traditionnel appelé parfois sens plein de «créer/produire/fabriquer». il ne faut que deux semaines pour faire un châssis = il ne faut que deux semaines pour fabriquer un châssis c est bien pour des troisièmes là faire des meubles toute l année c est pas mal = c est bien pour des troisièmes là fabriquer des meubles toute l année c est pas mal il avait fait un trou là-bas et il avait caché son coffre = il avait creusé un trou là-bas et il avait caché son coffre Il existe des cas où la notion de production est moins évidente, voire inexistante : il est certain je crois que si on doit faire un pourcentage = il est certain je crois que si on doit calculer un pourcentage il fait carrément trente kilomètres parfois euh quarante = il parcourt carrément trente kilomètres parfois euh quarante 2 Pour de nombreux cas, l interprétation de faire dépend du contexte. Nous ne discuterons pas dans cet article, par manque de place, des nombreux exemples virtuellement ambigus qui nécessitent un retour au texte que nous avons fait pour leur analyse. 3 Mirto (2003) propose le terme de "Proxy verb" pour les emplois similaires du verbe fare en italien. 55

62 Nous avons également observé des occurrences où faire mettait en relation une personne avec un évènement : vous avez connu des personnes qui faisaient tous les enterrements = vous avez connu des personnes qui assistaient à tous les enterrements tu as fait (toux) tu as fait ton marathon // à Paris quand? = tu as fait (toux) tu as (couru + participé à) ton marathon // à Paris quand? Les emplois «support» (sup) Le verbe faire fonctionne également comme un verbe support (cf. section 1). Il entre dans une construction N0 faire Det N W avec W des compléments potentiels. Le verbe faire n'est alors pas substituable par un autre verbe (sauf variantes aspectuelles et stylistiques). Ce n'est plus faire qui sélectionne les arguments, mais le nom prédicatif N. Contrairement à Giry-Schneider (1987), nous avons considéré comme obligatoire, pour classer faire parmi les supports, le critère de la réduction de la construction en groupe nominal via une relativation et un effacement de faire : il n y a pas à faire de hiérarchisation on va faire des achats Les emplois figés (fig) Nous avons répertorié environ 70 expressions figées différentes en faire de différentes natures comme le montrent les exemples ci-dessous : recommencer tout / et euh / faire table rase du wallon il y a un moment où on a fait son temps il fait en sorte que la communication ne passe plus on n'a pas fait bande à part un jour et demi à faire les magasins à courir pour une chose ça fait partie aussi d' une d' une ambiance générale Les emplois semi-figés (semi) Nous avons utilisé une classe incorporant des emplois semi-figés, qui ont comme définition de rentrer dans une construction syntaxique figée, mais admettant un complément avec une certaine variation lexicale (le plus souvent appartenant à une classe sémantique claire). Par exemple, Ça fait DUREE que P =: Ça fait (15 ans+longtemps+3 minutes+...) que j'attends Il fait ADJ_METEO =: Il fait (mauvais+beau+pluvieux+...) N0 faire DU ACTIVITE =: Marie fait du (piano+ski+...) Nous avons également trouvé des constructions figées de la forme N0 faire LE N =: Max fait le malin Comme le note Giry-Schneider (1987), ce cas est un peu particulier car le complément N est très productif. Les emplois pro-verbe (pro) Nous utilisons le terme pro-verbe faire comme il a été défini par Togeby (1983 : 214 et sv). Le verbe faire reprend, comme le ferait un pronom pour un syntagme nominal, un autre verbe (ou une construction verbale), indépendamment de la classe et du sens de celui-ci. alors ce qu on essaie de faire / c est au début du camp ils apportent leurs enfants ils disent au revoir aux enfants et puis / ils partent 56

63 Dans cet emploi, il est très souvent accompagné d'un pronom (ex. le, ce que, cela, etc.) : blajv1 {il} travaille chez Schumacher / en Outremeuse bland0 et il est content blajv1 non / (rire) c' est pas ce qu' il veut faire lui il veut se mettre indépendant avoir son magasin quoi Les autres emplois Il existe encore d autres emplois emplois de faire, comme des emplois autonymiques : j ai demandé à un gars qu il conjugue faire Outre ces emplois autonymiques, nous nous sommes trouvés confrontés à certains emplois de faire, plus inattendus, très peu traités dans la littérature, que nous n avons actuellement pas classés car nous n avons pas encore établie de critères. Dans le présent article, nous avons décidé de les laisser de côté. 4. Cas problématiques Enumérons quelques cas qui nous paraissent fondamentaux du point de vue théorique Verbe plein ou verbe support 4? Pour Giry-Schneider (1987, dorénavant GS), le support faire peut avoir, selon les N1, des verbes extensions de faire : par exemple, un des emplois prédicatifs du substantif article est classé dans la table FNPN, et comme le montrent les exemples donnés par l auteure, le support faire dans ce cas-ci est substituable par le verbe écrire : Marie fait un article sur la situation des pêcheurs = Marie écrit un article sur la situation des pêcheurs (GS, 1987 : 111) Selon ce raisonnement, le verbe écrire est une extension du verbe support faire, il est donc lui aussi un verbe support et, par conséquent, le substantif un article est le prédicat principal de la phrase. Les critères majeurs pour reconnaitre un verbe support : 1) identité des sujets 5, 2) double analyse, 3) réduction au syntagme nominal, etc., semblent également être vérifiés par les phrases avec faire et avec écrire. De ce point de vue, les deux verbes sont qualifiés de verbe support. De plus, il est difficile de nier l intuition que le verbe écrire est un verbe plein qui sélectionne lui-même ses arguments. Face à cette intuition, GS dit dans sa note (22) : «Un verbe support (...) n a pas toujours un sens vide ; ou bien c est un verbe extension de Vsup qui garde son sens plein comme signer dans signer un chèque à quelqu un, (...)» (ibid. : 211) Cela semble donc être un cas où convergent les propriétés d une phrase à verbe plein et celles d une phrase à verbe support : le fait que GS ait donné le statut du verbe support à faire et à écrire est une interprétation extrême des phénomènes, conduite par la volonté théorique. D ailleurs, une autre interprétation extrême, qui consiste à dire que ni l un ni l autre n est un verbe support, semble logiquement possible et elle n a pas pu être complètement exclue par GS elle-même. Voyons la seconde partie conjointe de la note (22) : «(...) ou bien c est un verbe comme faire, qui a un sens vide en combinaison avec tel ou tel N, mais qui peut se paraphraser par un verbe sémantiquement plein» (ibid., 211) Cette seconde partie de la conjonction laisse le statut plein au verbe écrire et donne un statut non plein au verbe faire, ce qui semble contredire le fait d avoir considéré le verbe écrire comme extension du support. A notre sens, il faut ici changer d orientation du raisonnement : 4 Sur ce problème, voir Nakamura (2009a). 5 Qu est-ce que ça veut dire pour un nom comme article d avoir un sujet? Nous mettons à part la question que pose une phrase du type Ce corbeau a (fait/écrit) l article de ce journaliste sur les centrales nucléaires. 57

64 ce n est pas le verbe écrire qui est une extension du support, mais c est faire qui est une extension de certains verbes pleins, parce qu il remplace certains verbes pleins. Ici, le verbe faire s approche plus du plein que du support. Sous cette optique, un substantif comme article n est pas à proprement parler prédicatif, mais un argument du verbe. L observation de notre corpus indique, en effet, qu il s agit là d un phénomène général où le verbe faire paraphrase un verbe sémantiquement plein, notamment un verbe dont l objet direct se réfère à un objet qui résulte du procès décrit par le verbe : faire = fabriquer, créer, écrire, construire, inventer, dessiner, énoncer, etc. et N1 = agenda, album, dictionnaire, patron, BD, billet, bouquin, livre, texte, phrase, avion, châssis, escalier, meuble, etc. Dans ces emplois, nous avons classé faire comme «passe-partout», une dénomination bien sûr préthéorique. Sans doute ce type de faire doit-il être considéré comme faire plein, verbe générique dont l objet direct reçoit l interprétation résultative à l issue d une quelconque activité de création Verbe plein ou verbe passe-partout? Examinons une autre série d exemples, que nous avons également classés parmi les emplois de faire comme verbe passe-partout : faire (les cafés/les enterrements/les marchés/l université/...). Dans notre corpus, interprétativement, ce sont des cas où le verbe faire se substitue à des verbes pleins comme (assister/aller) à. Distributionnellement, le verbe faire remplaçant un syntagme V Prép, il n est pas clair que l on puisse parler d une quelconque extension d un verbe plein. Contrairement aux cas de la section précédente, le verbe faire n assigne pas à son élément post-verbal une interprétation résultative, et sa fonction grammaticale n est pas clairement celle d objet direct (impossibilité de passivation). Il est à remarquer que le même syntagme, par exemple, faire un enterrement, peut être ambigüe au moins de deux façons, selon la fonction que joue faire : dans un cas, faire peut être substituable par organiser (donc faire plein), dans l autre, par assister à (donc faire pp). Syntaxiquement, ces deux emplois sont distingués par le fait que seul dans le premier cas, le substantif post-faire se comporte comme objet direct. La raison pour laquelle nous n avons pas classé ces emplois de faire parmi les supports alors que les N1 semblent bien des noms prédicatifs est que nous ne pouvons pas déterminer une relation d identité des sujets entre le sujet du verbe faire et le sujet éventuel de ces N1. Faute de place, nous ne pouvons approfondir cette question, donc nous nous contentons de les appeler pp Verbe support, opérateur causatif, variante de être? Il est traditionnellement reconnu que le verbe faire a un emploi causatif. Cet emploi causatif se construit soit avec une infinitive, soit avec une complétive. Notre corpus abonde en exemples de cet emploi. Par ailleurs, une phrase avec faire qui se construit avec un prédicat non verbal peut être analysée comme résultat de l application d un opérateur causatif à une phrase à prédicat nominal de base. GS (1987, chapitre 8) traite de ce problème en détail : son exemple est Ceci fait une impression bizarre à Marie qui est considéré comme résultat de l application de l opérateur causatif à une phrase à verbe support de base Marie a une impression bizarre. A côté de cette analyse d expressions causatives avec l opérateur faire, elle énumère une série d exemples desquels elle ne s est pas prononcée (on ne sait pas si elle le considère comme support) : Jean (fait = est) (vieux/prof/curé/vielle France/vieux jeu). Dans notre corpus, à part des exemples de ce dernier type comme il fait fermier, je fais plus petit, etc., nous observons des expressions avec le sujet non restreint ça : ça fait 58

65 (paysan/bizarre/drôle/exotique/grand/classe...). Ces expressions sont sémantiquement causatives, dans la mesure où le sujet ça est interprété comme une cause qui fait que quelque chose ou quelqu un semble paysan, bizarre, etc. et où on ne peut pas les paraphraser avec un verbe copulatif à la place du verbe faire. Le sujet d une proposition de base (ou proposition enchâssée) ne peut pas, cependant, se construire autour du verbe faire : *ça (le/lui) fait (paysan/bizarre/drôle/exotique/grand/classe...), ce qui est étrange puisque généralement, le sujet d une proposition de base à laquelle un opérateur causatif s applique est conservé comme un complément direct ou indirect de la phrase principale (ou sous forme de par N). Ce type de faire est donc un type très spécial, homonyme entre faire opérateur causatif et faire synonyme de être. Nous devons laisser à une autre occasion l approfondissement de cette question. 5. Répartition des emplois dans le corpus Le codage systématique des 3045 occurrences du verbe faire (et ses formes fléchies) dans le corpus a conduit à la répartition suivante : Type Nombre d'occurrences Pourcentage (%) causatif (fac) passe-partout (pp) support (sup) figé (fig) semi-figé (semi) pro-verbe (pro) Autres 8 0 non exploitable TOTAL On observe que 5% des occurrences n'ont pu être codées. Les raisons en sont diverses, mais tiennent en général au fait que le discours est interrompu, ce qui ne permet pas l identification de N1. On a également dans cette catégorie les emplois qu il nous faut encore classer, et que nous laissons actuellement de côté. On notera que les codeurs ont exprimé un doute sur 10% des codages réalisés (ce qui montre en partie la complexité de la tâche). Les constructions les plus fréquentes en corpus sont celles à verbe support, avec un tiers des occurrences. Elles sont suivies par les emplois de faire comme pro-verbe (19% des cas), puis par les constructions causatives (16%). Sur l ensemble des données, 4% des occurrences relèvent d un emploi pronominal de faire. En ce qui concerne les emplois causatifs, faire est suivi d'une infinitive dans 55% des cas et d une complétive dans 17% des cas. Environ 12% des emplois causatifs sont figés. Parmi les occurrences de faire comme verbe support, on note que 75% d entre elles sont répertoriées dans la version 3.3 du lexique-grammaire (Tolone 2011) et que 29% sont des nominalisations de verbes pleins à la Giry-Schneider (1978). En cumulant les emplois figés des catégories fig et fac, on recense 11% d'occurrences figées dans le corpus, dont environ deux tiers sont répertoriées dans le lexique-grammaire des expressions figées. 59

66 Conclusion L originalité de cet article nous semble résider dans l approche : analyser les emplois du verbe faire à partir d un vaste corpus de français parlé, et en quantifier les différentes occurrences. Comme on pouvait s y attendre, les emplois de faire comme verbe support sont les plus nombreux, mais ses utilisations en tant que pro-verbe ou comme verbe passe-partout sont loin d être négligeables, puisque ces occurrences constituent plus d un tiers des emplois du corpus. Devant l ampleur du travail, nous nous sommes trouvés confrontés, malgré les critères élaborés, à un certain nombre de difficultés de classement. Outre qu il nous faut sans doute encore affiner nos critères, l analyse de données attestées met également en évidence des cas rarement, voire pas du tout, traités dans la littérature. Si on ne veut pas se contenter de les évacuer devant la difficulté de la tâche comme nous l avons fait ici, c est évidemment vers ces cas plus difficiles que nous devons concentrer notre future recherche. Par ailleurs, le codage de nos données est beaucoup plus riche que nous l avons présenté ici. Ainsi, on aurait encore beaucoup à dire sur les noms prédicatifs utilisés, la correspondance ou non de la construction avec verbe support et non prédicatif avec un verbe associé, l utilisation fréquente de pronoms en N1, etc. De plus, si les constructions avec verbe support sont les plus fréquentes, une analyse affinée permettrait de se rendre compte que les noms prédicatifs utilisés sont finalement peu variés, proportionnellement moins que les N1 utilisés dans les constructions avec verbes «passe-partout». La richesse de nos données nous permet d envisager une description plus large que celle présentée ici, par manque de place, des usages de faire. Références bibliographiques Dister Anne (2007) De la transcription à l étiquetage morphosyntaxique. Le cas de la banque de données textuelles orales VALIBEL. Thèse de doctorat, Université catholique de Louvain. Dister Anne, Francard Michel, Hambye Philippe et Simon Anne Catherine (2009) Du son, du texte, des métadonnées. L évolution de la banque de données textuelles orales VALIBEL ( ), Cahiers de linguistique 33/2, Grands corpus de français parlé. Bilan historique et perspectives de recherches, pp Giry-Schneider Jacqueline (1978) Les nominalisations en français : l'opérateur ''faire'' dans le lexique, Genève, Droz. Giry-Schneider Jacqueline (1987) Les prédicats nominaux en français : les phrases simples à verbe support, Genève, Droz. Gross Gaston (1989) Les constructions converses du français, Genève, Droz. Gross Maurice (1975) Méthodes en syntaxe, Paris, Herman. Gross Maurice (1981) Les bases empiriques de la notion de prédicat sémantique, Langages 67, pp Gross Maurice (1996) Les verbes supports d adjectifs et le passif, Langages 121, pp Gross Maurice (1996) La fonction sémantique des verbes supports, Travaux de linguistique 37. Harris Zellig (1965) Transformational Theory. Language 41 (3), pp Mirto Ignazio (2003). Che fare? Analisi di costrutti di un verbo critico in italiano, in Il verbo italiano. Studi diacronici, sincronici, contrastivi, didattici, a cura di M. Giacomo-Marcellesi e A. Rocchetti, Bulzoni, Roma, Nakamura, Takuya (2009a) Observations sur la variation : prédicat verbal, prédicat nominal avec verbe support et prédicat nominal sans verbe support. M.S., Université de Marne-la-Vallée. Nakamura, Takuya (2009b) Sur la correspondance entre adverbe dans une phrase verbale et adjectif dans une phrase à verbe support. Arena Romanistica 4. Paumier Sébastien (2003) De la reconnaissance de formes linguistiques à l analyse syntaxique, Université de Marne-la-Vallée, Thèse non publiée. Togeby Knud (1983) Grammaire française, Copenhague, Gyldendal. Tolone Elsa (2011) Intégration des tables du lexique-grammaire dans un analyseur syntaxique, Thèse de doctorat, Université Paris-Est 60

67 D Agostino Emilio Université de Salerne A PROPOS DES NOMS SUPPORTS ET PRÉDICATS ET DES OPERATEURS DISCURSIFS Résumé Dans cette communication, nous voulons examiner une fois encore le rôle des formes nominales, dans le cadre de la théorie des opérateurs de Z. S. Harris, à partir de Discourse Analisys (1965) jusqu à Grammar of English of Mathematical Principles (1988) et Language and Information (1990), développée par la suite par M. Gross. Suivant D Agostino (1993), (1999), (2001), (2007) et (2010), on peut penser que leur dimension quantitative et qualitative est prépondérante dans l univers de la prédication nominale. Les données concernent la langue italienne (et l ensemble des langues néo-latines), mais on ne peut pas exclure qu'un tel phénomène ait une importance bien supérieure. Une typologie des formes nominales, dans ce sens, trouve des opérateurs élémentaires et non élémentaires de plusieurs types, opérateurs aspectuels et modaux, Vsup et leurs variantes. Dans la première partie de cette communication, nous traiterons d un type particulier de variantes de Vsup et, dans la deuxième, nous formulerons une hypothèse de travail sur certaines formes du parlé de l italien. Mots clés: opérateurs nominaux, verbes supports, variantes de verbe support, opérateurs discursifs, langue parlée. 1. Introduction Depuis de nombreuses années nous traitons de l'importance des noms comme des variantes, soit de Vsup, soit d opérateurs. 1 Nous voulons ici discuter d autres variantes et de questions plus complexes, telles que l'aspect et le rôle des adverbiaux sur les opérateurs de métalangage. Pour les adjectifs, on connaît déjà leur valeur prédicative, mais on peut aussi consulter La Fauci (2000). 2. Les verbes support en italien Les noms ont déjà une valeur d opérateur en italien ancien. 2 Par exemple: (a) Donne c avete intelletto d amore (Dante, Vita Nova, cap. XIX) (b) Meravigliosamente un amor mi distringe e mi tene ad ogn'ora (Jacopo da Lentini, XIII ) Dans ces deux exemples, qui sont reliés à une "mente meravigliosa" (meravigliosa-mente), en (b) le prédicat est un verbe (mi distringe e mi tene), en (a) le prédicat est un nom (intelletto = "connaissance"). On pourrait donner de nombreux autres exemples de ce type. 3. Variantes de Vsup Les phrases suivantes sont de bons exemples de variantes de Vsup: 1. Num obbl casca dal sonno (Num obbl tombe de sommeil) 2. Num obbl piomba nel buio più assoluto (Num obbl se précipite dans l'obscurité totale) 3. Num obbl esce dal tunnel della droga (Num obbl sort du tunnel de la drogue) 1 2 Voir D Agostino (2010). Voir La Fauci (1979) et Salvi (2010). 61

68 ainsi que les variantes positives et négatives: cadere, precipitare, scivolare, piombare, cadere a capofitto, allontanarsi, andarsene etc. Cela n est pas vrai pour des verbes qui en sont faussement synonymes, comme: capitombolare, cadere in/a pezzi etc. 3 Dans les trois exemples ci-dessus, on a à faire avec des opérateurs simples ou composés, ou idiomatiques, (sommeil, obscurité et tunnel) qui, à notre avis, sont associés à des variantes de Vsup. Les trois variantes ont à voir avec certaines caractéristiques typiques des Vsup. C'est-à-dire qu'elles sont reliées à avere molto sonno (avoir beaucoup de sommeil), essere (stare) nell oscurità totale (être dans l'obscurité totale) et essere (stare) nel tunnel della droga (être dans le tunnel de la drogue). Ces variantes ont des traits de détermination de la qualité et de la quantité, ou indiquent des traits "aspectuels". 4 Cette caractéristique est liée à un type de phrase tel que : Num obbl est bien éveillé Num obbl a sommeil Num obbl commence à avoir sommeil Num obbl commence à avoir beaucoup sommeil Num obbl tombe dans le sommeil Num obbl se réveille Num obbl est à la lumière Num obbl est dans l obscurité Num obbl commence à être dans l obscurité Num obbl se précipite dans l'obscurité Même l aspect (et l actionalité) et toutes les phrases dérivées et/ou associées, peuvent être expliquées de façon similaire. Par exemple, compte tenu des phrases : 4. il mio discorso è durato 6 minuti (mon discours a duré 6 min.) 5. il mio discorso ha avuto una durata di 6 minuti (mon discours a eu une durée de 6 min.) 6. il mio discorso è stato di 6 minuti di durata (mon discours a été d'une durée de 6 min.) 7. la durata del mio discorso è stata di 6 minuti (la durée de mon intervention a été de 6 min.) 8. 6 minuti sono stati la durata del mio discorso (6 min. a représenté la durée de mon discours) elles sont interprétées comme des représentations du temps telles que des "séquences": 9. la sequenza temporale del mio discorso è stata (E + di) 6 minuti (la séquence temporelle de mon intervention a été de 6 minutes) Dans ce cas, l'explicitation totale des éléments phrastiques cachés donne l'occasion d interpréter plus correctement une catégorie aspectuelle (la "durativité"), en faisant appel aux mêmes phrases de la langue. 5 Pour Harris et pour Maurice Gross, des réductions sont possibles même en présence d'un adverbe de temps : 10. Luca è intervenuto (E + prima) (Luca a pris la parole (E + d abord) 11. Luca è intervenuto (Luca a parlé) D'autres phrases sont possibles, par exemple, si elles indiquent une "répétition" (ou similaires): 3 Le cas de la cascare nous est venu à l'esprit, du fait de la lecture du dernier livre de J. L. Nancy, traduit en italien, intitulé Cascare dal sonno (R. Cortina, Milano, 2009, Tombe de sommeil, Ed. Galilée, Paris, 2007). 4 Voir Vivès (1983) et D Agostino (2011). 5 Une langue est définie par Harris comme l ensemble de deux sous-ensembles. Le premier comprend toutes les phrases possibles sans aucune réduction à zéro et le deuxième les phrases sur lesquelles on a appliqué ces réductions. Le premier est redondant, totalement explicite et a une fonction métalinguistique, tandis que l autre est caractérisé par les réductions et les paraphrases. 62

69 11. il chiodo non manterrà, perché già è successo (le clou ne tiendra pas parce que cela est déjà arrivé) A propos de la détermination temporelle, on peut encore noter qu'en italien, comme dans d autres langues indo-européennes, on peut déterminer, d un point des vue temporel, un événement soit d une façon exacte, soit d une façon approximative. Dans ce cas, les adverbiaux de temps sont nombreux. Par exemple: avec des suffixes (decina, ventina etc.), avec des moyens lexicaux (due minuti, più o meno alle quattro, da circa un ora etc.), ou avec des quantifieurs génériques (un pugno di soldi, un pizzico di sale etc.). Par exemple, avec l opérateur sonno on trouvera avere una botta di sonno (un coup de sommeil), qui relève de la langue parlée. En italien, en particulier, on trouve dans la langue parlée ce cadre de fréquence pour les noms opérateurs en question : Nome operatore RA N G O TO TA LE O CC O RR EN ZE US O coraggio crimine // // // dolore inganno perversione // // // sonno incubo // // // strada trance vergogna On peut noter que le rang et le total des occurrences sont inversement proportionnels et que ce qu on appelle ici "uso" (emploi) est égal au rapport entre la fréquence et la "dispersion", c'est-à-dire la diffusion entre différents emplois fonctionnels Tableau des noms opérateurs Nous allons maintenant commenter le tableau suivant : N Operatore Vsup E + Det Prep = in (E + Det) Prep = a (E + Det) Prep = da (E + Det) coraggio tirar fuori crimine cadere dolore cadere a capofitto inganno cascare perversione precipitare Voir D Agostino (1993) et (2001) pour l analyse des fréquences des opérateurs nominaux dans la typologie du niveau parlé de l italien construite à partir du Lessico di frequenza dell Italiano Parlato curato da De Mauro,

70 sonno cascare stanchezza cadere buona strada allontanarsi cattiva strada allontanarsi trance cadere vergogna precipitare idea lanciarsi Ce tableau très réduit correspond à des phrases comme : 12. Eva ha tirato fuori il (coraggio + fiato) (E + dal cuore + dai polmoni) 13. Luca è caduto nel (E + crimine + fango) 14. Max è caduto a capofitto nel (E + dolore + infamia) 15. Maria è cascata (E + in un inganno + nelle mani di uno strozzino) 16. soltanto Max poteva precipitare in (E + quella perversione + quell errore) 17. Jean Luc Nancy casca dal sonno 18. Emilio stanotte è scivolato in (E + un incubo + una gaffe) 19. finalmente Maria si è allontanata dalla (E + buona + cattiva) strada 20. a volte Paolo cade in (E + trance + in un qualche errore) 21. ogni tanto, Max precipita nella (E + vergogna + sonnolenza) Il faut ici noter plusieurs choses. Les variantes de Vsup sont toutes des emplois verbaux de mouvement et ont toutes des sujets humains obligatoires. Elles donnent alors lieu à des phrases qui ne sont pas idiomatiques et, en même temps, à des phrases idiomatiques. C'est-à-dire qu'elles sont ambigües et interprétables à partir du contexte. 5. Opérateurs métadiscursifs Une autre conséquence découle de l analyse harrisienne pour ce qui concerne la langue parlée et uniquement pour la langue parlée. 7 L'intonation est associée à des caractéristiques de phrases déclaratives, interrogatives et exclamatives, traditionnellement appelées "traits suprasegmentaux". Ces traits ont une pertinence syntaxique complète et, par conséquent, ne peuvent pas être analysés uniquement en termes de phonologie et de prosodie. L'intonation, par exemple, relève aussi de la syntaxe et il en va de même du volume. 8 Pour les langues tonales, par exemple le chinois, on peut dire que le changement de ton cause le changement de catégorie du mot et, donc, le changement de la structure de la forme de phrases. 9 Sur cette base, on peut concevoir les trois traits suprasegmentaux (déclaratif, interrogatif e exclamatif) comme des adverbiaux appliqués sur l opérateur de métalangage I say, de la même façon que les formes anglaises concernant la "Modalité" probably, scarcely, falsely etc., qui correspondent aux énoncés "sémantiques" d Aristote. 10 De telle manière, des phrases comme: 7 Voir Harris (1946) e (1982). 8 Le "ton" est un trait prosodique caractérisé par la variation de la hauteur du son d une syllabe. Dans les langues tonales, le ton est distinctif parce qu'il permet de distinguer les mots homophones, tandis que l accent opère sur une syllabe et l intonation sur la phrase. Le volume, de son côté, est une variation de hauteur de la voix. En effet, il est nécessaire de noter qu'un geste ou une expression du visage peuvent avoir la même valeur. 9 Pour le chinois aussi on peut dire que la différence des tons est un trait socio-linguistique. 10 Voir Harris (1982) par

71 22. si segga! ("je vous ordonne de vous asseoir") 23. si segga!!! ("je vous ordonne de vous asseoir avec plus de force") 24. lei è veramente intelligente! ("avec ironie je vous dis que vous êtes stupide") seraient interprétées comme des opérateurs métadiscursifs de la façon suivante : 11 - je vous dis de vous asseoir avec un ton impérieux correspond au fait que je dis comme un ordre de vous asseoir - je vous dis de vous asseoir avec un volume plus élevé correspond au fait que je vous dis de vous asseoir avec une voix plus forte 12 - je dis ironiquement que vous êtes très intelligent, correspond au fait que je vous dis ça avec un sourire malin En outre, Troubetzkoy (Grundzüge Der Phonologie) avait déjà affirmé, dans les parties concernant la phonostylistique, que "l'appel [est] utilisé par l'orateur pour susciter des émotions et des sentiments chez l'auditeur", comme, par exemple, l'extension de la vocale tonique (beeello!), ou celle d'une consonne initiale (cccaro amico!) ou pour indiquer transport, ironie, irritation, douleur et ainsi de suite. Dans tous les cas, l'analyse fondée sur l'interprétation des caractéristiques suprasegmentaires d Harris est prometteuse pour l étude de la langue parlée, mais elle n'a pas encore été mise au point pour l'italien. Conclusions Elles sont très simples. La première est que les noms opérateurs représentent l absolue majorité du lexique d une langue. La seconde est qu'ils peuvent être aussi bien opérateur de type associatif que non associatifs et, dans d autres cas, même variantes de Vsup. La troisième conclusion est que tout cela s applique soit pour la langue écrite, soit pour la langue parlée. La quatrième, enfin, que les noms opérateurs peuvent jouer aussi le rôle d opérateur méta-discursif pour tous le scas qu on a vu ici. En effet, la difficulté de l analyse, dans les cas présentés, est due à plusieurs questions: a) la taille du dictionnaire des noms ; b) la difficulté de représentation des donnés ; c) la difficulté de calculer la fréquence des noms opérateurs et non opérateurs dans un corpus écrit et parlé, ce qui n est pas simplement une question de statistique Par simplicité nous supprimons l opérateur antécédent I say. 12 La proximité de l auditeur, ou sa présence dans l espace visuel du locuteur, n est pas une question pertinente, parce que rien n'empêche d ordonner quelque chose à quelqu un qui n est pas à côté. 13 Voir D Agostino (1993) dejà cité. 65

72 Références Boons, Guillet, Leclère 1992 J. P. Boons, A. Guillet, Ch. Leclère, La structure des phrases simples en français. Constructions transitives locatives, Droz, Genève D Agostino 1993 E. D Agostino, Sociolinguistica computazionale. Un'applicazione descrittiva al corpus del L.I.P., Ed. 10/17, Salerno D Agostino 2001 E. D Agostino, Le forme lessicali del parlare: analisi quantitativa e qualitativa del parlato italiano, Ed. Scientifica, Napoli D Agostino 2010 E. D Agostino, Variantes de Verbes support et opérateurs aspectuelles, in D. Vitas et C. Krsteva, Proceedings on the 29th International Conference on Lexis and Grammar, Fac. of Mathematics, Univ. of Belgrade, pp D Agostino 2011 E. D Agostino, Lingue e linguaggi, Guida, Napoli Gross 1975 M. Gross, Méthodes en syntaxe, Herman, Paris Harris 1946 Z. S. Harris, From Morpheme to Utterance, in Language, 22, 3, pp Harris 1970 Z. S. Harris, Papers in Structural and Transformational Linguistics, Reidel Publ. Company, Dordrect Harris 1982 Z. S. Harris, A Grammar of English on Mathematical Principles, J. Wiley & Sons, New York La Fauci 1979 N. La Fauci, Costruzioni con verbo operatore in testi italiani antichi, Giardini editori e stampatori, Pisa La Fauci 2000 N. La Fauci, Negatività del dato nella teoria della Gemmazione Predicativa in Forme romanze della funzione predicativa. Teorie, testi, tassonomie, Ed. ETS, Pisa, pp Salvi (2010) G. Salvi, Costruzioni predicative con predicati non verbali, in G. Salvi e L. Renzi, Grammatica dell Italiano antico, il Mulino, Bologna, pp Vivès 1983 R. Vivès, Avoir, prendre, perdre: constructions à verbes supports et extensions aspectuelles, Thèse de doctorat de 3ème cycle, L.A.D.L., Univ. Paris VIII 66

73 Edoardo Lombardi Vallauri Università Roma Tre LEXICALIZATION OF JAPANESE LIGHT VERB CONSTRUCTIONS BETWEEN MORPHOLOGY AND SYNTAX Summary Japanese complex predicates of the type "Verbal Noun + suru ('to do') may be classified (i) either as lexicalized units or as syntactic constructions, and (ii) as compounds activated either morphologically or syntactically. Surupredicates appear essentially in two possible forms: VN-suru and VN-o suru (where -o is an accusative marker). Examination of a set of parameters leads to the conclusion that the two constructions both take an intermediate position between compound words and syntactic structures as concerns lexicalization. At the same time, VN-suru constructions are closer to compounds activated morphologically and VN-o suru to compounds activated syntactically. Keywords: japanese, lexicalization, compounds, syntactic compounds. 1. Light verb constructions in Japanese Today s Japanese forms new verbs almost only by using the light verb suru (do) added to a so-called Verbal Noun (VN). This leads to two different constructions, both intermediate between complex verb phrases on the one hand, and compound verbs on the other. VNs such as benkyoo study and dansu dance build verb phrases meaning to study or to copy : (1) benkyoo-o suru dansu-o suru study-acc do dance-acc do to study to dance and complex predicates without the accusative marker: (2) benkyoo-suru dansu-suru study do dance do to study to dance The patterns described apply to nouns of Chinese or other foreign origin: (3) Sino-Japanese nouns Sino-Japanese nouns annai guide to guide sentaku washing to do the washing benkyoo study to study setsumei explanation to explain denwa telephone to phone shitsumon question to ask questions eigyoo business to do business shokuji meal to have a meal hason damage to damage shucchoo business trip to travel for business junbi preparation - suru to prepare shuppatsu departure - suru to leave keikoku warn to warn soodan discussion to discuss kekkon marriage to get married sooji cleaning to clean kenkyuu research to do research toochaku arrival to arrive ryokoo travel to travel yakusoku promise to promise sanpo walk to take a walk yoyaku reservation to reserve (4) foreign nouns foreign nouns arubaito part-time job to work part-time nokku knock to knock charenji challenge to challenge ranningu running to run dansu dance to dance saikuringu cycling to cycle doraibu drive to drive sutoraiki strike to do a strike janpu jumping to jump taipu type to type kuriiningu cleaning - suru to clean tenisu tennis - suru to play tennis nekutai necktie to tie one s necktie tesuto test to test 67

74 But also, more rarely, to Japanese nouns or phonosymbolic expressions: (5) (6) original Japanese nouns kaimono shopping to go shopping mane imitation - suru to imitate yamanobori mountain climbing to climb mountains Phonosymbolic expressions yukkuri slowly to stay long bonyari absent-mindedly to be absent minded niko niko with a smile - suru to smile waku waku with excitement to be excited chin ding (a mechanical noise) to ding (to microwave) gorogoro purr to be lazy, doing nothing The VN(-o) suru structures have intermediate status between bona fide phrasal constructions and bona fide lexical units (diachronically arising from former compounds) such as the no longer productive verbs in (7) and (8): (7) ai-su to love kai-su to understand shoo-su to call hai-su to bow ka-su to assign to-su to wager ji-su to resign kyoo-su to offer (8) kan-jiru feeling-do, to feel tsuu-jiru passage-do, to pass, to be understood kin-jiru prohibition-do, to forbid zon-jiru knowledge-do, to know shin-jiru faith-do, to believe 2. Morphological or syntactic selection of the Noun? In order to participate in the suru construction, a noun must possess an argument structure. A noun like enpitsu pencil has nothing in its morphological structure that makes it different from, say, joohatsu evaporation, from the point of view of being able to go with suru (Miyagawa 1987), still, this is excluded by the grammar of Japanese: *enpitsu suru. In other words, it is not at the morphological level that a selection applies as to which nouns will enter the construction under examination, but at the syntactic or even semantic level, 1 since projecting an argument structure is strictly connected to describing an action or a process, rather than an object, in reality. This is obviously the reason why those under examination are usually called Verbal Nouns. On the other side, the absence of the accusative marking on the VN (as in (2)) is a sign of morphological formation. The many verbs that allow this must be considered as intermediate (and perhaps moving) between two extremes: the status of compound, and perhaps even derivate verbs, 2 and the condition of syntactic structures. 3. Lexicalization and morphological compoundhood Following the proposal by Gaeta & Ricca (2009), we will try to assess whether suru-verbs can be regarded as "compounds" according to both lexical and morphological criteria, and if they appear to be more tightly bound units (and consequently less syntactic in nature) when regarded from the former or the latter perspective. In other words, we will try to show to which extent the complex verbs under examination can be considered respectively as lexical units and morphological compounds, i.e., on the one hand, if they can be regarded as independent and autonomous units of the lexicon (listemes) rather than as syntactic structures; 1 Of course this doesn't mean that the process by which the formation of such structures takes place is not morphological in nature. 2 Cf. Bauer (2005) on the boundary between derivation and compounding. 68

75 on the other hand, if they are generated by activating a morphological pattern, rather than a syntactic one. Using Gaeta & Ricca s (2009) abbreviations in this sense, we will try to show which ones among the features of suru-verbs can be regarded as (+lex) or ( lex), (+morph) or ( morph) Lexical features (±lex) Some suru-verbs are very common in speech and writing, certainly reaching among the highest frequencies of Japanese verbs overall. This obviously candidates them as lexical units. We will try to check if they also display other (+lex) features Unitary meaning: +lex It wil be argued that the verb suru is a typical light verb, semantically almost empty, which leaves the VN completely free to express its meaning. As a consequence, VN-(o) suru verbs exhibit unitary meaning, which happens to match perfectly the meaning of the VN Compositional meaning: -lex It will be shown that suru-verbs systematically exhibit compositional meaning. This is not in contrast with their meaning being unitary, simply because suru s semantic value is neutral, which makes the compositional meaning of a suru-verb coincide with the predicative version of the VN Sociolinguistic remarks A possible explanation for the striking similarity in meaning displayed by the two suru constructions may be sociolinguistic in nature. The accusative marker o, like the topic marker -wa, can be omitted in informal speech. This means that not only with suru, but with any transitive verb, any Japanese noun can appear as the direct object of a transitive verb without case marking. It will be argued that this whole situation may prevent the two constructions from acquiring significant distance from each other as concerns function and meaning No anaphoric islands: -lex Separate anaphoric reference to the VN is possible in the VN-o suru construction (Lombardi Vallauri 2005: 323): (9) kenkyuu 1 -o shitara sore 1 -ga hyooka sareta research 1 ACC done it 1 NOM appreciation do-pass-past after I had done some research 1, it 1 received appreciation and, more significantly, with VN-suru: (10) kenkyuu 1 -shitara, sore 1 -ga hyooka sareta research 1 done it 1 NOM appreciation do-pass-past after I had research 1 ed, it 1 received appreciation This qualifies both constructions as weakly bound (-lex), since bona fide compounds are usually anaphoric islands in Japanese (Shibatani & Kageyama 1988: 473) Different separability: +lex, -lex While VN-o suru perfectly admits (as in 11) the introduction of linguistic material, VN-suru does not (as in 12): (11) benkyoo -o issho-kenmei shita study-acc with maximal energy did (I) studied hard (12) benkyoo *issho-kenmei shita study with maximal energy did In this respect, while VN-suru verbs behave as autonomous items of the lexicon (+lex), VN-o suru constructions clearly behave the other way (-lex). 69

76 Summary of ±lex features VN(-o) suru constructions seem to occupy an intermediate position between compound words and syntactic structures as concerns lexicalization. There seems to be only a slight difference between the two constructions, namely as concerns separability. This is shown in Table 1 below. Table 1: Lexicalization features VN-suru VN-o suru frequency in the lexicon: high +lex = +lex unitary meaning: yes +lex = +lex compositional meaning: yes -lex = -lex anaphoric islands: no -lex = -lex separability: no / yes +lex -lex 3.2. Morphological features (±morph) The features that can characterize a construction as more or less close to the ideal compound morphologically are more than those that can speak for/against the status of lexical unit. We review some of them here even more shortly than the ±lex ones. Obviously, more space (including full exemplification) will be devoted to them in the oral presentation. With +morph we mean (with Gaeta & Ricca 2009) the fact of being activated morphologically. Still, this may cover at least two senses, namely that of being a morphologically activated compound and that of being a morphologically activated derivate. We will keep the issue in the background, 3 except for shortly mentioning that it can be questioned whether suru should be considered a lexical morpheme or an auxiliary verbal root similar to those expressing past, causative, passive, potential, politeness, etc Constructional valency: +morph Unlike lexical meaning, which we have shown to be compositional and denoting little unity, the kind of external syntactic relations established by suru constructions speak in favour of morphological unity because they can be regarded as constructional : in fact, they can require the presence of syntactic arguments requested neither by the VN nor by suru separately, but by the construction as a whole Tone patterns: +morph, -morph In VN-o suru constructions each word keeps its usual tone pattern, as it normally happens to Japanese words when used in syntax: (13) be-n-kyo-o o su-ru (from be-n-kyo-o and su-ru) L-H- H-H L L-H L-H- H-H L-H On the contrary, N-suru verbs behave as compound words, adopting single-word contours, characterized by the fact that there can be only one stretch of high pitch: (14) se-i-ko-o-su-ru (from se-i-ko-o and su-ru) L-H-H-H-H-H L-H-H-H L-H Pitch patterns can thus be seen as characterizing respectively VN-o suru constructions as morphologically non-compounds (-morph), and VN-suru as compounds (+morph) Structuring by functional words: +morph, -morph (Passim: it will be exposed in the oral communication) Nature of modifiers: +morph, -morph Only adverbs, and not adjectives, can modify suru-predicates (Nakajima 2008:272). This shows that the VN-suru construction works as a verb, its interior remaining opaque to syntax, 3 For wider discussion on such problems, cf. Bauer (2005). 70

77 so that the noun cannot be modified separately. VN-o suru constructions behave in a different way, allowing both adjectival and adverbial modification: (15) Taroo-ga hageshii/hageshiku UNDOO-o shi-ta Taro-NOM hard (AGG/AVV) exercise ACC do-past Taro exercised hard This can be regarded as a further argument characterizing VN-o suru verbs as (-morph) syntactic constructions, VN-suru as (+morph) compounds Partial Modification: +morph, -morph Syntactic modification (by e.g. a genitive, an adjective, a demonstrative) for one element is not allowed in Japanese compounds, and significantly proves impossible also for VN-suru verbs. On the contrary, separate modification of the noun regularly applies to VN-o suru constructions. This can be regarded as a feature clearly separating our two constructions, and characterizing VN-suru verbs as more compound-like (+morph), VN-o suru structures as more syntactic in nature (-morph) Reduplication: -morph Japanese can express repetition or continuity of an action by reduplicating the infinitive form of the predicate. 4 Compound verbs are treated as simple words, i.e. reduplicated entirely, while the repetition of just one element of the compound is not allowed. Interestingly, VN-o suru behave like syntactic predicates, by repeating shii, the infinitive form of suru: (16) dokusho-o shii-shii aruita reading ACC do do walk-past (I) walked, reading Even more interestingly, also VN-suru verbs follow the pattern of syntactic phrases, repeating suru and not the whole complex verb: (17) dokusho-shii-shii aruita reading do do walk-past (I) walked, reading (18) *dokusho-shii dokusho-shii aruita reading-do reading-do walk-past As a whole, the patterns shown in reduplication by both VN-suru and VN-o suru distinguish them from true compounds. We summarize this by the label (-morph) Coordinate Objects: +morph, -morph In VN-o suru constructions the object may be represented by two or more coordinate VNs, as in (19): (19) ashita-wa benkyoo to undoo-o suru tsumori da tomorrow TOP study and training ACC do intention is I intend to study and do training tomorrow The same doesn t hold for VN-suru verbs: 5 (20) *ashita-wa benkyoo to undoo-suru tsumori da tomorrow TOP study and training do intention is Now, since N-V compounds in Japanese are basically made from no more than one noun, we can say that VN-suru verbs are morphologically compound verbs from this respect, while VNo suru constructions are not. 4 Some of the examples given in this paragraph, as well as its central idea, are slightly modified from Kageyama (1977: ). 5 The utterance in (20) obviously becomes acceptable in informal speech, where the omission of the particle -o is generalized (and not limited to our constructions). 71

78 Gapping for the Noun:?morph, -morph This parameter will not give us a clear response, because data tend to be contradictory. As shown by an example proposed by Kageyama (1982), in VN-suru structures gapping for the VN seems to be acceptable: 6 (21) Gakkai de, Amerika-jin wa yoku hatsugen-suru ga, Nihon-jin wa amari Ø-shi-nai conference at Americans TOP often remark-do but Japanese TOP seldom do-not At academic meetings, Americans always speak out, but the Japanese seldom do Kageyama recalls that suru is not used as a pro-verb in Japanese, leading for example to the unacceptability of utterances like (22) (Kageyama (1977: 128; 1991: 179): (22) *Taroo wa hashitta shi, Jiroo mo shita Taro TOP ran and Jiro also did Taro ran and so did Jiro This should mean that the negative form of suru in (21) is lacking its Object, namely the VN hatsugen, in what may be considered a gapping construction. Now, since gapping is not allowed in Japanese for a part of a word, in Kageyama s opinion hatsugen-suru is a compound generated in syntax rather than in the lexicon, which is to say that hatsugen and suru must be regarded as not forming a single morphological word. But a different opinion is put forward by Miyagawa (1987:35-37): if we consider (23), it is clear that coordination in Japanese can arise between two slightly different structures, namely VN-suru and VN-o suru: (23) Gakkai de, Amerika-jin wa yoku hatsugen-suru ga, Nihon-jin wa amari hatsugen o shi-nai conference at Americans TOP often remark-do but Japanese TOP seldom remark ACC do-not At academic meetings, Americans always speak out, but the Japanese seldom do As a consequence, the gapping for hatsugen in Kageyama s example (here, 21) may be seen as occurring with the VN-o suru construction, not with VN-suru. Miyagawa gives evidence to support this hypothesis, represented by the fact that gapping actually seems to be excluded by those VNs that do not allow the VN-o suru structure (like seikoo success ), and allowed by those that can build both constructions (like benkyoo): (24) Taroo wa mainichi benkyoo-suru ga, Hanako wa tokidoki shika Ø shi-nai Taro TOP everyday study do but Hanako TOP sometimes only do-not Taro studies everyday, but Hanako does so only sometimes (25) *Taroo wa itsumo seikoo-suru ga, Hanako wa tokidoki shika Ø shi-nai Taro TOP always success do but Hanako TOP sometimes only do-not Taro always succeeds, but Hanako only sometimes If Miyagawa is right, their behaviour as concerns gapping should characterize VN-suru verbs as morphological compounds (+morph), VN-o suru constructions as syntactic structures (- morph). Still, things seem to be more complicate. Matsumoto (1996) points out that the answer by speaker B in (26) is possible, with gapping showing that the VN rakka fall and suru (which allow rakka-suru but not *rakka-o suru) do not form a single word: (26) A: Sore-wa rakka si-masi-ta ka? it-top fall do-pol-past INT Did it fall? B: Hai, Ø si-masi-ta. yes, do-pol-past Yes, it did. To this, Kageyama (2009:11) replies that the situation is not univocal, because although (26) speaks in favour of a certain degree of syntactic analyzability in rakka-suru, on the other hand the unacceptability of a structure like (27), with gapping for suru, shows its syntactic indeformability: (27) *Akai huusen-wa [rakka-si], aoi huusen-wa [zyoosyoo-si-ta]. red balloon-top [fall-do] blue balloon-top [rise-do-past] The red balloon fell and the blue one went up. 6 Martin (1975: 880) goes in the same direction, specifying that such a gapping is acceptable with what he calls free VNs. We quote ex. (21) directly from Kageyama (1982), and (23-25) from Miyagawa (1987). 72

79 To sum up, we can say that gapping really qualifies VN-o suru constructions as (-morph), but leaves the question open as concerns the status of VN-suru Lexical suppletion: -morph Japanese can express some grammatical categories related to verbal paradigms, such as Politeness or Potential, by means of lexical suppletion, i.e. by employing different verbal roots. Suru is among the verbs involved in this pattern. In honorific contexts, when used as an autonomous verb, it becomes the respectful form nasaru. On the contrary, when appearing in bona fide compounds made with suru, like aisuru and taisuru, it cannot be replaced by nasaru. This can be done, however, in VN-o suru and, more significantly, VN-suru constructions. Both constructions behave the same way as concerns substitution by other suppletive roots, such as the potential dekiru can do and the humble form itasu. As a consequence we can say that the possibility of lexical suppletion seems to count as a (-morph) feature, setting both VN-suru and VN-o suru verbs apart from true compounds, and characterizing them as more similar to syntactic constructions Summary of ±morph features Unlike their status as ±lex lexicalized items, VN-suru and VN-o suru constructions seem to occupy quite different positions between compounds and syntactic structures as concerns (±morph) features. This is shown in Table 2: Table 2: Morphological compound features VN-suru VN-o suru Constructional valency +morph = +morph Reduplication -morph = -morph Lexical suppletion -morph = -morph Tone patterns +morph -morph Structuring by functional words +morph -morph Nature of modifiers +morph -morph Coordinate Objects +morph -morph Gapping for the Noun?morph? -morph As can be seen, there is one feature that qualifies both constructions as morphological compounds, and two features that tend to locate them among syntactically formed structures. These include lexical suppletion, which can be regarded as a central feature of any Japanese verb, equivalent to paradigmatic inflexion in fusive languages. But the other features considered, including key parameters such as tone patterns, structuring by functional words and nature of allowed modifiers, draw a clear boundary between the two constructions. 4. Conclusions As a conclusion, we will summarize our observations about suru-verbs in Japanese as follows: 1. Complex verbs formed with suru must be regarded as intermediate between syntactic phrases and lexicalized items, since, as we have seen in 3.1, they show characteristic features of the one and the other status. But, interestingly, there seems to be very little difference between VN-suru and VN-o suru from this respect, their behaviours being quite parallel. In other words, one can question whether we have to do with lexical units or not, but in any case the answer tends to be the same for both constructions. 2. As concerns morphological vs. syntactic activation, some important features group the two constructions together with syntactic constructions, speaking against their nature of morphological compounds; however, the majority of the features considered draw a boundary between VN-suru and VN-o suru, characterizing the former as morphologically, the latter as syntactically activated compounds. 73

80 References ALFONSO Anthony Japanese Language Patterns. Tokyo: Sophia University. BAUER Laurie The borderline between derivation and compounding. In DRESSLER Wolfgang U., Dieter KASTOVSKY, Oskar E. PFEIFFER & Franz RAINER (eds.). Morphology and its Demarcations. Amsterdam / Philadelphia: John Benjamins BOOIJ Geert forthcoming. Compound constructions in a hierarchical lexicon. DUBINSKY Stanley Syntactic underspecification: a minimalist approach to light verbs. MIT Working Papers in Linguistics DUBINSKY Stanley Syntactic underspecification and light verbs phenomena in Japanese. Linguistics GAETA Livio & Davide RICCA Composita solvantur: Compounds as lexical units or morphological objects?. In Italian Journal of Linguistics 21.1, 2009, pp GRIMSHAW Jane & Armin MESTER Light verbs and theta-marking. Linguistic Inquiry JAKOBSEN Wesley The Transitive Structure of Events in Japanese. Tokyo: Kuroshio. KAGEYAMA Taroo Incorporation and Sino-Japanese verbs. Papers in Japanese Linguistics KAGEYAMA Taroo Word formation in Japanese. Lingua KAGEYAMA Taroo Light verb constructions and the syntax-morphology interface. In NAKAJIMA Heizo (ed.). Current English Linguistics in Japan. Berlin: Mouton de Gruyter KAGEYAMA Taroo Isolate: Japanese. In LIEBER Rochelle & Pavol ŠTEKAUER (eds.). The Oxford Handbook of Compounding. Oxford: Oxford University Press KISHIMOTO Hideki Split intransitivity in Japanese and the unaccusative hypothesis. Language KUBOTA Yoko Grammatica di giapponese moderno. Venezia: Cafoscarina. KUNO Susumu The Structure of the Japanese Language. Cambridge, MA: MIT Press. LOMBARDI VALLAURI Edoardo Gli aggettivi giapponesi fra Nome e Verbo. In SIMONE Raffaele (ed.). Classi di parole e conoscenza lessicale. SILTA LOMBARDI VALLAURI Edoardo Noms verbaux. Le cas du Japonais. In BRION Cécile & Eric CASTAGNE (eds.). Nom et Verbe, catégorisation et référence. Reims: Presses Universitaires de Reims LOMBARDI VALLAURI Edoardo When are phrases compounds? The case of Japanese. In GROSSMANN Maria & Anna Maria THORNTON (eds.). La formazione delle parole. Roma: Bulzoni LOMBARDI VALLAURI Edoardo Lexicalization and morphological activation as criteria for Japanese compound verbs. In Italian Journal of Linguistics, 21, 1, 2009: MATSUMOTO Yo Complex Predicates in Japanese. Stanford, CA: CSLI Publications. MARTIN Samuel E Reference Grammar of Japanese. New Haven: Yale University Press. MIYAGAWA Shigeru Lexical Categories in Japanese. Lingua MIYAGAWA Shigeru Light verbs and the ergative hypothesis. Linguistic Inquiry MIYAMOTO Tadao The Light Verb Construction in Japanese. Amsterdam / Philadelphia: Benjamins. NAKAJIMA Takashi Loan word syntax: a case in the light verb construction. Toronto Working Papers in Linguistics OZUMI Asuka Onomatopee giapponesi: strategie di traduzione nel romanzo e nel manga. In CAROLI Rosa (ed.). Atti del XXXI Convegno di studi sul Giappone. Venezia: Associazione Italiana per gli Studi Giapponesi SHIBATANI Masayoshi The Languages of Japan. Cambridge, MA: Cambridge University Press. SHIBATANI Masayoshi & Taroo KAGEYAMA Word formation in a modular theory of grammar: postsyntactic compounds in Japanese. Language TAMAOKA Katsuo, Chizuko MATSUOKA, Hiromu SAKAI & Shogo MAKIOKA Predicting attachment of the light verb -suru to Japanese two-kanji compound words using four aspects. Glottometrics TSUJIMURA Natsuko 1990a. Ergativity of nouns and case assignment. Linguistic Inquiry TSUJIMURA Natsuko 1990b. The unaccusative hypothesis and noun classification. Linguistics TSUJIMURA Natsuko An Introduction to Japanese Linguistics. Oxford: Blackwell. UCHIDA Yoshiko & Mineharu NAKAYAMA Japanese verbal noun constructions. Linguistics UEHARA Satoshi Syntactic Categories in Japanese: a Cognitive and Typological Introduction. Tokyo: Kuroshio. 74

81 Elia Annibale Monti Johanna Marano Federica Napoli Antonella University of Salerno Monteleone Mario Vellutino Daniela LINGUISTICALLY MOTIVATED KNOWLEDGE MANAGEMENT: EXPLOITATION OF LANGUAGE RESOURCES FOR NLP APPLICATIONS Abstract In this paper we describe how to exploit tailor-made Linguistic Resources (LR) accurately in order to hold up a Knowledge Management System (KMS) with the purpose of implementing human interaction with technologies and of meeting specific knowledge needs. LR developed in this way can be used in Natural Language Processing (NLP) applications, such as: Information Retrieval (IR), Information Extraction (IE), Information Storage, Machine Translation (MT), ontology development, lexicon-dependent Semantic Web, query-free procedures for knowledge structuring, question answering. We also present a methodology for Multiword Unit (MWU) treatment. As a sample, we built a monitor corpus annotated for MWUs using XML and processed it with a Text Classification tool. Keywords: natural language processing, information retrieval, multiword unit, text classification. 1 Introduction In this paper we describe a set of NLP applications achieved by means of LR exploitation and with the purpose of structuring an effective Knowledge Management (KM) system. The explosion of data, together with their criticality and world increasing dependency on digital information, are leading to larger and more complex knowledge management environments that are gradually more challenging to handle. In the digital and new media era, particularly in the www era, it is crucial to know in which manner humans interact with technologies, in order to meet their knowledge needs. In our opinion, the best way to help humans in their relationship with technologies is to develop a coherent and exhaustive natural language formalization and treatment system to be used, on one hand, as an interface between human and machine, and on the other hand, as a tool for KM environments. Our work focuses on the manually-based development of tailor-made LR used in NLP applications: Information Retrieval, Information Extraction, Information Storage, Machine Translation, Ontology Development, Lexicon-Dependent Semantic Web, Query-Free Procedures for Knowledge Structuring, Question Answering. Our LRs are developed according to Lexicon-Grammar Theory (LG). LG provides a theoretical basis allowing to imagine and work towards a linguistically-motivated system in which any type of user is able to obtain the exact information he is looking for. Therefore, in this paper we summarize how to exploit our LR in order to hold up the whole KM system accurately. In this research work we also focus on MWU treatment. Considering that the analysis of large corpora highlights the massive presence of these linguistic forms, MWU recognition is to be considered as a crucial task for NLP activities. To achieve this goal, we built a sample corpus, and in it we annotated all MWUs using an XML tagging: by means of NooJ 1, each compound word has been automatically tagged with 1 See 75

82 the specific attributes of the field of knowledge of Medicine, in order to give semantic values to tags 2. Choosing a specific knowledge domain depends on the empirical observations in real-world texts, which highlight a strict necessity relation between MWUs and Terminology. It is possible to state that from a formal and semantic point of view, terminology fully exploits the procedures of compound word formation, in which a lexical element for instance a noun with a generic meaning such as vessel can be specified by adding other lexical elements, as happens with lymph vessel, blood vessel, arterial vessel, venous vessel, and so on. MWU recognition is also crucial in Text Classification; to achieve it, we used Cataloga 3, a text classification software. 2 Related works on linguistic data treatment for NLP LG is based on morpho-syntactically and semantically tagged electronic dictionaries, syntactic-semantic tables and local grammars. These tools can be used by any kind of intelligent agent to process data and retrieve information by means of semi-automatic or automatic routines. Being a manually based method, LG distinguishes itself from the many not manuallybased methods, which basically rely on statistical approaches to retrieve the same linguistic facts. For instance, Manning et al. (1999) developed a language model in a probabilistic framework: in their vector space model, documents are represented as vectors in a common vector space (Manning et al. 2008). Due to the fact that we present here particular features of NLP i.e. NLP applications in specific domains of knowledge for text classification and for corpus annotation it is important to highlight the strong relationship between terminology, which is a peculiarity of specialized domain lexica, and MWU treatment, which are massively present in specialized texts. For this reason, in this section, we would like to present a review of the main problems related with the notion of MWU, (Downing, 1977; Silberztein, 1993; Sag et al., 2001; Girju, 2005; Laporte et al., 2008; De Bueriis G. and Elia A. eds., 2008). In literature we often find concurrent terms such as compound words, collocations, multiword expressions, but all these terms, even though ambiguous in themselves, all refer to the same concept of string of words in which all elements are related one to the other. A collocation is an expression consisting of two or more words that corresponds to some conventional way of saying things (Manning and Schütze, 1999), that has the characteristics of a syntactic and semantic unit, having an exact and unambiguous meaning or connotation which cannot be derived from the meaning or connotation of its components (Choueka, 1998). Also Sinclair (1991) considers collocations as typical expressions of a linguistic combination principle not bounded by grammaticality constraints. Indeed, Computational Linguistics developed lots of measures of association; an association is any relationship between two measured quantities that renders them statistically dependent. These measures are useful to quantify the strength of the bond between two or more words in a text. But many methods which rely on frequentist or probabilistic approaches to retrieve MWUs do not take into account strings of words referred to as single meaning units in a proper way, even if highly frequent, thus resulting in loss of information. On the contrary, our approach aims at building a linguistically motivated identification of MWUs, on the basis of a systematic and exhaustive formalization of natural language. Unlike Generative Grammars (Chomsky, 1957; 1965) 4, we assume that syntactic rules must take into account lexical phenomena. Of course, while automatic statistical methods get 2 See Tim Berners Lee, Using labels to give semantics to tags ( ) 3 Cataloga is a software developed by Alberto Postiglione, Mario Monteleone and Annibale Elia of the Department of Political, Social and Communication Sciences at University of Salerno. 4 Nevertheless, in the Minimalist Program Chomsky acknowledges that the phrase structure is also derived from the lexicon, thus there is a projection of the lexicon upon the syntax (Chomsky, 1993; 1995). 76

83 almost good results in a faster way, our manual method, even if is time-consuming and much more expensive, gives us more accurate and quite complete results useful to Semantic Tagging practices to give semantics to tags. 3 Methodology Our linguistic methodology is based on the LG theoretical and practical analytical framework. LG theory was set up by the French linguist Maurice Gross during the 60s (Gross, 1968; 1989). It assumes that natural language formal description must start from the observation of lexicon and of lexical entry combinatory behaviours, encompassing syntax and, also, lexicon. It differs from the best known among current linguistic theories, i.e. Chomsky s deep grammar and its various offspring (Chomsky, 1957; 1965), which is strictly formalist and syntaxbased. LG has also reached important results in the domain of automatic textual analysis and parsing, with the creation of software and lingware fully oriented toward NLP, such as INTEX and UNITEX 5, and more recently NooJ and Cataloga. As previously mentioned, LG invests lexicon, and especially the concepts of meaning unit, lexical unit and word group. Of course, the first problem in the MWU treatment is the identification of strings of words properly representing strings of words related to each other. Subsequently, we interpret and formalize the syntactic structure of the collected MWU by classifying them (Harris, 1970) as Part of Speech patterns 6 (POS) and analyzing their semantic properties (Semantic Tagging). Then we define when a MWU is used compositionally or non-compositionally. LRs developed in this way are used in NLP applications and are useful to achieve effective semantic tagging. Furthermore, our research is part of a complex LG study on specialty languages (see also Gross, 1975; Elia, 1984). 4 Resources and Tools Our LRs consist of electronic dictionaries morphologically and semantically tagged; local grammars in the form of Finite State Transducers/Automata (FST/FSA); and tables presenting lexical entry syntactic-semantic properties. An electronic dictionary is a lexical database homogeneously structured, in which the morphologic and grammatical characteristics of lexical entries (gender, number and inflection) are formalized by means of distinctive and non-ambiguous alphanumeric tags. All electronic dictionaries built according to LG descriptive method form the DELA System, which works as a linguistic engine embedded in automatic textual analysis software systems, and parsers. DELA electronic dictionaries are of two types: - simple word (DELAS 135,000 simple words and DELAF 1,200,000 inflected simple words), which include lexical units semantically autonomous and formed by sequences of characters delimited by blanks. This is the case of words such as home and chair; - compound word (DELAC 154,000 compound words and DELACF 480,000 inflected compound words collected in dictionaries of specific domains), which include lexical units composed of two or more simple words having an overall meaning. This is the case of sequences such as nursing home, and rocking chair. As already stated, terminological entries are mainly lemmatized in compound word electronic dictionaries. Together with electronic dictionaries, local grammars are used in NLP routines. Local grammars are useful to cope with specific characteristics of natural language; more appropriately, local grammars design is based on syntactic description, which encompasses transfor- 5 More information on the website 6 According to Manning and Schütze (1999) we consider POS a part of the grammar of a language which includes the lexical entries for all the words in the language and which may also includes other information. 77

84 mational rules and distributional behaviours (Harris, 1957). We develop local grammars in the form of FSA/FST (Silberztein, 1993; 2002). To develop and test electronic dictionaries and local grammars we use two software packages: NooJ and Cataloga. NooJ is a complex NLP environment in which it is possible to automatically read digitized texts and retrieve from them specific linguistic patterns in the form of concordances. NooJ engine is based on the DELA system of electronic dictionaries, on LG syntactic tables and on FSA/FST, developed in the form of graphs and used in LG to parse texts. Cataloga is a software for semantic-based data mining which reads digitized texts matching them with LG terminological electronic dictionaries. At present, it is configured as a stand-alone software which can be integrated in Web sites and portals to be used online. The main linguistic goal of this software is to extract terminology from a given scientific or technological text and to automatically determine, without human reading: - if a given text deals with a generic or a terminological topic; - which is the eventual main specific knowledge domain dealt with in that text; - as for the same text, if other terminological knowledge domains are dealt with, and which statistical relevance they have with reference to the main one. Up to today, Cataloga has been used to analyze large and heterogeneous text corpora. It is important to stress the Cataloga achieves detailed and successful analyses also with very short text files. 5 NLP applications for Knowledge Management LG method gives us the theoretical basis to imagine and work towards a linguistically motivated system in which any type of user is able to obtain the exact information that he/she is looking for. This aim seems easy to obtain. But, the first trial, not yet surmounted, is to digit a query using sentences in natural language; nowadays, humans usually make efforts in translating that query into proper keywords, or even into non-acceptable sequences of nouns and/or adjective which they never would use in ordinary communication. This obstacle, which concerns the questioning-answering issue, could be solved by means of the development, the updating and the application of FST/FSA. A second more important trial is that the outputs are full of noise, and humans have to filter results in order to obtain the information they need. In order to achieve effective IR and IE results, any KM system, whether closed or open (i.e. the World Wide Web), could avoid most of the noise if it worked with ontologies developed taking into account syntactic, lexical and semantic rules (under W3C criteria); or also, if it could be linked to repositories of data and documents to extract proper and updated information (Information Storage Techniques). This sophisticated mechanism could come closer to the project of the Semantic Web (Berners-Lee, 2001). In addition, if we envisage multilingual resources, which follow the above-mentioned criteria, it is possible to improve Machine Translation performances. 5.1 MWU tagging in the Italian DELACF The development and management of an electronic dictionary consist of three main steps: - Lexical acquisition. During this on-going phase, MWUs are extracted from corpora and/or certified glossaries and continuously updated. - Morpho-grammatical and syntactic tagging. Each lexical entry is given an inflectional paradigm, in order to be inflected. The following string gives a sample of this morphogrammatical formalization procedure: facce anteriori dell'iride, faccia anteriore dell'iride, N + Genere = f + Numero = p + Class = NAPN + Term = MED + Eng = facies anterior iridis, Class = NAN The tag N (noun) indicates the grammatical function of the whole compound. The elements that form the morphologic and grammatical patterns of each compound structure - 78

85 NAPN (noun + adjective + preposition + noun), f and p (feminine plural), MED (terminological tag referring to the electronic dictionary of Medicine - are followed by the English translation. - Testing on corpora. The dictionary is used to automatically analyze and process large corpora. 5.2 Structures of the Italian DELACF entries In order to acquire information on compound words formation processes, we identify the typologies of MWU structure in the dictionary, as shown in the following table: N of constituents in the lexical unit bi-gram tri-gram fourth-gram POS tags NA NN NPN NPN NPN NAPN Example aborto spontaneo (MED) interfaccia utente (INF) capacità del disco (INF) cassa di risparmio (ECON) morbo di Crohn (MED) disturbo respiratorio del sonno (MED) fifth-gram NPNPN disturbo da deficit di attenzione (MED) Table 1: Morpho-syntactic subcategories of MWU 5.3 The Italian DELACF of Medicine The following sample of electronic dictionary is an excerpt from our Italian Electronic Dictionary of Medicine and Biomedicine 7 : quarto ventricolo, N + Genere = m + Numero = s + Class = AN + Term = MED pronto soccorso, N + Genere = m + Numero = s + Class = AN + Term = MED malattie infettive, malattia infettiva, N + Genere = f + Numero = p + Class = NA + Term = MED agenti patogeni, agente patogeno, N + Genere = m + Numero = p + Class = NA + Term = MED flora residente, N + Genere = f + Numero = s + Class = NA + Term = MED Furthermore, our LRs also consist of bilingual dictionaries useful for many other NLP applications such as machine translation systems. The following example represents a string extracted from the Italian-English dictionary of Medicine: 7 It s important to specify that our domain dictionaries, collected in the DELAC system, cover about 180 different semantic tags. The most important dictionaries are those of Informatics (54,000 entries ca.), Medicine (46,000 entries ca.), Law (21,000 entries) and Engineering (19,000 entries ca.). Each dictionary has been created and verified under the supervision of domain experts. Subset tags are also previewed for those domains that include specific subsectors. This is the case of Engineering, for which a generic tag ING is used, while nine more explicit tags are used for Acoustic Engineering (ING ACUS), Aeronautics and Aerospace Engineering (ING AER), Chemical Engineering (ING CHIM), Civil Engineering (ING CIV), Mechanical Engineering (ING MECC), Mining Engineering (ING MIN), Naval Engineering (ING NAV), Nuclear Engineering (ING NUCL) and Oil Engineering (ING PETROL). A same formalization was used for Physics, which has been given a generic tag FIS plus more specific tags for Atomic Physics (FIS ATOM), Nuclear Physics (FIS NUCL), Physics of Plasma (FIS PLASMA), Solid-State Physics (FIS SOL) and Subnuclear Physics (FIS SUBNUCL). 79

86 ubriachezze patologiche, ubriachezza patologica, N + Genere = f + Numero = p + Class = NA + Term = MED + Eng = pathologic intoxication, pathologic intoxication, Number = s+ Class = AN uditi cromatici, udito cromatico, N + Genere = m + Numero = p + Class = NA+ Term= MED + Eng = chromatic audition, chromatic audition, Number = s+ Class = AN uditi residui, udito residuo, N + Genere = m + Numero = p+ Class = NA + Term = MED + Eng = residual hearing, residual hearing, Number = s + Class = AN 5.4 NLP applications In order to test our system, we developed a monitor corpus, which we are still updating. It is a part of the Medicine Manual edited by Merck Sharp & Dohme, available on line at The current size of corpus is: Word Forms and Different Tokens. By means of the software NooJ, MWUs were located inside the corpus and transformed into XML tags: each compound was also automatically marked with the label MED (i.e. the tag use for Medicine semantic domain). We retrieved 16% (5,858 occurrences) of MWUs on the total of different tokens, 66% (3,913 occurrences) of which are specific in the Medicine domain. Table 2 displays MWU POS patterns based on their morph-syntactic structure. POS Pattern # MWU % on the total (5,858) # MED MWU % on the total of MED (3,913) NA 4, NPN 1, NN AN Others (Avv., Prep., etc.) / / Table 2: Number of occurrences of MWU by subcategory Furthermore, we performed a Text Classification task on the abovementioned monitor corpus. For this purpose, we used Cataloga, which works as a text classifier. This study intends to highlight the relationship between domain terminology and MWU, which are massively present in specialized texts. In fact, Cataloga classifies texts on the basis of their prevailing semantic field. The results confirm our hypothesis: the relationship between terminology and MWU is high. Table 3 shows the classification outputs. Knowledge domain MWU (average %) Medicine Economics 4.99 Informatics 3.02 Law 2.51 Physics 1.09 Geography 0.65 Navigation 0.46 Zoology 0.28 Sciences & Techniques 0.25 Chemical 0.14 Hydrology 0.13 Optics

87 Microbiology 0.07 Other domains (Engineering, Astronomy, Psychology, Ecology, etc.) 0.02 Table 3: Average of MWU classified in any knowledge domain As shown in the previous table, Cataloga accurately classified texts in the Medicine domain because it recognized a high presence of MWU in that domain. Of course, if in the texts there are MWUs of any other knowledge domain, they are properly recognized and duly classified by Cataloga. 6 Qualitative Evaluation Our approach does not require a statistical evaluation of results but rather a qualitative one. It is a supervised approach based on manually-developed LR, which are exhaustive and further enriched by means of the implementation with institutional and acknowledged lexica under the supervision of domain experts. As a consequence, our resources may be considered as a gold standard useful, for example, in machine learning and/or machine translation systems. In other words, the real evaluation process has to be carried out not on the procedure itself, but on the performativity of electronic dictionaries, which must always be updated to ensure consistent and reliable results. 7 Conclusion and future works To conclude, in this paper we described a linguistic approach to NLP based on the development of well-crafted LR useful in the structuring of an effective Knowledge Management System. This research could head to the improvement of Information Retrieval, Information Extraction, Information Storage, Machine Translation, ontology development, lexicondependent Semantic Web, query free procedures for knowledge structuring, question answering, fostering a better intelligent agent interaction between humans and technology. Besides, we showed a methodology to coherently and completely describe MWU phenomena. Hence, as for the topics dealt with in this paper, our future research perspectives will be focused on the following main themes: - validation and updating of our manually-based LR; - creation and implementation of terminological electronic dictionaries for emerging semantic domains; - enlargement of the monitor corpus in specific domains. In addition, our well-crafted LR, thanks to their specific focus on MWU treatment, could interface with standard languages (OWL) for ontology design: in fact, on one hand we use these dictionaries as semantic-lexical sources for domain ontologies, and on the other hand, we use local grammars to convert logical inferences of ontology in natural language queries. Furthermore, as a future work, we intend to develop a dedicated search engine based on all the previously mentioned NLP applications. 81

88 References Berners-Lee T., Hendler J. & Lassila O. (2001). The semantic web. Scientific American, May. Bloomfield L Language. Henry Holt, New York. Chomsky N.A Syntactic Structures. Mouton, The Hague, Paris. Chomsky N.A Aspects of the Theory of Syntax. MIT Press, Cambridge, Massachusetts. Chomsky, Noam "A minimalist program for lin-guistic theory". En: Hale, Kenneth L. and S. Jay Key-ser, eds. The view from Building 20: Essays in linguistics in honor of Sylvain Bromberger. Cam-bridge, MA: MIT Press Chomsky, Noam The Minimalist Program. Cam-bridge, Mass.: The MIT Press. Choueka Y Looking for needles in a haystack or locating interesting collocational expressions in large textual database. In Proceedings of the RIAO, pp De Bueriis G., Elia A. (eds.) Lessici elettronici e descrizioni lessicali, sintattiche, morfologiche ed ortografiche. Plectica, Salerno. Downing P On the creation and use of English compound nouns. In Language Vol. 53, pp Elia A Le verbe italien. Les completives dans les phrases à un complement, Schena-Nizert, Fasano di Puglia Parigi. Elia A., Bocchino F., Lngella A.M., Monteleone M., Vellutino D. Grammatiche locali per il riconoscimento automatico e la classificazione delle FAQ sull'informazione Comunitaria Europea. In Bolasco, Chiari, Giuliano (eds.), Statistical Analysis of Textual Data, Proceedings of 10th International Conferences Journées D Analyse Statistique des Données Textuelles. LA SAPIENZA - University of Rome Italy, 9-11 June 2010, MILANO: LED Ed. Universitarie Lettere Economia Diritto, vol. 2, p , 2010 Elia A., Marano F. Monteleone M., Sabatino S., Vellutino D. Strutture lessicali delle informazioni comunitarie all interno di domini specialistici. In Bolasco, Chiari, Giuliano (eds.), Statistical Analysis of Textual Data, Proceedings of 10th International Conferences Journées D Analyse Statistique des Données Textuelles. LA SAPIENZA - University of Rome Italy, 9-11 June 2010, MILANO: LED Ed. Universitarie Lettere Economia Diritto, vol. 2, p , 2010 Girju R., Moldovan D., Tatu M., Antohe D On the semantics of noun compounds. Computer Speech and Language, 19: Gross M Grammaire transformationnelle du français. I Syntaxe du verbe, Larousse, Paris. Gross M Méthodes en syntaxe, régime des constructions complétives, Hermann, Paris. Gross M La construction de dictionnaires électroniques. Annales des Télécommunications, vol. 44, n 1-2: 4-19, CENT, Issy-les-Moulineaux/Lannion. Gross M., Halle M. & Schützenberger M.P Formal analysis of natural languages. Proceedings of the first international conference (Paris 1970). The Hague, Paris. Harris Z.S Co-occurrence and transformation in linguistic structure. Language 33, pp Harris Z.S Papers in Structural and Transformational Linguistics. Reidel, Dordrecht. Laporte E., Nakamura T., and Voyatzi S A French Corpus Annotated for Multiword Nouns. Language Resources and Evaluation Conference. Workshop Towards a Shared Task on Multiword Expressions. June pp Manning C.D. and Schütze H Foundations of Statistical Natural Language Processing. The MIT Press Cambridge, Massachusetts, London, England. Manning C.D., Raghavan P. and Schütze H Introduction to Information Retrieval, Cambridge University Press, New York, USA. Sag I.A., Baldwin T., Bond F., Copestake A. and Flickinger D Multiword Expressions: A Pain in the Neck for NLP. In Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002, pages 1 15, Mexico City, Mexico. Silberztein M Dictionnaires électroniques et analyse automatique de textes, Masson, Paris. Silberztein M NooJ Manual. Available for download at: Sinclair J Corpus, Concordance, Collocation. Oxford University Press, New York. Vietri S., Elia A., D'Agostino E. (2004). Lexicon-grammar, Electronic Dictionaries and Local Grammars in Italian, in Laporte, Leclère, C., Piot, M., Silberztein M. (eds.), Syntaxe, Lexique et Lexique-Grammaire. Volume dédié à Maurice Gross, Lingvisticae Investigationes Supplementa 24, John Benjamins, Amsterdam/Philadelphia. 82

89 Elia Annibale University of Salerno - Italy elia@unisa.it ON LEXICAL, SEMANTIC AND SYNTACTIC GRANULARITY OF ITALIAN VERBS Abstract This paper discusses the results of a research conducted on a lexico-syntactic database containing the classification of almost 5,000 monorhematic Italian verbal uses, based on 1,349 total combinatorial properties. In the wake of Maurice Gross s research for French, the lexico-syntactic profiles of these verbs were identified and classified in a matrix form. Our studies highlighted that these profiles tend to be unique, i.e. each verb has its own profile. By means of several examples, this paper presents the evidence of the granularity of verb lexicalsyntactic properties, and shows how syntax seems highly dependent on lexicon and strongly separated from semantics. Keywords: italian lexicon-grammar, lexical-syntactic profile, lexical granularity, syntax granularity, semantic granularity. Introduction On the basis of the availability of the lexico-syntactic information on the combinatorial behavior of Italian language, it is possible to set up macro-intuitive semantic classes which correspond to specific sequences in texts and are therefore automatically recognizable. These macro-semantic classes show that the semantic intuition that drives us to put together certain predicates and their argument is not correlated to the set of syntactic properties of the verbs, nor is it "helped" by it, except in a very superficial way. Let s now focus on a concrete example. 313 verbs enter in a sentence construction of type N0 V N1 a N2, in which N1 is a complement or an infinitive clause and N0 and N2 are human nouns. This sentence construction characterizes the verbs which point to a communicative transfer process between N0 and N2 and belong to class 47 of the Lexicogrammar. The combinatory properties analyzed are 34, the tested sentences are 10,642. Among the analyzed properties there are two interesting ones: 1. N0 V di V0 Inf a N2 =: Max promise a Eva di partire, Eva sussurrò a Max di amarla (Max promised Eva to go, Eva whispered to Max to love her) 2. N0 V di V2 Inf a N2=: Eva intimò a Max di partire, Max sussurrò a Eva di andarsene (Eva ordered Max to go. Max whispered to Eva to leave) These two properties identify three types of verbs: a) with subject of the infinitive clause coreferent with N0 (promettere: 99 verbs) b) with subject of the infinitive clause coreferent with N2 (intimare: 84 verbs) c) with subject of the infinitive clause coreferent with N0 or with N2 (sussurrare: 130 verbs) but at a closer analysis, we observe that the tense of the infinitive may influence the examined properties of type c) with reference to the subject of the infinitive clause of the verb sussurrare: Max le sussurrò che aveva sbagliato a comportarsi così [lui, lei] (Max whispered to her that he/she was wrong in having behaved in this way.) 83

90 N0 =: Num N0 =: il fatto Ch F N0 =: V1 Comp V N0 V che F a N2 N0 V che Fcong a N2 N0 V di V0 Comp a N2 N0 V di V2 Comp a N2 N0 V di V0 Aux Comp a N2 N0 V di V2 Aux Comp a N2 il fatto Ch F a N2 N1 =: se F o se F N1 =: N1 V1-inf Comp N0 V a N2 di Nx Passivo N0 V V= verso animale/umano V -> N N0 Vsup V-N Ch F a N3 N0 V Ch F V -> Nstrum= fusione N0 V C h F ver so N2 N0 V a N1=um N0 V N1 um a N2um N0 V N1 -um a N2um N0 V il fatto Ch F al fatto Che Max le sussurrò di aver sbagliato a comportarsi così [lui,?*lei] (Max whispered to her that he/?*she was wrong in having behaved in this way) Max le sussurrò che si togliesse dalle scatole [*lui, lei] (Max whispered to her to get out of his way [* he, she]) Max le sussurrò di togliersi dalle scatole [*lui, lei] (Max whispered to her to get out of his way [* he, she]) Max le sussurrò che se ne era andato/a con la coda tra le gambe [lui,lei] (Max whispered to her that he/she went off with his/her tail between his/her legs) Max le sussurrò di essersene andato con la coda tra le gambe [lui, *lei] (Max whispered to her that he went off with his tail between his legs) *Max le sussurrò di essersene andata con la coda tra le gambe [*lui, lei,] (Max whispered to her that she went off with her tail between his/her legs) The 130 verbs that may have a double co-reference with the subject of the infinitive clause do not have a homogeneous syntactic behaviour and show fluctuations of acceptability dependent on the tense and the morpho-syntactic structures of the verbs of the complement and infinitive clause. It can be stated that these are not simple dependencies, but complex concatenations of dependencies. At present, to the best of our knowledge, Lexicon-grammar is the only theoretical and methodological approach which takes into account these types of complex concatenations, both lexical and syntactic, in a coherent way. 1. Syntactic individuality of verbs In this paper we present some empirical and descriptive evidences, that derive from the analysis of the lexicon-grammar of the Italian verbs. We will refer to the lexico-syntactic database 1 concerning the classification of almost 5,000 mono-rhematic verbal uses, based on 1,349 combinatorial properties (in all). We classified the verbs in a matrix form (with + and - to indicate the acceptance and the non-acceptance of properties). In the class matrix, each verb is inserted in a row and the properties are placed in columns, so that for each verb there is a line that contains a sequence of + and -, as in the following example: chiedere dire The sequence of + and - is called "lexical-syntactic profile. Starting from a word list of 4,437 verbs, we have made up 68 classes 2, of which 23 with non-elementary arguments which correspond to 2,411 verbal uses (with complement and/or infinitive clauses) and 45 with elementary arguments which correspond to 2,026 (transitive, intransitive, neutral or inaccusative) verbal uses. In order to identify the identical profiles 1 This is for version 1.0, available at 2 A description of the various classes can be found in Elia 2005, although it refers to a previous version of the LG. 84

91 within each class, we developed a program 3 which groups them together within each lexicosyntactic class. The results confirm the situation identified by Gross (1975) for the French language 4, i.e. that, on average, there are not two Italian verbs that share the same syntactic profile. The following table shows the numerical values that we have developed on the basis of the analyses carried out on the syntactic behaviours of the verbs. Table 1 summarizes three separated tables, one for the verbs with complement clause, one for the intransitive verbs and finally one for the transitive verbs. USES PROFILES RATIO % PROPERTIES AVERAGE VERBS WITH COMPLEMENT CLAUSES 57,288 tested sentences 23 CLASSES INTRANSITIVE VERBS 23,827 tested sentences 20 CLASSES TRANSITIVE VERBS 19,453 tested sentences 25 CLASSES ALL VERBS 100,568 tested sentences 68 CLASSES , , , , Table 1: Verbs of LG Table 1 allows to have a general overview of the results of the analysis of all 100,568 sentences on the basis of 1,349 properties (in all) tested on 4,437 verbs. The average of identical syntactic profiles is 1.5. The average of the analysed properties per class is 20. We observed that the increase of 5 analyzed properties increases the rate of difference among syntactic profiles of 0.3 points: this means that the next version of the LG, which will entail a considerable extension of the observed properties (we are considering an average of 40 properties), will probably lead to the identification of the total individuality of the profiles. For each verbal use only one syntactic profile will be determined The granularity of the lexical-syntactic properties At this stage of the LG it is already possible to determine the nature and distribution of lexical and syntactic profiles more precisely. Thanks to the software program developed by Di Maio, we can calculate the consistency and the distribution profile of the groups of profiles within each class. 3 The program was developed by Francesco Di Maio at the Department of Political, Social and Communication Sciences of the University of Salerno. 4 Gross estimated that on average French verbs come in groups of identical syntactic profiles of We are currently normalizing the set of the properties in order to extend its total number to 2,600 properties. In this version of the LG the morpho-syntactic correlations were still analyzed in an episodic way, i.e. only in some classes and not in all of them. The adjectives in morphological connection with verbs have been systematically studied only for Class 41 (see Messina 2010). In addition, the current version of the verbal LG has not been connected to the fragments of adjectival and nominal LG yet (in order to analyse the support verb constructions in which adjectives and nouns have a predicative value: see at least Giry-Schneider 1978, Cicalese 1995, D'Agostino 2007), nor with the LG of multiword verbs (see Vietri 1996, 2004). In the coming years we will provide a more detailed and thorough overview. 85

92 N0 =: Num N0 =: Nnr N0 =: Ch F N0 =: V1 Comp V Prep N1 =: Num Ppv =: gli N1 =: N-um N1 =: il fatto Ch F N0 V a N1 q N0 V in N1 q N0 V (di + da) N1 q Ppv =: (ci + vi) N0 V dal fatto Ch F N0 V Prep N1 di V1 Comp ne V N0 V fr Classe fr classe it Here is a sample page of a class sorted by groups: calere a importer competere a convenir dispiacere a d{plaire frullare a passer importare a importer pesare a peser prudere a d{manger restare a rester rimanere a rester sconvenire a d{convenir $ spettare a appartenir spiacere a d{plaire suonare avvm a sonner ribollire loc bouilloner 34LO riecheggiare loc retentir rimbombare loc gronder rintronare loc r{sonner scintillare loc scintiller scoppiare loc {clater In the first page of class 42, the first group has 13 profiles and the second one has 6 different profiles. Having taken a closer look at the individual groups of profiles present in all the classes we observed the presence of a widespread granularity of the distribution of the properties shared by the verbs belonging to the same class. In other words, there is a very high percentage of specific syntactic properties of individual verbs, of couples and groups of three verbs. Table 2 below shows the presence of identical syntactic profiles in each class. As you can see it can range from few groups with a maximum number of profiles (from 35 to 22) to many groups with a minimum number of them (from 3 to 2) and many more groups with a single profile. GROUP QUANTITY PROFILE QUANTITY PRESENCE IN THE CLASSES 1 35 (47) 1 34 (20UM) 1 27 (20UM) 1 25 (20UM) 1 21 (20UM) 2 22 (48) (11) 3 16 (49) (54) (48B) 1 14 (48B) 7 13 (41)2 (42) (43B) (48)2 (54) 6 12 (41)2 (54) (57) (2) 3 11 (54) (3) (20UM) 4 10 (43B) (57) (20R) (47) 7 9 (43B) (56)2 (58)2 (20R) (21A) 15 8 (41)3 (43B) (47)4 (49) (54) (55) (57) (58) (2B) (21A) 23 7 (41)4 (43)7 (43B) (48) (48B) (49) (56)2 (57)2 (58) (2) (2A) (20UM) 18 6 (41) (42) (43B) (47)2 (49) (57)2 (58) (1) (2)2 (11) (12) (20i) (20R)2 (21A) 25 5 (41)5 (43) (43B) (47) (48)3 (48B) (50) (51)3 (52) (56) (20B)2 (10) (20A) (20L) (23D)2 86

93 61 4 (41)12 (42) (43) (43B)2 (47)4 (48)2 (50) (52) (54) (55)2 (56) (57)6 (58) (2)4 (2A)2 (2B)2 (3A) (5A) (8) (9)2 (11)3 (18) (19) (20L) (20NR) (20R)2 (21) (21A) (22) (41)17 (42)3 (43B)5 (44B)2 (45) (46)4 (47)10 (47B) (48) (48B)2 (49)3 (50)2 (58)4 (51) (53)2 (54) (55)4 (56)4 (57)5 (58)3 (1)2 (2)2 (2B) (6) (7S) (8) (9) (11)3 (12)2 (16A) (18) (19) (20A)4 (20i)3 (20R)5 (20UM) (21) (21A)3 (22)2 (27) (31A) (41)50 (42)8 (43)26 (43B)2 (44) (44B)4 (45)3 (45B)2 (46)4 (47)25 (47B)8 (48)5 (49)11 (50)2 (51)3 (53)2 (54) (55)3 (56)2 (57)14 (58)12 (1)4 (2A)9 (2B)4 (3)6 (3A)2 (4)3 (5)2 (5A)4 (6)4 (6A) (7D)3 (7DP)6 (7P) (7S)4 (8)6 (9)4 (10)8 (11)7 (16A)2 (16)2 (17)2 (18)3 (19)3 (20A)2 (20i)2 (20L)3 (20NR)6 (20R)10 (20UM) (21)4 (21A)4 (22)14 (23D)6 (24)4 (27)3 (28ST) (28)2 (30) (31) (31A) (41)270 (42)66 (43)217 (43B)35 (44)31 (44B)30 (45)22 (45B)19 (46)12 (47)123 (47B)14 (48)22 (48B) (49)28 (50)29 (51)11 (52)5 (53)18 (54)6 (55)5 (56)16 (57)43 (58)40 (1)10 (2)61 (2A)7 (2B)10 (3)22 (3A)2 (4)25 (5)20 (5A)14 (6)14 (6A) (7D)31 (7DP)58 (7P)23 (7S)30 (8)41 (9)53 (10)35 (11)17 (12)3 (16A)39 (16)18 (17)21 (18)27 (19)8 (20A)23 (20i)6 (20L)25 (20NR)67 (20R)32 (20UM)7 (21)14 (21A)20 (22)25 (23D)35 (24)64 (27)28 (28SC)31 (28ST)10 (28)58 (29)17 (309)20 (31)42 (31A)6 Table 2: Groups and Profiles Table 2 is significant for the granularity of the lexical-syntactic properties of verbs. Overall, we observe that 2,221 groups over 2,852 are unique profiles. Therefore almost 78% of the groups of the syntactic profiles concerns a single verb. This confirms that, on the level of simple sentences, the syntax of verbs is almost entirely dependent on a lexical idiosyncrasy. 3. The search for convergence among lexicon, syntax and semantics Despite the apparent lexical granularity of the verbal syntax, we wanted to analyze the distribution of the syntactic profiles, looking for sub-classes of semantic-syntactic convergences and divergences. Keeping ourselves into the average number of tested properties we observed that many groups of identical syntactic profiles do not correspond to groups of semantic convergence, as it is the case of these 12 verbal uses of Class 41 which are syntactically similar : affaticare, depravare, disacerbare, emancipare, emarginare, raffinare, raffreddare, riabilitare, spersonalizzare, spoliticizzare, svagare, traviare These verbs do not show any similarity in meaning, apart from a general causative "psychological" interpretation, in sentences such as Guardare la televisione (affatica, deprava, ) i ragazzi. A small group of 9 uses of Class 20R with the same syntax profiles has a stronger semantic divergence: bocciare, brillare, coltivare, prescrivere, presentare, proiettare, riparare, rivoltare, soffriggere. One of the most significant examples of syntactic and semantic convergence is represented by 35 verbal uses of class 47: balbettare, barbugliare, barrire, belare, vagire, vomitare. These verbs indicate animal sounds, noises and sounds in general, which, in special circumstances, take an infinitive sentence or a complement clause. By examining the different classes according to the groupings of identical syntactic profiles we have extracted three lists of groups on the basis of an initial intuitive analysis performed according to three criteria: 1.Syntactic and semantic similarity (avvenire, capitare, succedere), 2. Syntactic similarity and semantic differences (indossare, parlare, sapere, scordare), 3. Syntactic differences and semantic similarity (allietare, rincuorare, rinfrancare). The result is that, on average, there are many groups with a maximum amount of two or three verbs. 4. The macro-semantic classes 87

94 The search for correlations and convergences between meanings and syntactic forms for the verbs did not produce any significant results. The picture that emerges is that of a quantitatively and qualitatively weak convergence. Above all, apart from a few examples, there is no apparent systematic principle and the convergences, if present, show a casual and episodic trend. The syntax is highly dependent on the lexicon and strongly separated from semantics. In the LG research 6 we showed that, in spite of this dependence and this separation, on the basis of the availability of the lexico-syntactic information on the combinatorial behaviour of the Italian language starting from the verbs, it is possible to set up macro-intuitive semantic classes which correspond to specific sequences in texts and are therefore automatically recognizable. In this section we present eight macro-semantic classes of verbs (on the total of 4.437), built from the items which are in several lexical-syntactic LG classes. In many cases, the semantic classes coincide with classes or parts of lexico-syntactic classes or groupings of several classes. With the abbreviation c.p. we mean constant properties (all + or all -) and with tot.p. we mean the total properties; % indicates the ratio between c.p. and tot.p. The lower is the value of the percentage (%), the more arbitrary is the syntactical / semantic correlation. 1. Class of meteorological verbs pertinent total c. p. tot. p. % Class 1 (V: piovere) Class of psychological verbs (sentiments, sensations, esthetical/moral judgments) pertinent total c. p. tot. p. % Class 41 (Ch F V Num1: angosciare) ,2 Class 42 (Ch F V Prep Num1: piacere) ,7 Class 43 (N0 V Ch F, Num1: amare) ,2 Class 43 B (biasimare) ,58 Total ,37 3. Class of body verbs pertinent total c. p. tot. p. % Class 18 (Num0 V Num1 LocN2pc: baciare) ,3 Class 19 (Num0 V N1pc: spettinare) ,26 Total ,28 4. Class of creation verbs pertinent total c. p. tot. p. % Class 20 (Num0 V N-um1: creare) ,4 5. Class of epistemic verbs (knowledge, perception, memory, deduction) pertinent total c. p. tot. p. % Class 43 (Num0 V Ch F: sapere) ,05 Class 43 B (fraintendere) ,1 Class 54 (N0 V Ch F Prep N2: dedurre) ,47 Total ,16 6. Class of personal transfer verbs (someone transfers something to someone else) pertinent total c. p. tot. p. % Class 23D (Num0 V N1 a Num2: dare) ,1 Class 23R (Num0 V N1 da Num2: ereditare) 6 See Gross 1981, Elia, D'Agostino 1983; for applications on the possibility of automatically identifying semantic predicates and their arguments, see Elia, Vietri 2010, Elia et al

95 ,1 Class 23Ra (Num0 V N1 a Num2: rubare) ,1 Class 24 (Num0 V Nun1 di N2: rifornire) ,36 Total ,19 7. Class of communication transfer verbs (someone communicates something to someone else) pertinent total c. p. tot. p. % Class 47 (Num0 V Ch F a Num2: dire) ,08 Class 47B (estorcere) ,1 Total ,1 8. Class of locative transfer verbs (displacement, movement, direction) pertinent total c. p. tot. p. % Class 7D (N0 V Loc N1: entrare) ,02 Class 7P (N0 V Loc=:daN1: provenire) ,05 Class 7DP (N0 V Loc N1 Loc N2: andare) ,04 Class 7S (N0 V Loc N1 scenico : naufragare) ,04 Class 8 (N0 V statico Loc N1: abitare) ,02 Class 16A (N0 luogo V N1: eruttare) ,05 Class 20L (Num0 V N1 luogo : attraversare) ,06 Class 28 (Num0 V N1 Loc N2 destinazione : mettere) ,09 Class 28SC (N0 V N1 Loc N2 luogo : localizzare) ,1 Class 28ST (N0 V statico N1 Loc N2 luogo : mantenere) ,2 Classe 29 (Num0 V N1 Loc N2 provenienza : tagliare) ,2 Classe 30 (N0 V N1 Loc N2 Loc N3: scagliare) ,03 Classe 57 (Num0 V Loc N1, a VinfW: correre) ,1 Classe 58 (N0 V N1 Loc N2, a Vinf W: accompagnare) ,1 Total ,08 We can observe that the ratio between the constant properties and the total properties is always very low. In particular, the verbs of locative transfer (711 in all) is only equal to The class of verbs of personal transfer (99 in all) also has a low ratio (0.19). We recently developed an application for the recognition of the transfer predicates and their arguments that works fine (more than 90% recognition of predicates and of their arguments in the Italian Civil Code 7 ). These macro-semantic classes show that the semantic intuition that drives us to put together certain predicates and their argument is not correlated to the set of syntactic properties of the verbs, nor is it "helped" by it, except in a very superficial way, indeed we might say that the granular nature of the syntax in the lexicon would be an obstacle for a mind that is organized in an efficient and rigorous logic way. 7 It is Elia et al. 2010, Elia, Vietri

96 Bibliography Cicalese, A., (1995), L'analisi dei nomi operatori con il verbo fare, in E. D'Agostino, a cura di,tra sintassi e semantica. Descrizione e metodi di elaborazione automatica della lingua d'uso, ESI: Napoli, D'Agostino, E. Elia, A. (1983), Lessico e sintassi dei locativi in italiano, in AAVV, Italia linguistica: idee, storia strutture, il Mulino: Bologna D Agostino, E. (2007), Classificazioni grammaticali: ovvero come liberarsi dall angoscia, in Elia A., Landi A., a cura di, Testualità. Testo materia forme, Quaderni del Dipartimento di Scienze della Comunicazione dell Università di Salerno, Carocci: Roma Di Maio F. (in press), Metodi per l estrazione di profili sintattici dal Lessico-grammatica, in Studi Italiani di Linguistica Teorica e Applicata in press Elia A. (2005). Lessico Grammatica dell'italiano, in: De Mauro T.,Chiari I., a cura di, Parole e numeri. Analisi quantitative dei fatti di lingua, Aracne Editrice: Roma Elia A.; Vietri S. (2010). Lexis-grammar and Semantic Web, in Infoteka, pp.15a- 38a, Vol. XI,1 Elia A., Postiglione A., Vietri S., Monteleone M., Marano F.(2010), Data Mining Modular Software System, in: AA.VV, WorldComp luglio 2010, pp , CSREA Press: Las Vegas Giry-Schneider, J. (1978), Les nominalisations en français. L'opérateur FAIRE dans le lexique, Droz:Genève Gross, M. (1975), Méthodes en syntaxe, Hermann: Paris Gross, M. (1981), Les bases empiriques de la notion de prédicat sémantique, in «Langages» n. 63, Larousse : Paris Messina S. (2010), L aggettivalizzazione nel lessico-grammatica della lingua italiana: la classe AG41, in stampa. Vietri, S. (1996), The syntax of the Italian verb essere Prep, in Lingvisticae Investigationes, XX:2 Vietri, S., A. Elia, E. D'Agostino, (2003), Lexicon-grammar, Electronic Dictionaries and Local Grammars in Italian, in Laporte, Eric, Christian Leclère, Mireille Piot & Max Silberztein (eds.). Syntaxe, Lexique et Lexique-Grammaire Volume dédié à Maurice Gross. Lingvisticae Investigationes Supplementa 24, John Benjamins Publishing : Amsterdam/Philadelphia Vietri S. (2004), Lessico-grammatica dell italiano. Metodi, descrizioni, applicazioni, UTET, Torino 90

97 Fista Evangelia Université Aristote de Thessalonique Kyriacopoulou Tita Université Paris-Est Marne-la-Vallée Tziafa Eleni Université Aristote de Thessalonique LES NOMS PREDICATIFS DANS LA LANGUE SPECIALISEE DE LA BOURSE Résumé En nous appuyant sur un corpus de textes boursiers, nous nous proposons d étudier les noms prédicatifs (Npred) et plus précisément les constructions à verbe support (CVS) du type Vsup + Npred comme p. ex. θάλω απνϋινπνίεζε (procéder à la dématérialisation), θάλω ξεπζηνπνίεζε (procéder à la liquidation), ζπλάπηω ζπκθωλία (conclure un accord), etc. Nous avons mené notre recherche sur un corpus de textes boursiers d une taille de 40 millions de mots ce qui nous a permis d extraire cent cinquante Npred que nous avons par la suite repartis en cinq tables suivant la méthodologie du Lexique-Grammaire développée au sein du LADL 1. Ce travail fait partie d une thèse de doctorat cofinancée par l Union Européenne et par l État Grec, dans le cadre du programme «Heracleitus II. Investing in knowledge society through the European Social Fund» de «Education and Lifelong Learning», «National Strategic Reference Framework (NSRF)». Mots-clés : noms prédicatifs, verbes supports, langue spécialisée, corpus boursier. 1. Introduction Les langues spécialisées représentent une source de difficultés essentielle pour le Traitement Automatique des Langues (TAL), la récupération de l information (Information Retrieval), la terminologie, la traduction. Pour les applications informatiques, un problème commun pour toutes les langues, qu elles soient générales ou spécialisées, est la description formelle des Npred et des verbes supports appropriés. Des travaux sur la reconnaissance des constructions à verbe support pour le français (E. Laporte et al. 2008), ont démontré l utilité des ressources lexicales du DELAF 2. A cette fin, nous avons recensé les données linguistiques et puis nous avons décrit les propriétés syntactico-sémantiques des Npred, présentes dans le corpus boursier. A titre d exemple, les Npred apparaissent dans des phrases de type : (1) H εηαηξεία έθαλε ξεπζηνπνίεζε ηωλ θιαζκαηηθώλ ππνινίπωλ (La société a effectué la liquidation des fractions) (2) H ζύκβαζε νξίδεη ην δηθαίωκα ιήμεο ηεο ζύκβαζεο (La convention définit le droit de résiliation du contrat) (3) Oη κεηνρέο έρνπλ εηζαρζεί πξνο δηαπξαγκάηεπζε ζε νξγαλωκέλε αγνξά (Les actions sont admises à la négociation sur un marché réglementé) Dans les exemples (1), (2) et (3) nous avons affaire à des Npred qui relèvent de la langue générale mais, le plus souvent, l on rencontre à côté d un Npred, des verbes supports et des compléments spécifiques au domaine boursier 3. Par conséquent, pour la construction des 1 Cf. Bibliographie générale du LADL sur le site web de l Equipe d Informatique linguistique du Laboratoire d Informatique de l IGM (Université de Marne-la-Vallée) : 2 Dictionnaire morpho-syntactique qui contient entrées. 3 Cf. les travaux de M-C. L Homme (1998) sur les verbes spécialisés. 91

98 tables du lexique-grammaire des Npred nous nous sommes basés sur le corpus boursier que nous présentons en détail à la section 2. Dans le cadre de cet article, nous avons extrait à l aide de Unitex 4, les Npred du vocabulaire boursier et ensuite nous avons procédé à leur description suivant la méthodologie du lexique-grammaire tout en prenant en compte leurs spécificités morphologiques, sémantiques et leurs cooccurrences dans le domaine de la Bourse. A la section 2 nous présentons notre corpus. A la section 3 nous présentons brièvement le cadre théorique de notre recherche ainsi que les spécificités des Npred de notre étude. A la section 4 nous présentons les tables des Npred du domaine boursier. Nous concluons en présentant quelques perspectives. 2. Corpus boursier Notre corpus est constitué de textes écrits tirés de sources et de registres très divers, spécifiques au domaine boursier, collectés de 1999 à 2010, une période marquée par deux crises majeures en Grèce, la crise boursière et la crise de la dette. Le corpus sur lequel nous travaillons compte approximativement 40 millions de mots. Même si, à l heure actuelle, certains corpus de la langue générale (en principe en anglais) sont de très grande taille 5, un corpus spécialisé est considéré représentatif, s il contient entre et mots (Bowker & Pearson 2000, Williams 2002). Or, nous pouvons considérer que notre corpus est relativement de grande taille pour la langue grecque étant donné que l anglais s impose de plus en plus comme la lingua franca des marchés internationaux suite à l acquisition des Bourses Européennes par la Bourse de New York. Ce corpus se compose de quatre sous-corpus de textes grecs 6. Le sous-corpus A est constitué de messages publiés dans les débats publics dans deux forums sur internet, tous deux, consacrés à la bourse. Ce genre de forum est apparu en Grèce les trois dernières années. Le sous-corpus B provient de textes journalistiques, numérisés et couvre la période Il a été complété par des articles sous format électronique de 2000 à 2010, écrits dans le même registre de langue. Le sous-corpus C provient du site de la Bourse d'athènes et contient des avis, des rapports annuels et des articles parus en Le sous-corpus C pourrait constituer une base pour une étude plus approfondie des textes parallèles, puisque les textes inclus sont accompagnés de leurs traductions en anglais. Le sous-corpus D contient des textes académiques essentiellement axés sur les marchés monétaires et les marchés boursiers dérivés, fournis à partir de modules universitaires. De plus, ont été utilisés des thèses de troisième cycle et de doctorat, disponibles en ligne. Tous les textes du corpus boursier ont été automatiquement annotés de catégories grammaticales et sont lemmatisés sous Unitex. Ainsi, nous avons extrait les collocations verbo-nominales, les locutions verbales, figées ou semi-figées et par la suite nous nous sommes intéressés à l analyse des CVS. Il est à noter que dans notre corpus de travail, les Npred constituent le 10% de mots Le corpus Google Books (American English) contient 155 milliards de mots (disponible sur le site : et le corpus présenté par J. Pomikalek (BiWeC) contient à l heure actuelle 5,5 milliards de mots. 6 Cf. D. Goutsos (2003), J. Sinclair (2005). 92

99 3. Lexique-grammaire des Npred du domaine boursier 3.1. Cadre Théorique Pour faire une description des Npred du domaine de la Bourse, nous avons adopté l approche théorique globale de Z. S. Harris (1951, 1952) et la méthodologie du lexique-grammaire élaboré par M. Gross (1981). La notion de verbe support apparaît pour la première fois vers la fin des années soixante-dix dans des publications du LADL 7, dans A. Daladier (1978) et J. Giry-Schneider (1978b), et elle se précise dans M. Gross (1981) 8. En ce qui concerne les Npred, nous nous appuyons sur les travaux menés au sein du LADL pour le français et sur ceux effectués pour le grec par A. Fotopoulou (1989), S. Theodorou (1992), A. Moustaki (1997), E. Lambrou (1997), E. Sklavounou (1994), T. Kyriacopoulou et V. Sfetsiou (2002), V. Sfetsiou (2007), E. Fista et T. Kyriacopoulou (2009). Dans la construction à verbe support, le nom prédicatif est considéré comme le pivot de la phrase. C est lui qui sélectionne ses arguments Spécificités des Npred Le recensement des Npred du vocabulaire spécialisé boursier a été effectué en 3 étapes. Lors de la première étape, à l aide du système Unitex nous avons collecté plus de occurrences comportant le verbe θάλω (faire) dans le corpus boursier de 40 millions de mots mentionné dans la section 2. Pour ce qui est de la seconde étape, nous avons utilisé le dictionnaire électronique du grec (DELAFGR) des Npred (cf. V. Sfetsiou 2007) et le dictionnaire électronique boursier (cf. E. Tziafa 2005) et nous avons ainsi extrait 150 Npred qui sont actualisés par le verbe support θάλω (faire), sa variante πξνβαίλω ζε (procéder à) et des synonymes possibles appartenant éventuellement à des niveaux de langue particuliers. A la dernière étape, à partir des critères formels (J. Giry-Schneider 1978b), nous les avons soumis à l examen systématique dans notre corpus pour mieux rendre compte du fonctionnement des Npred dans la langue spécialisée de la Bourse. Pour la classification des CVS du type θάλω (faire) + Npred du domaine de la Bourse, nous nous sommes basés sur la classification faite par V. Sfetsiou (2007) pour les CVS du grec moderne 9. Pour ne pas perdre des informations linguistiques, nous avons ajouté des propriétés morphologiques et syntactico-sémantiques apparaissant dans le corpus boursier. En général, les Npred entrent dans les constructions suivantes: θάλω (faire) + Npred θάλω (faire) + Npred Prep N1 θάλω (faire) + Npred Prep Ν1 Prep N2 Certains Npred du domaine de la Bourse acceptent comme argument un substantif qui dénote une valeur (Νvaleur), comme κεηνρή (action), δείθηεο (indice) etc. Concernant les constructions étudiées, ce substantif peut apparaître soit en position sujet (Ν0) soit en position complément prépositionnel (Ν1 ou Ν2). Cette marque sémantique ne désigne pas obligatoirement une valeur monétaire mais elle peut se référer à un indice boursier, mesurable en unités ; c est le cas dans les exemples (4) et (5): (4) Ο δείθηεο Dow Jones έθαλε κηα ηζηνξηθή βνπηηά (L'indice Dow Jones a connu un plongeon historique) 7 Laboratoire d Automatique Documentaire et Linguistique. 8 La bibliographie du L.A.D.L. sur les verbes supports est très abondante. Pour ne citer que les travaux non liés directement à un verbe support donné, voir, entre autres, M. Gross (1991), M. Gross (1994), G. Gross (1993), G. Gross et R. Vivès (1986), A. Guillet (1993) et notamment, le numéro 121 de Langages, édité par A. Ibrahim (1996), consacré aux verbes supports. 9 Selon P. Lerat (1995) la spécificité des langues de spécialité réside plutôt dans les emplois spécialisés et les usages que l on fait de la langue générale dans des contextes particuliers. 93

100 (5) Τν ρξεκαηηζηήξην ηνπ Παξηζηνύ έθιεηζε κε άλνδν (La Bourse de Paris a terminé en nette hausse) De plus, la plupart des compléments qui acceptent cette propriété peuvent accepter aussi des déterminants numériques comme en (6) : (6) O CAC 40 έθιεηζε κε ειαθξά άλνδν 0,25% ζηις 3.908,58 μονάδες (Le CAC 40 a terminé en légère hausse de 0,25% à 3.908,58 points) Νous avons jugé utile d insérer dans nos tables du lexique-grammaire des Npred, une colonne où sont notés tous les termes étrangers utilisés dans le vocabulaire boursier comme split, deal, bid etc. et une autre où sont représentés les termes grecs équivalents. Par exemple : ζπάζηκν / δηάζπαζε / fracture / split, ζπκθωλία / contrat, etc. Pour que la description des Npred soit complète, nous avons décrit toutes les variantes graphiques des Npred comme ξηκπάνπλη / rebound, split / ζπιηη, spread / ζπξελη. Dans nos tables, nous avons explicité les emplois métaphoriques des Npred. Nous considérons les métaphores comme des variations de distributions qui sont susceptibles d avoir un impact sur le comportement syntaxique du Npred. Voici un exemple : (7) Η κεηνρή έθαλε άικα έωο θαη 5,5% (L action a affiché un bond de 5,5%) Après examen de notre corpus, il en résulte que certains Npred de cette table sont aussi actualisés par les verbes supports έρω (avoir) et είκαη (être). On pourrait ainsi considérer que les constructions (8a), (8b) et (8c) sont sémantiquement équivalentes : (8) a. Ο δείθηεο X έθαλε άλνδν (L indice X a enregistré une hausse) b. O δείθηεο X είρε άλνδν (L indice X a eu une hausse) c. O δείθηεο X είλαη ζε άλνδν (L indice X est en hausse) Enfin, nous avons remarqué que certaines constructions à verbe support θάλω (faire) admettent plus naturellement la forme du passif γίλνκαη (devenir) 10. Par exemple : (9) H εμαγνξά ζα γίλεη κε αληαιιαγή κεηνρώλ (Le rachat se fera par échange d'actions) Dans les tables du lexique-grammaire des Npred, nous avons représenté en colonnes les verbes supports θάλω (faire) έρω (avoir), είκαη (être) ainsi que d autres verbes supports 11, 10 Il faut souligner qu en grec moderne, le verbe θάλω (faire) n a pas de forme passive associée. Ainsi, dans une construction passive, il n apparaît plus comme θάλω mais comme γίλνκαη (devenir) (cf. T. Kyriacopoulou & V. Sfetsiou 2002). 11 Les verbes qui peuvent entrer dans la construction à support en français sont nombreux : A. Daladier (1978 : 23) en a la première, dénombré 14 (faire, donner, mettre, passer, pousser, prendre, tirer, tenir, poser, porter, prêter, avoir, être et lancer). Selon A. Ibrahim (2000: 89) «Gaston Gross en 1998 en comptait 98» et A. Ibrahim en a listé plus de 80, «des verbes ayant un éventail plus ou moins large d emplois comme verbes supports accuser, administrer, adopter, adresser, afficher, allonger, apporter, arborer, assurer, avancer, avoir, commettre, connaître, développer, dire, dispenser, donner, émettre, engager, entrer, éprouver, établir, être etc. 94

101 dont le nombre s élève à 64 à savoir: πξνρωξώ ζε (procéder à), πξαγκαηνπνηώ (effectuer), αλνίγω (ouvrir), δίλω (donner), θιείλω (fermer), ζπλάπηω (conclure), επηρεηξώ (entreprendre), επηηπγράλω (réussir), δηαπξαγκαηεύνκαη (négocier), θξαηώ (tenir), αλαθνηλώλω (communiquer), παξνπζηάδω (présenter), θαηαγξάθω (enregistrer), γίλνκαη (devenir) etc. Pour extraire ces 64 verbes supports nous nous sommes servis de la liste de 150 Npred de la langue spécialisée de la Bourse. Le concordancier de Unitex nous a permis d obtenir des constructions V+Npred à partir de notre corpus boursier, de collecter les verbes susceptibles d être des candidats verbes-supports et de procéder par la suite à leur validation suivant des critères formels. De plus, dans les tables du lexique-grammaire des Npred du domaine boursier, nous faisons figurer en colonne des exemples attestés, tirés de notre corpus, illustrant les principales formes de phrases associées aux emplois des Npred correspondants. Ces colonnes nous aideront à compléter la description linguistique des noms prédicatifs du domaine de la bourse en vue du traitement automatique des langues (TAL). Donnons un extrait du lexiquegrammaire des Npred : Table FNPN: Extrait du lexique-grammaire des Npred 4. Présentation des tables de Npred Après avoir étudié les 150 Npred extraits du domaine de la Bourse, nous les avons classés dans 5 tables que nous présentons par la suite : La table FN : à l heure actuelle, la table FN regroupe 30 Npred à construction de base θάλω (faire)+npred. Par exemple : (10) Η κεηνρή X έθαλε άλνδν (L'action X a fait des hausses) En ce qui concerne la distribution du sujet N0, ce dernier peut être dans tous les cas soit humain (N0hum) soit non humain (N0hum) ou encore un nom dénotant une valeur (Nvaleur). A noter également que certains Νpred qui s actualisent aussi avec le verbe support έρω (avoir) peuvent s actualiser, sans aucun changement sémantique, avec les Vsup ζεκεηώλω (noter), εκθαλίδω (afficher), παξνπζηάδω (présenter). Ainsi : θάλω άλνδν έρω άλνδν ζεκεηώλω άλνδν εκθαλίδω άλνδν παξνπζηάδω άλνδν 95

102 (enregistrer une hausse avoir une hausse noter une hausse afficher une hausse présenter une hausse) La table FNPN : Nous avons recensé dans cette table 20 Npred qui entrent dans des constructions de type N0 και N1 θάλω (faire) Npred et Ν0 θάλω (faire) Npred κε (avec) Ν1. Par exemple : (11) Οη επελδπηέο πξνηηκνύλ λα θάλνπλ ηε δηαθνξνπνίεζε ηνπ ραξηνθπιαθίνπ ηνπο (Les investisseurs préfèrent procéder eux-mêmes à la diversification de leur portefeuille) La table FNAN : Dans cette table, nous avons répertorié 75 Npred du type : θάλω (faire) Npred ζε Ν1 ou θάλω (faire) Npred Ν1gen. Par exemple : (12) H εηαηξεία κπνξεί λα απνθαζίζεη λα πξνβεί ζηελ απνπιεξωκή όιωλ ηωλ νκνιόγωλ (La société peut décider de procéder à l'amortissement de la totalité des titres) La table FNDNAN : Elle regroupe 50 Npred qui acceptent dans leur construction de base un complément N1 au génitif et un complément prépositionnel introduit par la préposition ζε (à): θάλω (faire) Npred N1 gen ζε (à) N2. Par exemple : (13) Tν κέξηζκα ην νπνίν πξνηείλεηαη από ηελ εηαηξεία ζα είλαη 0.50 Επξώ αλά κεηνρή, δίλνληαο απόδνζε ηεο ηάμεο ηνπ 7,8% (Le dividende qui sera proposé par la société sera de 0,50 euros par action, soit un rendement d'environ 7,8%) La table FNNDEN : Cette table réunit 10 Npred à construction θάλω (faire) Npred N1 από (de) N2. (14) Ο Όκηινο X απνθάζηζε ηε δηαγξαθή ηωλ κεηνρώλ ηεο από ην ρξεκαηηζηήξην ηνπ Παξηζηνύ (Le Groupe X a décidé de procéder à la radiation de ses actions de la Bourse Paris) Conclusion Nous avons entrepris la description des Npred de la langue spécialisée du domaine de la Bourse en utilisant la même méthodologie que pour la langue générale tout en prenant en compte les spécificités lexicales, syntactico-sémantiques des Npred et leurs cooccurrences dans le corpus spécialisé. Etant donné que les verbes supports ne sont pas des prédicats, nous avons classé les Npred en tables et les avons analysés comme des verbes et des adjectifs, à savoir comme des prédicats assortis d un certain nombre d arguments (les sujets et les compléments). Pour couvrir l ensemble des nominalisations apparaissant dans les textes réels spécialisés, il serait nécessaire de poursuivre cette étude dans le même cadre théorique et méthodologique afin de compléter la description des Npred qui sélectionnent d autres verbes supports comme έρω (avoir), είκαη (être) etc. Aussi envisageons-nous de recenser les Npred dans le corpus boursier au moyen des soixante quatre verbes supports actualisant les Npred dans la langue spécialisée. Naturellement, comme cette démarche d enrichissement de notre recherche est expérimentale, reste à être validée par des critères formels ainsi que par un travail manuel considérable. 96

103 Bibliographie BOWKER, L. & J. PEARSON. (2002), Working with Specialized Language: a practical guide to using corpora, Routledge, London. DALADIER, A. (1978), Quelques problèmes d analyse d un type de nominalisation et de certains groupes nominaux français, Thèse de 3e cycle (sous dir. Maurice Gross), Université Paris VII. FISTA, E & Τ. KYRIACOPOULOU. (2009), Prédicats non verbaux préfixés en grec moderne : Le cas des préfixes με- et παξα- ζηο Colloque Ιnternational «Supports et prédicats non verbaux dans les langues du monde», Mars 2009, ζζ , Paris. FOTOPOULOU, A. (1989), Etude comparative des extensions aspectuelles des verbes supports avoir, être Prép et faire en français et en grec moderne. Séminaire de Linguistique Grecque, Mémoires du CERIL 4. HARRIS, Z.S.. (1951), Methods in Structural Linguistics. Chicago: University of Chicago Press. HARRIS, Z.S. (1952), Discourse Analysis, Language 28, n o 4, GAVRIILIDOU, Z. (2004), «Verbes supports et intensité en grec moderne», Linguisticae Investigationes, vol. XXXVII no 2, Amsterdam : John Benjamins, pp GIRY-SCHNEIDER, J. (1978a), «Interprétation aspectuelle des constructions verbales à double analyse», Linguisticae Investigationes II, Amsterdam, John Benjamins BV, pp GIRY-SCHNEIDER, J. (1978b), Les Nominalisations en français: l opérateur «faire» dans le lexique, Genève: Droz, 353 p. GIRY-SCHNEIDER, J. (1986), «Les noms construits avec faire : compléments ou prédicats?», Langue française 69, Paris : Larousse, pp GIRY-SCHNEIDER, J. (1987), Les prédicats nominaux en français: les phrases simples à verbes supports, Genève: Droz, 396 p. GOUTSOS, D. (2003), «Σώμα Ελληνικών Κειμένων: Στεδιαζμός και σλοποίηζη». Πξαθηηθά ηνπ 6νπ Δηεζλνύο Σπλεδξίνπ Ειιεληθήο Γιωζζνινγίαο, Πανεπιζηήμιο Κρήηης, Σεπηεμβρίοσ GROSS, G. (1993), "Trois applications de la notion de verbe support". L'Information grammaticale 59, pp GROSS, M. (1981), «Les bases empiriques de la notion de prédicat sémantique», Langages 63, Formes Syntaxiques et Prédicats Sémantiques, Alain GUILLET & Christian LECLÈRE (Eds), Paris : Larousse, pp GROSS, M. (1991), "Linguistic representations and text analysis". In Linguistic Unity and Linguistic Diversity in Europe, London: Academia Europaea, pp GROSS, M., (1994), «La structure d argument des phrases élémentaires», Lingua Franca 1, Comunità delle università mediterranee, Schena Editore. IBRAHIM, A., H. (éd.) (1996), «Les supports : le terme, la notion et les approches», pp. 3-7 & «La forme d'une théorie du langage axée sur les termes supports», pp , Langages 121, Paris: Larousse. IBRAHIM, A., H. (2000), Une classification des verbes en 6 classes asymétriques hiérarchisées, Syntaxe et Sémantique 2, Sémantique du lexique verbal (Françoise Cordier, Jacques François & Bernard Victorri éds), Caen : Presses Universitaires de Caen, pp KILGARIFF A., J. POMIKALEK, P. RYCHLY (2009), Scaling to Billion-plus Word Corpora. Advances in Computational Linguistics. Special Issue of Research in Computing Science Vol 41, Mexico City. KYRIACOPOYLOY, T., V. SFETSIOU (2002), Les constructions nominales à verbe support en grec moderne. Linguistic Insights 5, Stefania Nuccorini éd., Peter Lang, pp KYRIACOPOULOU, T. (2005), L analyse automatique des textes écrits: le cas du grec moderne, University Studio Press, Thessalonique. LAMBROU, E. (1997), Les verbes supports en français et en grec. D.E.A. Paris: Université Paris 13. LAPORTE, E., E. RANCHHOD, A. YANNACOPOULOU, (2008), «Syntactic variation of support verb constructions». Lingvisticae Investigationes. 31 (2). pp LERAT, P. (1995), Les langues spécialisées, Paris, PUF. L HOMME, M.-C. (1998), "Définition du statut du verbe en langue de spécialité et sa description lexicographique", Cahiers de lexicologie 73(2), pp MOUSTAKI, Α. (1997), «Etude contrastive des expressions etre PrepX en grec moderne et en francais». Linguisticae Investigationes: XXI:2, Amsterdam: Benjamins. SFETSIOU, V., (2007), Καηεγνξεκαηηθά νλόκαηα: Μέζνδνο αλάιπζήο ηνπο γηα ειεθηξνληθέο εθαξκνγέο, Thèse de Doctorat, Université Aristote de Thessalonique. SINCLAIR, J., (2005), Corpus and Text Basic Principles, in Developing Linguistic Corpora: a Guide to Good Practice, Oxford, Oxbow Books. 97

104 SKLAVOUNOU, E. (1994), "Support nouns: application to the special lexicon of tennis". In Themes in Greek Linguistics. Papers from the 1st International Conference on Greek Linguistics, Reading, September 1993, I. Philipakki-Warburton, K. Nicolaidis & M. Sifianou (eds.), Current Issues in Linguistic Theories 117, Amsterdam/Philadelphie: Benjamins, pp THEODOROU, S. (1992), Le verbe support kano (faire) en grec moderne. D.E.A. Paris: Université Paris 13. TZIAFA, E. (2005), Έλα Σύζηεκα Απηόκαηεο Αλάιπζεο Κεηκέλωλ ηεο Νέαο Ειιεληθήο : Μέζνδνη Μνξθνινγηθήο Πεξηγξαθήο θαη Ηιεθηξνληθήο Κωδηθνπνίεζεο ηωλ Όξωλ ηνπ Χξεκαηηζηεξίνπ, D.E.A. Université Aristote de Thessalonique. GROSS, G., R. VIVES. (1986), "Les constructions nominales et l'élaboration d'un lexique-grammaire". Langue française 69, pp WILLIAMS, G. (2002), In search of representativity in specialised corpora: categorisation through collocation. International Journal of Corpus Linguistics, 7/1, pp

105 Foufi Vassiliki Université Aristote de Thessalonique LES NOMS COMPOSÉS A(A)N DU GREC MODERNE ET LEURS VARIANTES Résumé Le présent article a pour objet l étude des variantes des noms composés grecs du type Adjectif(+Adjectif)+Nom (AN/AAN) provenant soit de la substantivation de l adjectif soit de l élimination du nom ou de l adjectif de la structure. Le traitement des données linguistiques, c est-à-dire, la génération automatique des variantes ainsi que leur flexion, s effectue à l aide du programme de flexion des mots composés Multiflex. Tout d abord, nous présenterons des exemples représentatifs du phénomène de la variation, puis nous formulerons des observations sur le comportement syntaxique de ces variantes et sur les résultats issus de l application du dictionnaire aux textes. Mots clés: nom composé, flexion, variation, substantivation, ambiguïté. Introduction Dans cet article, nous traitons des noms composés du type Adjectif(+Adjectif)+Nom (AN/AAN) et plus précisément, nous présentons le traitement auquel ils sont soumis tant au niveau de la flexion qu au niveau de la variation. Cette catégorie de mots composés est très productive en grec moderne et apparaît sous diverses formes soit étendues soit abrégées. Pour la flexion des mots composés et la génération de leurs variantes, nous utilisons le programme de flexion des mots composés Multiflex (Savary et al., 2007) 1. Ensuite, nous ferons des remarques sur les résultats issus de l application du dictionnaire des variantes à un corpus grec et nous aborderons le problème des ambiguïtés. 1 La variation des noms composés La variation est un phénomène qui caractérise les noms composés et qui porte sur le niveau graphique, lexical, morphologique et syntaxique. Le phénomène de la variation des noms composés a été traité par Poncet-Montange (1991) qui a analysé les groupes nominaux français de structure NAN et NAV et leurs variantes dans le discours. Comme elle le constate, «il y a une tendance naturelle des formes longues à évoluer vers des formes plus compactes». Tous les types de la variation des noms composés grecs ont été énumérés par Kyriacopoulou (2005). Ensuite, Kyriakopoulou (2011), dans sa thèse, a analysé tous les cas possibles de variation des noms composés grecs appartenant à la catégorie N(E+DET:G)N:G. Au cours de notre recherche, nous avons dépouillé deux grands dictionnaires papier du grec moderne 2 d où nous avons recensé environ noms composés constitués de noms et d adjectifs: a) la classe AN (Adjectif+Nom) πνιηηηθό θόκκα/parti politique (environ entrées) 1 Voir aussi 2 Les dictionnaires monolingues du grec moderne de G. Babiniotis et de M. Triandafyllidis [Institut des Études Néohelléniques]. 99

106 b) la classe AAN (Adjectif+Adjectif+Nom) αθαζάξηζην εζληθό πξνϊόλ/produit national brut (environ 400 entrées) et c) la classe NA (Nom+Adjectif) βαξνκεηξηθό ρακειό/dépression barométrique (environ 300 entrées). Les variantes morphosyntaxiques des noms composés du type Adjectif+Nom (AN) portent principalement sur trois différents types de variation: a) la substantivation de l adjectif, p.ex. ηδηαίηεξν κάζεκα/cours particulier > ηδηαίηεξν/ particulier b) l élimination de l adjectif, p.ex. γπκλαζηηθέο επηδείμεηο/démonstrations de gymnastique > επηδείμεηο/démonstrations et c) la soudation de deux constituants d un nom composé, p.ex. ράξηηλνο αεηόο/cerf-volant > ραξηαεηόο (ραξη de ράξηηλνο et αεηόο) 3. Les noms composés du type Adjectif+Adjectif+Nom (AAN) se réduisent soit: a) à un nom simple qui provient de la substantivation du premier adjectif du composé, comme le composé έγρνξδν κνπζηθό όξγαλν/instrument de musique à cordes qui se réduit au nom simple έγρνξδν/instrument à cordes b) à un nom composé constitué de deux des trois constituants du composé initial comme le nom Εληαίν Πνιπθιαδηθό Λύθεην/Lycée Polyvalent Général qui se réduit à Πνιπθιαδηθό Λύθεην/Lycée Polyvalent. À noter que ce dernier peut à son tour se réduire à un nom simple Πνιπθιαδηθό/Polyvalent. 2 Les types de variation 2.1 Substantivation de l'adjectif Selon Thavoris (1969), pratiquement chaque adjectif du grec peut se transformer en nom à condition qu il joue le rôle du déterminant d'un nom. Dans ce cas-là, le nom peut être éliminé et l adjectif acquiert son sens. Pour Anastassiadis-Simeonidis (1986), la substantivation de l adjectif d une structure nominale est un phénomène qui présuppose que cette structure soit composée. Par exemple, le nom composé ηδηαίηεξν κάζεκα/cours particulier se réduit à un mot simple (ηδηαίηεξν/particulier) où le nom κάζεκα/cours est effacé et l adjectif acquiert un emploi nominal. En ce qui concerne le nom composé πιαζηηθή επέκβαζε/opération esthétique, le nom επέκβαζε/opération peut disparaître et l adjectif πιαζηηθή/esthétique se transforme alors en nom. Il faut souligner ici que les deux constructions ont le même sens et que l adjectif substantivé, qui est un nom simple, devient du même genre que le nom du composé (Anastassiadis-Simeonidis, 1986). Monceaux (1993), qui a étudié les noms composés français de structure Nom+Adjectif (NA), affirme que «cette synonymie suggère que l'ellipse du nom est à l origine de la "recatégorisation" (substantivation) de l'adjectif, et que cette ellipse a lieu après la lexicalisation du syntagme». 2.2 Élimination de l adjectif La structure composée γπκλαζηηθέο επηδείμεηο/démonstrations de gymnastique, qui apparaît toujours au pluriel, se réduit à επηδείμεηο/démonstrations tout en conservant le même objet de référence. Dans la même perspective, le nom composé θνηλόο ηξαπεδηθόο ινγαξηαζκόο/compte bancaire commun se réduit au nom composé θνηλόο ινγαξηαζκόο/compte commun. Nous remarquons que le deuxième adjectif du nom composé, ηξαπεδηθόο/bancaire, est éliminé et le nouveau composé est formé de deux constituants (le premier adjectif et le nom) sans changement de sens. 3 Dans cet article, nous allons présenter les deux premiers cas. 100

107 Enfin, soulignons que le même nom composé peut se réduire soit à un adjectif substantivé soit à un nom simple (Kyriacopoulou, 2005) comme, par exemple, le composé αζηηθό ιεωθνξείν/autobus urbain qui peut se réduire soit à αζηηθό/urbain soit à ιεωθνξείν/autobus. 3 Les variantes dans les textes écrits L'apparition des variantes des noms composés dans les textes grecs est courante dans la mesure où, il est fréquent d avoir au début d un texte le nom composé sous sa forme étendue et ensuite le même composé sous sa forme abrégée (Kyriacopoulou, 2005). Les exemples ci-dessous issus de sites journalistiques grecs illustrent notre propos: Titre de l'article Extrait de l'article Texte grec «Λνπθέηα» ζε μικρομεσαίες επιτειρήσεις κέρξη ην 2012 βιέπεη ε ΔΣΔΔ. Δπηδίωμε είλαη λα ζηαζεξνπνηεζεί ε αγνξά ζε απηή ηε δύζθνιε πεξίνδν, θαζώο, ζύκθωλα κε ηνλ θ. Κνξθίδε, «κε βίαην ηξόπν πξνζπαζνύλ νη πνιπεζληθνί όκηινη θαη ηα πνιπθαηαζηήκαηα λα πάξνπλ ην κεξίδην ηωλ μικρομεσαίων». Texte en français petites et moyennes entreprises vont fermer jusqu'en 2012 selon ESEE. Notre but est de stabiliser le marché pendant cette période difficile, car, selon M. Korkidis, «les groupes multinationaux et les grands magasins essayent de prendre la part du gâteau des petites et moyennes (entreprises) de manière violente». Tableau 1. Extrait d'un article paru sur le 21/02/11 Dans le tableau ci-dessus, nous observons que le nom composé κηθξνκεζαίεο επηρεηξήζεηο/petites et moyennes entreprises figure dans le titre de l article et ensuite nous avons la variante κηθξνκεζαίωλ/petites et moyennes (entreprises) qui provient de la substantivation de l'adjectif (premier composant de la structure). Cependant, nous rencontrons souvent la forme abrégée d'un nom composé dans le titre d'un article puisque le nombre de mots y est limité et dans le texte qui suit, nous avons la forme la plus étendue comme dans l exemple suivant: Titre de l article Extrait de l article Texte grec Βηνθαξπέη: Παξνρή εγγπήζεωλ γηα ομολογιακό θσγατρικής. Τελ παξνρή εγγπήζεωο πξνο ηνπο Οκνινγηνύρνπο Γαλεηζηέο ππέξ ηεο θσγατρικής εταιρείας Δμάιθν, γηα ηελ έθδνζε Ομολογιακού Δανείοσ αμίαο 50 εθαη. επξώ πιένλ ηόθωλ θαη εμόδωλ, ελέθξηλε ζήκεξα ε Έθηαθηε Γεληθή Σπλέιεπζε ηεο Βηνθαξπέη. Texte en français Viokarpet: Des garanties pour un (emprunt) obligataire à la filiale. Des garanties aux préteurs obligataires pour émettre un emprunt obligataire de 50 millions d'euros à la filiale Exalco, a été approuvé aujourd'hui par la session extraordinaire de l'assemblée Nationale de Viokarpet. Tableau 2. Extrait d'un article paru sur le 05/04/11 Dans l article du tableau ci-dessus, nous observons que, dans le titre, figurent les variantes de deux noms composés: νκνινγηαθό/obligataire et ζπγαηξηθή/filiale qui proviennent de la substantivation des noms composés νκνινγηαθό δάλεην/emprunt obligataire et ζπγαηξηθή εηαηξεία/filiale respectivement. Nous avons également pu observer dans le corpus étudié des cas où, l adjectif substantivé d un nom composé est dans le titre d un article et la forme élargie du nom ou le nom de la 101

108 construction, précédé d un marqueur qui indique qu on a déjà cité ce nom, est localisée dans le texte. Titre de l article Extrait de l article Texte grec Χάζεθαλ ζέζεηο εξγαζίαο ζηηο εισηγμένες ην Σρεδόλ ζέζεηο εξγαζίαο ράζεθαλ ην 2010 από ηηο εισηγμένες επιτειρήσεις ζην Χξεκαηηζηήξην, όπωο πξνθύπηεη από ηελ αλάιπζε ηωλ νηθνλνκηθώλ θαηαζηάζεωλ πνπ παξνπζηάδεη ζήκεξα ε H ηνπ Σαββάηνπ. H απαζρόιεζε ζηηο σσγκεκριμένες επιτειρήσεις κεηώζεθε ην 2010 θαηά 4,1% ζε ζύγθξηζε κε ην Tableau 3. Extrait d un article paru sur le 09/04/11 Texte en français postes de travail des (entreprises) introduites (en bourse) ont été perdues en Environ postes de travail des entreprises introduites en bourse ont été perdues en 2010, comme il résulte de l'analyse des listes économiques qui sont présentées aujourd'hui dans le journal "H" de Samedi. L'emploi dans ces entreprises a été diminué de 4,1% en 2010 par rapport à Dans l exemple du tableau 3, le nom simple εηζεγκέλεο/introduites qui provient de εηζεγκέλεο επηρεηξήζεηο/entreprises introduites en bourse) est situé dans le titre de l article. Ensuite, on trouve tout le nom composé en question dans le texte et quelques lignes plus bas figure seulement le nom de la structure επηρεηξήζεηο/entreprises précédé d un marqueur ζπγθεθξηκέλεο/ces qui indique qu on a déjà mentionné ce nom. 4 Génération des variantes Les remarques précédentes montrent qu il nous faut établir un lien entre les noms composés et leurs éventuelles variantes. Thilikos & Voskaki (2003) ont fait une première approche au niveau de la reconnaissance des adjectifs à emploi nominal du grec moderne et, ils ont traité les différentes catégories par des automates à état fini. Dans notre étude, nous avons opté pour la génération des variantes morphosyntaxiques de chaque nom composé à l aide des automates finis utilisés par Multiflex. Jusqu à ce stade de notre recherche, en tenant compte des cas observés, nous avons créé onze (11) graphes qui génèrent des variantes morphosyntaxiques. À l aide de chaque graphe flexionnel, nous générons simultanément toutes les formes fléchies du nom composé et de sa/ses variantes. Ensuite, nous présentons le graphe des noms composés AN où l adjectif devient substantif. À partir de ce graphe, nous aurons recensé toutes les formes fléchies du nom composé AN comme par exemple du nom πιαζηηθή επέκβαζε/opération esthétique ainsi que de sa variante (ici πιαζηηθή/esthétique): πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.n:nfs πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.n:nfp πιαζηηθήο επέκβαζεο,πιαζηηθή επέκβαζε.n:gfs πιαζηηθήο επεκβάζεωο,πιαζηηθή επέκβαζε.n:gfs πιαζηηθώλ επεκβάζεωλ,πιαζηηθή επέκβαζε.n:gfp πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.n:afs πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.n:afp πιαζηηθή επέκβαζε,πιαζηηθή επέκβαζε.n:vfs πιαζηηθέο επεκβάζεηο,πιαζηηθή επέκβαζε.n:vfp πιαζηηθή,πιαζηηθή επέκβαζε.n:nfs πιαζηηθέο,πιαζηηθή επέκβαζε.n:nfp πιαζηηθήο,πιαζηηθή επέκβαζε.n:gfs 102

109 πιαζηηθώλ,πιαζηηθή επέκβαζε.n:gfp πιαζηηθή,πιαζηηθή επέκβαζε.n:afs πιαζηηθέο,πιαζηηθή επέκβαζε.n:afp πιαζηηθή,πιαζηηθή επέκβαζε.n:vfs πιαζηηθέο,πιαζηηθή επέκβαζε.n:vfp La première ligne du graphe indique les deux composants du nom composé AN ($1 & $3) et l espace qui les sépare ($2). La deuxième ligne montre que le troisième constituant ($3) s élimine et que la structure composée se transforme en nom simple. 5 Quelques remarques sur la syntaxe des AN et de leurs variantes Les noms composés, comme les noms simples, se divisent en noms prédicatifs et noms nonprédicatifs. Kyriakopoulou (2011) spécifie que «les propriétés des noms prédicatifs de structure N(E+DET:G)N:G sont identiques à celles des noms prédicatifs simples». Monceaux (1993) constate aussi que les propriétés syntaxiques des NA non-compositionnels prédicatifs sont celles de noms simples. En ce qui concerne les noms composés prédicatifs du type AN en grec moderne, nous pouvons constater qu au niveau syntaxique, ils se comportent, en général, de la même façon que le nom de la structure. Par exemple, le nom composé ρεηξνπξγηθή επέκβαζε/opération chirurgicale et sa variante επέκβαζε/opération ont le même comportement syntaxique. (1) Η Μαξία έθαλε ρεηξνπξγηθή επέκβαζε ζην πόδη/marie a subi une opération chirurgicale à la jambe. (2) Η Μαξία έθαλε επέκβαζε ζην πόδη/marie a subi une opération à la jambe. La même constatation est valable pour les adjectifs à emploi nominal. Par exemple, le nom prédicatif δηπιωκαηηθή (adjectif) εξγαζία (nom)/mémoire peut se réduire au nom simple δηπιωκαηηθή/mémoire. Malgré la réduction, le verbe support reste le même (θάλω/préparer). (3) Η Μαξία θάλεη δηπιωκαηηθή (εξγαζία)/marie prépare un mémoire. 103

110 Rien ne change même si nous insérons un déterminant possessif dans la structure composée, par exemple : (4) Η Μαξία θάλεη ηε δηπιωκαηηθή ηεο (εξγαζία)/marie prépare son mémoire. Cependant, il y a des exceptions comme le nom simple δηδαθηνξηθό/doctorat qui provient de la réduction de deux noms composés de sens similaire : du composé δηδαθηνξηθό (adjectif) δίπιωκα (nom)/doctorat et du composé δηδαθηνξηθή (adjectif) δηαηξηβή (nom)/thèse de doctorat. Le nom composé δηδαθηνξηθό (adjectif) δίπιωκα (nom)/doctorat apparaît dans le discours précédé des verbes supports έρω/avoir ou παίξλω/obtenir: (5) Η Μαξία έρεη/πήξε δηδαθηνξηθό δίπιωκα ζηε Γιωζζνινγία/Marie a/a obtenu un doctorat en linguistique. De l autre côté, le nom composé δηδαθηνξηθή (adjectif) δηαηξηβή (nom)/thèse de doctorat se combine avec les verbes supports θάλω/faire, έρω/avoir et παίξλω/obtenir: (6) Η Μαξία θάλεη/έρεη/πήξε δηδαθηνξηθή δηαηξηβή ζηε Γιωζζνινγία/Marie prépare sa thèse de doctorat/a une thèse de doctorat/a obtenu une thèse de doctorat en Linguistique. La réduction δηδαθηνξηθό/doctorat se construit avec les verbes supports έρω/avoir et παίξλω/obtenir, mais aussi avec le verbe θάλω/faire : (7) Η Μαξία έρεη/πήξε/θάλεη δηδαθηνξηθό ζηε Γιωζζνινγία/Marie a/a obtenu/fait un doctorat en Linguistique mais nous ne pouvons pas dire (8) *Η Μαξία θάλεη δηδαθηνξηθό δίπιωκα ζηε Γιωζζνινγία/Marie fait un doctorat en Linguistique. Nous pouvons donc en déduire qu il n y a pas toujours d équivalence syntaxique absolue entre un nom composé AN et sa réduction. Dans ce cas-là, il faut déterminer si les deux noms ont des différences au niveau sémantique et si oui, il ne faut pas les lier dans le dictionnaire morphologique. 6 L'ambiguïté des variantes Selon Gross (1996), quand nous procédons à des réductions dans certaines circonstances précises, des ambiguïtés se lèvent. Il est vrai que la génération de toutes les variantes possibles des noms composés crée un grand nombre d ambigüités. Cela est dû au fait que l adjectif substantivé peut provenir de différentes sources (Monceaux, 1993). Par exemple, le nom γεληθόο/général 4 -qui est un adjectif substantivé- provient des noms composés AN suivants: γεληθόο δηεπζπληήο/directeur général, γεληθόο γξακκαηέαο/secrétaire général (premier secrétaire), γεληθόο επηζεωξεηήο/inspecteur général mais il peut aussi provenir des noms composés du type AN+DET:G+N:G, comme γεληθόο δηαθόπηεο ηνπ ξεύκαηνο/coupe-circuit et 4 Traduction littérale. 104

111 γεληθόο δηαθόπηεο ηνπ λεξνύ/vanne. Gross (2001) souligne que les formes abrégées des mots composés deviennent ambiguës lorsqu elles sont prises isolément, mais ne le sont pas en général dans un contexte où le mot composé a déjà été employé. Nous avons appliqué un extrait du dictionnaire des variantes des noms composés AN (726 formes fléchies) à un corpus de mots et nous avons obtenu 7092 concordances. Dans les résultats, un grand nombre d ambiguïtés ont été enregistrées. En voici quelques exemples : a) Le nom simple ηδηαίηεξα/cours particuliers (variante du nom composé ηδηαίηεξα καζήκαηα/cours particuliers) et l adverbe ηδηαίηεξα/particulièrement. b) La variante du nom composé κπζηηθόο αζηπλνκηθόο/agent secret, κπζηηθόο/secret se confond avec le nom simple κπζηηθό/secret. c) L adjectif substantivé ζεηηθόο/degré positif qui provient du nom composé ζεηηθόο βαζκόο/degré positif se confond avec l adjectif ζεηηθόο/positif. d) La variante πίεζε/tension qui vient du composé αξηεξηαθή πίεζε/tension artérielle se confond avec le nom polysémique πίεζε/pression. e) Le nom effacé n est pas toujours récupérable (Monceaux, 1993) comme c est le cas du nom γεληθόο/général 5. Quant aux noms composés du type AAN, le nombre d ambiguïtés n est pas si élevé du fait que, dans la plupart des cas, les AAN se réduisent à d autres noms composés. De façon générale, nous avons pu observer qu un tel dictionnaire appliqué à un corpus crée un grand nombre d ambiguïtés. Pourtant, nous considérons que le lien entre un nom composé et sa/ses variante/s est une information qui doit être comprise dans un dictionnaire électronique. La levée des ambiguïtés sera réalisée ultérieurement. 7 Conclusion Dans cet article, nous avons présenté une catégorie de variantes de noms composés formés d un ou plusieurs adjectifs et d un nom et leur traitement automatique. De plus, nous avons formulé quelques observations sur les ambiguïtés qui se lèvent et sur le comportement syntaxique des composés A(A)N prédicatifs. Mais, comme Poncet-Montange (1991) le constate : «Ces ellipses ne sont pas prévisibles. On ne peut déterminer à l avance quels composés peuvent subir quels effacements. Cela dépend des combinaisons lexicales en jeu et de facteurs extralinguistiques difficiles à cerner». Notre recherche nous permet également de déduire qu il n y a pas toujours d équivalence syntaxique absolue entre un nom composé AN et sa réduction. Ainsi, il est très difficile de traiter l ensemble des noms automatiquement. Nous sommes donc obligés de traiter chaque composé séparément même si le programme Multiflex facilite la tâche de la flexion des mots composés qui sont regroupés selon leur typologie et leurs variantes. 5 Traduction littérale. 105

112 Références Anastassiadis-Simeonidis, Α Η Νενινγία ζηελ Κνηλή Νενειιεληθή. Thèse de doctorat, Thessalonique : Université Aristote de Thessalonique. Babiniotis, G Λεμηθό ηεο Νέαο Ειιεληθήο. Athènes : Centre de Lexicologie. Gross, G Les expressions figées en français. Noms composés et autres locutions. Paris : Ophrys. Gross, M «Les ambiguïtés». Lingvisticae Investigationes 24 (1), pp Kyriacopoulou, T Analyse automatique des textes écrits : le cas du grec moderne. Thessalonique : University Studio Press. Kyriakopoulou, A Les noms composés de type N(E+DET:G)N:G en grec moderne, Thèse de doctorat, Université Paris-Est Marne-La-Vallée. Monceaux, A La formation des noms composés de structure nom adjectif: Élaboration d'un lexique électronique. Thèse de doctorat, Paris : Université Paris 7. Poncet-Montange, A Les groupes nominaux de structure NAN et NAV. Thèse de doctorat, Paris: Université Paris 13. Savary A., Krstev C. & D. Vitas "Inflectional non compositionality and variation of compounds in French, Polish and Serbian, and their automatic processing". In DZIADKIEWICZ A., THOMAS I. (éds.), "Les langues slaves et le français : approches formelles dans les études contrastives", pp Bulag 32 : Presses Universitaires de Franche-Comté. Thavoris, Α Οπζηαζηηθά από επίζεηα (θαη κεηνρέο) ζηε Νέα Ειιεληθή. Thessalonique : Ellinika. Thilikos, I. & R. Voskaki «Représentation des adjectifs à emploi nominal en grec moderne par des automates à état fini». In Actes de la 24ème Rencontre Annuelle de la Section de Linguistique du Département de Philologie de l Université Aristote de Thessalonique (2002). Vol. II, pp Université Aristote de Thessalonique (en grec). Triandafyllidis, M Λεμηθό ηεο Κνηλήο Νενειιεληθήο. Thessalonique : Institut des Études Néohelléniques. 106

113 Garcia-Vega Michelle Florida International University Machonis A. Peter Florida International University THE SUPPORT VERB TAKE Abstract Using the lexicon-grammar framework as developed by Maurice Gross (1994), we systematically analyzed 255 verbs that can be used as nominals with the light or support verb take. The data was divided into three main tables: purely intransitive verbs (e.g. bathe take a bath), transitive (e.g. drink N 1 take a drink of N 1 ), and intransitive with prepositional complements (e.g. look at N 1 take a look at N 1 ). A final table demonstrates a set of converse take constructions as initially observed by Gaston Gross (1989), (e.g. N 0 confess N 1 to N 2 N 1 take the confession N 2 take the confession). Keywords: lexicon-grammar, light verbs, support verb constructions, support verb take. Gross (1988) claims that verbs should be separated into three types: ordinary verbs, verbs as constituents of idiomatic expressions, and support verbs. While traditional grammars often group these three types of verbs together based on surface similarities such as tense, conjugation, and the syntactic structures of sentences in which they appear, lexicon-grammar clearly distinguishes the three types on semantic grounds. (1) Max took the money [= steal] (2) That performance took the cake [= be the best or most surprising] (3) Ty took a bath [= bathe] In (1) take is an ordinary verb meaning obtain possession ; in (2) it is part of the idiom take the cake; in (3) the verb take is a support verb or light verb. The semantic content of the expression is carried by the following noun, bath, which we refer to as a deverbal nominal that can be derived from the verb bathe. This article presents a preliminary analysis of 254 support verb constructions with take within a lexicon-grammar framework. The data was collected by systematically sifting through the Oxford English Dictionary 2010 and verified using Google search engine. Expressions were limited to the relatively semantically empty verb take with the meaning being similar to that of dummy do, or other light verbs such as make, have, or give (Machonis (1991 & 2004). Support verb constructions are highly productive in language. Although Wierzbicka (1982) recorded to take a feel/chat/try/cuddle as unacceptable English constructions, using the Google search engine resulted in thousands of instances of these expressions. For example, took a feel resulted in 40,200 instances, perhaps not all genuine support verb constructions, but still showing that native speakers continue to create these expressions. Although the boundary between idiomatic expressions and support verbs is at times fuzzy, the semantic argument of prototypical support verb constructions, which Langer (2004) sees as semi-compositional verb-noun constructions, is selected by the noun rather than the verb, i.e. complain to N 1 about N 2 make a complaint about N 1 to N 2, look carefully at N 1 take a careful look at N 1, etc. All of the constructions analyzed in this study are syntactically represented as (4) where N 0 indicates the subject, N 1 indicates the first complement, and the 107

114 arrow signifies relative synonymy. The V-n indicates a deverbal nominal, i.e., a verb derived from a noun. (4) N 0 V N 0 take V-n a. Ty bathed Ty took a bath b. Evan chugged (E + the milk) Evan took a chug (E + of milk) c. The boxer swung (E + at his rival) The boxer took a swing (E + at his rival) All of the verbs in our corpus may undergo the transformation in (4). This criterion distinguishes the support verb take from its more ordinary uses such as in (1). It also distinguishes it from take in idiomatic expressions as in (2), as well as expressions in which the support verb construction cannot appear in simple verb form, i.e. Max took hold of the situation *Max held the situation. Although it is at times difficult to clearly differentiate support verbs from idiomatic verbal expressions -- Freckleton (1984), for example, lists (give + take) umbrage as an idiom, whereas others might see this as a support verb construction -- for this preliminary analysis we only considered take followed by a noun clearly related to a verb in the sense of (4) above. The 255 verbs appearing as nominals in light verb take constructions were divided into three main tables: (1) purely intransitive verbs (e.g., bathe), (2) transitive verbs (e.g., chug N 1 ), and (3) intransitive with prepositional complement (e.g., swing at N 1 ). All the deverbal nominals in the data were also specified for determiner and quantificational phrases. These expressions are highly productive in language and, as will be shown, require the development of a formal lexicon or lexicon-grammar to best describe the not always predictable properties of support verb constructions. 1. Intransitive verbs with support take Intransitive verbal constructions that may appear in expressions with the light verb take consist of 66 of the 255 entries. Many of these may be categorized into a subclass of Levin s (1993) verbs of manner of motion which we further divide into run, jump, and walk verbs, but also include other categories, like wash and sleep verbs, and bodily function verbs: (5) a. Run verbs: The runner hiked/jogged/dashed/ran The runner took a hike/jog/ dash/ run b. Jump verbs: The tiger hopped/ leaped/ skipped The tiger took a hop/ leap/skip c. Walk verbs: The old man paced/walked/strolled The old man took a pace/walk/stroll d. Wash verbs: Ty bathed/rinsed/showered Ty took a bath/rinse/shower e. Sleep verbs: The woman dozed/napped/snoozed The woman took a doze/nap/snooze f. Bodily function verbs: The old man peed/ pooped/ coughed/sneezed The old man took a pee/ poop/cough/sneeze These support verb take constructions, however, are not entirely predictable based solely on semantic class as seen by the unacceptability of the manner of motion verbs *take a dart/roam/ race/scurry/scram, the following sleep verbs *take a drowse/sleep/slumber and the ungrammaticality of the bodily function verbs in *take a cry/drool/vomit/weep/bleed. 108

115 It is also worth mentioning that support verbs may contribute a various aspectual interpretation not fully synonymous with the single verb expression. These constructions may be ambiguous between the semantically empty take and a more contentive verb, as in The lawyer took the foreclosure where the expressions may be interpreted as did accept or choose. At times, the choice of determiner is responsible for the difference between the support verb take interpretation (e.g. Ty took a bath) and the literal meaning (e.g. I then took the bath to a panel beater and they sprayed the thing with baked enamel for $250), where the indefinite determiner a forces a more natural light verb interpretation whereas the definite determiner the forces a literal one. However, even with the indefinite determiner a, there is also the possibility of the idiomatic expression take a bath on N, as in Max took a bath on that deal (i.e., got the bad end of). 1.1 Determiners and quantifiers All of the take constructions were systematically analyzed for the indefinite determiner a, the definite determiner the, zero article represented as E, and general quantificational phrases such as number terms and quantifiers like several, many, much, and the first. Over 90% of the data may take the indefinite determiner a in the take construction: (9) Max took a (drive + swim + plunge + jog + prance) There are, however, 30 expressions that do not accept the determiner a as part of the light verb take construction, and prefer the zero article, noted E: (10) The security officer took (E + *a) (watch + guard + patrol) Although some might argue that these should be construed as idiomatic expressions, we point out that these also appear with the support verb keep, as well as part of be + Prep expressions: (11) The security officer (keeps + is on) (watch + guard + patrol) Other verbs reject both the indefinite determiner a, as well as the zero article, but prefer the definite determiner the instead, like (12). (12) Max took (*E + *a + the ) (rebound + reign) Few examples freely accept any determiner or quantificational expression as part of the construction, as in (13). (13) The artist took (E + a + the + several + two + the two) (sketches + photographs + flights) Some only accept the indefinite article and reject all the other phrases, while other expressions accept, or reject, a combination of possible phrases that precede the nominal. As can be seen below, even verbs from the same semantic class vary in the type of determiner or quantificational phrase the construction accepts: (14) Bodily function verbs a. The girl took (a + *the + *E + *several + *the two + *the first) pee(s) b. The boy took (a + *the + *E + several + the two + the first) poop(s) c. The man took (a + *the + *E + *several + *the two + *the first) puke(s) 109

116 N take a V-n N take V-n N take the V-n N take quant V-n N take the quant V-n (15) Drink verbs a. The man took (a + *the + E + several + *the two + the first) sip(s) b. The woman took (a + *the + *E + *several + *the two + *the first) drink(s) c. The girl took (a + *the + *E + several + *the two + *the first) chug(s) (16) Wash verbs a. The baby took (a + *the + E + several + two + *the two) bath(s) b. The girl took (a + *the + E + several + two + *the two) shower(s) c. The boy took (a + the + *E + *several + *two + *the two) rinse(s) Table 1 illustrates a sample of the intransitive support verb constructions with take and some of the possible combinatorial properties of determiners and quantificational phrases these expressions exhibit. For each verb, a potential subject N 0 is marked for the properties of human (Nhum) and non-human (N-hum) indicated by a plus or minus sign. The next column illustrates the verb, while the following columns show the acceptability of the indefinite article a, zero article E, the definite article the, a quantifier, and the plus a quantificational phrase, marked by a plus or minus sign. While all the verbs in the data were specified for determiner and quantificational phrases, for exposition purposes, they have been excluded from the subsequent tables. Finally, the V-n indicates the nominalizing suffix of the verb, where -E represents empty morpheme. This column is followed by the intransitive construction and the semantic properties of the verb. N0 =: Nhum N0 =: N-hum Semantic Verb V-n Properties + - pace E + walk + - pant E + breathe + + pause E + stop + - pee E + bodily function + - poop E + bodily function + - pout E + be sad + + prance E + run + - relax ation + relax + - resign ation + resign + - rest E + relax + - retire ment + retire + - rinse E + wash + + roar E + sound + - rotate ation + transfer + - run E + run N0 V = N0 take V-n Table 1: Sample of Intransitive Verbs with take specified for determiner and quantificational phrases 110

117 N take a V-n N take V-n N take the V-n N take quant V-n N take the quant V-n 2. Transitive verbs with support take Table 2 demonstrates a sample of the transitive verbs that may appear as a nominal complement to the light verb take. The first two columns are specified for human/non-human properties, followed by the verb, the determiners and quantifiers, and the nominalzing suffix, V-n. This column is followed by the intransitive, N 0 V, and transitive, N 0 V N 1, features, and a potential first complement, N 1, marked for (Nhum/N-hum). The next three columns demonstrate the N 1 complement optionally reappearing in the light verb construction as part of a case or prepositional phrase like of, at, with, on, in, over or around. Transitive verbs consist of 122 entries almost half of our entire database of 255 examples. N 0 take V-n of N 1 was the most common transformation seen in our data. In fact, 94 of 122 entries or 77% of the constructions derived from the transitive verbs in Table 2 can introduce the second complement, N 1, into the take expression by means of an optional case particle of phrase, as exemplified in (17) and (18): (17) Verbs of protecting: The officer is (patrolling + watching + observing + guarding) The officer is (patrolling + watching + observing + guarding) the area The officer is taking (patrol + watch + observations + guard) (E + of the area) (18) Verbs of recording: The director is (photographing + recording + videotaping) The director is (photographing + recording + videotaping) the artist The director is taking a (photograph + recording + videotape) (E + of the artist) N0 =: Nhum N0 =: N-hum N0 V = N0 take V-n N0 V N1 = N0 take V-n N1 =: Nhum N1 =: N-hum N0 V N1 = N0 take V-n of N1 N0 V N1 = N0 take V-n at N1 N0 V N1 = N0 take V-n on N1 N0 V N1 = N0 take V-n in N1 N0 V N1 = N0 take V-n over N1 N0 V N1 = N0 take V-n around N1 Semantic Properties Verb V-n N observe ation + + engine observe + - pardon E - + his sins forgive + + patrol E + + the area patrol + - photocopy E + + paper photocopy + + photograph E + + Max photograph + + pick E + + the shirt pick + - pity E - + the man feel bad + + profile E - + Max profile + - profit E + + money profit + - puke E + + the food bodily function + - pull E - + the door pull + - punch E - + Max punch + - quote E - + the car estimate Table 2: Sample of Transitive Verbs with take 111

118 36% of the verbs classified in Table 2 take have no intransitive ordinary verb use, but can appear in both intransitive and transitive support verb constructions, as in (19). (19) Verbs of controlling: Max (*controlled + *surveyed + *gripped) Max controlled/surveyed/gripped the situation Max took control/surveillance/a grip (E + of the situation) Some of these verbs have both an intransitive and transitive use as ordinary verbs, while others are purely transitive even though they form part of the same semantic class: (20) Verbs of inhaling: Max (breathed + sniffed + gasped + *smelled + *whiffed) Max (breathed + sniffed + gasped + smelled + whiffed) the air Max took a (breath + sniff + gasp + smell + whiff) (E + of the air) 3. Intransitive take constructions with prepositional complements In our data, there are 68 light verb take entries that can be derived from intransitive verbs that take a PP complement, but reject a direct object N 1. These intransitive verbs with prepositional complements are marked with a plus in each column syntactically represented as (21). (21) N 0 V *N 0 V N 1 N 0 V Prep N 1 N 0 take a V-n (E + Prep N 1 ) a. The man (winked + gazed + glanced + glimpsed + looked + stared + smirked) *The man (winked + gazed + glanced + glimpsed + looked + stared + smirked) the woman The man (winked + gazed + glanced + glimpsed + looked + stared + smirked) at the woman The man took a (wink + gaze + glance + glimpse + look + stare + smirk) (E + at the woman) Other verbs in this table only take a PP complement and reject purely intransitive and transitive uses, as exemplified in (22). (22) *N 0 V *N 0 V N 1 N 0 V Prep N 1 N 0 take a V-n (E + Prep N 1 ) a. *The surfer barreled *The surfer barreled the wave The surfer barreled in the ocean The surfer took a barrel (E + in the ocean) b. *The class broke *The class broke 5 minutes The class broke for 5 minutes The class took a break (E + for 5 minutes) Highlighting the importance of constructing lexicon-grammars, other examples show that the preposition changes in the prepositional phrase between the ordinary verb and the support verb construction: (23) The mother cared for the baby The mother took care of the baby (24) Max obsessed over his girlfriend Max took an obsession for his girlfriend (25) The hockey player went for the goal The hockey player took a go at the goal (26) The scientist accounted for the situation The scientist took an account of the situation Finally, some of these verbs may not introduce the PP complement at all when part of the support verb construction: (27) *Max sided *Max sided friends Max sided with friends Max took (a side + sides) (E + *with friends) 112

119 The sample Table 3 shows the variety of prepositional complements these verbs may take and the variation exhibited when part of the light verb construction. N0 =: Nhum N0 =: N-hum N0 V = N0 take V-n N0 V N1 = N0 take V-n N0 V for N1 = N0 take V-n N0 V to N1 = N0 take V-n N0 V in N1 = N0 take V-n N0 V on N1 = N0 take V-n N0 V over N1 = N0 take V-n N0 V at N1 = N0 take V-n N0 V into N1 = N0 take V-n N0 V with N1 = N0 take V-n N1 =: Nhum N1 =: N-hum N0 take V-n for N1 N0 take V-n to N1 N0 take V-n in N1 N0 take V-n on N1 N0 take V-n at N1 N0 take V-n with N1 N0 take V-n of N1 Semantic Property Verb V-n N account -E situation note + + advance -ment career improve + - act -ion the plan act + - audition -E the play audition + - bake -E the sun get sun + - bark -E Max scream + - bargain -E glasses bargain + - barrel -E the wave surf + - bet -E Max risk + - bow -E Max bow + - break -E an hour rest + - care -E the car care + - chat -E Max talk + - chuckle -E the joke laugh + - consider -ation problem consider Table 3: Sample of light verb take constructions with prepositional complements 4. Residual data. In addition to the 255 examples analyzed in this article so far, we also discovered two smaller, restricted, but rather interesting tables. Table 4 consists of 22 intransitive verbs that can also be transitive (e.g., sail (E + the ocean)). Due to space considerations, these residual tables are not shown, but briefly, the verbs in Table 4 can all introduce a PP complement, Prep N 1, that may be an implicit part of the construction when in its transitive form, N 0 V N 1. These transitive verbs with implicit locative PP complements vary as to the type of preposition accepted by the construction, even if part of the same semantic class, as exemplified in (28): (28) N 0 V N 1 N 0 take V-n (E + Prep N 1 ) a. We sailed the Atlantic We took a sail We took a sail (to +*of +*at + in + on + around + up) the Atlantic b. The pirate walked the plank?the pirate took a walk The pirate took a walk (*to + *of + *at + on + *around + up) the plank c. The old man hiked the hill The old man took a hike The old man took a hike (to + *of + at + on + around + up) the hill 113

120 We also discovered another small table of N 0 V N 1 Prep N 2 expressions that involve a symmetrical relationship such that either N 1 take V-n (e.g., criticize) or N 2 take V-n exists (e.g. confess). These types of support verbs were first referred to as converse support verb constructions by Gross The 22 verbs in this table reveal a variety of transformational properties in the sense of Harris (1956), in which there is a potential relationship of relative synonymy between the transitive verbal expression and the take construction. In the converse support verb construction, however, take implies accept or receive in the abstract or metaphorical sense. In the first of these transformations, the complement N 1 becomes the subject of the take construction, as in (29): (29) N 0 V N 1 Prep N 2 N 1 take V-n a. The people criticized the president for the speech The president took the criticism b. The mother blamed the child for the error The child took the blame In others, the complement N 2 becomes the subject of the take construction. In a few cases, however, both the N 0 and N 2 complement may occupy the subject position of the support take expression, like (30), which shows that take may be ambiguous between two interpretations: one being the light verb Max confessed Max took confession, and the other being the converse support verb, where take means something like perform, as in Max confessed to the priest The priest took the confession. (30) N 0 V N 1 Prep N 2 N 1 take V-n N 2 take V-n a. Lawyers appealed the case to the court Lawyers took the appeal The court took the appeal b. Max confessed his sins to the priest Max took confession The priest took the confession Further research will show if these last two tables are more productive in English, and perhaps also reflective of other support verbs. Nevertheless, we can see that take support verb expressions are highly productive in English, but due to high variability of acceptable expressions, even among verbs in semantically related verb classes, they are best described through a formal lexicon or lexicon-grammar. References Freckleton, Peter Une taxonomie des expressions idiomatiques anglaises. Unpublished Ph.D. Dissertation. Paris: Université de Paris 7. Gross, Gaston Les constructions converses du français. Geneva: Droz. Gross, Maurice Les limites de la phrase figée. Langages, 90, Gross, Maurice Constructing Lexicon-grammars. In Computational Approaches to the Lexicon, Atkins and Zampolli (eds.), Oxford University Press, pp Harris, Zellig Introduction to Transformations. Papers in Structural and Transformational Linguistics (1970): Dordrecht-Holland: D. Reidel Publising Company. Langer, Stefan A linguistic test battery for support verb constructions, Lingvisticae Investigationes 27,2: Levin, Beth English Verb Classes and Alternations: A Preliminary Investigation. Chicago: The University of Chicago Press. Machonis, Peter The Support Verb make. In Ferenc Kiefer (ed.) International Conference on Computational Lexicography: Conference Proceedings. Budapest: Hungarian Academy of Sciences Machonis, Peter Nominalizations of English Neutral Verbs. In Christian Leclère et al. (eds.) Lexique, Syntaxe et Lexique-Grammaire (Syntax, Lexis & Lexicon-Grammar) Papers in honour of Maurice Gross. Lingvisticae Investigationes Supplementa 24, Oxford English Dictionary Oxford University Press. Wierzbicka, Anna Why Can You Have a Drink When You Can't *Have an Eat? Language 58. 4:

121 Garnier-Oeliarisoa Dina Université Battistelli Delphine Université Paris Sorbonne Minel Jean-Luc Université Paris VERS L'ANNOTATION AUTOMATIQUE DES NOMS PREDICATIFS D'EVENEMENTS MEDIATIQUES Résumé Nous proposons une approche linguistique pour la reconnaissance automatique dans un corpus de dépêches d agence d événements dits «médiatiques» (et qualifiés comme tels par une partie de la communauté des journalistes). Dans cet article, nous nous intéressons aux noms prédicatifs d événements. Nous présentons notre démarche visant à construire une base de connaissance structurée à partir des travaux de description linguistique de S-H.Lee et G.Gross. Mots-clés: événement, nom prédicatif d'événement, prédicat. Abstract We present a linguistic approach for the automatic processing of media events. In this paper, we focus on the predicative nouns of events. We present our approach for a structured knowledge base that we developed from the linguistic framework of S-H.Lee and G.Gross. Keywords: event, predicative noun of event, predicate. 1 Introduction La notion d événement est complexe à définir dans le champ des sciences humaines et sociales comme dans le champ du traitement automatique des langues (TAL) et de ses applications en recherche d'information (RI). Elle peut par exemple être abordée selon un principe de description de la catégorisation aspectuelle de situations (voir les nombreux travaux de linguistique générale comme de TAL portant sur ce thème) comme selon un principe de détection de situations perçues comme «nouvelles» dans un flux d'informations disponibles à un moment donné (voir notamment la tâche de RI appelée Event Detection Tracking). Il existe du reste (presque) autant de définitions que de champs disciplinaires dans lesquels la notion d évènement est amenée à être considérée. Selon (Prestini-Christophe, 2006), il existe cependant des points communs à toutes ces définitions : (i) un évènement correspond à une «rupture» ; (ii) un «fait» devient «évènement» en fonction du monde dans lequel il advient (autrement dit, l évènement est «subjectif»). Dans une démarche relevant essentiellement du paradigme de l analyse du discours, quelques travaux se sont ainsi interrogés sur le rôle de la langue dans la construction, la représentation et l interprétation des évènements en lien avec la mémoire, la culture, l histoire, la société (voir notamment (Van de Velde, 2006), (Lecolle, 2009)). Ils ont pour objet de travailler sur les relations entre évènements du monde et évènements discursifs, entre un évènement mondialisé et ses différents traitements, entre évènements et normes/sens commun. A la croisée de travaux de linguistique générale et d'analyse du discours, nos travaux ont pour objectif de participer à la «clarification» de la notion d'évènement via la définition de procédures TAL ancrées dans la spécification de besoins de communautés d'utilisateurs données. Nous nous intéressons au repérage, dans des textes de type dépêches d'agence, d'événements dits «médiatiques» et qualifiés comme tels par les journalistes de l AFP avec 115

122 lesquels nous sommes amenés à collaborer dans le cadre du projet RMM2 1. Leurs besoins en matière de reconnaissance des évènements sont décrits dans les termes suivants : «informations qui annoncent un événement à venir ou qui vient de commencer (et qui va se poursuivre pendant quelques temps), participation ou non d une personnalité à un événement culturel ou encore informations qui peuvent avoir un intérêt pour le grand public». Cherchant à caractériser l expression de ces besoins dans les termes d une analyse linguistique automatisable (au moins en partie), nous proposons de procéder à une annotation de plusieurs types de marqueurs linguistiques liés à la notion d événement (parmi ces marqueurs, ceux de temps, de lieu et de participant). Nous présentons ici les premiers éléments de notre démarche quant au repérage de noms prédicatifs d'évènements, forçant à une analyse approfondie des notions de prédicat et d argument, à l'instar des travaux de (Harris, 1976) et de ceux menés dans le cadre du lexique-grammaire (Gross, 1975, Gross, 1981). La section 2 de cet article présente la manière dont le TAL aborde généralement la notion d'évènement. Nous présentons en section 3 la typologie sémantique de noms prédicatifs d événements établie par (Lee, 2001). La section 4 évoque une proposition de structuration en termes de traits (c'est à dire dans un format compatible avec un traitement informatique) de la typologie présentée précédemment. Nous présentons enfin deux expérimentations ainsi que l'évaluation de ces dernières en section 5. La première expérimentation vise à identifier les différentes structures linguistiques des événements médiatiques dans des textes journalistiques comportant des expressions simples mais également longues et pouvant être complexes ; la seconde a pour objectif de mesurer la couverture et la pertinence de la notion de nom prédicatif d événement «décontextualisé». 2 La notion d'événement dans le champ du TAL Dans le champ du TAL et de ses applications en RI, de plus en plus de travaux s intéressent à la détection et à l'annotation des événements dans les textes (voir par exemple pour l'anglais (LDC, 2005)). Certains, notamment ceux décrits dans (Arnulphy et al, 2010), les considèrent comme des entités nommées à part entière ; ils se basent sur une liste pré-établie de noms déclencheurs d'événement, puis considèrent l analyse de certains indices pour détecter des expressions dites «candidates» représentant des événements dans certains contextes. D autres travaux, notamment ceux adoptant le schéma d'annotation TimeML (Pustejovsky et al, 2005) comme par exemple (Sauri et al, 2005), (Bittar, 2008, 2009a) ou (Parent et al, 2008), inscrivent l'analyse des événements dans une problématique plus large qui est celle de la temporalité linguistique. (Sauri et al, 2005) décrit ainsi un module informatique nommé Evita («Events In Text Analyzer»), où des méthodes symboliques sont utilisées pour détecter les verbes, adjectifs et noms événementiels considérés comme des événements candidats 2. La particularité de ce système est qu il ne possède pas une liste pré-établie de patrons d événements et qu il n est pas associé à un domaine en particulier. Tous ces travaux autour de la norme TimeML s intéressent comme nous à l annotation de différents marqueurs de surface. Encore plus proches de nous, (Bittar, 2009b, 2010) s intéresse plus particulièrement à l intégration des constructions à verbe support dans TimeML et propose des consignes linguistiquement motivées pour l'annotation de la relation entre un verbe support et un nom prédicatif d'évènement.. Les événements verbaux y sont classés selon les classifications des verbes dans TimeML ; les noms déverbaux sont classés selon la classification du verbe associé au nom déverbal tandis que les noms événements qui ne sont pas des déverbaux appartiennent à la classe OCCURRENCE. L'objet du travail présenté dans cet article est plus restreint puisqu'il ne concerne pas à proprement parler l'analyse de cette relation entre un verbe support et un nom prédicatif ; et 1 Relax Multimédias 2 : 2 Pour les événements de type nom, des méthodes statistiques sont également utilisées pour la désambiguïsation. 116

123 différent dans la mesure où nous nous intéressons à la classification sémantique des noms prédicatifs d événements en nous fondant sur des travaux linguistiques issus de l'approche de G. Gross, pour en mesurer à la fois la pertinence et la couverture. Dans une perspective de traitement automatique, il est souvent indispensable de structurer les connaissances décrites par les travaux en linguistique générale afin qu elles puissent être exploitables informatiquement. Les tables du lexique-grammaire (Gross, 1975, 1981) établissent par exemple une correspondance très riche entre d une part les verbes, adverbes, noms prédicatifs, expressions figées et d autre part leurs constructions syntaxiques respectives. Si les informations linguistiques présentes dans les tables sont structurées, elles restent cependant difficiles à exploiter informatiquement. (Constant & Tolone, 2010) ont mis en place un système permettant de transformer les données des tables du lexique grammaire dans un format exploitable informatiquement. Un second travail (Sagot & Tolone, 2009) a été réalisé afin de transformer les données des tables dans un format compatible avec un analyseur syntaxique. La dimension sémantique est présente dans cette base de connaissances mais cette dernière a été réalisée principalement dans un objectif d analyse syntaxique. Les travaux de (Lee, 2001), qui s inscrivent eux dans les travaux sur les classes d objets de G. Gross 3, offrent une description détaillée du comportement des noms prédicatifs d événements en particulier ; une typologie sémantique de ces derniers, fondée sur des critères syntaxiques, y est proposée, mais cette analyse n est pas exploitable directement en TAL. Dans notre perspective de traitement des événements médiatiques, nous proposons une structuration de ces connaissances et une implémentation. 3 Typologie sémantique des noms prédicatifs d événements Nous avons choisi d annoter les marqueurs d événements médiatiques en nous fondant sur la typologie des noms (prédicatifs) d événements décrite par (Lee, 2001) qui s'inscrit dans la théorie des classes d objets de G. Gross. (Lee, 2001) s intéresse en particulier aux noms d événements définis par la construction en avoir lieu, c est à dire aux noms d événements qui acceptent la construction rappelée en (1). (1) Dét Nom d'événement avoir lieu W où Dét désigne un, le ou ce et W d éventuels compléments circonstanciels. (Lee, 2001) propose par ailleurs les définitions suivantes : Les verbes supports sont des «verbes vides ou vidés de leur sens lexical d'origine ( ) et qui n'ont pour rôle que d'actualiser 4, dans une phrase simple, un terme prédicatif n'appartenant pas à la catégorie du verbe» (Lee, 2001). Par exemple, le verbe donner dans la phrase «L Orchestre de Paris donnera 41 de ses 85 concerts ou représentations à la Salle Pleyel» et le verbe être dans la phrase «Usher est en concert à Paris Bercy ce lundi 24 Janvier 2011» sont des verbes supports. Contrairement aux verbes supports, les verbes opérateurs sont prédicatifs et en relation avec des noms prédicatifs. Par exemple, les verbes jouer et diriger dans la phrase «Le jour de ses 70 ans (samedi 20 février), Christoph Eschenbach jouera et dirigera deux concertos pour piano de Mozart» et le verbe célébrer dans la phrase «Le festival de danse contemporaine Les Hivernales d'avignon célèbrera dès jeudi soir et jusqu'au 28 février ses 30 ans» constituent des verbes opérateurs. 3 Voir par exemple (Pesant & Mathieu-Colas, 1998) pour une introduction à la notion de classe d objets. 4 Ou de «conjuguer» selon (Giry-Scheider, 1987), c'est-à-dire situer dans le temps un prédicat. 117

124 Le travail de Lee (2001) a débouché sur la création de classes d objets-événements. Ces derniers permettent la classification de tous les noms d événements selon des critères à la fois syntaxiques et sémantiques. (Lee, 2001) part du principe qu'il existe une corrélation entre les types aspectuels des situations décrites (état, action, événement,...) et les différents supports et opérateurs qu il qualifie de «généraux». En d autres termes, les verbes supports et verbes opérateurs généraux permettent d aider à la caractérisation de traits aspectuels comme état, action, événement, Par exemple, les constructions verbales «il y a» et «avoir lieu» désignent des verbes supports généraux du trait «événement» ; les verbes «faire» et «donner» sont des supports généraux du trait «action» et le verbe «avoir» ou «être Prép 5» sont des supports généraux du trait «état». Lee (2001) a établi, pour chaque classe d'objet d'événements, une description du nom prédicatif d'événement ainsi que des différents supports et opérateurs généraux et ceux qualifiés d'«appropriés» qui lui sont associés. Ces derniers, contrairement aux supports et opérateurs généraux, permettent de caractériser les classes d'objets qui sont des sous-classes sémantiques des traits (qui, rappelons-le, peuvent eux être définis à l aide des supports et opérateurs «généraux»). Par exemple, la classe <crimes et délits> est définie grâce aux verbes supports appropriés «commettre» ou «perpétuer» ainsi que grâce au verbe opérateur approprié «commanditer» tandis que la classe <cérémonie d'union> est caractérisée par les verbes opérateurs appropriés «célébrer» ou «bénir». Ces différents supports et opérateurs (généraux et appropriés) peuvent être exploités d une part comme des déclencheurs d événements et d autre part pour permettre la désambiguïsation de l usage événementiel ou non du mot ; par exemple, pour distinguer l emploi du mot mariage dans les deux phrases suivantes : «Autre incorrection culinaire annoncée : le mariage du champagne et des fromages les plus coulants, voire les plus forts, tels le munster...» et «Hélène Mandroux se dit prête à célébrer un mariage homosexuel...». La typologie proposée consiste donc en un regroupement de noms (ou de groupes nominaux) selon des critères à la fois syntaxiques et sémantiques. Elle comporte les quatre classes principales suivantes, qui se divisent à leur tour en plusieurs sous-classes : événements <fortuits>. Ils concernent les évènements de type séisme, inondation, incendie,explosion, fuite de gaz,... événements <à double caractère>. Ils concernent les évènements de type mutinerie, révolution, manifestation, grève, coup d Etat, échanges de tirs,. altercation,... événements <cycliques>. Ils correspondent aux événements itératifs comme Noël, 14 juillet, Mardi gras,... événements <crées>. Ils concernent les évènements de type colloque, mariage, congrès, conférence, concert, exposition, foire, marché, championnat, Grand Prix,... 4 Construction d une base de connaissances structurées et annotation Dans une première étape de notre travail, nous proposons de structurer et d implémenter les connaissances liées aux noms prédicatifs d événements de façon «décontextualisée». Cela signifie que nous considérons les noms prédicatifs ainsi que les classes et catégories décrites par (Lee, 2001) sans prendre en compte les différents supports et opérateurs qui leurs sont associés. Nous avons fait ce choix pour deux raisons. D une part, nous souhaitons mesurer la couverture des données dans la base de connaissances et tester la pertinence ou non des catégories et classes de la typologie. D autre part, la prise en compte des verbes supports et opérateurs associés aux noms prédicatifs nécessite des développements plus longs à mettre en œuvre. Nous traiterons donc ce problème plus complexe dans une seconde étape. La structure de traits associée à un nom ou à un groupe nominal que nous avons retenue à ce jour est décrite dans la figure 1. 5 Prép : préposition 118

125 TYPE nom prédicatif d événement TRAITS graphie : conférence, concert, cyclone,... categogram : N,.. classe : <spectacles>, <réunions intermittentes>,... categorie : cree, cyclique,... Figure 1. Structure de traits associée à un nom (ou groupe nominal) événementiel Cette structure est décrite dans des fichiers XML et implémentée dans les dictionnaires au format Unitex (Paumier, 2008). Comme notre démarche est d interroger des bases de connaissances (structurées) pour la recherche et l annotation des informations linguistiques, les grammaires locales nous semblent en effet plus appropriées que les techniques avec expressions régulières. L'implémentation se déroule en trois étapes : analyse linguistique, annotation puis validation humaine permettant l'enrichissement incrémental de la base de connaissances. L'étape d'analyse linguistique est une étape classique d analyse morphologique et lexicale. Nous faisons appel aux ressources et programmes d Unitex (Paumier, 2008). Pour l analyse du temps morphologique des verbes, nous faisons appel au Treetagger (Schmid, 1994). Notre système reçoit en entrée soit un fichier au format texte (.txt), soit un fichier au format xml. Pour l'étape d'annotation, nous faisons appel aux connaissances (structurées) stockées dans les dictionnaires (au sens d Unitex) et à des grammaires locales d Unitex. Notre système produit en sortie un fichier annoté et structuré au format xml. Dans la troisième étape, notre système offre la possibilité d une validation humaine des annotations produites avec dés lors un enrichissement incrémental de la base de connaissances. 5 Expérimentation et évaluation Rappelons que notre objectif est de proposer une approche linguistique pour le repérage automatique d événements dits médiatiques. Il est donc important de déterminer les différentes formes ou structures linguistiques associés à ces événements. Nous avons mis en place deux expérimentations. La première vise à mesurer les distributions des différentes «formes» (ou structures linguistiques) d événements médiatiques identifiées. La seconde expérimentation consiste à mesurer la couverture des données dans la base de connaissances et à mesurer la pertinence de la classification de (Lee, 2001) à partir de noms prédicatifs d événements «décontextualisés». Nos corpus sont constitués de dépêches AFP fournis par les journalistes qui collaborent avec nous dans le cadre du projet RMM2. Nous disposons de deux types de corpus : un corpus d'étude composé de 33 dépêches contenant 332 phrases et un corpus test composé de 100 dépêches contenant 1431 phrases. Nous n'avons pour l instant pas mis en place une étude de la représentativité de notre corpus. Une première étape d analyse nous a permis d identifier cinq types de structures. Elles sont présentées en relation avec les exemples (a) à (e) dans la figure 2. Les éléments en gras désignent les supports ou opérateurs tandis que les éléments soulignés désignent les noms prédicatifs d événements ; nous ne mettons pas en gras les supports ou opérateurs des noms prédicatifs qui ne sont pas à usage événementiel (cf. exemples (x) et (x )). x. Ce rendez-vous avait été lancé en août 2006 dans le cadre intime de l'abbaye cistercienne du XVIIIe siècle de Valloires par le Britannique Adam Gatehouse, producteur de concerts à la BBC et chef d'orchestre. x. Trois concerts auront lieu le 29 mars, dans les salons de la mairie du XIIIème, le 31 mars dans l amphithéâtre Richelieu de la Sorbonne et enfin le 2 avril à l Unesco 119

126 a. Seul le rez-de-chaussée du musée d Orsay est ouvert (moins l exposition Masques, mais avec les expositions Pastels et Picasso) et de ce fait gratuit b. Le jour de ses 70 ans (samedi 20 février), Christoph Eschenbach jouera et dirigera deux concertos pour piano de Mozart, puis s entourera de musiciens amis (le violoniste Gidon Kremer, le violoncelliste Yo-Yo Ma et le pianiste Tzimon Barto) pour un concert de gala b. Une exposition inédite sur "l ombre" dans les oeuvres d art, de la Renaissance au XXe siècle, est organisée à partir de mardi et jusqu au 17 mai par le musée madrilène Thyssen-Bornemisza c. La dixième édition de la Biennale de Lyon, intitulée "Le spectacle du quotidien", aura lieu du 16 septembre 2009 au 3 janvier 2010 et sera conduite par Hou Hanru, commissaire, et Thierry Raspail, directeur artistique, indiquent les organisateurs d. L Orchestre de Paris donnera 41 de ses 85 concerts ou représentations à la Salle Pleyel, sa résidence jusqu à l ouverture de la Philharmonie de Paris à l horizon d. Après Chaillot, le spectacle sera donné en mars à Combs-la-Ville (Seine-et-Marne, les 17 et 18), Cusset (Allier, le 26), le 10 avril à Rethel (Ardennes) et le 28 mai à Cahors e. Usher est en concert à Paris Bercy ce lundi 24 Janvier 2011!! Figure 2. Structures linguistiques possibles Les noms prédicatifs d'événements «décontextualisés» que nous étudions plus particulièrement dans cet article sont des noms intervenant dans une construction en «avoir lieu» telle que celle donnée en (1). Les critères de différenciation des structures sont à la fois syntaxiques (fonction syntaxique du nom par rapport au verbe, mode de la phrase,...) et sémantiques (rôle sémantique du nom, type de procès, sens lexical du nom,...). Les structures s'analysent de la façon suivante. Dans (x) et (x') les noms ne sont pas employés dans un sens événementiel ; le sens lexical du nom est monosémique dans (x) tandis qu'il peut être polysémique dans (x'). De (a) à (e), les noms sont employés dans un sens événementiel. Dans (a), les noms semblent n'être en relation (ou du moins difficilement reliables) avec aucun verbe (support ou opérateur). Dans (b) et (b'), les noms sont en relation avec des verbes opérateurs indiquant un procès de type «action» ; le nom est complément du verbe dans (b) tandis qu'il est sujet dans (b'). Dans (c), le nom est en relation avec un verbe support indiquant un procès de type «événement» et est sujet du verbe. Dans (d) et (d'), les noms sont en relation avec des verbes supports indiquant un procès de type «action» ; le nom est complément du verbe dans (d) tandis qu'il est sujet dans (d'). Dans (e), le nom est en relation avec un verbe support indiquant un procès de type «état» et est complément de ce verbe. La distribution des événements médiatiques selon leurs structures linguistiques est présentée dans le tableau 1. Type de structure Distribution combinaison (a) 43,91% Nom prédicatif «isolé» (b) et (b') 21,26% Nom prédicatif-opérateur (c),(d),(d') et (e) 34,45% Nom prédicatif-verbe support Tableau 1. Distribution des événements médiatiques selon leurs structures linguistiques 120

127 Notre évaluation fait appel aux critères suivants : - emploi événementiel ou non d un nom ou d un groupe nominal. Par exemple le mot mariage n a pas un emploi événementiel dans «le mariage du champagne et des fromages», alors qu il le possède dans «célébrer un mariage») ; - appartenance ou non du nom prédicatif à une classe de la typologie de Lee (2001). Par exemple, le nom prédicatif manifestation (au sens de manifestation culturelle) apparaissant dans la phrase «La manifestation intitulée "Pierre Bonnard, scènes d intérieur" montre 80 toiles, dessins et aquarelles réalisés entre 1923 et 1947 (année de sa mort), pour la plupart dans cette bourgade qui surplombe Cannes et où il avait acquis une maison avec son épouse et muse, Marthe» doit être distingué du nom prédicatif manifestation (au sens de descente dans la rue) apparaissant dans la phrase «Le Tibet reste un sujet extrêmement sensible en Chine, Pékin étant régulièrement accusée par les responsables tibétains en exil, dont leur chef spirituel, le dalaï lama, et les militants de leur cause de réprimer férocement toute manifestation favorable à l indépendance du territoire himalayen». - savoir si un événement est considéré comme médiatique ou pas reste subjectif (et lié à une communauté donnée). Dans le cadre de ce travail, nous proposons de mener une évaluation de notre annotation en fonction de ce qui est désigné comme étant un événement médiatique pour les journalistes de l AFP. Les résultats de cette évaluation sont présentés dans le tableau 2. Nom prédicatif à usage événement médiatique ET bien classifié Corpus d'apprentissage Corpus test rappel précision rappel précision 60,91% 89,44% 50,00% 87,55% Tableau 2. Le taux de précision élevé montre que les noms prédicatifs «décontextualisés» sont généralement utilisés dans un usage événementiel et que la classification fondée sur la typologie de (Lee, 2001) est pertinente pour la situation et le contexte d'utilisation. En revanche, le taux de rappel bas montre que les noms prédicatifs «décontextualisés» qui ont été recensés dans (Lee, 2001) ne couvrent pas la (ou les) thématique (s) du corpus de textes qui a été annoté. La prise en compte des verbes supports et opérateurs (généraux et appropriés) dans un travail ultérieur devrait permettre une amélioration de ce taux de rappel. 6 Limites et perspectives Ce travail nous a permis de constater que les événements médiatiques se présentent sous plusieurs formes et plusieurs «structures linguistiques» dans les textes. Un nom prédicatif peut être accompagné d'un verbe support ou d'un verbe opérateur (prédicatif) mais ce n est pas forcément toujours le cas. Nous faisons le même constat que celui établi dans (Laporte et al, 2008) : il existe un certain nombre de noms prédicatifs qui n'occurrent pas avec un verbe support. Nous pourrions même ajouter qu ils n'occurrent pas nécessairement non plus avec des verbes opérateurs. Pourtant ils représentent bien des événements dits médiatiques (cf. éléments de la structure (a) dans la figure 2). Ce travail nous a également permis de constater que, même à travers des noms prédicatifs d'événements «décontextualisés», la classification de (Lee, 2001) était adaptée à l'analyse et au repérage des événements médiatiques. Notre travail présente cependant en l'état actuel encore beaucoup de limites. Tout d abord, les différentes formes linguistiques des événements médiatiques que nous avons identifiées n ont pas été définies de manière formelle. Le problème est complexe. Il vient en partie du fait que nous avons éprouvé une difficulté à cerner des critères qui permettent de différencier par exemple si un élément est prédicat ou argument, support ou opérateur dans des expressions longues et complexes provenant de textes réels (dépêches d agences) et non construits comme 121

128 dans le cadre du travail de (Lee, 2001). Ensuite, ayant travaillé sur un corpus de taille réduite, les cinq structures linguistiques que nous avons identifiées ne sont certainement pas suffisantes pour représenter les différentes formes linguistiques des événements médiatiques. Ces structures linguistiques pourront donc être modifiées ou enrichies avec un travail sur des corpus plus volumineux. Enfin, la structuration des connaissances que nous avons brièvement montré a été limitée aux noms prédicatifs d événements «décontextualisés», ce qui ne reflète pas la richesse de la typologie proposée dans (Lee, 2001). De manière plus générale, ce travail nous a amenés à considérer dans toute sa complexité l'identification de ce qui fonctionne comme élément prédicatif et/ou comme argument dans une unité phrastique. Nos travaux futurs visent à aborder de manière plus précise et détaillée ce fonctionnement dans une perspective TAL. Remerciements Ce projet est financé par le projet ANR RMM2. Références Arnulphy B., Tannier X. & Vilnat A. (2010). Les entités nommées événement et les verbes de causeconséquence. In Actes TALN 2010, Montréal, Canada. Bittar A. (2008). Annotation des informations temporelles dans des textes en français. In RECITAL 2008, Avignon, France. Bittar A. (2009a). Annotation of events and temporal expressions in french texts. In Proceedings of the Third Linguistic Annotation Workshop, p : ACL and AFNLP. Bittar A. (2009b). Intégration des constructions à verbe support dans TimeML. In TALN 2009, Senlis France. Bittar A. (2010). Construction d'un TimeBank du français : un corpus de réfé annoté selon la norme ISO- TimeML. Thèse de doctorat, Université Paris Diderot. Constant M. (2003). Grammaires locales pour l analyse automatique de textes: Méthodes de construction et outils de gestion. PhD thesis, Université de Marne-la-Vallée. Constant M. & Tolone E. (2010). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In M. D. Gioia, Ed., Actes du 27e Colloque international sur le lexique et la grammaire (L Aquila, septembre 2008). Seconde partie, volume 1 of Lingue d Europa e del Mediterraneo, Grammatica comparata, p Aracne. ISBN Giry-Schneider J (1987) Les prédicats nominaux en français. Les phrases simples à verbe support, Genève, Droz. Gross M. (1975). Méthodes en syntaxe. Paris : Hermann. Gross M. (1981). Les bases empiriques de la notion de prédicat sémantique. p. 7 52: Langages. Harris Z. S. (1976), Notes du cours de syntaxe, trad.par M.Gross, Paris, Le Seuil. Laporte E., Ranchhod E. & Yannacopoulou A. (2008). Syntactic variation of support verb constructions. Lingvisticae Investigationes, 31(2), LINGUISTIC DATA CONSORTIUM (2005). ACE English Annotation Guidelines for Events, Version , Lecolle M (2009). «Changement de sens du toponyme en discours : de Outreau ville à Outreau fiasco judiciaire», Les Carnets du Cediscor 11, p , Presses Sorbonne Nouvelle, Paris, Lee S.-H. (2001). Les classes d objets d événements. Pour une typologie sémantique des noms prédicatifs d événements. Thèse de doctorat, Université Paris 13. Parent G., Gagnon M. & Muller P. (2008). Annotation d expressions temporelles et d événements en français. In Actes de TALN. Paumier S. (2008). Unitex 2.0 User Manual. Pesant D. L. & Mathieu-Colas M. (1998). Introduction aux classes d objets. Langages, 131, Prestini-Christophe M. (2006). Une nouvelle grille de lecture : l'événement. Pensée plurielle, 13, Pustejovksy J., Castano J., Ingria R., Saurí R., Gauzauskas R., Setzer A. et Katz G. (2005). TimeML: Robust specification of event and temporal expressions in text. Actes de IWCS-5, Fifth International Workshop on Computational Semantics. Sagot B. & Tolone E. (2009). Exploitation des tables du Lexique-Grammaire pour l analyse syntaxique automatique. Arena Romanistica, Journal of Romance Studies, 4, ISSN Saurí R., Knippen R., Verhagen M. & Pustejovsky J. (2005). Evita: a robust event recognizer for qa systems. In HLT 05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, p , Morristown, NJ, USA: Association for Computational Linguistics. Schmid H. (1994). Probabilistic part-of-speech tagging using decision trees. In Proceedings of International Conference on New Methods in Language Processing. Van de Velde D. (2006). Grammaire des événements. Presses Universitaires du Septentrion. 122

129 Geierhos Michaela University of Munich, Germany TOWARDS A LOCAL GRAMMAR-BASED PERSONDATA GENERATOR FOR WIKIPEDIA BIOGRAPHIES Abstract Finding information about people in the World Wide Web is one of the most common activities of Internet users. It is now impossible to manually analyze all this information and new approaches are needed that are capable of processing the large-scale heterogeneous data in order to extract the pertinent information. The Wikipedia community still puts much effort in manually adding structured data to biographical articles, the so-called {{Persondata}} template. Thanks to this kind of metadata, semantically-enriched information concerning the biographee (e.g. name, date of birth, place of birth) can be extracted and processed by search engines. But it is a rather time-consuming task and users quite often forget to add this template: some biographies contain persondata, others do not. There is considerably less work done on developing approaches to automatically enhance English Wikipedia biographies with persondata and therefore improve the quality of structured user contributions. Within this paper, we describe our method to automatically generate persondata from biographical information in Wikipedia articles. Keywords: local grammar-based information extraction, wikipedia persondata template generation. 1 Introduction When writing a Wikipedia biography, it is highly recommended to add a special set of metadata, the so-called {{Persondata}} template. It consists of standardized data fields providing information on the biographee (name, date of birth and death, as well as place of birth and death). 1 That way, persondata can be automatically extracted [see DBpedia 2 ] and processed by cataloging tools and then used for a variety of purposes, such as providing advanced search capabilities (Nguyen et al., 2010), statistical analysis (Suchanek et al., 2006), relationship identification (Lehmann et al., 2007), automated categorization (Saleh et al., 2010), and lists of persons by name or birth place. As of October 2010, the English Wikipedia had over 277,076 articles with persondata which could only be topped by the German Wikipedia with over 348,621 articles with persondata. Since 2009 the English speaking Wikipedia community has caught up in manually adding the {{Persondata}} template to biographical articles. There were only 43,000 articles with persondata in July The original idea behind the use of this template was to automatically alphabetize all the biographical articles because the titles usually begin with the person s first name. Since collaborative writing does not contribute to uniform formatting, we cannot rely on this fact. For example, Chinese names are mostly given the other way round: the family name appears first followed by the first name, e.g. Wang Xiaoshuai 3. Due to the above mentioned inconsistency it is not possible to build a person name index sorted by family name out of running text. But not all Wikipedia biographies have persondata

130 Figure 1: Sample persondata used for the Wikipedia biography of Luciano Pavarotti By automatically adding standardized metadata to such articles, the quality of structured user contribution within Wikipedia pages would significantly improve. There has been a lot of work done on named entity recognition (Kazama & Torisawa, 2007; Balasuriya et al., 2009) or named entity disambiguation based on Wikipedia (Cucerzan, 2007; Han & Zhao, 2009), but there is considerably less work done on developing methods to automatically enrich Wikipedia articles with structured metadata. Therefore, we first describe our local grammarbased approach (Gross 1997) to automatically fill the persondata template (cf. Figure 1) with information from the English Wikipedia article itself and to create the corresponding infoboxes (cf. Figure 2). Secondly, we compare our results to those obtained using the Persondata Generator developed by Magnus Manske 4. Figure 2: Sample infobox given in a Wikipedia biography 2 Wikipedia Persondata: Limited Biographical Information In general, a person s biography is a set of all events that have taken place within the life span of the biographee such as birth, academic and professional experience, personal and professional relations, and death. But in this case, it is a rather limited issue because the fields of a persondata template only summarize facts belonging to one s civil registry (cf. Figure 3). The Wikipedia infobox indeed contains additional information items such as the nationality or the occupation (cf. Figure 2 and Figure 3), but it is far away from a complete profile of the biographee. {{Persondata {{Infobox Person NAME= name = ALTERNATIVE NAMES= other_names = SHORT DESCRIPTION= known_for = DATE OF BIRTH= birth_date = PLACE OF BIRTH= birth_place = DATE OF DEATH= death_date = PLACE OF DEATH= death_place = }} occupation = nationality = }} Figure 3: Predefined persondata and infobox template used in a Wikipedia biography

131 As we intend to extract biographical facts out of Wikipedia biographies without using any structured information provided by Wiki syntax or HTML code, we first have to define which statements in natural language express biographical information. We therefore use the object class model (Gross, 1994) where object classes are semantic classes built upon syntactic criteria (Le Pesant & Mathieu-Colas, 1998). In this context, we consider only predicative relations linking several arguments out of which one is mandatory an element belonging to the class <Person>. There is no restriction on the selection of the other elements participating in a relationship which describes biographical information (Geierhos & Blanc, 2010). However, we observed that other arguments concerning one s civil registry are typically instances of the classes <Person>, <Location> and <Date>. Each class is encoded by an electronic dictionary according to the DELA formalism (Courtois, 2004). The lexical entries are instances of the original object classes and also hyponymes of the object class name. Initial Pattern Synonymic Patterns Object Class as Subject Object Class as Object Birth X was born in D/L X saw the light of day in D/L X: Person D: Date, L: Location X was born as N X saw the light of day as N X: Person N: Name Marriage X married Y X and Y became man and wife X: Person Y: Person X joint in marriage with Y X: Person Y: Person X plighted X s troth to Y X: Person Y: Person X pledged X s troth to Y X: Person Y: Person X took Y to wife/husband X: Person Y: Person X wedded Y X: Person Y: Person X led Y to the altar X: Person Y: Person Y was married to X X: Person Y: Person Y got married to X X: Person Y: Person Y was wedded to X X: Person Y: Person Divorce X was divorced from Y X filed a divorce from Y X: Person Y: Person X sued for divorce from Y X: Person Y: Person X got a divorce from Y X: Person Y: Person X separated from Y X: Person Y: Person X split from Y X: Person Y: Person X broke up with Y X: Person Y: Person X ended X s marriage to Y X: Person Y: Person X annulled X s marriage to Y X: Person Y: Person X dissolved X s marriage to Y X: Person Y: Person X parted company with Y X: Person Y: Person Death X died in D/L X breathed X s last in D/L X: Person D: Date, L: Location X deceased in D/L X: Person D: Date, L: Location X departed X s life in D/L X: Person D: Date, L: Location X laid down X s life in D/L X: Person D: Date, L: Location X lost X s life in D/L X: Person D: Date, L: Location X met X s death in D/L X: Person D: Date, L: Location X passed away in D/L X: Person D: Date, L: Location X perished in D/L X: Person D: Date, L: Location Table 1: Typology for biographical information belonging to the civil registry (excerpt) All biographical events listed in Table 1 correspond to statements in natural language that can be recognized by using a suitable bootstrapping method combined with knowledge-rich 125

132 context patterns (Meyer, 2001). We therefore define a limited number of syntactic patterns enriched by lexical information stored in the above mentioned object classes. 3 A Local Grammar-based Approach to Persondata Extraction The problem that we are addressing is related to the traditional information extraction task, such as the research presented at the Message Understanding Conferences (MUC) and later replaced by the Automatic Content Extraction (ACE) campaigns. In general, information extraction tasks use surface-based patterns to identify concepts and relations between them. Patterns may be handcrafted or learned automatically, but typically include a combination of character strings, parts of speech or phrasal information (Grishman, 1997). A succession of regular expressions is normally used to identify these structures; they are applied when triggered by keywords (McDonald, 1996). Most information extraction systems either use hand written extraction patterns or use a machine learning algorithm that is trained on a manually annotated corpus. Both of these approaches require massive human effort and hence prevent information extraction from becoming more widely applicable. Concerning the extraction of biographical facts for automatically generating the persondata template, we will outline the extraction and infobox creation process, as shown as preview in Figure 4. As persondata is a subset of an infobox, we will use the same techniques for both of them. Figure 4: Sample infobox extracted from a short biography of Paula Abdul 3.1 Local Grammar Development and Application While the Persondata Generator developed by Magnus Manske 5 only uses a very small set of trigger words and analyzes the Wiki syntax within a biographical article, we focus on a linguistic description of biographical events mentioned in the biographies. For example, the (born... died...) parentheses typically used in biographical articles help us to spot the date of birth and death in the first line of the biography. However, there are variations in expressing a lifetime period, e.g. Dante Alighieri (May/June c.1265 September 14, 1321) 6. In this case, the keywords born and died are totally missing. There are many syntactic variations in heterogeneous text expressing the same types of biographical information (e.g. birth, death) which are reduced to the basics in a structured representation called {{Persondata}}

133 We created local grammars (Gross, 1997) using the free software tool UNITEX 7 (Paumier, 2010) in order to describe the syntactic and lexical structures (so-called knowledge-rich context patterns) of biographical information provided by the persondata template. Formally, local grammars are recursive transition networks (Woods, 1970), symbolized by graphs (cf. Figure 5). From a technical point of view, we apply our local grammars in a cascading style. Each level of the cascade relies on the results of the previous level. The first levels enable us to identify and annotate simple entities in the same manner as used in the persondata template such as ALTERNATIVE NAMES, PLACE OF BIRTH and DATE OF BIRTH. The next levels broaden these entities so as to cover all the predicative relations mentioned above (cf. Table 1). Furthermore, the local grammar illustrated in Figure 5 recognizes the parents of the biographee which can be displayed in the infobox of a Wikipedia biography. After applying our local grammar cascade to the biography shown in Figure 4, we receive the following annotated text: <result> <annotated type="text"> <PERSONctx><PERSON type="name">paula Abdul</PERSON></PERSONctx><eos /> <REL type="job"><jdctx><jd>dancer</jd>,<jd info="non-lex">pop singer</jd>, <JD>choreographer</JD></JDctx></REL>.<eos /> <REL type="birth"> <PERSONctx q="who"> <PERSON type="alt_name" sex="f"> Paula Julie Abdul</PERSON></PERSONctx> <PRED type="birth" text="born"> was born</pred> <TIMEXctx q="when"> on <DATE> June 19</DATE>, <DATE> 1962</DATE>,</TIMEXctx> <GEOctx q="where"> in <GEO> Los Angeles</GEO>, <GEO info="non-lex"> California.</GEO></GEOctx></REL><eos /> <REL type="marriage"><personctx q="who"><person type="name" sex="unk"> Abdul</PERSON></PERSONctx> <PRED type="marriage" text="marry"> was married</pred> to <REL type="job"> <JD>actor</JD> <PERSONctx q="who"> <PERSON type="name" sex="m">emilio Estevez </PERSON></PERSONctx></REL> <TIMEXctx q="when">from <DATE> 1992 </DATE>-<DATE>1994</DATE>,</TIMEXctx> and to <PERSONctx q="who"> <PERSON type="name" sex="m"> Brad Beckerman</PERSON></PERSONctx> <TIMEXctx q="when">from <DATE> 1996</DATE>-<DATE>1999</DATE> </TIMEXctx></REL>.<eos /> <REL type="location"><personctx q="who"><hum>she</hum></personctx> <PRED type="location" text="reside">currently resides</pred> <GEOctx q="where">in <GEO>Los Angeles</GEO>, <GEO info="non-lex"> California.</GEO></GEOctx></REL><eos /> </annotated> </result> The outcome of this is the generation of the following persondata template facilitated by a PERL script: {{Persondata NAME= Abdul, Paula ALTERNATIVE NAMES= Adul, Paula Julie SHORT DESCRIPTION= Dancer, Pop Singer, Choreographer DATE OF BIRTH= June 19, 1969 PLACE OF BIRTH= Los Angeles, California DATE OF DEATH= PLACE OF DEATH= }}

134 Since the fields of the persondata template are very restricted, other types of biographical facts like occupational information, spouses as well as the corresponding periods of marriage and the place of residence (cf. Figure 4) can automatically be added to the infobox of the Wikipedia article. Figure 5: Local grammar for the extraction of persondata fields belonging to the event Birth 3.2 Limits of ACE Annotation Scheme for Events Since we dedicated our research to biographical events, we only address the LIFE and PERSONELL event types defined by the ACE English Annotation Guidelines for Events (LDC, 2005: 65 ff.). Concerning the ACE English Annotation Guidelines for Events the number of arguments considered as relevant is quite limited. For example, the BE-BORN event type disregards useful information such as the birth name, family background, or birth defects. Especially, birth names are useful to distinguish between people by identifying that, for example, Stefani Joanne Angelina Germanotta and Lady Gaga is the same person in the following context: Lady Gaga was born as Stefani Joanne Angelina Germanotta on March 28, Since we need more detailed information about people, their work and occupations, we dismiss the ACE annotation standard for biographical event types. Hence we propose a more suitable one, which we presented in the previous section. 4 Evaluation In this section, we compare our results to those obtained using the Persondata Generator developed by Magnus Manske 8 by estimating the quality of the extraction patterns. However, Magnus Manske s tool is not the state-of-the-art in this task, so comparison should be made to other systems performing similar tasks. But his tool is quite frequently used by the Wikipedia community and can only be tested on Wikipedia biographies. Due to the absence of any

135 reference corpus, we randomly selected 150 biographical articles with missing persondata from the English Wikipedia website for testing purposes.. We must admit that this sample is too small to draw relevant conclusions. Since Magnus Manske s tool is skipping Wikipedia articles that already have {{Persondata}}, we can only make a comparison between his approach exploiting the Wiki syntax and ours when manually verifying both extraction results. Persondata field Local grammar-based tool Magnus Manske s tool Differences Precision Recall F-score Precision Recall F-score Precision Recall F-score NAME ALTERNATIVE NAMES SHORT DESCRIPTION DATE OF BIRTH PLACE OF BIRTH DATE OF DEATH PLACE OF DEATH AVERAGE AVERAGE-SHORT DESCRIPTION Table 2: Evaluation results The lesson is clear: The Persondata Generator works well as long as the biographical information is tagged by Wiki syntax. A very prominent example for his malfunction in case of missing internal links (name of a Wikipedia page enclosed by double square brackets) is the following Wikipedia biography: Franz Guenthner is a professor of Computational Linguistics at the [[Center for Information and Language Processing]] (CIS) at the [[Ludwig-Maximilians-Universitaet]] (LMU) in [[Munich]], [[Germany]]. Here, Magnus Manske s tool extracts for SHORT DESCRIPTION at the [[Ludwig- Maximilians-Universitaet]] (LMU) in [[Munich]], [[Germany]] instead of professor of Computational Linguistics like our local grammar-based persondata generator does. 5 Conclusion Within this paper, we presented a biographical information extraction method capable of automatically generating a {{Persondata}} template by retrieving data from a Wikipedia biographical article. We focused on a linguistic description of biographical events and proved that the extraction results show high precision and recall. But if one removed the shortdescription category, the results would be slightly different for the non-linguistic approach. References BALASURIYA D., RINGLAND N., NOTHMAN J., MURPHY T. and CURRAN J. R. (2009), Named entity recognition in Wikipedia, in People s Web 09: Proceedings of the 2009 Workshop on The People s Web Meets NLP: ACL, Morristown, NJ, USA: COURTOIS B. (2004), Dictionnaires électroniques DELAF anglais et français, in Christian Leclère, Eric Laporte, Mireille Piot and Max Silberztein (Eds.), Lexique, syntaxe et lexique-grammaire; syntax, lexis & lexicon-grammar, John Benjamins, Amsterdam/Philadelphia: CUCERZAN S. (2007), Large-Scale Named Entity Disambiguation Based on Wikipedia Data, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): ACL, Prague, Czech Republic: GEIERHOS M. and BLANC O. (2010), BiographIE Biographical Information Extraction from Business News, in Michele De Gioia (Ed), Actes du «27e Colloque international sur le lexique et la grammaire» (L Aquila, septembre 2008). Seconde partie. Lingue d Europa e del Mediterraneo: Grammatica comparata, Aracne, Rome, Italy:

136 GRISHMAN R. (1997), Information Extraction: Techniques and Challenges, in Pazienza and Carbonell (Eds.), Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology, International Summer School, SCIE-97, Frascati, Italy, 14-18, 1997, vol. 1299, Springer: GROSS G. (1994), Classes d objets et description des verbes, in Langages, vol. 115, Larousse, Paris: GROSS M. (1997), The Construction of Local Grammars, in E. Roche & Y. Schabes (Eds), Finite-State Language Processing, MIT Press, Cambridge, Massachusetts, USA: HAN X. and ZHAO J. (2009), Named entity disambiguation by leveraging Wikipedia semantic knowledge, in CIKM 09: Proceeding of the 18th ACM conference on Information and knowledge management: ACM, New York, NY, USA: KAZAMA, JUN ICHI and TORISAWA, KENTARO (2007), Exploiting Wikipedia as External Knowledge for Named Entity Recognition, in Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning: LDC (2005), ACE English Annotation Guidelines for Events, Version , Linguistic Data Consortium, LE PESANT D. and MATHIEU-COLAS M. (1998), Introduction aux classes d objets, in Langages, vol. 131, Larousse, Paris: LEHMANN J., SCHÜPPEL J. and AUER S. (2007), Discovering Unknown Connections - the DBpedia Relationship finder, in S. Auer, C. Bizer, C. Müller, A.V. Zhdanova (Eds), Proceedings of 1st Conference on Social Semantic Web, vol. 113: MCDONALD D. (1996), Internal and External Evidence in the Identification and Semantic Categorization of Proper Names, in Corpus Processing for Lexical Acquisition: MIT Press: MEYER I. (2001), Extracting knowledge-rich contexts for terminography, in D. Bourigault, C. Jacquemin and M.-C. L'Homme (Eds.), Recent Advances in Computational Terminology, John Benjamins: NGUYEN H., NGUYEN T., NGUYEN H. and FREIRE J. (2010), Querying Wikipedia documents and relationships, in WebDB 10: Procceedings of the 13th International Workshop on the Web and Databases: ACM, New York, NY, USA: 1 6. PAUMIER S. (2010), Unitex User Manual 2.1, SALEH I., DARWISH K. and FAHMY A. (2010), Classifying Wikipedia Articles into NE s Using SVM s with Threshold Adjustment, in Proceedings of the 2010 NE's Workshop: ACL, Uppsala, Sweden: SUCHANEK F. M., IFRIM G. and WEIKUM G. (2006), Combining linguistic and statistical analysis to extract relations from web documents, in KDD 06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining: ACM, New York, NY, USA: WOODS W. A. (1970), Transition network grammars for natural language analysis, in Communications of the ACM, n 10, vol. 13, ACM, New York, NY, USA: Acknowledgments This work is supported by the Eurostars Programme, a R&D initiative funded by the European Community and by the German Federal Ministry of Education and Research (Grant No. 01QE0902B). We express our sincere thanks to both for financing this research within the collaborative research project Biographe E!4621 ( 130

137 Ioannidou Kyriaki Université Aristote de Thessalonique, Grèce Tolone Elsa Université Paris-Est, France Universidad Nacional de Córdoba, Argentine CONSTRUCTION DU LEXIQUE LGLEX A PARTIR DES TABLES DU LEXIQUE- GRAMMAIRE DES VERBES DU GREC MODERNE Résumé Dans cet article, nous dressons un bilan du travail effectué sur les ressources du grec moderne concernant le Lexique-Grammaire des verbes 1. Nous détaillons les propriétés définitoires de chaque table, ainsi que l'ensemble des changements effectués sur les intitulés de propriétés afin de les rendre cohérents. Grâce à l'élaboration de la table des classes, regroupant l'ensemble des propriétés, nous avons pu envisager la conversion des tables en un lexique syntaxique : LGLex. Ce lexique, au format texte ou XML, est généré par l'outil LGExtract (Constant & Tolone, 2010). C'est un format directement exploitable dans les applications de Traitement Automatique des Langues (TAL). Mots clés: lexique-grammaire, verbes du grec moderne, table des classes, lglex, lexique syntaxique. 1. Introduction Depuis une dizaine d années, un programme de description formalisée de la langue grecque pour l analyse syntaxico-sémantique a permis de construire des tables du Lexique- Grammaire, en adoptant la méthodologie proposée par Gross (1975), Boons, Guillet et Leclère (1976a ; 1976b). À l heure actuelle, nous disposons de 17 tables de verbes simples (Yannacopoulou, 2005 ; Fista, 2007 ; Kyriacopoulou, 2010 ; Voskaki, 2011), 7 de noms prédicatifs (Sfetsiou, 2007), 16 tables d'adverbes (semi-)figés (Voyatzi, 2006 ; Voyatzi & Kakoyianni-Doa, 2010) et 2 tables de noms composés (Kyriakopoulou, 2011) 2. Dans le cadre de notre recherche, nous avons pris en compte les tables des prédicats verbaux, le même travail étant en cours pour les noms prédicatifs. Afin de procéder à l analyse syntaxique des textes grecs, il faut intégrer les données du Lexique-Grammaire dans un analyseur syntaxique, ce qui nécessite la conversion des données dans un format exploitable en Traitement Automatique des Langues (TAL). Étant fortement inspirés des travaux déjà réalisés pour le français (Tolone, 2011), nous avons suivi la démarche suivante pour les prédicats verbaux : collecter toutes les tables ; créer une table des classes, afin d'y faire figurer les propriétés définitoires décrites dans la littérature et de rendre cohérent l'ensemble des tables, comme cela a été fait pour le français (Tolone, 2009 ; Tolone et al., 2010) ; créer un script interprétant chaque intitulé de la table des classes qui, exécuté par l'outil LGExtract (Constant & Tolone, 2010), permet de convertir les tables au format LGLex. Dans cet article, après la présentation des tables utilisées pour la construction du lexique 1 Ce travail fait partie d une thèse de doctorat co-financée par l Union Européenne (Fonds Social Européen) et par l État Grec (Cadre de Référence Stratégique National ), dans le cadre du programme «Heracleitus II. Investissement dans la société de la connaissance / Éducation et Formation Tout au Long de la Vie». 2 Ces tables seront disponibles ultérieurement sur 131

138 syntaxique, nous allons lister les types de modifications effectuées lors de la mise en cohérence des propriétés. Par la suite, nous allons évoquer la création de la table des classes détaillée dans (Ioannidou & Kyriacopoulou, 2010) qui nous a permis d'ajouter les propriétés définitoires et d'assurer l homogénéisation des intitulés des propriétés. Enfin, nous allons présenter le lexique syntaxique obtenu. 2. Ressources linguistiques et propriétés définitoires des tables Les tables verbales ainsi que les propriétés définitoires vraies pour l'ensemble des entrées de chaque table sont les suivantes (la première construction étant la construction de base) 3 : 32GA : N0 V N1 avec N1 apparition 32GD : N0 V N1 avec N1 disparition 32GC : N0 V N1 avec N1 =: Nconc 32GCL : N0 V N1 avec N1 =: Npc 32GCV : N0 V N1 avec N0 Vsup N1 Prep V-n 32GH : N0 V N1 avec N1 =: Nhum 32GNM : N0 V N1 avec N1 =: N-hum 32GPL : N0 V N1 avec N1 =: Npl obl 32GRA : N0 V N1 avec N0 Vsup N1 V-adjaccusatif [équivalent à V-adj] 4 4G : N0 V N1 avec une complétive en N0 6G : N0 V N1 avec une complétive en N1 9G : N0 V N1 ζε [se=à] N2 avec une complétive en N1 38GL : N0 V N1 Loc N2 source Loc N3 destination 38GLS : N0 V N1 Loc N2 source 38GLD : N0 V N1 Loc N2 destination 38GLH : N0 V N1 Loc N2 destination avec N1 =: Nhum 38GLR : N0 V N1 Loc N2 L'ensemble des tables verbales représentent emplois verbaux décrits. Notons que pour les verbes, certaines lignes peuvent donner lieu à plusieurs entrées puisque des préfixes sont également codés, ce qui totalise entrées en comptant les verbes préfixés. Certes, ces tables sont loin de couvrir toute la langue grecque mais la constitution de cette ressource est en cours. Le nombre de ressources en Grèce n'étant pas très important, il s'agit de la plus grande ressource syntaxique à ce jour. 3. Modifications dans les tables Pour procéder à la conversion du contenu de plusieurs tables en un seul fichier, il faut que l'ensemble des propriétés respecte les mêmes conventions de notation et de structure dans les différentes tables. De ce fait, nous avons effectué des modifications dans les tables à l aide de la table des classes (voir section 4). Pour effectuer ces modifications, nous nous sommes basées sur la documentation des propriétés des verbes du français 5. Cependant, nous avons pris en compte les particularités de la langue grecque, en essayant d être le plus proche possible des notations françaises. Par exemple, l encodage particulier qu exige la langue grecque nous a conduit à ne pas garder les accents français dans les notations. Nous avons adopté donc les mêmes symboles en enlevant les accents (Prép Prep pour préposition 6 ). Les changements effectués concernent toutes les colonnes des tables, sauf celles des exemples et des traductions qui n'ont pas encore été traitées. Ils peuvent être regroupés en 3 Les notations entre [ ] indiquent la romanisation du mot grec, suivi de sa traduction en français. Elles ont été ajoutées pour des questions de lisibilités mais ne figurent pas dans les propriétés. 4 Pour le grec, les cas peuvent être spécifiés à droite d'un complément. 5 Disponible avec les tables du Lexique-Grammaire du français sur le site > Données Linguistiques > Lexique-Grammaire > Téléchargement. 6 Dans cet article, le changement va être noté sous la forme x y où x est la notation avant le changement et y la notation d après. 132

139 cinq catégories : les modifications typographiques, les modifications au niveau de la structure des intitulés, l ajout des informations lexicales, la suppression des colonnes qui contenaient des propriétés définitoires ou non pertinentes et les changements purement linguistiques. 1. Parmi les erreurs typographiques, on rencontre des fautes dues à l alternance de caractères grecs et latins, ou de caractères majuscules et minuscules (ppv Ppv). D autres modifications au niveau typographique concernent la présence ou non d'espaces (N0=:Nhum N0 =: Nhum), le tronquage ou non d une notation (disp disparition), ou l utilisation d une notation différente (V-νο [-os] V-adj, Sfx = νο [os]) (Ioannidou & Kyriacopoulou, 2010). Nous avons, de plus, utilisé la notation x-v où x correspond à un préfixe qui est ajouté aux verbes grecs (p.ex. εθ-v [ek-], ζπλ-v [syn-], etc.) (Fista, 2007). Cette notation a une interprétation particulière lors de la conversion des tables au format LGLex. Si cette colonne vaut + pour une entrée verbale donnée, il faut spécifier cette nouvelle entrée qui correspond au verbe préfixé partageant les mêmes propriétés que le verbe non préfixé. Les changements au niveau typographique représentent la plus grande partie des changements effectués dans les tables (55%). 2. À part les modifications qui concernent les symboles utilisés dans les intitulés des propriétés, nous avons effectué des changements qui concernent la structure des propriétés (utilisation de la virgule ou des symboles =:, =, utilisation d une structure différente pour désigner un trait sémantique et un rôle thématique). Pour les notations qui existent seulement pour le grec, nous avons utilisé des structures proches de celles adoptées pour les autres intitulés, pour faciliter leur conversion au format LGLex. Par exemple, au lieu d'utiliser la notation Pfxεθ-[ek-]/source qu on utilisait pour exprimer l ajout du préfixe εθ qui donne la notion de source, nous avons noté la construction complète N0 εθ-v [ek-] N1 Loc N2 source qui est conforme aux conventions du Lexique-Grammaire. Dans le tableau ci-dessous, nous avons regroupé les différentes structures utilisées pour les intitulés dans les tables grecques 7. Les modifications qui concernent la structure des notations représentent 30% des changements effectués. Type d information Exemple 1. distribution des arguments (N0, N1, N2) N2 =: Nhum 2. distribution des prépositions locatives Loc N2 =: πξνο [pros=vers] N2 3. interprétation des arguments N0 destination 4. transformation/construction complète N0 V 5. transformation/construction relative N1 =: Ppv 6. complément supplémentaire κε [me=avec] Ν 7. champ lexical V-adj 8. formation d une nouvelle entrée από-v [apó-] * combinaison de No 1 et No 7 N0 =: V-n * combinaison de No 2 et No 3 Loc N2 =: από [apó=de] N2 source * combinaison de No 3 et No 7 V-n instrument Tableau 1. L'ensemble des structures utilisées dans les tables (colonne 2) selon les différents types d information fournis (colonne 1) Dans ce cadre, nous avons été obligées de supprimer quelques colonnes ayant le même intitulé dans une même table. Par exemple, plusieurs colonnes intitulées Npred permettaient de contenir plusieurs noms prédicatifs pour chaque entrée. Nous avons regroupé dans une même case ces noms prédicatifs en les séparant par des +. À l intérieur des tables, nous pouvons donc avoir une structure du type x+y où x et y sont des mots alternatifs. De plus, parmi les notations spécifiques, le grec étant une langue à cas, nous avons ajouté l information du cas collée au nom concerné (p.ex. N0 V θαηά [katá=contre] N2humgenitif). 7 Une documentation sur l'ensemble des propriétés contenues dans la version actuelle des tables est disponible sur > Documentation des tables LG. 133

140 Plus précisément, concernant les cas, nous n avons pas intégré l information du cas à tous les noms, mais seulement si les règles générales de la langue ne sont pas respectées. Comme règles générales en grec moderne, nous considérons les suivantes : a. toutes les prépositions introduisent un groupe nominal à l accusatif (p.ex. από [apó=de] N0) b. le sujet de la phrase (N0) se trouve toujours au nominatif c. le complément d objet direct (N1) se trouve toujours à l accusatif Il arrive souvent que ces règles ne soient pas respectées : il existe des prépositions (θαηά [katá=contre]) qui exigent un groupe nominal au génitif ; un sujet de la phrase peut être introduit par une préposition dans le cadre d une transformation, et alors il se met au cas qu exige la préposition (ex. (1)) ; un complément d objet direct, dans le cadre d une transformation, peut prendre la position syntaxique d un sujet et se mettre au nominatif (ex. (2)). (1) Το γεγονόρ όηι μεηάνιωζε αμθιζβεηείηαι από ηον Πέηπο [apó=par] N0accusatif Le fait qu il a regretté est contesté par Pierre (2) Η πόπηα ανοίγει (transformation de la phrase Εγώ ανοίγω ηεν πόπηα) N1nominatif V La porte ouvre (transformation de la phrase J ouvre la porte) Pour traiter l'exemple (1), nous avons un ordre de priorité pour les trois règles précédentes (ordre a, b, c), ce qui permet de les appliquer successivement. Ainsi, la deuxième règle sera appliquée seulement si la première règle n est pas valable, ce qui signifie que le sujet de la phrase se trouve au nominatif sauf s il est précédé d une préposition. Pour faire face aux exceptions, nous avons ajouté l information du cas pour le nom concerné. Nous avons donc les notations N1nominatif, θαηά [katá=contre] N2humgenitif, etc. En plus des règles ci-dessus et à cause de la présence de verbes copules et de verbes transitifs dans les tables, nous avons précisé dans un fichier à part 8 quels sont les verbes qui sont transitifs et alors exigent un complément d objet direct à l accusatif, et quels sont les verbes copules qui exigent un attribut au nominatif. Ainsi, nous n avons pas mis ces informations dans les intitulés des propriétés, car il s agit d une information qui ne concerne pas une construction donnée mais toute construction contenant le verbe en question. Par contre, dans quelques constructions nous avons mis l information datif qui n est pas exploitable pour le moment, mais qui est une information linguistique que l'on souhaite garder. 3. En vue de l exploitation informatique des tables et de l intégration d un lexique syntaxique dans un analyseur syntaxique, il a fallu ajouter quelques informations lexicales qui étaient implicites dans les tables. Les informations lexicales ajoutées sont la forme que peut prendre le participe passé (différents cas) selon la structure ou la phrase complétive, la forme médiopassive du verbe (en grec, le verbe médiopassif est une entrée différente de la forme active, aussi bien dans les dictionnaires que dans les tables), le participe passé du verbe ainsi que l adjectif dérivé du verbe, ayant des suffixes divers (Sfx = ηνο [tos], Sfx = νο [os], Sfx = ηηθόο [tikós]). Cette modification concerne 9% de l'ensemble des changements dans les tables. Ces changements sont effectués soit en changeant les intitulés existants (ex. (3) et (4)), soit 8 Un fichier explicitant les informations implicites dans les tables est disponible sur > Documentation des tables LG. 134

141 en ajoutant une nouvelle colonne avec des champs lexicaux (VP, Vpp et V-adj, Sfx = ηνο [tos] ) (3) Loc N2 Ppv Loc N2 = Ppv =: (μος+μαρ+ζος+ζαρ+ηος+ηοςρ+ηερ) [(mou+mas+sou+sas+tou+tous+tis)=(lui+en)] (4) N1 = Ppv N1 = Ppv =: (με+μαρ+ζε+ζαρ+ηον+ηοςρ+ηε+ηεν+ηιρ+ηο+ηα) [(me+mas+se+sas+ton+tous+ti+tin+tis+to+ta)=(le+la+les)] De plus, étant donné le petit nombre de tables du Lexique-Grammaire pour le grec moderne, nous avons ajouté provisoirement une colonne intitulée N0 Vsup Npred dans 12 tables pour pouvoir exploiter les verbes supports (Vsup) et les noms prédicatifs (Npred) qui existent en tant que champs lexicaux dans les tables. 4. Quelques tables grecques du Lexique-Grammaire contenaient déjà les propriétés définitoires (Voskaki, 2011). En outre, d autres tables étant intégrées dans une super-table (Yannacopoulou, 2005), contenaient l'ensemble des propriétés apparaissant dans les autres tables, même si elles n étaient pas pertinentes pour la table en question. Pour chaque table, nous avons enlevé les colonnes avec les propriétés définitoires ainsi que les propriétés non pertinentes (5% des changements des tables). 5. Enfin, en modifiant les tables, nous sommes tombées sur quelques fautes linguistiques que nous avons corrigées et qui représentent moins de 1% des modifications des tables. Regroupons les symboles ajoutés à cause des particularités de la langue grecque : a. Traits sémantiques : argent, transport. Le trait transport se réfère à tous les noms qui désignent un moyen de transport (train, avion, etc.) Le trait argent (ex. (5)) se différencie du trait monnaie car il ne se réfère pas à une unité monétaire (p.ex. francs, euros) mais à tout ce qui a une valeur, qui correspond à une somme d argent (p.ex. subvention, bourse, etc.) (5) Propriété : N1 = : Nargent (ππνηξνθία [ypotrofía=bourse] Entrée acceptant la propriété : επελδύω [ependýo=investir] Αςηόρ επένδςζε όλε ηεν ςποηποθία ηος ζε ακίνεηα Il a investi toute sa bourse dans l immobilier b. Rôle thématique : moyen-destination (ex. (6)). Il s agit d un nouveau rôle thématique qui est attribué à un complément essentiel locatif (N2) qui désigne à la fois le moyen et la destination. (6) Propriété : Loc N2 =: (κε[me=avec]+ζε[se=à]) N2 moyen-destination Entrée acceptant la propriété : θξύβω [krývo=cacher] Αςηόρ κπύβει ηο ψωμί με ηεν πεηζέηα / Αςηόρ κπύβει ηο ψωμί ζηεν πεηζέηα Il cache le pain avec la serviette / Il cache le pain à la serviette c. Concernant les phrases complétives, nous avons utilisé la notation Pcomp0 pour exprimer qu il s agit d une phrase complétive qui a la position syntaxique d un sujet (N0) (Kyriacopoulou, 2005). Cette complétive est par ailleurs décrite explicitement dans d autres colonnes de la table, comme l'ensemble des complétives, avec une notation du type Px où x désigne la conjonction qui introduit la phrase en question (Pλα, Pόηη). Ceci diffère du français, où c'est le mode de la complétive qui est indiqué : subjonctif ou indicatif (Pind ou Psubj). La raison de cette différenciation est qu il existe plusieurs conjonctions qui exigent l indicatif (Pόηη [óti=que], Pπωο 135

142 [pos=que], Pαλ [an=si], Pπνπ [pou=que] et Pκήπωο [mípos=si]). Dans un fichier à part, nous avons mis toutes les conjonctions utilisées dans une phrase complétive avec leur mode exigé (voir note 7). De plus, contrairement au français, c'est la complétive (et non l'infinitive) qui peut être contrôlée par le sujet N0 (ex. (7)). (7) Ο Πέηπορ αμελεί να ηος ηελεθωνήζει N1 =: να (na=que) V0 Pierre néglige de lui téléphoner Enfin, les complétives peuvent être de plus nominalisées, c est-à-dire introduites par ην [to=le] ou ην γεγνλόο [to gegonés=le fait]. d. Quant aux préfixes, ils ont une interprétation différente dans le lexique syntaxique, selon la structure de l intitulé qui les contient (Fista, Kyriacopoulou, Martineau & Voskaki, 2008). Lorsque l'on a un intitulé contenant uniquement le préfixe avec la lettre V (με-v [kse-]), nous avons vu précédemment (cf. 3.1) qu'il fallait spécifier une nouvelle entrée constituée du préfixe suivi du verbe (sans tiret), qui accepte le même ensemble de propriétés et de transformations que le verbe sans préfixe. Lorsqu'ils sont utilisés dans une construction (p.ex. N0 εθ-v [ek-] N1 Loc N2 source), pour interpréter le prédicat, il faut ajouter le préfixe à l entrée verbale dans cette construction uniquement. De plus, dans une construction, le préfixe peut être ajouté au participe passé du verbe (Vpp) avec une notation de la forme εθ-vpp [ek-] (p.ex. N1 είκαη [eímai=être] με-vpp [kse-]). Pour interpréter le prédicat dans une telle construction, il faut ajouter le préfixe au participe passé du verbe qui se trouve dans une colonne lexicale. Enfin, la notation X-V n'est pas exploitable, mais contient une information étymologique, indiquant que le verbe est formé d un préfixe et d'un autre verbe. 4. Table des classes et lexique LGLex Tout d'abord, toutes les propriétés définitoires vraies pour l'ensemble des entrées de chaque table (cf. section 2) ont été ajoutées. Au départ, la table des classes contenait 280 propriétés, incluant les différentes notations. À partir de la génération automatique de la table des classes, nous avons repéré les erreurs de notation pour les corriger directement dans les tables. La nouvelle table des classes générée contient 195 propriétés. Ensuite, le script d'extraction des verbes a été réalisé, comme pour le français (Tolone, 2011). Il spécifie toutes les opérations liées à chaque propriété devant être effectuées pour toutes les tables. Cela nous a permis de générer, à l'aide de LGExtract (Constant & Tolone, 2010), une première version du lexique LGLex des verbes grecs 9, au format texte et XML. Ce lexique a vocation à décrire les tables avec les concepts manipulés par celles-ci, en un format directement exploitable dans les applications de TAL. L'une des utilisations informatiques possibles est la conversion en un autre format, comme cela a été fait pour le français (Tolone & Sagot, 2011). Dans sa version textuelle, une entrée de LGLex se présente comme suit : l'entrée commence par un identifiant indiquant sa catégorie, la table dont il provient et le numéro de l'entrée dans cette table (ID=catégorie_numTable_numEntrée) ; la section lexical-info indique les informations lexicales liées à l'entrée (le lemme et les prépositions associées à certains arguments) ; la section args décrit les distributions des différents arguments, avec éventuellement d'autres informations (traits sémantiques, mode et contrôle de la complétive, prépositions) ; la section all-constructions liste différentes constructions dans lesquelles l'entrée peut 9 Le lexique LGLex des verbes grecs sera disponible ultérieurement sur 136

143 prendre part (soit nommées de façon complète avec tous les éléments dans l'ordre, soit des transformations à partir de construction de base) ; la section example illustre l'entrée. Voici par exemple, le verbe βγάδω [bgázo=sortir] (ex. (8)) de la table 32GL qui a pour construction de base N0 V N1 Loc N2 source Loc N3 destination, dont l argument N2 est introduit par la préposition από [apó=de] et dont l argument N3 est introduit par ζε [se=à]. Le N0 est humain et le N1 et N2 concrets, le N1 pouvant se pronominaliser en le+la+les. Les constructions montrent que les arguments N2 et N3 sont effaçables. Enfin, le verbe préfixé μαλαβγάδω [ksanabgázo=resortir] (ex. (9)) accepte les mêmes propriétés (voir dans l'extrait suivant le champs pfx-v) : (8) Έβγαλε ηο γάλα από ηο ψςγείο N0 V N1 concret από [apó=de] N2 source Il a sorti le lait du frigo (9) Ξαναέβγαλε ηο γάλα από ηο ψςγείο N0 ξανα- V N1 concret από [apó=de] N2 source Il a re-sorti le lait du frigo ID=V_38GL_33 lexical-info=[cat="verb",verb=[lemma="βγάδω"],pfx-v=(verb="ξαναβγάδω"), prepositions=(),locatifs=(locatif=[id="2",list=(prep="από")], locatif=[id="3",list=(prep="ζε")])] args=(const=[pos="0",dist=(comp=[cat="np",hum="true",introd-prep=(),introd-loc=(), origin=(orig="n0 =: Nhum")])], const=[pos="1",dist=(comp=[cat="np",conc="true",introd-prep=(),introd-loc=(), origin=(orig="n1 =: Nconc")])]) const=[pos="2",dist=(comp=[cat="np",conc="true",introd-prep=(),introd-loc=(), origin=(orig="n2 =: Nconc")])], all-constructions=[absolute=(construction="true::n0 V N1 Loc N2 source Loc N3 destination", construction="o::n0 V N1 Loc N2 source (E+Loc N3 destination)", construction="o::n0 V N1 (E+Loc N2 source) Loc N3 destination"), relative=(construction="n1 = Ppv =: (με+μαρ+ζε+ζαρ+ηον+ηοςρ+ηε+ηεν+ηιρ+ηο+ηα)", construction="παπα-v")] example=[example=] 5. Conclusion L'objectif est d'homogénéiser, corriger et compléter les données pour l'ensemble des tables du Lexique-Grammaire du grec, y compris les tables des noms prédicatifs. Une fois ces tables syntaxiques corrigées, elles seront converties au format LGLex, afin d'être exploitables dans des analyseurs syntaxiques. Pour compléter les tables du lexique-grammaire des verbes grecs, il reste beaucoup à faire. En effet, il manque encore des entrées verbales à classifier (par exemple les verbes non transitifs) et la table des classes reste à coder avec les signes + et -. Les conventions de notation détaillées dans cet article seront à prendre en compte lors de la création de futures tables afin de garder l'ensemble cohérent. Puis, nous devons étendre notre travail aux noms prédicatifs, dont la modification des tables est déjà en cours. Ensuite, nous pourrons envisager la conversion du lexique LGLex au format Alexina, le format du lexique Lefff (Tolone & Sagot, 2011). Enfin, si l'on souhaite utiliser ce lexique syntaxique dans un analyseur syntaxique, il faudra adapter la méta-grammaire FRMG (Thomasset & de la Clergerie, 2005) du français à celle du grec, comme cela a été fait pour l'espagnol (Fernandez, 2010). 137

144 Références Boons, J.-P., Guillet, A. & Leclère, C. (1976a). La Structure des Phrases Simples en Français, Constructions intransitives. Genève, Librairie Droz. Boons, J.-P., Guillet, A. & Leclère, C. (1976b). La Structure des Phrases Simples en Français, Classes de Constructions Transitives. Rapport de recherches No 6. Paris, Université de Paris 7. Constant, M. & Tolone, E. (2010). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In Michele De Gioia, editor, Actes du 27e Colloque international sur le lexique et la grammaire (L'Aquila, septembre 2008). Seconde partie. Volume 1 of Lingue d'europa e del Mediterraneo, Grammatica comparata, pages Aracne. Fernández González, D. (2010). Cadena de procesamiento lingüístico para el español. Mémoire de D.E.A., Université de Vigo, Espagne. Fista, E. (2007). Μέζνδνο απηόκαηεο αλαπαξάζηαζεο πξνζεκαηνπνηεκέλωλ θαη ζύλζεηωλ ξεκάηωλ ηεο Νέαο Ειιεληθήο. Thèse de doctorat, Université Aristote de Thessalonique. Fista, E., Kyriacopoulou, T., Martineau, C. & Voskaki, R. (2008). Les verbes préfixés en grec moderne : le préfixe ζςν. Actes du 27ème Colloque International sur le Lexique et la Grammaire. L Aquila, Italie : Università degli Studi dell Aquila - Universté Paris-Est. Gross, M. (1975). Méthodes en syntaxe. Paris: Hermann. Ioannidou, K. & Kyriacopoulou, Τ. (2010). Lexique-grammaire des verbes en grec moderne : Ambiguités formelles et analyse des textes. Actes du 29ème Colloque International sur le Lexique et la Grammaire, pp Belgrade, Serbie : Faculty of Mathematics of University of Belgrade. Kyriacopoulou, T. (2005). L analyse automatique des textes écrits : le cas du grec moderne. Thessalonique: University Studio Press. Kyriacopoulou, T. (2010). Lexique-Grammaire des verbes en grec modernes : bilan et perspectives. Cahiers du CENTAL, 6:18. Mélanges en hommage à Christian Leclère. Kyriakopoulou, A. (2011). Les noms composés de type N (E+Det:G) N:G en grec moderne. Thèse de doctorat, Université Paris-Est. Sfetsiou, V. (2007). Καηεγνξεκαηηθά νλόκαηα: κέζνδνο αλάιπζήο ηνπο γηα ειεθηξνληθέο εθαξκνγέο. Thèse de doctorat, Université Aristote de Thessalonique. Thomasset, F & de La Clergerie, É. (2005). Comment obtenir plus des Méta-Grammaires, Actes de la Conférence sur le Traitement Automatique des Langues Naturelles. Dourdan, France. Tolone, E. (2009). Les tables du Lexique-Grammaire au format TAL. Actes de la 7ème Manifestation des Jeunes Chercheurs en Sciences et Technologies de l Information et de la Communication, Avignon, France. Tolone, E., Voyatzi S. & Leclère C. (2010). Constructions définitoires des tables du Lexique-Grammaire. Actes du 29ème Colloque International sur le Lexique et la Grammaire, pp Belgrade, Serbie : Faculty of Mathematics of University of Belgrade. Tolone, E. (2011). Analyse syntaxique à l aide des tables du Lexique-Grammaire du français. Thèse de doctorat, Université Paris-Est, 326 pp. Tolone, E. & Sagot, B. (2011). Using Lexicon-Grammar tables for French verbs in a large-coverage parser. In Z. Vetulani, editor, Human Language Technology, Forth Language and Technology Conference, LTC 2009, Poznán, Poland, November 2009, Revised Selected Papers. Lecture Notes in Artificial Intelligence. Springer Verlag. À paraître. Voskaki, O. (2011). Le lexique-grammaire des verbes du grec moderne : Constructions transitives non locatives à un complément d objet direct. Thèse de doctorat, Université Paris-Est. Voyatzi, S. (2006). Description morpho-syntaxique et sémantique des adverbes figés en vue d'un système d'analyse automatique des textes grecs. Thèse de doctorat, Université Marne-la-Vallée. Voyatzi, S. & Kakoyianni-Doa, F. (2010). The electronic dictionary of Modern Greek adverbs. In: 30th Annual Meeting of the Department of Linguistics, Faculty of Philology, Aristotle University of Thessaloniki, Studies in Greek Linguistics, 149 pp. Yannacopoulou, A. (2005). Le lexique-grammaire des verbes du grec moderne : les constructions transitives locatives standard. Thèse de doctorat, Université de Marne-la-Vallée. 138

145 Khemakhem Aïda Laboratoire MIRACL Gargouri Bilel Laboratoire MIRACL Hammadou Abdelmajid Ben Laboratoire MIRACL MODÉLISATION SYNTAXICO-SÉMANTIQUE NORMALISÉE POUR LA LANGUE ARABE Résume Le présent travail entre dans le cadre de la construction d une ressource lexicale à large échelle pour la langue Arabe selon la norme LMF-ISO Dans ce papier, nous focalisons sur la modélisation syntactico-sémantique en apportant une solution appropriée à la flexibilité syntaxique de l Arabe. Ainsi, nous traitons la variation des cadres de sous catégorisation des verbes et des particules fonctionnelles. Aussi, nous mettons l accent sur les traits et les prédicats sémantiques ainsi que sur les correspondances syntactico-sémantiques. Mots-clés : modélisation, arabe, LMF, sous-catégorisation, prédicat sémantique. 1 Introduction La construction des lexiques grammaires à large échelle a toujours été une préoccupation de la part des chercheurs en Traitement des Langues. Ainsi, plusieurs travaux relatifs à des langues différentes sont apparus, parmi lesquels nous citons les tables du LADL (Gross, 1975), DICOVALENCE (van den Eynde & Mertens, 2006) et Lefff (Sagot, 2010). Dans ce genre de lexique, les informations syntactico-sémantiques apparaissent comme étant la partie la plus difficile à modéliser compte tenu de la richesse et la flexibilité des langues naturelles. Ainsi, les lexiques grammaires ne cessent d évoluer et de devenir complexes et volumineux. En vue d apporter un cadre unifié pour la modélisation des ressources lexicales, d une manière générale, et de faciliter leur échange et leur intégration dans les applications, des concepts et standards de représentation de ces informations, notamment Data Categories Registry (DCR) [ et Lexical Markup Framework (LMF) (Francopoulo & al, 2006) sont proposés. Ces normes couvrent tous les niveaux des langues, notamment la composante syntactico-sémantique. En ce qui concerne la langue arabe, il y a eu des tentatives de création les lexiques syntaxiques tels que ElixirFM (Bielický & Smrz, 2009), (Loukil & al, 2008) et (Al-Qahtani, 2005) mais aucun d entre eux ne combine de façon satisfaisante les trois types d information lexicale de base, à savoir morphologique, syntaxique et sémantique. En plus, chacun des travaux réalisés utilise ses propres concepts indépendamment des normes. La proposition de Loukil s est référée à LMF mais à sa révision 9 avant que cette norme ne soit publiée officiellement dans sa révision 16. Par ailleurs, nous disposons au sein de notre équipe d un Dictionnaire Arabe Normalisé [ (Baccar & al 2008) qui fournit une structure raffinée de l entrée lexicale surtout aux niveaux morphologique (i.e., lemme, schème, relation morphologique) et sémantique (i.e., définition, contexte, exemple, relation sémantique). La version actuelle de ce dictionnaire comporte plus que entrées lexicales. Ainsi, dans le cadre des travaux de construction du dictionnaire normalisé de l Arabe, nous visons intégrer les propriétés syntactico-sémantiques afin d offrir une précision accrue pour les 139

146 applications de Traitement Automatique de la Langue Naturelle (TALN). Nous traitons la variation des sous catégorisations des verbes et des particules fonctionnelles. Aussi, nous mettons l accent sur les traits et les prédicats sémantiques ainsi que sur les correspondances syntactico-sémantiques. Tout d abord, nous présentons un aperçu sur les travaux actuels autour de la construction des lexiques grammaires. Ensuite, nous spécifions les propriétés lexicales syntaxiques pour la langue arabe, le modèle approprié et les critères de variation des sous-catégorisations des verbes et des particules fonctionnelles. Enfin, nous détaillons les propriétés nécessaires, notamment les prédicats sémantiques, pour le développement d un modèle syntacticosémantique assez fin. 2 L état de l art L organisation et la réutilisation des propriétés syntactico-sémantiques sont parmi les tâches les plus difficiles dans les applications de traitement des langues naturelles. Ce qui a engendré l apparition de plusieurs travaux, nous citons, pour la langue française, DICOVALENCE (van den Eynde & Mertens, 2003), les tables du lexique-grammaire (Gross, 1975) et Lefff 1. Ce dernier lexique est développé sur la plateforme Alexina 2 pour la modélisation et l acquisition des lexiques qui couvrent les deux niveaux morphologique et syntaxique. Notons qu Alexina est compatible avec la norme LMF (Sagot, 2010). Pour la langue arabe il y a eu des tentatives de création de lexiques syntaxiques tels que le lexique ElixirFM (Bielický & Smrž, 2009) et (Loukil & al, 2008). Le lexique ElixirFM est un lexique morphologique enrichi par les cadres de valence verbale en se basant sur des arbres de dépendance. Le lexique de Loukil, qui est conforme à la version 9 de la norme LMF, classe les verbes selon les critères suivants : besoin de compléments, besoin de particule et le nombre de compléments. Cependant, jusqu à présent, il n existe aucune ressource qui combine de façon satisfaisante les trois types d information lexicale (morphologique, syntaxique et sémantique) tout en étant facile à réutiliser dans les applications de TALN. 3 Les propriétés lexicales syntaxiques de la langue arabe Les propriétés syntaxiques servent à décrire les entrées lexicales et de préciser leur contexte d utilisation. Ces propriétés décrivent principalement le cadre de sous-catégorisation qui présente les arguments et les prépositions appropriées. Les informations concernant la souscatégorisation sont idiosyncratiques c est-à-dire elles ne peuvent pas être prédites et elles doivent, de ce fait, figurer dans le lexique. Pour la langue arabe, les phrases se caractérisent par une syntaxe très flexible (maniable), c'est-à-dire on peut modifier la position de certains constituants d une phrase (i.e., les compléments, topique/attribut) sans modification du sens األفعال «complet général. Il y a deux types de phrase : soit verbale qui commence par un verbe (1), soit nominale qui commence par un nom (2). Néanmoins, la phrase nominale peut» انت اي ة débuter par un NaAsax «اس خ» qui est soit un verbe déficient ف عم اق ص (4), soit une particule fonctionnelle ح رف عا يم (3) sachant qu elle est formée par un topique «ي ثت ذ أ» et un attribut». Nous présentons dans les exemples suivants une phrase verbale et trois phrases خ ث ر «nominales qui illustrent les cas 1,2 3 et 4 cités ci-dessus. ) 1( marida Alwaladu Le garçon est malade ي ر ض انو ن ذ Alwalada mariydũ Le garçon est malade انو ن ذ ي ر يط (2) Ǎn~a Alwalada mariydũ Il insiste que le garçon est malade إ انو ن ذ ي ر يط (3) 1 Le Lefff est distribué sous licence LGPL-LR. Voir sagot/lefff.html

147 kaana Alwaladu mariydaã Le garçon était malade ك ا انو ن ذ ي ر يض ا (4) A travers ces exemples, nous constatons la flexibilité des phases arabes et l influence des NawaAsix sur les phrases nominales. La première phrase est verbale qui se base sur un verbe complet, ensuite nous présentons la même idée dans le deuxième exemple mais sans utilisation d un verbe et dans ce cas la phrase est nominale. Ce type de phrase peut être débuté par NaAsax qui influence ses arguments (son topique et son attribut) comme les exemples (3) et (4). Ainsi, nous pouvons conclure que la présence d un NaAsax peut influencer les arguments de la phrase nominale. En plus, il y a quelques autres particules fonctionnelles qui ne sont pas ف ي /lam/ et ن ى de nature NaAsax et qui peuvent modifier le verbe et le nom qu elles précédent /fiy/. Pour cette raison, nous devons concevoir dans le lexique les connaissances syntaxiques de chaque NaAsax (quelques particules fonctionnelles et les verbes déficients) et les particules fonctionnelles. 4 La modélisation syntaxique pour la langue arabe Nous rappelons tout d abord que nous travaillons sur le Dictionnaire Arabe Normalisé (Baccar & al, 2008) qui couvre les informations morphologiques et quelques connaissances sémantiques telles que le sens, les exemples et les synonymes. Le modèle de ce dictionnaire est conforme à la norme LMF et il est composé d un noyau obligatoire et des extensions optionnelles. Chaque extension se greffe sur le noyau et regroupe les classes et les attributs d un seul niveau linguistique. 4.1 Le modèle syntaxique normalisé Pour modéliser le niveau syntaxique dans ce dictionnaire arabe, nous choisissons les classes nécessaires à partir de l extension syntaxique. Nous représentons les comportements syntaxiques des entrées lexicales arabes par la classe SubcategorizationFrame pour chaque cadre de sous-catégorisation (CSC). Cette classe est composée par un ensemble de SyntacticArgument pour présenter les arguments du prédicat de ce cadre et une classe Lexemeproperty qui regroupe les caractéristiques de ce prédicat sachant que le prédicat est un élément obligatoire, non supprimable et autour duquel s organise le reste de l énoncé. En plus, chaque CSC est caractérisé par un identifiant et un type. Ce cadre sera lié aux sens concernés en utilisant la classe "Syntactic Behaviour". Par exemple, dans (5), le prédicat ««ك ت ة prend deux arguments syntaxiques, l un est réalisé en position agent «ف اع م», l autre en position». ي فع ول ت ه «d objet complément Kataba Alwaladu darsahu Le garçon a écrit sa leçon ك ت ة انو ن ذ د رس ه 5( ) Dans la Figure 1, nous présentons le comportement syntaxique du verbe «ك ت ة» dans la phrase (5). Nous signalons qu un CSC peut être valable pour plusieurs entrées lexicales, pour cette raison il appartient au Lexicon. Nous utilisons la classe SyntacticBihaviour pour relier le cadre et les sens convenables d une entrée lexicale. Le cadre présenté dans cet exemple est à la voix active qui est spécifiée dans Lexeme Property. 141

148 : Lexicon : Lexical Entry " 3 ك"= id : Lemma " اك ات اب "= writtenform : Lexeme Property voice= "activevoice" i Nous signalons que dans la plupart des langues, le verbe est le prédicat de la phrase. Mais pour la langue arabe, nous avons à part les verbes complets, les particules fonctionnelles et les verbes déficients (voir section 4.2.2) qui sont considérés comme des prédicats. 4.2 Les critères de variation des CSC Pour inventer les cadres de sous-catégorisation, nous allons étudier la variation des CSC selon le type du prédicat (i.e., verbe complet, verbes déficient et particule fonctionnelle). Ensuite, nous spécifions leurs critères de variation pour guider les lexicographes lors de l acquisition des informations Les verbes complets Dans des travaux antérieurs tels que Loukil (Loukil & al 2008), le comportement syntaxique des verbes complets est défini selon trois critères : le besoin en complément (transitif ou intransitif), le nombre de compléments (un, deux ou trois) et le besoin des particules qui influencent la nature du complément (Complément d Objet Direct «COD» ou Complément Objet Indirect «COI»). Ces critères sont intéressants pour définir les types des comportements syntaxiques qui sont présentés dans le tableau 1, mais ils ne sont pas suffisants pour donner une structure argumentale fine pour ceux-ci. Traduction en français Arabe Verbe intransitif : Subcategorisation Frame " متعدي بحرف " type= : Syntactic Argument» ف اع م «syntacticfonction= Verbe transitif exigeant un complément direct : Syntactic Behaviour 3C2 ك"= id : Syntactic Argument «ي فع ول ت ه «syntacticfonction= "ب " = introducer» ك ت ب» Figure 1: Exemple de présentation d'un comportement syntaxique de l EL : Sense 3P1 ك"= id " ف ع ل ا لز م ف ع ل م ات اعد ي ل امف ع ول اواح د ب انف س ه Verbe transitif exigeant deux compléments directs Verbe transitif exigeant trois compléments directs Verbe transitif exigeant un complément avec particule Verbe transitif exigeant deux compléments, l un avec particule Verbe transitif exigeant deux compléments chacun avec particule Verbe transitif exigeant trois compléments: le premier direct et les autres sont avec particule ف ع ل م ات اعد ي ل امف ع ولاي ن ف ع ل م ات اعد ي ل اث ا ل اثة ام افاع يل ف ع ل م ات اعد ي ل امف ع ول ب اواس اطة أا اداة ف ع ل م ات اعد ي ل امف ع ولاي ن أا احد ه اما ب أا اداة ف ع ل م ات اعد ي ل امف ع ولاي ن ب اواس اطة أا ادا اتي ن ف ع ل م ات اعد ي ل اث ا ل اث ة ام افاع يل ب اواس اطة أ ا ادا اتي ن Tableau 1: Les types du CSC des verbes complets 142

149 Pour améliorer la description des comportements syntaxiques, nous ajoutons deux autres ح ت ى /bi/, ب /fiy/, ف ي) critères : la voix du verbe (active ou passive) et le choix de la particule /Hat~aA/, ) qui influence le choix des arguments du CSC. Pour justifier ces choix, nous présentons les exemples suivants. ) 6( ك ت ة / انو ن ذ / د رس ه kataba Alwaladu darsahu Le garçon a écrit sa leçon (7) ك ت ة / انو ن ذ / ت انق ه ى kataba Alwaladu bialqalami Le garçon a écrit avec un crayon kutiba Alxabaru fiy AlS~uHufi ك ت ة / انخ ث ر / ف ي انص ح ف (8) L information est écrite dans les journaux Ces quatre exemples comportent trois parties principales. La première partie est le verbe qui (انف اع م ( l agent peut être à la voix active ou passive. Si la voix est active la deuxième partie sera si la voix est passive la deuxième partie sera le pro-agent ( انف اع م.( ائ ة La troisième partie regroupe zéro, un, deux ou trois compléments. Ces compléments peuvent être directs comme (6) et peuvent être indirects comme (7 et 8) c'est-à-dire ils sont précédés par une particule ( ب ou.(ف ي Les verbes déficients Les verbes déficients précédent les phrases nominales et modifient la déclinaison de leurs arguments en particulier son attribut (انخ ث ر) tels que «ك ا» et «ظ م». Pour les comportements syntaxiques ces verbes, nous utilisons deux critères de variation qui sont la nature (topique») et le mode (nominatif, génitif) des arguments. Dans les exemples خ ث ر «attribut» ou ي ثت ذ أ «suivants, nous justifions le choix de ces critères. ) 9( AlTaqsu jamiylũ Le temps est beau انط قس / ج يم kaana AlTaqsu jamiylã Le temps a été beau ك ا / انط قس / ج يل (10) Ďal~a AlTaqsu jamiylã Le temps reste beau ظ م / انط قس / ج يل (11) Dans l exemple (9), représentant une phrase nominale sans NaAsix, nous signalons que le topique et l attribut sont nominatifs (marqués par des cercles verts). Dans les exemples (10) et (11), la modification touche l attribut, c'est-à-dire la troisième partie, à cause des verbes déficients ك ا et ظ م qui sont considérés comme NaAsix Les particules fonctionnelles Il y a deux types de particule fonctionnelle et non fonctionnelle qui n influence pas les mots qu elle précède. Les particules fonctionnelles influencent les mots qu elle précède notamment les verbes, les substantifs et les phrases nominales. Pour les comportements syntaxiques des particules fonctionnelles, nous utilisons deux critères : la nature (verbe, substantif, topique ou attribut) et le mode des arguments. - Pour les verbes : il y a des particules qui modifient leur mode : subjonctif,(ان صوب) apocopé.(ان جسوو) lan yaktuba darsahu Il n écrira pas sa leçon ن / ي كت ة / د رس ه 12( ) lam yaktub darsahu Il n a pas écrit sa leçon ن ى / ي كت ة / د رس ه (13) Dans ces deux exemples, l aspect du verbe est inaccomplie mais les particules qui le précédent influencent son mode : dans l exemple (12) le mode du verbe est le subjonctif et dans l exemple (13) le mode du verbe est l apocopé. (ان جرور) - Pour les noms : il y a des particules qui modifient leur flexion casuelle : accusatif Katabtu darsiy fiy Almanzili J ai écrit ma leçon dans la maison ك ت ثث / د رس ي / ف ي ان س ل 14( ) 143

150 Dans la troisième partie de cet exemple, nous avons la particule ف ي et un nom que sa flexion casuelle est l accusatif puisqu il est précédé par cette particule. - Pour les phrases nominales : il y a des particules qui modifient la déclinaison de leurs arguments (topique et attribut) : soit elle rend le topique au génitif (ي صوب) et l attribut au nominatif, soit elle rend le topique au nominatif et l attribut génitif. Ces particules sont.( اس خ ( Nâsish considérées comme un Ǎin~a Taqsa jamiylũ Certainement le temps est beau إ / انط قس / ج يم 15( ) maa Taqsa jamiylã Le temps n est pas beau ي ا / انط قس / ج يل (16) Dans les deux exemples précédents, nous présentons les modifications qui peuvent être engendrées par les particules. Pour l exemple (15), la modification touche la deuxième partie (topique) à cause de la particule.إ Dans l exemple (16), la modification touche la troisième.ي ا partie (attribut) à cause de la particule 5 Les propriétés syntactico-sémantiques Pour lexicaliser les propriétés syntactico-sémantiques, nous devons organiser les traits sémantiques, les prédicats sémantiques et les correspondances syntactico-sémantiques. Notons que, les traits sémantiques sont des informations spécifiques à un sens donné. Les autres propriétés décrivent les contraintes sémantiques de l environnement. Pour la langue arabe, à nos connaissances il n y a pas eu de travaux qui spécifient les propriétés syntactico-sémantiques appropriées. En ce qui nous concerne, nous dressons la liste des traits et les rôles thématiques en se basant sur les consensus existants pour les autres langues tels qu Eaglse (EAGLSE, 1996), Genelex (GENELEX, 1993) et (GENELEX, 1994). 5.1 Les traits sémantiques L utilisation des traits sémantiques permet une description fine des sens des mots et c est un moyen pour contraindre la sélection des arguments. Ces traits expriment différents types d informations. Dans notre modèle, nous utilisons les trois types de traits : classe majeure, sous-classe sémantique et le domaine. Sachant que nous utilisons ces traits au niveau des sens pour spécifier leurs descriptions et au niveau des arguments prédicatifs pour contraindre leurs arguments. En procédant de la sorte, nous serons capables d assurer la vérification sémantique par des contraintes de filtrage. Pour la classification générale des substantifs, nous utilisons la liste dressée par G. Gross (Gross 1994) qui comprend huit valeurs que nous présentons avec une traduction pour la langue arabe : humain ","ع اقم animal ","ح ي و ا végétal "," ث ات inanimé concret,"ج اد" inanimé abstrait La liste des sous-classes sémantiques et."ح ذ ث " événement,"ز ي ا " temps,"ي ك ا " locatif,"ي ج ر د " la liste des domaines sont ouvertes. Par exemple, pour la première liste nous citons : vêtement, fruit, etc. et pour la deuxième nous citons : médicale, politique etc. 5.2 Rôle thématique A cause de la précision accrue exigée par les machines, nous décorons chaque argument du prédicat par un rôle thématique. Dans cette optique, nous avons étudié les anciens travaux, notamment Eagles (EAGLES 1994) et Genelex (GENELEX, 1994). Ainsi, nous utilisons une liste formée par les valeurs suivantes : agent, patient, expérienceur, thème, location, source, but, instrument et moyen. 5.3 Le prédicat sémantique Un prédicat sémantique décrit une situation dans la langue. Il comprend un certain nombre d actants ou d arguments sémantiques qui jouent un certain rôle dans la situation décrite. Au 144

151 niveau lexical, nous décrivons chaque prédicat par le nombre d arguments, le rôle thématique de chacun d eux, ainsi que les traits sémantiques qui leur sont associés (la classe sémantique en particulier). En plus, pour donner l ordre global des arguments, nous utilisons le schéma du prédicat qui est formé par des paramètres (i.e., A, P, D). Par exemple, un schéma prédicatif du verbe " "ك ت ة dans le cas de la phrase (7) est <V A ب D>. Le paramètre A représente le premier argument du verbe qui appartient à la classe sémantique = humain et son rôle thématique = agent. Le deuxième paramètre D est débuté par la particule ب et il appartient à la classe sémantique : inanimé concret et son rôle thématique = instrument. 6 La modélisation syntaxico-sémantiques pour la langue arabe Malgré la difficulté de représenter les propriétés syntaxico-sémantiques par des formules à la fois complètes et satisfaisantes pour tous les systèmes et toutes les théories, la norme LMF propose un méta-modèle assez fin pour représenter ces propriétés. Nous choisissons les classes nécessaires à partir de l extension sémantique de cette norme. Nous présentons le prédicat sémantique des sens à travers la classe "SemanticPredicate" qui est caractérisée par un identifiant, un exemple et un label qui représente le prédicat. Cette classe est composée par des arguments sémantiques qui caractérisent le prédicat en question et une définition. En plus, nous assurons la connexion entre les niveaux syntaxique et sémantique par la classe "Predicative Representation" qui relie un comportement syntaxique, un prédicat sémantique et leur correspondance "SynSemCorrespondence" comme le montre la Figure 2 suivante. Figure 2: Exemple de représentation de la correspondance syntaxico-sémantique Dans cette Figure, nous reprenons l exemple déjà décrit dans la partie syntaxique (Figure 1) et nous ajoutons le prédicat sémantique correspondant qui est composé de deux arguments sémantiques SemanticArgument. Le premier a le thematic role = Agent et la semantic class= human. Le deuxième argument a le thematic role = instrument et la semantic class = inanimate Concrete. En plus, nous relions ces arguments sémantiques par leurs correspondants syntaxiques. Ainsi, la spécification des traits sémantiques au niveau de chaque argument joue un rôle à la fois de filtrage, de vérification de compatibilité et d enrichissement de la représentation sémantique. 145

152 7 Conclusion et perspectives Dans ce travail, nous avons profité de l extensibilité offerte par la norme LMF pour étendre le Dictionnaire Arabe normalisé par la modélisation des propriétés syntactico-sémantiques. Le modèle proposé est assez fin et supporte les cadres de sous-catégorisation, les prédicats sémantiques ainsi que leurs correspondances. Pour inventorier ces propriétés, nous avons dressé la liste des critères de variation des CSC pour les verbes complets et déficients et les particules fonctionnelles. Aussi, nous avons fixé une première version des listes des traits sémantiques et des rôles thématiques qui peuvent être étendues dans le futur. Cette modélisation constitue un enrichissement des travaux antérieurs notamment ceux de Loukil & al et elle ouvre des nouveaux horizons par l intégration des propriétés syntactico-sémantiques dans les applications de TALN. Dans les travaux futurs, nous comptons compléter cette modélisation en étudiant les critères de variation des comportements syntaxiques des substantifs qui peuvent parfois remplacer le verbe dans la phrase. En plus, nous envisageons proposer une démarche d alimentation de ce dictionnaire d une façon automatique. Références Al-Qahtani D.M. (2005), Semantic Valence of Arabic Verbs. Beirut: Libraire du Liban Publishers. Baccar, F., Khemakhem, A., Gargouri, B., Haddar, K. & Ben Hamadou, A. (2008). LMF standardized model for the editorial electronic dictionaries of Arabic, NLPCS 08, Juillet 2008, Barcelone, Espagne. Bielický V. & Smrž O. (2009), Enhancing the ElixirFM Lexicon with Verbal Valency Frames. In Proceedings of the Second International Conference on Arabic Language Resources and Tools (MEDAR 2009), Cairo, Egypt. EAGLES. (1996). Reports of the Computational Lexicons Working Group. Internal Report. Francopoulo, G., George, M., Calzolari, N., Monachini, M., Bel, N., Pet, M. & Soria, C. (2006). Lexical Markup Framework (LMF). " In: Proceedings of LREC Gardent C., Guillaume B., Perrier G., FALK I. (2005), Maurice Gross' Grammar Lexicon and Natural Language Processing. Proceedings of the 2nd Language and Technology Conference, Poznan, Poland. GENELEX (1993). Projet Eureka GENELEX. Rapport sur la couche syntaxique, Rapport Technique Version 4.0, ASSTRIL, GSI-ERLI, IBM France and Sema Group, Paris. GENELEX, Consortium (1994). Projet EUREKA GENELEX. Rapport sur la couche sémantique, Rapport Technique Version 2.1, ASSTRIL, GSI-ERLI, IBM France, Sema Group. Gross G. (1994), Classes d objets et description des verbes, Langages, 115, Gross M. (1975), Méthodes en syntaxe : Régimes des constructions complétives. Hermann, Paris, France. Karel van den Eynde and Piet Mertens. (2006), Le dictionnaire de valence DICOVALENCE : manuel d utilisation pdf. Louki N., Haddar K. & Ben Hamadou A. (2008). Towards a syntactic lexicon of Arabic verbs, LREC, Sagot B. (2010), The lefff, a freely available and large-coverage morphological and syntactic lexicon for french. Actes du 7ème Language Resource and Evaluation Conference LREC 10, La Valette, Malte. 146

153 Kyriacopoulou Tita 1 Université Aristote de Thessalonique tita@frl.auth.gr 1 Martineau Claude 2 Université Paris-Est martinea@univ-mlv.fr 2, Mavropoulos Thanassis 3 Université Aristote de Thessalonique rip@frl.auth.gr 3 LES NOMS PROPRES EN FRANÇAIS ET GREC : RECONNAISSANCE, EXTRACTION ET ENRICHISSEMENT DE DICTIONNAIRES Résumé Notre recherche s intéresse à la reconnaissance, l extraction des noms propres de personne dans des corpus français et grecs mais aussi à l enrichissement des dictionnaires existants. Pour cela nous sommes parti des grammaires développées pour le français et nous les avons adaptées et enrichies pour le grec. Notre méthode s appuie en particulier sur les graphes dictionnaires qui rendent les grammaires produites aisément réutilisables. Mots-clés: noms propres, dictionnaire électronique, transducteur, graphe dictionnaire Introduction Le travail présenté ici s inscrit dans le cadre d une collaboration de recherche entre le LTTL 1 et le LIGM 2 et s intéresse à la reconnaissance, l extraction des noms propres de personne dans des corpus français et grecs mais aussi à l enrichissement des dictionnaires existants. Le besoin de créer des outils qui automatisent l exploitation et/ou l extraction d informations pertinentes, notamment dans les textes, est aujourd hui un fait. Les systèmes d extraction d information (Hobbs et al ; Fourour 2002), de recherche d information (Sekine et Isahara 1998) ou de fouille de textes (Jacquemin et Bush 2000) sont de plus en plus nombreux. Dans cet article, nous proposons une méthode symbolique permettant de traiter les noms propres de personne du français et du grec. Après une brève présentation de l objectif et de l intérêt de ce travail nous présenterons les particularités du grec ainsi que les dictionnaires des noms propres développés par le LTTL. Ensuite nous parlerons des limites des grammaires existantes pour le grec et enfin la méthodologie que nous avons adopté. Notre objectif étant de proposer une solution commune pour ces deux langues et adaptable aux autres langues du système UNITEX (Paumier, 2003, 2011). 1. Objectif de la recherche La reconnaissance de nom de personne a donné lieu à de nombreux travaux, notamment la thèse de Nathalie Friburger sur les noms propres (Friburger 2002), ou ceux de Denis Maurel (Maurel et al. 2007) qui se situent dans le cadre plus large de la reconnaissance d entités nommées. Des ressources comprenant des dictionnaires de prénoms et des grammaires existent pour plusieurs langues dont le français. Pour la reconnaissance des noms de personne des langues romanes ou de l anglais qui ne possèdent pas de déclinaisons, le prénom ou la suite de prénom (dans le cas de prénom 1 Laboratoire de Traduction et de Traitement Automatique du Langage de l Université Aristote de Thessalonique. 2 Laboratoire d Informatique Gaspard-Monge de L Université Paris-Est Marne-la-Vallée. 147

154 composé) sert de déclencheur et le mot voire la séquence de mots commençant par une majuscule suivant ce prénom (composé ou non) est considérée comme le patronyme (composé ou non). Mais ceci n est pas applicable pour les langues à cas comme le grec par exemple. En ce qui concerne le grec, qui possède 4 cas (nominatif, génitif, accusatif, vocatif) le prénom mais aussi le nom patronymique se déclinent et ils possèdent des formes différentes selon le cas, le genre et le nombre. Des dictionnaires de patronymes ont donc été constitués qui comme pour les prénoms comportent toutes les formes fléchies (Βαιεηόποσιος, Βαιεηόποσιο, Βαιεηόποσιου, Βαιεηόποσιε). Néanmoins ces dictionnaires de patronymes ne pouvant être exhaustifs, des règles de reconnaissances fondées sur la morphologie respective des formes nominales des quatre cas du grec ont été développées dans l environnement Unitex 3. Notre objectif étant de valoriser l existant, nous sommes partis des grammaires développées notamment dans le cadre du projet Infom@gic (Martineau et al. 2007) et nous les avons adaptées au grec ; d'autres ont été mis au point spécialement pour le grec. De plus le grec utilisant parfois l alphabet latin il nous a paru intéressant de construire des ressources couvrant le français et le grec. Ainsi, nos grammaires permettent aujourd hui non seulement de reconnaître des noms propres dans les textes mais d enrichir aussi les dictionnaires existants en attribuant le plus correctement possible le cas, le genre et le nombre à une forme reconnue comme nominale qui serait absente du dictionnaire électronique grec ou français des prénoms et des patronymes. Dans la présentation qui suit nous mettons principalement l accent sur les spécificités du grec qui doivent être prisses en compte et nous ferons des références au français que quand c est nécessaire pour la clarté du texte. 2. Brève présentation des dictionnaires des noms propres grecs Rappelons qu en grec, pour les noms propres de personne, nous disposons aujourd hui de noms de famille et 500 prénoms. Les noms propres se déclinent comme les autres mots grecs et a priori n ont pas de pluriel. Cependant, dans certains cas, les noms propres de personnes (prénoms, noms de famille) peuvent avoir un pluriel ; nous l avons donc généré : Οη Γηώργηδες ήρζαλ (singulier: ο Γηώργος, Pluriel : οη Γηώργηδες) *Les Georges sont arrivés Οη Αθοη Παπαδόποσιοη δοσιεύοσλ καδί Les frères Papadopoulos travaillent ensemble Il faut rappeler ici que la méthode adoptée pour pouvoir engendrer toutes les formes fléchies des mots grecs est celle d un programme de flexion qui se sert des codes flexionnels (Kyriacopoulou 2002, 2003). Les pluriels des noms propres étant souvent spécifiques (ο άλζρωπος/l homme-οη άλζρωποι/les hommes, mais ο Γηώργος/Georges-οη Γηώργηδες/*les Georges), nous avons créé codes flexionnels spécifiques. Voici un extrait de nos dictionnaires : 3 La version utilisée est Unitex3.0beta,

155 Άγγειος,.N+Hum+Prenom:Nms Άγγειοσ,Άγγειος.N+Hum+Prenom:Gms Αγγέιοσ,Άγγειος.N+Hum+Prenom:Gms Άγγειο,Άγγειος.N+Hum+Prenom:Ams Άγγειε,Άγγειος.N+Hum+Prenom:Vms Άγγειοη,Άγγειος.N+Hum+Prenom:Nmp:Vmp Άγγειωλ,Άγγειος.N+Hum+Prenom:Gmp Αγγέιωλ,Άγγειος.N+Hum+Prenom:Gmp Άγγειοσς,Άγγειος.N+Hum+Prenom:Amp Αγγέιοσς,Άγγειος.N+Hum+Prenom:Amp Prénoms Αζαλάζηος,.N+Hum+Prenom:Nms Αζαλάζηοσ,Αζαλάζηος.N+Hum+Prenom:Gms Αζαλαζίοσ,Αζαλάζηος.N+Hum+Prenom:Gms Patronymes Αζαλάζηο,Αζαλάζηος.N+Hum+Prenom:Ams Αζαλάζηε,Αζαλάζηος.N+Hum+Prenom:Vms Αζαλάζηοη,Αζαλάζηος.N+Hum+Prenom:Nmp:Vmp Αζαλάζηωλ,Αζαλάζηος.N+Hum+Prenom:Gmp Αζαλαζίωλ,Αζαλάζηος.N+Hum+Prenom:Gmp Αζαλάζηοσς,Αζαλάζηος.N+Hum+Prenom:Amp Αζαλαζίοσς,Αζαλάζηος.N+Hum+Prenom:Amp Αθάθηος,.N+Hum+Prenom:Nms Αθάθηοσ,Αθάθηος.N+Hum+Prenom:Gms Αθαθίοσ,Αθάθηος.N+Hum+Prenom:Gms Αθάθηο,Αθάθηος.N+Hum+Prenom:Ams Αθάθηε,Αθάθηος.N+Hum+Prenom:Vms Αθάθηοη,Αθάθηος.N+Hum+Prenom:Nmp:Vmp Αθάθηωλ,Αθάθηος.N+Hum+Prenom:Gmp Αθαθίωλ,Αθάθηος.N+Hum+Prenom:Gmp Αθάθηοσς,Αθάθηος.N+Hum+Prenom:Amp Αθαθίοσς,Αθάθηος.N+Hum+Prenom:Amp Patronymes Εβιίδες,Εβιίδες.N+Hum+Nprop+[Ln]:Nms Εβιίδε,Εβιίδες.N+Hum+Nprop+[Ln]:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs Εβιίδεδες,Εβιίδες.N+Hum+Nprop+[Ln]:Nmp:Amp:Vmp Εβιίδεδωλ,Εβιίδες.N+Hum+Nprop+[Ln]:Gmp Εβιίδοσ,Εβιίδες.N+Hum+Nprop+[Ln]:Nfs:Gfs:Afs:Vfs Εβραίλογιοσ,Εβραίλογιοσ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp Εβρεκηηίδε,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Gms:Ams:Vms:Nfs:Gfs:Afs:Vfs Εβρεκηηίδεδες,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Nmp:Amp:Vmp Εβρεκηηίδεδωλ,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Gmp Εβρεκηηίδοσ,Εβρεκηηίδες.N+Hum+Nprop+[Ln]:Nfs:Gfs:Afs:Vfs Εβρέλ,Εβρέλ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp Εβρελέδογιοσ,Εβρελέδογιοσ.N+Hum+Nprop+[Ln]:Nms:Gms:Ams:Vms:Nmp:Gmp:Amp:Vmp:Nfs:Gfs:Afs:Vfs:Nfp:Gfp:Afp:Vfp Les noms propres de personne peuvent apparaître dans les textes sous les formes suivantes : άθες Ροσβάς (Sakis Rouvas) : Prénom Nom. Ροσβάς (S. Rouvas) : Prénom abrégé Nom Ροσβάς (Rouvas) : Nom άθες (Sakis) : Prénom et même précédés d un article : O άθες Ροσβάς, O άθες, O Ροσβάς Une représentation par graphe serait trop coûteuse (puisque nous ne pouvons mettre dans un dictionnaire toutes les combinaisons nom prénom), mais elle permettrait le maintien du lien entre les différentes formes. Nous avons préféré la représentation par dictionnaire. Ainsi nous avons dans le dictionnaire des formes simples, des prénoms, des noms de famille et même des noms de lieux simples identifiés et dans le dictionnaire des mots composés les formes avec prénoms, noms et surnoms. En effet, les surnoms ou les diminutifs sont très courants en grec. Pour l instant, ils n ont pas été pris en compte dans nos grammaires mais ils peuvent aider à la désambiguïsation. Par exemple, pour la famille Papandreou (entre le grand-père (ancien premier Ministre) et le petit-fils (Premier Ministre actuel) nous avons : Premier Ministre: Γηωργάθες + Γηώργος Παπαλδρέοσ (Giorgakis + Georges Papandreou) Ancien Premier ministre : Γεώργηος Παπαλδρέοσ (Georges Papandreou) *Γηωργάθες Παπαλδρέοσ (Giorgakis Papandreou) 149

156 Les noms propres peuvent créer des ambiguïtés avec les mots simples : Αγάπε γηαηί κε προζπερλάς ; Agapi pourquoi tu m évites? Amour pourquoi tu m évites? Pour les noms de personne complexes (plus d un prénom ou plus d un nom de famille) nous avons opté pour une représentation par graphe. Ces noms peuvent comporter également des trait d unions, des lettres initiales de noms ou prénoms comme dans : Αγγειοπούιοσ-Γαζθαιάθε, Αγγειοπούιοσ-Γ., Α.-Γαζθαιάθε, Αγγειοπούιοσ, Γαζθαιάθε Άλλα-Μαρία, Άλλα-Μ., Ά.Μ., Ά.-Μ. A noter aussi que les noms de personnes sont précédés de formes abrégées, utilisés comme déclencheurs pour la reconnaissance automatique des noms propres. Ils peuvent indiquer notamment, la civilité de la personne θ. Κύρηος (M. Monsieur) mais peuvent aussi avoir des mentions particulières comme dans : ηραηεγός ε.α. Ιωάλλες Καιέργες (Stratigos e.a. Ioannis KALERGIS) ηραηεγός ελ αποζηραηεία Ιωάλλες Καιέργες (Stratigos en apostrateia Ioannis KALERGIS) Général en retraite Ioannis KALERGIS Enfin il faut signaler qu en grec, entre le prénom et le nom, il apparaît souvent une lettre majuscule suivie d un point terminal qui renvoie au prénom du père : Γηώργος Χ. Γεωργηάδες (Yiorgos X. Gueoryadis) Mais cette lettre est ambiguë. Par exemple la lettre «Χ.» de l exemple précédent peut correspondre à deux prénoms différents : Χαραιάκποσς (Xaralampous) ou Χαρίιαοσ (Xarilaou). Pour la reconnaissance de ces séquences nous avons créé le graphe de la figure 1. Figure 1 En outre, dans certains textes, notamment journalistiques ou issus du web, on trouve souvent pour les noms de personnes étrangers, à côté de leur transcription grecque, leur graphie latine d origine. Par exemple, pour l ex-premier ministre français, Dominique de Villepin on trouve sur le wikipedia grec la phrase suivante : Ο Νηοκηλίθ ληε Βηιπέλ (γαιι. Dominique de Villepin) είλαη Γάιιος δηπιωκάηες θαη ποιηηηθός, Πρωζσποσργός ηες Γαιιίας από ηης 31 Μαΐοσ 2005 κέτρη ηο (Dominique grec de grec Villepin grec (français. Dominique de Villepin) est un diplomate français et homme politique, premier ministre français du 13 Mais 2005 à 2007.) dans laquelle la forme grecque Νηοκηλίθ ληε Βηιπέλ est suivie de sa forme latine entre parenthèses. Pour cette raison, les ressources que nous avons développées permettent de reconnaitre des noms de personne écrits en alphabet grec ou en alphabet latin. Remarquons qu en grec, les patronymes étrangers, même écrits en alphabet grec, sont invariables et possèdent la même forme à tous les cas. 150

157 3 Approche et ressources développées Les grammaires existantes sous Unitex développées notamment dans le cadre du projet (Martineau et al. 2007) dont le but était la reconnaissance d entités nommées comportait des graphes ou plutôt des sous-graphes pour chaque type d entité. Ces graphes ne permettaient pas facilement de reconnaitre suivant les besoins des noms à particule, d exiger ou non la présence du prénom, ou d extraire les noms de personnes comportant des prénoms composés. L approche adoptée ici et réalisable dans l environnement Unitex consiste à utiliser la notion de graphe dictionnaire qui permet de créer dynamiquement des entrées de dictionnaires similaires à celles présentes dans les dictionnaires Dela (Courtois 1990) statiques réalisés manuellement. La figure ci-après présente une version ultra simplifiée d un graphe dictionnaire reconnaissant un nom de personne et qui produit dans le dictionnaire du texte des entrées comme : Jean Dupond,.NPersonne. Figure 2 Une entrée de dictionnaire Dela se présente généralement sous la forme : forme fléchie, forme canonique.catég gram+traits syntaxico-sémantiques: infos flexionnelles Les entrées produites par le graphe dictionnaire comportent quelques différences par rapport à celles d un dictionnaire Dela statique. En particulier, la forme canonique d un nom de personne grec n est pas toujours la stricte séquence des formes canoniques de ses constituants. Considérons le nom féminin au génitif suivant : Μαρίας Γηαθοπούιοσ (Maria Gén Yiacopoulou Gén ). La séquence des formes canoniques serait Μαρία Γηαθόποσιος (Maria Yiacopoulos) or la forme canonique d un nom féminin se forme avec le nominatif féminin du nom patronymique. La forme correcte est donc : Μαρία Γηαθοπούιοσ (Maria Yiacopoulou). Les nom propres de personne présents dans un texte sont souvent utilisés pour son indexation. Pour que celle-ci soit correcte, il faut que les différentes formes (cas/déclinaisons, utilisation de majuscules/minuscules) prises par ces noms soient ramenées à une forme unique pour que ces formes différentes ne soient pas prises pour des noms de personnes différents. La forme canonique peut constituer cette forme unique ou normalisée. Ainsi les quatre formes : Φρεηδερίθος Βαιεηόποσιος, Φρεηδερίθο Βαιεηόποσιο, Φρεηδερίθου Βαιεηόποσιου, Φρεηδερίθε Βαιεηόποσιε désignent la même personne (Freiderikos Valetopoulos) respectivement au nominatif, à l accusatif, au génitif et au vocatif. La normalisation doit également prendre compte l unicité graphique (majuscule/minuscule) : les noms et prénoms commencent par une majuscule et se poursuivent par des minuscules, les particules présentes dans les noms sont normalisées en minuscules et certains préfixes (dans des noms d origine arabe) commencent eux par une majuscule. Ainsi des noms présents dans des titres de journaux, écrits entièrement en 151

158 majuscules ont une forme normalisée où la graphie est définit sans ambigüité. Par exemple des noms présents dans les titres comme : ΦΡΑΝΟΤΆ ΝΣΕ ΛΑ ΡΟΦΟΤΚΏ (FRANCOIS DE LA ROCHEFOUCAULD) ΝΑΝΣΙΑ ΕΛ-ΜΑΜΠΡΟΤΚ (NADIA EL-MABROUK) ont les formes canonique/normalisées respectives : Φραλζοσά ληε ια Ροζθοσθώ (François de la Rochefoucauld) et Νάληηα Δι-Μακπροσθ (Nadia El-Mabrouk). La reconnaissance de nom propre de personnes peut avoir de nombreuses utilisations: être utilisées en tant que constituants de groupes nominaux (Oi γολείς ηες Μαρίας Γηαθοπούιοσ (Les parents de Maria Yiacopoulou) et prendre leur part dans le cadre de systèmes d analyse syntaxique, être incorporés dans des outils de reconnaissances d entités nommées, enfin être utilisées dans des systèmes fondés sur des requêtes comme par exemple : «quels sont les noms à particules écrits en grec et comportant un prénom composé présents dans le document traité?». Pour répondre à ces différentes utilisations, les entrées produites par les ressources que nous avons développées comportent des traits qui gardent une trace du chemin suivi dans le graphe dictionnaire qui les a créées et qui donnent ainsi des informations sur les mots reconnus qui sont constituants de ces entrées complexes. Le tableau 1 ci-après donne un large extrait des traits éventuellement présents dans les entrées dynamiquement produites. Trait +prenom +prenom_composé +nom +nom composé +particule +préfixe +saint +prenom_grec +prenom_etr +nom_grec +prenom_latin +nom_latin Indique la présence de un prénom un prénom composé un nom un nom composé une particule dans le nom un préfixe dans le nom Saint (latin/grec/abrev) avant le prénom un prénom du dico grec un prénom étranger du dico grec un nom du dico grec un prénom écrit en alphabet latin un nom écrit en alphabet latin Tableau 1 Les entrées produites possèdent comme celles présentes dans les dictionnaires Dela statiques des informations flexionnelles. Celles-ci sont calculées par des grammaires grâce à des ressources existantes. Le dictionnaire électronique développé par le LTTL 1 et le LIGM 2 ne comporte pas de prénoms composés. La constitution de telles listes ne saurait être exhaustive et donc seuls les prénoms simples y figurent. La reconnaissance, par exemple, d une forme fléchie d un prénom composé utilise les ressources disponibles sur ses composants simples. A titre d exemple, la reconnaissance et l attribution d infos flexionnelles pour la forme fléchie composée Κώζηα-Λάδαροσ Γηαθογηάλλε (Kosta-Lazarou Yacoyanni) commence par le traitement du prénom composé qui s effectue grâce aux données suivantes 4 : Κώζηα :Gms :Ams :Vms et Λάδαροσ :Gms. D où Κώζηα-Λάδαροσ : Gms. C est le prénom qui 4 Voir les tableaux 2 et

159 a la forme la moins ambigüe qui détermine les infos flexionnelles du composé. Ensuite, elles se combinent avec celles du patronyme 5 Γηαθογηάλλε :Gms :Ams :Vms:Gfs :Afs :Vfs qui suit pour aboutir à celles du nom complet. Ainsi la reconnaissance de Κώζηα-Λάδαροσ Γηαθογηάλλε donne lieu à la création de l entrée de dictionnaire munie de traits suivante : Κώζηα-Λάδαροσ Γηαθογηάλλε,Κώζηας-Λάδαρος Γηαθογηάλλες.Person +prenom+prenom_composé+prenom_grec +nom+nom_grec+prenom=κώζηας-λάδαρος Nom=Γηαθογηάλλες:Gms. Singulier Pluriel Nom. Κώζηας Κώζηεδες Gén. Κώζηα/Κώζηος Κώζηεδωλ Acc. Κώζηα Κώζηεδες Voc. Κώζηα Κώζηεδες Singulier Pluriel Nom. Λάδαρος Λάδαροη Gén. Λάδαροσ/Λαδάροσ Λάδαρωλ/Λαδάρωλ Acc. Λάδαρο Λάδαροσς/Λαδάροσς Voc. Λάδαρε Λάδαροη Tableau 2 Tableau 3 Tableau 4 En ce qui concerne le traitement des noms écrits en caractères latin, bien que le dictionnaire français des prénoms utilisé pour les extraire ne contienne que les marque :ms et :fs, la grammaire que nous avons développé les remplace par les infos flexionnelles équivalentes adéquates selon leur genre. Les patronymes qui les suivent qui ne figurent pas dans des dictionnaires (il n en existe pas pour le français qui ne possède pas de cas) se voient donc attribuées toutes infos flexionnelles du masculin et du féminins. Voici à titre d exemples les formes «hellénisées» attribuées à quelques prénoms français : Pierre,.N+prenom:Nms:Ams:Gms:Vms Marie,.N+prenom:Nfs:Afs:Gfs:Vfs Dominique,.N+prenom:Nms:Ams:Gms:Vms:Nfs:Afs:Gfs:Vfs Masc. Sing. Fém..Sing. Pluriel Nom. Γηαθογηάλλες Γηαθογηάλλε Γηαθογηάλλεδες Gén. Γηαθογηάλλε Γηαθογηάλλε Γηαθογηάλλεδες Acc. Γηαθογηάλλε Γηαθογηάλλε Γηαθογηάλλεδωλ Voc. Γηαθογηάλλε Γηαθογηάλλε Γηαθογηάλλεδες Une phrase comme : «Η Μαρία ιαηρεύεη ηολ Sébastien» (Marie adore Sébastien) peut donc être analysée par une grammaire faite «exclusivement» écrite pour le grec sans problème. Le graphe dictionnaire développé permet de produire dans le dictionnaire du texte des entrées pour un nom complet écrit en caractères latins on trouvera dans le dictionnaire du texte comme : Eric Rouleau,Eric Rouleau.Person+prenom+prenom_latin+nom+nom_latin+latin+ Prenom=Eric+Nom=Rouleau:Nms:Ams:Gms:Vms Ces entrées sont ensuite utilisables par des grammaires au même titre que les dictionnaires statiques. Par exemple si l on recherche des noms de personne comportant un prénom et un nom en évitant les édifices religieux ou fête nominales on peut écrire une expression régulière ou un graphe comportant : <Person+prenom+nom~saint> ou si l on recherche des noms à particules : <Person+particule>. Conclusion et perspectives Cette présentation très sommaire illustre déjà l intérêt de ce travail et en particulier de la méthode des graphes dictionnaires. Il doit être complété pour le grec et le français mais aussi s appliquer aux autres langues d Unitex. Nous sommes persuadés que même si le système de reconnaissance des noms de personne est commun les règles de désambiguïsations seront propres à chaque langue voire à chaque pays. 5 Voir tableau

160 Références Courtois B. (1990), «Un système de dictionnaires électroniques pour les mots simples du français», in Courtois B. et Silberztein M. (éds), Dictionnaires électroniques du français, Langue Française, n 87, Larousse, Paris : Fourour N. (2002), «Nemesis, un système de reconnaissance incrémentielle des entités nommées pour le français», in Actes de la 9 ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2001), Nancy, vol. 1 : Friburger N. (2002), Reconnaissance automatique des noms propres : Application à la classification automatique des textes journalistiques, Thèse de doctorat, Université de Tours, Paris. Hobbs J., Appelt D., Bear J., Israel D., Kameyama M., Stickel M. et Tyson M. (1996), «Fastus : a cascaded finite-state transducer for extracting information from natural-language text», in Roche E. et Schabes Y. (éds), Finite State Devices for Natural Language Processing, MIT Press, Cambridge, USA : Jacquemin C. et Bush C. (2000), «Fouille du Web pour la collecte d entités nommées», in Actes de la 8 ème Conférence Nationale sur le Traitement Automatique des Langues Naturelles (TALN 2000), Lausanne : Kyriacopoulou T., Mrabti S. et Yannacopoulou A. (2002). Le dictionnaire électronique des noms composés en grec moderne, Lingvisticæ Investigationes 25:1, Amsterdam/Philadelphia : John Benjamins, Kyriacopoulou T. (2003). Analyse automatique des textes écrits : le cas du grec moderne, Mémoire d Habilitation à diriger des recherches, Université de Marne-la-Vallée. Martineau C., Tolone E., et Voyatzi S (2007). «Le statut référentiel des entités nommées», in : Actes du XXVIe Colloque International Lexique et Grammaire, Bonifacio, Corse du Sud, 2-6 octobre 2007, éds. Catherine Camugli, Matthieu Constant et Anne Dister, Maurel, D., Vitas, D., Krstev, C., et Koeva S., 2007 PROLEX: A Lexical Model For Translation Of Proper Names Application To French, Serbian And Bulgarian Sekine S. et Nobata C. (1998), «An Information Extraction System and a Customization Tool», in Proceedings of the New Challenges in Natural Language Processing and its Application, May 1998, Tokyo, Japan. Paumier, S De la reconnaissance de formes linguistiques à l analyse syntaxique. Paris : Université de Marne-la-Vallée. [Thèse de doctorat]. Paumier, S <www-igm.univ-mlv.fr/~unitex/manuel.htm>. 154

161 Lim Joon Seo Université de Paris-Est Marne-la-Vallée UNE ETUDE SUR LA DESCRIPTION LEXICO-SYNTAXIQUE DU VERBE «DOEDA» EN COREEN Résumé Nous présentons ici une étude sur la description lexico-syntaxique du verbe coréen, «되다 doeda», au niveau des phrases simples, qui se traduit généralement en français «devenir», «se transformer», «se faire», «s accomplir», etc. Le verbe «doeda» est employé très largement en coréen, dans la mesure où celui-ci fonctionne non seulement comme le verbe distributionnel, mais aussi comme le verbe support «passif», sinon le verbe support «aspectuel». Il nous faudra une description détaillée, exhaustive et systématique sur tous les emplois du verbe «doeda». A travers une telle description, nous pourrons réfléchir à quelques notions fondamentales. Mots clefs: verbe support, nom prédicatif, structure argumentale, restructuration, fusion 1. Introduction Nous présentons ici une étude sur la description lexico-syntaxique du verbe coréen, «되다 doeda», au niveau des phrases simples, qui se traduit généralement en français «devenir», «se transformer», «se faire», «s accomplir», etc. Le verbe «doeda» est employé très largement en coréen, dans la mesure où celui-ci fonctionne non seulement comme le verbe distributionnel -ou plus précisément, le verbe prédicatif-, mais aussi comme le verbe support «passif» qui fait une paire avec le verbe support «하다 hada (faire)», sinon le verbe support «aspectuel» (résultatif ou accompli...). En plus, le verbe «doeda» constitue des constructions figées par des éléments différents, même avec des compléments qui paraissent non essentiels (par exemple, des adverbes). En bref, il s agit d un verbe très important qui est intéressant et riche, du point de vue lexico-syntaxique en coréen. Une description formelle de ce verbe, systématique et exhaustive, nous permettra donc de réfléchir sur quelques notions fondamentales dans le Lexique-Grammaire : «prédicat», «verbe support», «structure des arguments», «restructuration» et «fusion», etc. 2. Description du verbe «doeda» 2.1. Compréhension du coréen par le verbe «doeda» Pour une compréhension générale du verbe «doeda», nous présentons tout d abord les emplois comme verbe distributionnel. Le verbe «doeda» fonctionne comme un verbe attributif. Prenons des exemples. 155

162 (1) 막스는 레아의 친구가 되었습니다. Max est devenu l ami de Léa. (2) 물이 (얼어) 얼음이 되었다. L eau (gelant) s est transformée en glace. (3) 그 아이는 (커서) 소설가가 될 것 같아요. Cet enfant deviendra peut-être romancier (une fois grandi). Comme le coréen est une langue agglutinante, chaque nom est suivi d une particule grammaticale ou d une particule sémantiquement spécifique qui exprime un sens particulier. Une particule grammaticale permet à chaque nom d assumer une fonction grammaticale comme le sujet, le complément d objet direct, le complément locatif, etc. Dans les phrases cidessus, nous observons deux noms suivis d une particule, le premier pour le sujet et le deuxième pour le complément d attribut. Elles sont formalisées comme suit : (A) Np Np V (pour le coréen) Par ailleurs, en coréen, à la différence du français, le verbe et l adjectif sont toujours à la fin de la phrase. Donc, comme vous le voyez bien dans les phrases ci-dessus (1), (2), (3), le complément d attribut précède toujours le verbe. Par contre, en français, la construction à attribut se formalise autour d un verbe attributif comme : (B) N V N (pour le français) Très généralement, les phrases simples en coréen et en français seront formalisées comme : (C) Np Np Np W V (D) N V N Prép N Prép N W En coréen, tous les groupes nominaux doivent donc être suivis d une particule postposée «p» (grammaticale ou sémantiquement spécifique) 1 pour avoir une fonction grammaticale, tandis qu en français, les groupes nominaux sont précédés d une préposition «Prép», excepté les groupes nominaux en position sujet et complément d objet direct. Une autre particularité qu on observe en coréen, c est l adjectif qui ressemble au verbe du point de vue syntaxique. Pour avoir une phrase simple, l adjectif coréen n a pas besoin de «이다 ida», l équivalent du verbe copule «être». Le verbe copule «ida» s ajoute donc 1 Voici les particules grammaticales : «Nc-i/Nv-ga» pour le sujet et l attribut, «Nc-eul/Nv-leul» pour l objet direct, «N-e/eso/(eu)lo» pour le locatif, «N-ege» pour le datif, «Nv-wa/Nc-kwa» pour le complément d accompagnement, «N-eui» pour le possessif. Pour les particules sémantiquement spécifiques, il y a «Nceun/Nv-neun» pour le thématisation, «N-do» pour le sens «aussi, même», «N-man» pour le sens «seulement», etc. (Nc = : nom qui se termine par une consonne finale, Nv = : nom qui se termine par une voyelle) 156

163 juste après le nom en position d attribut, par contre l adjectif coréen apparaît tout seul comme le verbe. Leurs structures se formalisent comme suit : (E) Np W Adj (4) 날씨가 좋다 Le temps est bon. (F) Np N-ida (5) 오늘은 좋은 날씨이다. Aujourd hui, c est un bon temps. La phrase ci-dessus à «ida» a pour la négation la même structure que le verbe «doeda», en mettant le verbe négatif «아니다 anida» du «ida». Car celui-ci doit ajouter une particule attributive «이 i / 가 ga» après le deuxième nom en position d attribut. (G) Np Np V (6) 오늘은 좋은 날씨가 아니다. Aujourd hui, ce n est pas un bon temps. Ces deux verbes seuls «doeda» et «anida», sont des verbes attributifs dans un sens étroit et rigoureux, qu on peut trouver en coréen. Mais c est une construction importante dans la mesure où le verbe «doeda» s emploie avec un grand nombre de noms concrets ou abstraits, prédicatifs, qui dérivent souvent les verbes composés d une façon très productive Verbe distributionnel En théorie, à partir de la structure (C), on peut prévoir différentes structures variées d après le nombre des compléments et des particules, en coréen aussi bien qu en français. (C) Np Np Np W V On observe d abord les phrases sans complément. Np W V =: (7) N-은 W V (7) 꽃이 활짝 피었다. Les fleurs se sont complètement épanouies. Ensuite, si un complément s ajoute, la structure varie d après les formes des particules. Np Np W V =: (8) N-은 N-이 W V / (9) N-은 N-을 W V / (10) N-은 N-(에+에게) W V / (11) N-은 N-과 W V / (12) N-은 N-으로 W V (8) 얼음이 물이 되었다. La glace s est transformée en eau. (9) 레아는 한국 음식을 먹습니다. Léa mange de la cuisine coréenne. (10) 막스는 (한국에 + 레아에게) 가요. Max va (en Corée + vers Léa). (11) 막스는 레아와 (만났어 + 헤어졌어). Max (a rencontré + s est séparé) avec Léa. 157

164 (12) 레아는 회장으로 뽑혔다. Léa a été élue présidente. Enfin, on pourra ajouter un complément d objet direct suivi d une particule «을/를 eul/leul» aux phrases intransitives comme (10), (11), (12) : Np Np Np W V =: (13) N-은 N-(에+에게) N-을 W V / (14) N-은 N-에게 N-을 W V / (15) N-은 N-과 N-을 W V / (16) N-은 N-을 N-으로 W V (13) 막스는 (한국에 + 레아에게) 편지를 보냈습니다. Max a envoyé une lettre (en Corée + à Léa). (14) 막스는 레아에게 사과를 주었어요. Max a donné une pomme à Léa. (15) 막스는 찹쌀가루와 물을 잘 섞었다. Max a bien mélangé la farine de riz gluant avec de l eau. (16) 막스는 유로를 원으로 바꿨어. Max a échangé des euros en wons. Ainsi, les structures des exemples (7), (8), (10), (12) s observent dans les constructions du verbe distributionnel «doeda». (7a) 비빔밥 돼요? Le bibimbap est-il disponible (au menu)? (8) 얼음이 물이 되었습니다. La glace s est transformée en eau. (10a) 회장에 레아가 되었어. Pour la place de présidente, Léa a été choisie. (12a) 레아가 회장으로 되었다. Léa est devenue (nommée) comme présidente Verbe support Dans le lexique-grammaire, la notion «verbe support» est étroitement liée à la notion «prédicat». Celle-ci joue un rôle important à constituer les phrases simples, car ce prédicat est un «noyau» qui détermine ses arguments. Le prédicat peut être un verbe ou un adjectif, mais aussi un nom. Si on a un nom prédicatif dans la phrase simple, celui-ci est supporté par un verbe qui est lexicalement presque vide. C est pourquoi on l appelle justement le verbe support «Vsup» Verbe support actif «hada» En coréen, le verbe support typique est le verbe «hada» ayant un prédicat en position de complément d objet direct comme en français «faire». Prenons un exemple : (17) L Otan a fait des attaques contre la Libye de Kadhafi. Cette phrase française (17) se traduit en coréen, comme (17a) et (17b) : (17a) 나토는 카다피의 리비아에 대한 공격을 했다. (17b) 나토는 카타피의 리비아에 대해 공격을 했다. 158

165 Le complément «contre la Libye» dans la phrase (17) prend la forme déterminante de la particule complexe «에 대한 e daehan (à propos de)» dans (17a) qui fait constituer un groupe nominal «des attaques contre la Libye», alors qu il a une forme adverbiale «에 대해 e daehe (à propos de)» dans la phrase (17b) qui concerne plutôt le verbe «hada». D ailleurs, le nom «공격 gongyok (attaque)» et le verbe «hada» ne peuvent pas avoir deux sujets différents. Ces deux propriétés, possibilité de double analyse et sujet identique, elles sont les mêmes qu on observe dans les phrases à Vsup en français (17). De plus, en coréen la phrase (17a) peut avoir un autre complément d objet direct à la place du complément adverbial «contre la Libye» comme (17c) et enfin peut fusionner le nom prédicatif et le verbe support, en omettant la particule du cod «eul» comme (17d) : (17c) 나토는 카다피의 리비아를 공격을 했다. (17d) 나토는 카다피의 리비아를 공격했다 GN et structure argumentale On peut se demander ici, d où viennent ces constructions à Npred et Vsup. Si un Vsup assume simplement un rôle auxiliaire sans aucun sens lexical, il est évident que le prédicat nominal les détermine. Donc logiquement, le prédicat nominal «gongyok (attaque)» peut avoir ses arguments comme «Otan», «Libye». A nos yeux, c est tout d abord dans le groupe nominal du nom prédicatif «gongyok (attaque)» que cette «structure argumentale» se réalise au niveau linguistique : Prédicat = : «공격 attaque» Arguments du prédicat «attaque» = : {sujet d attaque «나토 Otan», objet d attaque «리비아 Libye»} (18) GN actif = : 나토의 리비아-(E+에 대한) 공격 attaque de l Otan contre la Libye (19) GN passif = : 나토에 의한 리비아-(E+에 대한) 공격 attaque contre la Libye par l Otan Parmi ces deux groupes nominaux, c est plutôt le premier GN actif (18) qui prend un verbe support actif, comme «hada» en coréen et «faire» en français. C est ainsi que le sujet du nom prédicatif «gongyok (attaque)» est le même que le sujet du verbe support «hada» et «faire» et que la combinaison entre le nom prédicatif et le verbe support permet de faire une double analyse que nous avons observée dans la phrase en français (17) et les phrases (17a) et (17b) en coréen Verbe support passif Si un verbe support veut avoir une construction passive lexico-syntaxiquement en coréen, il y a deux types de Vsup passifs que l on puisse choisir : «되다 doeda (devenir ou se faire)» et «받다 patta (recevoir)», «당하다 danghada (essuyer)», «입다 iptta (subir)», etc. Le premier type de Vsup «doeda» a son nom prédicatif en position sujet (ou attribut), tandis que 159

166 le deuxième en position «objet». Les deux types de Vsup se combinent avec le GN passif. Prenons des exemples en coréen : GN passif-p doeda = : [나토에 의한 카다피 리비아(E+의+에 대한) 공격]-이 되다 (19a) 나토에 의해 카다피 리비아는 공격이 되었다. TN : La Libye de Kadhafi a été attaquée par l Otan. (19b) 카다피 리비아는 나토-(에 의해 +로부터) 공격을 (받았다 + 당했다 +*입었다). La Libye de Kadhafi a (reçu +essuyé + subi) des attaques (par + de la part de) l Otan. Comme vous le voyez bien, le nom prédicatif «gongyok (attaque)» de la phrase (19a) se trouve en position sujet, par contre celui de la phrase (19b) en position «objet direct». A la différence du nom prédicatif «gongyok (attaque)», d autres noms prédicatifs comme «파괴 p agoe (destruction)» et «피해 p ihae (dommage, dégât)» montrent une autre compatibilité des Vsup : (20) GN passif de «파괴 destruction» = : [나토 공격에 의한 카다피 리비아 군사 기지들의 파괴] (20a) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴가 되었다. TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l Otan (20b) 나토의 공격에 의해 카다피 리비아의 군사 기지들은 파괴를 (*받았다 + *당했다 + *입었다). Les bases militaires en Libye de Kadhafi ont (*reçu +?subi) la destruction par les attaques de l Otan (21) GN passif de «피해 dommage, dégât» = : [나토 공격에 의한 카다피 리비아 군사 기지들의 피해] (21a) 나토의 공격에 의해 카다피 리비아의 군사 기지에 피해가 (*되었다 + 있었다 + 났다 + 발생 했다 + 생겼다 + 갔다...). Par les attaques de l Otan, (il y a eu + se sont produits + sont arrivés) des dégâts sur des bases militaires en Libye de Kadhafi. (21b) 나토의 공격에 의해 카다피 리비아의 군사 기지는 큰 피해를 (*받았다 + *?당했다 + 입었다 + 보았다...). Des bases militaires en Libye de Kadhafi ont (*reçu + subi +*? vu + connu) des dégâts (par + à travers) les attaques de l Otan. A l heure actuelle, il paraît difficile de prévoir avec quels verbes supports est bien compatible un nom prédicatif. Il faudra une étude détaillée et approfondie sur la sémantique des noms prédicatifs et des Vsup Restructuration (obligatoire) du verbe support passif «doeda» Revenons au verbe support passif «doeda», pour se limiter à notre objet d étude et pour se poser quelques questions problématiques. Reprenons les exemples ci-dessus ayant «doeda» : 160

167 (19a) 나토에 의해 카다피 리비아는 공격이 되었다. TN : La Libye de Kadhafi a été attaquée par l Otan. (20a) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴가 되었다. TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l Otan Elles sont des phrases restructurées à partir de la structure du GN préd «gongyok (attaque)» et «p agoe (destruction)» dans les constructions à Vsup «doeda». Par conséquent, on observe un complément d agent «par l Otan» (ou «par les attaques de l Otan») et un sujet «Libye» (ou «des bases militaires») qui sont éclatés en dehors du GN préd «gongyok (attaque)» (ou «p agoe (destruction)»). On voit ici la structure de «double sujet» qui apparaît souvent en coréen. On peut penser que cette structure de «double sujet» vient de celle où le nom «Libye» n est pas encore séparé du GN préd comme : (19a.1) (E +?나토에 의해) 카다피 리비아 공격은 되었다. Les attaques contre La Libye de Kadhafi ont été faites par l Otan. (20a.1)?*나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들에 대한 파괴가 되었다. La destruction des bases militaires en Libye de Kadhafi a été faite par les attaques de l Otan. Cependant, le statut en tant que sujet que possède le nom prédicatif dans la construction à «doeda» (19a) et (20a) semble très instable, car le verbe «doeda» est un des deux verbes attributifs en coréen, pouvant avoir un complément d attribut suivi d une particule «i/ga», formellement la même que la particule du sujet Fusion entre Npred et Vsup Que ce soit sujet ou attribut, la plupart des noms prédicatifs se fusionnent très facilement avec le verbe support «doeda». (19a.2) 나토에 의해 카다피 리비아는 공격되었다. TN : La Libye de Kadhafi a été attaquée par l Otan. (20a.2) 나토의 공격-(에 의해+으로) 카다피 리비아의 군사 기지들은 파괴되었다. TN : Des bases militaires en Libye de Kadhafi ont été détruits par les attaques de l Otan Cette fusion entre le nom prédicatif et le verbe support ne se produit pas automatiquement. Elle n est pas possible, (ni même l omission de la particule), en particulier, pour certains noms prédicatifs comme «objet», «cause». (22) 카다피 리비아의 군사 시설이, 나토의 공격의 대상이 되었다. 161

168 Des bases militaires en Libye de Kadhafi ont (été + fait) l objet (des attaques de l Otan). (23) 카다피에 의한 시위 진압이, 나토의 공격의 (원인 + 빌미 + 발단 + 단초 + 계기...) 2 -가 되었다. La répression militaire contre des manifestations par Kadhafi a fait une cause des attaques de l Otan. 3. Conclusion Nous souhaitons qu une telle description du verbe «doeda» et la réflexion sur les notions fondamentales comme «prédicat», «verbe support», «structure argumentale», «restructuration» et «fusion» contribuent à améliorer la description linguistique dans le lexique-grammaire pour une langue «coréen» aussi bien que pour deux langues «coréenfrançais». On aimerait aussi pouvoir appliquer une telle description lexico-syntaxique pour le traitement automatique, surtout dans le système de l Unitex monolingue (coréen) ou de l Unitex bilingue (coréen-français). <Table1> Structures du verbe «doeda» 되다 doeda Structure Exemples V distributionnel N0 V (7a) 봄이 되었다. Le printemps est arrivé. N0 N1-i/ga V (1), (2), (3), (8) 막스는 레아의 친구가 되었다. Max est devenu l ami de Lea. N1-e N0-i/ga V (10a) 회장에 레아가 되었어. Pour la place de présidente, Léa a été choisie. N0 N1-(eu)ro V (12a) 레아가 회장으로 되었다. Léa est devenue (nommée) comme présidente. V support N0 W Npr-i/ga Vsup (19a), (20a) 군사기지가 파괴가 되었다. Des bases militaires ont été détruits. N0 W Npr-Vsup (19a2), (20a2) 군사기지가 파괴되었다. Des bases militaires ont été détruits. <Table2> Npred et Vsup en coréen Npred Vsup passif Vsup actif Vsup passif V copule N0 W Npr-i/ga Vsup N0 W Npr-eul/leul Vsup N0 W Npr-eul/leul Vsup N0 Npr-ida doeda hada shik'ida juda patta tanghada iptta poda Ida devenir, se faire faire faire faire donner recevoir essuyer subir voir être Npr-i/ga doeda Npr-doeda 공격 gongyok attaque 파괴 p'agoe destruction 피해 p'ihae dégât 원인 wonin cause 대상 daesang objet Références Gross G. et al. (1986) «Syntaxe des noms», Langue française 86, Paris : Larousse. Gross M. (1981) «Formes syntaxiques et prédicats sémantiques», Langages 63, Paris : Larousse. Hong Chai Song (2010) «Etude de contraste typologique sur les constructions à copule en coréen et en français», Revue d Académie N 49-1, Académie nationale des sciences en Corée. Lim Joon Seo (2007) «Quelques remarques sur le verbe support et le nom prédicatif en position sujet», Lux Coreana, revue consacrée aux langues et cultures franco-coréennes n 3, CEFCO & Han-Seine, Paris. 2 Les noms comme «원인 wonin (cause)», «빌미 bilmi (cause d un mal)», «발단 baldan / 단초 dancho (point de départ, origine)», «계기 kégi (occasion d une chance)» appartiennent à la classe sémantique «objet relationnel abstrait». Cf. Projet du dictionnaire électronique Sejong (2002, 2007), Lee (2007). 162

169 Marque-Pucheu Christiane Université de Paris-Sorbonne POUR UNE GRAMMAIRE LOCALE DES VERBES INTRODUCTEURS D EXCLAMATIVE INDIRECTE Résumé L exclamative indirecte et les verbes susceptibles de l introduire ont été peu étudiés en français. Souvent définis par la propriété N 1 = : Que P + si P ou P, qui en ferait une sous-classe des verbes introducteurs de complétive ou d interrogative indirecte, les verbes introducteurs d exclamative ne la possèdent pas systématiquement. De plus, ils se distinguent souvent par un comportement particulier lorsque l exclamative est réduite et révèlent des contraintes multiples. Cette dernière particularité justifie une représentation par automate. Mots clefs: automate, exclamative indirecte, grammaire locale, réduction. Abstract The indirect exclamative sentence and the verbs introducing it in French have received little attention. Often defined by the feature N 1 = : Que P + si P ou P, which would make this class a sub-class of the verbs introducing completive sentences or indirect interrogative sentences, the verbs introducing exclamative sentences do not always satisfy this criteria. Moreover, they often have a specific behaviour when the exclamative sentence is lacking and multiple constraints appear. This justifies the use of automata for representing them. Keywords: automata, indirect exclamative sentence, local grammar, reduction. Introduction Contrairement à l exclamative directe, largement décrite, les grammaires françaises passent souvent sous silence l exclamative indirecte (Martinon, 1927 ; Wagner et Pinchon, 1962 ; Le Bidois, 1968; Bonnard, 1997, 2001, etc.) ou lui consacrent peu de lignes (Arrivé, Gadet, Galmiche, 1986), Grevisse, 1986 et Le Goffic, 1993 constituant l exception au sein des descriptions grammaticales, tout comme Milner, 1978 parmi les études linguistiques. Quand elle a droit de cité, l exclamative indirecte est souvent traitée de pair avec l interrogative indirecte. Il est vrai que les différences formelles observables entre les deux types de construction directe s estompent dans la forme indirecte, notamment du fait que l intonation distinguant l interrogation directe et l exclamation directe est souvent neutralisée dans les constructions indirectes. Les auteurs se plaisent également à souligner que les deux subordonnées partagent les mêmes termes exclamatifs : déterminants (quel, combien de) ou adverbes (combien, si). Seul comme, qui ne s observe que dans les exclamatives, «prouverait à lui seul qu il y a des exclamatives indirectes» (Milner, 1978 : 261), et l on pourrait relever, encore dans le français actuel, des énoncés tels que Qui sait comme il est parvenu à faire fortune? où comme ne choque pas du tout l'oreille contemporaine. De fait, dans les rares 1 remarques concernant les verbes introducteurs, l exclamative indirecte fait l objet d un traitement commun avec l interrogative indirecte (Le Goffic, 1993 : ) 2. Bien plus, la caractérisation même des verbes introducteurs d exclamative indirecte leur nie en quelque sorte toute spécificité par rapport à ceux qui introduisent une interrogative indirecte, puisque «Les verbes acceptant une subordonnée exclamative sont ceux qui peuvent être suivis d une complétive en que ou d une interrogative indirecte» (Riegel, Pellat, Rioul, 1997 : 501). On suppose donc que les verbes ayant la propriété N 1 = : (Que P + si P ou P) dans les tables du lexique-grammaire 3 sont susceptibles d'introduire une exclamative, même si cette possibilité n apparaît pas dans les tables, alors qu elle 1 Cette lacune a été signalée en son temps par Leeman, Sans que cela constitue le point central de son étude, Bodelot, 2005 évoque également le rôle des verbes introducteurs, et notamment celui des verbes de perception, mais à propos du latin. 3 (M. Gross, 1975 ; Boons, Guillet, Leclère, 1976). 163

170 apparaît dans le classement syntactico-sémantique de Dubois et Dubois-Charlier, Dans les étiquetages sémantiques, certaines familles comme les «verbes de connaissance» (Le Goffic, 1993) comportent quelques unités censées introduire interrogative et exclamative, ce qu illustrent respectivement (1), (2) et (3), (4) 4 : (1) Paul sait comment il faut faire (2) Si vous saviez comme c est intéressant! (3) Devine qui vient diner ce soir (4) Devine quel bon repas j ai préparé Et même si le contenu de P permet souvent de décider si la subordonnée est exclamative ou interrogative (Noailly, 2005), une phrase peut être ambiguë (Leeman, 2002), par exemple : (5) Regarde si c est soyeux Dans une lecture interrogative, (5) se paraphrase par Regarde si c est soyeux ou non, conformément à la propriété si P ou P de l interrogative ; une lecture exclamative donne Regarde à quel point c est soyeux, si étant sémantiquement voisin d un adverbe de degré. Enfin, comme les complétives en que (a), les deux subordonnées indirectes, interrogative (b) et exclamative (c), présentent des propriétés communes, telle la pronominalisation en cela : (a) Je déteste qu il vienne. Je déteste cela (b) Je me demande pourquoi il vient. Je me demande cela. (c) Voyez comme c est beau. Voyez cela. Les marques de délimitation entre les deux types d indirectes semblent donc réduites. Nous défendrons cependant l'idée que si elle partage avec l interrogative les caractéristiques des verbes introducteurs, l exclamative indirecte mérite un traitement à part. D une part, un verbe introduisant une exclamative indirecte n introduit pas nécessairement une interrogative indirecte 5 : (6) Tu penses (si +* pourquoi) j ai accepté D autre part, lorsque le verbe introducteur est commun aux deux types de subordonnée indirecte, des contraintes sur les modes ou les personnes affectent les verbes introducteurs d exclamation indirecte. Enfin, certains verbes introducteurs d exclamative acceptent difficilement comme (Leeman, 1996 : 16) dans certains types de phrase (déclaratif/impératif), à certaines personnes :?? (Sache + Pense + Tu regardes + Tu ne regardes pas) comme il est joli Notre hypothèse est que les verbes introducteurs d exclamative ont un comportement propre. Seule une recherche systématique sur les verbes ou les constructions correspondantes fera foi. Toutefois, l étude se limitera ici aux verbes et exclura les constructions être Adj comme C est effrayant ce que P. Les tables du lexique-grammaire, notamment les tables de verbes distributionnels et les tables de phrases figées, serviront de référence. Nous recensons d abord ( 1) les différents types de verbes introduisant une exclamative indirecte : ceux qui sont caractérisés par la propriété N 0 V N 1 où N 1 = Que P si P ou si P, et/ou par la propriété Que P, et ceux qui ne présentent aucune des deux propriétés. Ensuite ( 2), nous mentionnons des propriétés originales de certains verbes après réduction de l exclamative. Enfin ( 3), nous faisons apparaître des contraintes particulières qui conduisent à opter dans de nombreux cas pour une représentation par automate. Les observations et le raisonnement s'appuient d'abord sur des énoncés forgés selon notre intuition, ou repris des travaux existants (articles, ouvrages de linguistes, grammaires de référence, dictionnaires), lesquels utilisent souvent des exemples attestés. Mais il reste évidemment à procéder à des relevés systématiques dans des (grands) corpus diversifiés pour valider la consistance des hypothèses et propositions ici avancées ici. 1. Les différents types de verbes introducteurs d une exclamative indirecte La propriété pour un verbe d introduire une complétive ou une subordonnée interrogative indirecte est marquée dans les tables du lexique-grammaire par la formule N0 V N1, N1 =: Que P + si P ou si P qui concerne les structures transitives simples avec complément direct phrastique dans les tables 6, 9, 12, 15 et 16 : Max regarde si le lait chauffe ou non (table 6) 4 De même, imaginer peut introduire une complétive en que ou une exclamative. 5 De même, tel verbe introduisant une exclamative indirecte n introduit pas de complétive en que : Regarde (comme + * que) c est beau. 164

171 Le témoin a ajouté qu il était surpris (table 9) L enquêteur comprend qu il s est trompé (table 12) Max répondra si tu peux venir ou non (table 15) Max s est rendu compte que c était compliqué (table 16) Dans ces tables, certains verbes peuvent introduire une exclamative. Mais les exclamatives peuvent concerner des items de classes ne possédant pas ces propriétés. Considérons d'abord les cas où les trois types de subordonnée existent Exclamative ou complétive ou interrogative Parallèlement aux phrases complétive (7) et interrogative (8) : (7) Tu ne peux pas savoir qu'il l'a aimée (8) Tu ne peux pas savoir s il est doué le verbe savoir (table 6) peut introduire des phrases exclamatives : (7a) Tu ne peux pas savoir comme il l a aimée (8a) Tu ne peux pas savoir comme il est doué Tu ne peux pas savoir peut alors commuter dans (7a) et (8a) avec C est incroyable. D autres verbes partagent ces propriétés, par exemple se rendre compte. Des constructions verbales figées sont également concernées. Ces constructions complexes mettent en jeu des verbes qui figurent seuls dans les tables de verbes simples : les expressions s accorder à dire, amener à croire, avoir le plaisir d apprendre, conduire à croire ou encore donner à penser de la table C_cppq.lgt, introduisent des exclamatives, des complétives en que ou des interrogatives, tout comme les verbes simples correspondants dire, croire, apprendre et penser. De même, la table C_cpq.lgt comporte des constructions complexes mettant en jeu des verbes précédés de semi-auxiliaires, comme aller croire/imaginer, aller voir/savoir, laisser présager/prévoir, finir par savoir, en venir à et se demander, dont les compléments ne diffèrent pas des compléments observés avec les mêmes verbes simples. D autres constructions verbales figées de la table C_c6.lgt se caractérisent par une structure V Adv, comme voir bien. Possédant la propriété si P, elles peuvent également introduire une exclamative. L analyse ne diffère alors pas de celle des verbes simples Exclamative ou complétive en que Dans les classes 12 et 16, certains verbes acceptent parallèlement une complétive en que et une exclamative. Ainsi, Tu penses peut introduire une complétive en que (9) ou une exclamative en si (10) : (9) Comme tu penses qu il viendra, tu dois l attendre (10) Tu penses s il viendra! Il n oubliera pas. L exemple (10) est bien une exclamative et non une interrogative indirecte car la disjonction si P ou P est impossible (10a) : (10a) *Tu penses s il viendra ou non. Il n oubliera pas. On remarquera que les contextes diffèrent (Tu dois l attendre vs Il n oubliera pas). Mais s ils ne sont pas interchangeables dans (9) : *Comme tu penses qu il viendra, il n oubliera pas ils le sont dans (10) : Tu penses s il viendra! Tu dois l attendre. Même si que commute avec si dans (10) : (10b) Tu penses qu il viendra! Il n oubliera pas il ne s agit pas d une complétive. En effet, que P ou P est incompatible avec la suite de la phrase (10c), voire avec le verbe introducteur : (10c) *Tu penses qu il viendra ou non. Il n oublie pas Terme introduisant habituellement les exclamatives directes, que peut donc introduire une exclamative indirecte 6. 6 Cette caractéristique de que n est jamais mentionnée à notre connaissance. 165

172 Sur le plan interprétatif, Tu penses peut être synonyme de Tu penses bien comme dans (10b), qui est explicitable alors par Bien sûr que oui (il viendra), ou correspondre à une antiphrase, ce qui donne : Tu penses (s + qu ) il viendra! Bien sûr que non Tu penses (si + que) P est donc ambigu sémantiquement, mais non syntaxiquement. Mais il est plus facile de justifier cette ambiguïté dans le cas de Tu penses que P que dans celui de Tu penses si P. En effet, aux deux interprétations peuvent correspondre respectivement Tu penses que oui / Tu penses bien que P et Tu penses que non, alors que cette équivalence ne peut être testée avec si P puisque ni *Tu penses si oui ni *Tu penses si non ne sont attestés. Il n existe pas de configuration où un verbe introduisant une exclamative n introduirait qu une interrogative sans introduire une complétive (voir figures 1 et 2) Verbes introduisant une exclamative seule Verbes distributionnels Certains verbes introduisent une exclamative sans posséder l une des deux propriétés mentionnées N 1 = : Que P ou N 1 = : si P ou si P (voir figures 1 et 2). Sont concernées : la table 32R3 (11-14) définie par N 0 V N 1, avec N 1 = Ncontraint : (11) Sens comme c est parfumé (12) Regarde comme c est beau (13) Écoute comme c est beau (14) Entends comme il joue bien la table 38L0 (15-16) définie par N 0 V N 1 (Loc N 2 ), avec N 0 = Nlieu et N 1 = corrélat de ce lieu : (15) Respire comme ça sent bon (16) Goûte comme c est bon et la table 38L1 (17-19) définie par N 0 V N 1, avec N 1 = Nlieu et N 0 = corrélat (ou argument) de ce lieu : (17) Touche (ce tissu) comme il est soyeux (18)?Caresse ce chat comme il est doux (19)??Sonde (la galerie) si c est profond On objectera qu un exemple comme (Regarde + Sens) si ça te plaît ou non est attesté et semble posséder la propriété N 1 = : si P ou si P. Mais la source complète étant pour voir si, la subordonnée dépend donc de voir et non de regarde ou sens (voir en 1.2). On a donc des exemples ambigus comme Goûte si c est bon, où si = : comme P (exclamative) ou si P ou P (interrogative). Mais des contraintes particulières séparent interrogative et exclamative (voir 3.) Expressions figées D autres exemples sont fournis par la table C_cff.lgt. Le complément en comme fait partie de la structure figée, contrairement aux autres classes d expressions figées où l exclamative peut constituer une propriété supplémentaire. Ainsi, dans Il n y a qu à voir comme ou Il faut/fallait voir comme, l exclamative est spécifique de la construction. Dans Tu parles (qu + s ) il était content, Tu parles n introduit ni une complétive (20) ni une interrogative indirecte (21) : (20) *Tu parles cela / * Tu le parles (21) *Tu parles si P ou si P Que et si peuvent par d ailleurs commuter avec comme dans la même interprétation. Tu parles introduit donc une exclamative. Mais les verbes introduisant exclusivement une exclamative restent relativement rares. Table Que P Si P ou P Exemple d exclamative Max constate combien ces mesures sont efficaces Max a dit à Léa comme il était surpris Max admire comme Léa travaille 166

173 Max se souvient comme Léa était jolie Max s est rendu compte comme elle avait menti 32R3 - - Écoute cette musique si c est beau 38L0 - - Respire comme ça sent bon 38L1 - - Touche ce tissu si c est doux Figure 1 Tables du LG. Verbes distributionnels admettant une exclamative Table Caractérisation sémantique Que P Si P ou Exemple d exclamative P C2a «dire ou demander» + + Il a dit comme il était content F3 «frapper ou toucher qc» - - Touche si c est doux H1d «être dans tel état physique, humain» - - Écoute/sens/respire comme c est agréable P1g «prendre qc ou qc comme objet d activité mentale» + + Contemple combien le désastre est grand P1i 7 «avoir tel sentiment à l égard de qc» + - Admire comme c est bien dessiné P3c «avoir ou ne pas avoir la connaissance de qc, de qn» + + Il ignore comme c est difficile Figure 2 Tables de LVF (les Verbes français). À défaut de pouvoir caractériser les verbes étudiés autrement que par le mot introducteur comme, dans l ensemble des verbes possédant la propriété N0 V N1, N1 =: Que P + si P ou si P nous mettons l accent sur un comportement particulier associé à la réduction d'une subordonnée ( 2) et sur des contraintes multiples qui n apparaissent pas lorsque le verbe introduit une complétive ou une interrogative ( 3). 2. Réduction de l exclamative et changement de statut Si dans Que penses-tu? Tu penses qu il faut geler le programme?, le complément doit être obligatoirement exprimé ou pronominalisé, il en va différemment dans le contexte Il était surpris. Tu penses! où Tu penses a pour source Tu penses (qu + s + comme) il était surpris, synonyme de Tu penses bien qui introduit une exclamative. L exclamative présente donc des propriétés différentes de la complétive vis-à-vis de la réduction. De plus, la phrase réduite devenue autonome constitue à elle seule une exclamative (directe). Dans Marque-Pucheu, 2010, nous avons analysé des énoncés exclamatifs et défendu l hypothèse que les énoncés Tu peux pas savoir! et Je te dis pas! résultaient d une réduction d une indirecte exclamative et devenaient exclamatifs à la faveur de cette ellipse. Nous avons également insisté (Marque- Pucheu, 2009) sur le changement de statut (de portée) associé à ces réductions. L exemple de C est dire, auquel correspondent deux emplois, illustre le même phénomène. Dans l un, C est dire introduit une complétive (22), non réductible (22a) : (22) Parler de qualité de service (c est dire = cela revient à dire) que le service n est plus de qualité 8 (22a) Parler de qualité de service c est dire (que P + *E) Dans l autre, la forme elliptique C est dire, paraphrasable par C est dire à quel point cela se passe de commentaires (Bidaud, 2002 : 89-90), est courante. Ainsi, dans l exemple suivant mettant en jeu c est dire si P : (23) Les plombiers polonais seraient officiellement 140 dans l'hexagone. C'est dire si l'ampleur de la perte qu'ils font subir... est importante" ( consulté le 6/03/2011) où si peut commuter avec comme, la subordonnée peut être effacée : (23a) Les plombiers polonais seraient officiellement 140 dans l'hexagone. C'est dire. 7 8 Dubois et Dubois-Charlier, 1997 ne mentionnent pas la possibilité d une exclamative pour cette classe

174 C est dire renvoie à un contexte propositionnel (P 2 ) différent du contenu de P 1 et s interprète comme un intensif. C est dire renvoie donc à une subordonnée exclamative indirecte. Contrairement aux cas précédents, Tu parles ne peut pas introduire de complétive ni d interrogative indirecte. Dans les exemples (24-25) : (24) On sent l'odeur! - Tu parles. On la renifle, elle nous entre dans la pensée, nous chavire l'âme. (Barbusse, 1896) (25) [ ] la science et la philosophie modernes se donnent des airs de marcher vers l'inconnu et de l'accueillir à bras ouverts. Tu parles! Elles l'accueillent à coups de bambou. (Romains, 1929) Tu parles a bien pour source une exclamative. En effet, l expression s analyse comme réduction de Tu parles que P ou si P : (24a) On sent l'odeur! Tu parles (qu + si) on sent l odeur (25a) [ ] Tu parles (qu + si) elles l'accueillent à coups de bambou. où que commute avec comme dans la même interprétation intensive et ne peut introduire une complétive, ce qu indiquent les exemples non attestés *Tu parles cela/*tu le parles 9. De même, si ne peut introduire une interrogative (*Tu parles si P ou P), et ce, que l interprétation soit positive (Tu parles que oui) ou oriente vers la négation (Tu parles que non) : (24b) Tu parles (qu + si) on sent l odeur = (Bien sûr qu ) on sent l odeur (25b) Tu parles (qu + si) elles l accueillent à bras ouverts = (Bien sûr qu ) elles ne l accueillent pas à bras ouverts. Devenue «autonome», l expression constitue à elle seule une exclamation. Même si l'on peut corréler les contraintes atteignant Tu parles! au figement de l expression, il n'en reste pas moins que les verbes (non figés) introducteurs d exclamative se caractérisent eux-mêmes par le fait qu ils présentent de multiples contraintes. 3. Contraintes et représentation D'une manière générale, les contraintes associées aux verbes introducteurs d'exclamative sont plus importantes que dans le cas de subordonnées interrogatives ou complétives Contraintes simples et contraintes multiples Les contraintes simples peuvent porter sur différents points : la personne, un cas extrême étant constitué par Tu penses! qui n'accepte qu une variation de nombre (Vous pensez!). On contrastera la complétive (26) et l exclamative (27-28) : (26) (Tu penses + Il pense + Nous pensons + Vous pensez) que l heure est venue (27) (Tu penses + Vous pensez) si elle est contente (28) (*Il pense + *Nous pensons) si elle est contente le type de phrase. Savoir autorise le type déclaratif (Tu sais comme il est gentil) mais non le type impératif (*Sache comme il est gentil). le sous-type de phrase (négative) 10. On opposera (29-30) à (31-32) : (29) (Regarde + Il regarde) comme il fait beau (30) (Écoute + Elle écoute) comme il crie (31)?*(Ne regarde pas + Il ne regarde pas) comme il fait beau (32)?*(N écoute pas +?*Elle n écoute pas) comme il crie le mot introducteur. On opposera comme (33) à ce que (34) : (33) J'écoute comme c'est beau (34)?*J'écoute ce que c'est beau Mais Écoute ce que c'est beau! est plus attesté. 9 On peut penser que ces manipulations sont interdites parce que Tu parles est une locution et non parce que c est une exclamative. Voir note Leeman, 1996 oppose l exemple de??tu ne penses pas comme il est gentil à Tu penses comme il est gentil. 168

175 De fait, certaines de ces contraintes se croisent. type de phrase et terme introducteur. Sentir autorise une exclamative avec comme aux types impératif et indicatif (Sens comme c est soyeux / Il sent comme c est soyeux). Mais le type déclaratif est incompatible avec si : si c est soyeux ne peut être considéré comme une exclamative indirecte que dans Sens si c est soyeux, et non dans Il sent si c est soyeux. Cette remarque s applique également à toucher et regarder. mode et type. Le blocage avec la négation n existe avec imaginer qu à l impératif alors que Tu imagines est préférable avec le sous-type négatif : (35) (??Tu imagines + Imagine) comme il était content (36) (Tu n imagines pas +?*N imagine pas) comme il était content personne et sous-type de phrase. La négation est bloquée par les personnes 1 et 4 (38) : (37) (Je sais + Elle sait + Nous savons) comme il est gentil (38) (??Je ne sais pas + Elle ne sait pas +??Nous ne savons pas) comme il est gentil (absence de) modal et sous-type de phrase. Le verbe croire à la 3 e personne ne peut introduire une exclamative, qu il figure dans une phrase positive ou négative (39) : (39) *Il croit ce que j étais contente / *Il ne croit pas ce que j étais contente vs Crois-tu si j'étais contente! Mais l insertion d un modal rend possible la négation (40), tout en restant incompatible avec une phrase positive (41) : (40) Il ne peut pas croire ce que j étais contente (41) *Il peut croire ce que j étais contente Devant la multiplicité des contraintes associées elles-mêmes au verbe en jeu, une solution consiste à recourir à des automates. Cette idée, chère à M. Gross, selon laquelle il faut procéder au cas par cas se trouve confirmée ici : rien ne garantit a priori que ce que l'on observe avec tel verbe s appliquera avec tel autre, et donc toute généralisation qui serait préalable à une observation systématique est vouée à l'échec. C'est en fonction de ce principe que doit être justifié le recours aux grammaires locales. En effet, les structures linguistiques difficilement représentables dans les tables du LG peuvent être représentées par des automates, c est-à-dire des outils qui définissent un ensemble de séquences attestées par concaténation/disjonction/négation Représentation par automate : l exemple de savoir Faute de place, nous ne donnons pas l ensemble des phrases générées par l automate qui montrerait par exemple que Dieu ne s accommode guère que de savoir. 169

176 Conclusion Bien qu elles ne mentionnent pas la possibilité d observer une exclamative, les tables du lexique-grammaire comportent des verbes introducteurs d'exclamative dans les classes 6, 9, 12, 15 et 16 qui présentent la propriété N0 V N1, N1 =: Que P + si P ou si P. Mais certains verbes concernés figurent aussi dans les tables 32R3, 38L0 et 38L1 et peuvent être régularisés par introduction de voir si. L ensemble donne un total de 7 tables, 2 étant apparentées (38L0 et 38L1). Le classement de LVF (Dubois et Dubois-Charlier 1997) fait apparaître un morcellement légèrement moindre, puisque les exclamatives se répartissent dans 4 classes, C («communication»), F («frapper, toucher»), H («états physiques et comportements») et P («verbes psychologiques»), P donnant à lieu à trois sous-classes (P1g, P1i et P3c). La présence d une exclamative y est toujours corrélée à la possibilité d'observer une interrogative ou une complétive dans les classes C et P, mais n est pas mentionnée dans les classe F et H. D une manière générale, au sein des tables présentant la propriété N0 V N1, N1 =: Que P + si P ou si P, tous les verbes n introduisent pas d exclamative. Plus discriminante, la propriété N0 V N1, N1 =: comme mériterait d être rajoutée. Mais elle ne constituerait qu une indication générale. En effet, les incompatibilités multiples entre tel verbe et tel mot introducteur, tel verbe et tel type de phrase ou encore tel verbe et telle personne, révèlent un fonctionnement extrêmement complexe. Devant cette explosion combinatoire, une grammaire locale de ces verbes, avec représentation par automate, serait donc nécessaire. Cependant, une grammaire locale déterministe risque à son tour d être ingérable de par sa complexité. Peut-être alors faudrait- il envisager des traitements à base de corpus pour garantir une bonne couverture de la grammaire. Références Arrivé M., Gadet F., Galmiche M., 1986, La grammaire d aujourd hui. Guide alphabétique de linguistique française, Paris, Flammarion. Bidaud F., 2002, Structures figées de la conversation. Analyse contrastive français-italien, Berne, Lang. Bodelot C. 2005, «L exclamation indirecte introduite par un thème en *kw- du latin préclassique au latin tardif», Revue de philologie, de littérature et d histoire anciennes, tome LXXIX, Bonnard H., 1997, Code du français courant, Paris, Magnard. Bonnard H., 2001, Les trois logiques de la grammaire française, Paris, Duculot. Boons J.-P., Guillet A., Leclère, C., 1976, La structure des phrases simples en français. Constructions intransitives, Genève, Droz. Dubois, J. & Dubois-Charlier, F., 1997, Les Verbes français, Paris, Larousse-Bordas. Grevisse M., 1986, Le bon usage. Grammaire française, Paris, Duculot. Gross M., 1975, Méthodes en syntaxe, Paris, Hermann. Le Bidois G., Le Bidois R., 1968, Syntaxe du français moderne, Paris, A. Picard. Le Goffic, P., 1993, Grammaire de la phrase française, Paris, Hachette. Leeman D., 1996, «Recherches grammaticales au collège : la phrase exclamative», journée d étude L enseignement de la grammaire co-organisée à Arras par l IUFM Nord-Pas-de-Calais et l Université d Artois, Actes 1998 CNDP Nord-Pas-de-Calais. Leeman D., 1996, La phrase complexe les subordinations, Bruxelles, De Boeck-Duculot. Marque-Pucheu C., 2009, «Mots-phrases, expressions situationnelles : figement énonciatif et changement de portée», Arena romanistica 4, , «Exclamation et changement linguistique dans les énoncés situationnels Je te dis pas! et Tu peux pas savoir!», «Слово, высказывание, текст в когнитивном, прагматическом и культурологическом аспектах», tome 2, Actes du 5 e colloque international, Tchéliabinsk, Russie (27-29 avril 2010), Martinon Ph., 1927, Comment on parle en français, Paris, Larousse. Milner J.-C., 1978, De la syntaxe à l interprétation, Paris, Seuil. Noailly M., 2005, «Si dans l exclamation indirecte, ou l alternative disparue», in Lambert, Frédéric & Nølke, Henning (éds), 2005, La syntaxe au cœur de la grammaire. Recueil offert en hommage pour le 60e anniversaire de Claude Muller, Rennes, Presses Universitaires de Rennes, Riegel M., Pellat J.-C., Rioul R., 1997, Grammaire méthodique du français, Paris, PUF. Wagner R. L., Pinchon J., 1962, Grammaire du français classique et moderne, Paris, Hachette. 170

177 Martineau Claude Université Paris-Est Voyatzi Stavroula Université Paris-Est CONSTRUCTION DES RESSOURCES POUR LA DETECTION D OPINIONS ET L ANALYSE DE SENTIMENTS : ATTRIBUTION DE POLARITE ET CALCUL INCREMENTAL DE L INTENSITE Résumé Cet article décrit notre contribution sur la détection d opinions et de la polarité dans les blogs et les enquêtes de satisfaction client, et porte plus spécifiquement sur l étude et la construction du vocabulaire permettant de caractériser une opinion positive ou négative dans les documents. L approche adoptée ici pour l analyse et détection d opinions s appuie sur la fusion d un modèle sémantique et d un modèle numérico-symbolique. Une méthode incrémentale est mise en œuvre permettant de calculer l intensité des segments évaluatifs en tenant compte de phénomènes linguistiques complexes tels que la négation, la comparaison, la coordination ou l opposition. Mots-clés: détection d opinions et sentiments, segment évaluatif, polarité, intensité. 1. Introduction Avec l émergence du Web, et surtout du Web 2.0, le nombre de documents contenant des informations exprimant des opinions, des sentiments ou des jugements d évaluation devient de plus en plus important. Récemment, les chercheurs de différentes communautés, i.e. Fouille de données, Linguistique, Traitement Automatique des Langues, se sont intéressés à l extraction automatique de ces données d opinions sur le Web. La détection ou l extraction automatique d opinions ou encore d assertions objectives ou subjectives dans un texte est alors un domaine de recherche en pleine expansion (Wiebe et al., 2005 ; Yang et al., 2007). Du point de vue des utilisateurs, les deux principales applications de ce type de détection concernent, d une part, l analyse automatique d opinions dans des messages contenant par exemple l avis de consommateurs sur un produit ou un phénomène particulier (Popescu & Etzioni, 2005), et visent plus particulièrement le développement de tâches de veille (technologique, concurrentielle, sociétale), l évaluation d un produit par la communauté avant un achat, la détection de rumeurs (buzz) sur le web ou encore la détection d opinions émergents et/ou significatives dans les forums. D autre part, l analyse de la subjectivité d une phrase est essentielle notamment pour les systèmes de résumé automatique ou de question/réponse (Riloff & Wiebe, 2003). D un point de vue scientifique, la problématique posée par la détection d opinions se situe dans le cadre de la compréhension automatique de messages. Ce problème constitue une possibilité d aborder un niveau intermédiaire entre la simple détection des entités présentes et l analyse sémantique complète du message. Nombreuses sont les questions 1 qui sont liées à la tâche de détection d opinions et qui sont au cœur des principaux axes de recherche. Dans cet article, nous nous intéressons plus particulièrement à l étape de construction et structuration du vocabulaire permettant de caractériser une opinion positive ou négative d un document. L article est organisé de la manière suivante : la section 2 présente brièvement un état de l art des principales approches pour la détection d opinion et de la polarité. La section 3 décrit les expériences réalisées à partir de données réelles issues de blogs et d enquêtes de satisfaction client. Le calcul incrémental de l intensité et son implémentation sont décrits respectivement dans les sections 4 et 5. La section 6 donne un aperçu global des ressources lexicales développées. 1 A savoir : (i) la modélisation linguistique et informatique ainsi que la gestion des données d opinion (qu est-ce qu une «opinion», comment la représenter informatiquement?) ; (ii) l expression en langue et en discours (comment les opinions, sous leurs différentes facettes, sont-elles formulées?) ; (iii) la construction, l acquisition et la validation des ressources linguistiques ; (iv) les méthodes pour identifier, annoter et extraire automatiquement opinions et sentiments dans des documents textuels ou audiovisuels ; etc. 171

178 2. La détection d opinions et l analyse de sentiments Plusieurs travaux se sont intéressés à la détection d opinions et à la détection de la polarité. La détection d opinions est une tâche qui permet d extraire les opinions d un ensemble de documents pertinents pour un sujet donné. Elle est confrontée à des problèmes qui la distinguent de la recherche traditionnelle thématique dont les sujets sont souvent identifiés par des mots-clés seulement. L opinion peut être exprimée de manières très variées et subtiles, et donc il est souvent difficile de la déterminer exactement. La classification du sentiment (polarité) est une sous-tâche de la détection d opinions. Elle consiste de façon générale à déterminer si l opinion du document sur le sujet est positive ou négative. De ce fait, plusieurs travaux de recherche se sont intéressées à ce problème, par exemple, (Pang & Lee, 2008) essaient de quantifier le sentiment, (Mishne & de Rijke, 2006a) capturent les niveaux d humeur dans des notes de blogs, ou encore (Mishne & Glance, 2006) président les ventes de film en fonction des notes des Bloggers. Afin d évaluer les résultats des chercheurs dans le domaine, plusieurs campagnes d évaluations ont vu le jour. Sur le plan international, citons tout d abord TREC qui signifie «Text Retrieval Conference» et désigne l ensemble des conférences organisées par le NIST (National Institute of Standard and Technology) 2 sur la recherche d information. Plusieurs tâches ont fait l objet de recherches dans ces conférences, dont le Blog Track qui a été introduit en Chaque année, de nouvelles tâches sont définies dans la détection d opinions et la détection de la polarité 3. Signalons encore la campagne d évaluation internationale SemEval 2007 qui intègre en complément de la tâche d annotation des textes en fonction de la polarité, une tâche d annotation des textes à partir d une liste d émotions prédéfinies (e.g. peur, colère, joie, surprise, etc.). Sur le plan francophone, plusieurs sont les ateliers et les campagnes d évaluation en fouille de données d opinion qui témoignent d un intérêt croissant pour leur traitement informatisé. En 2007, le défi DEFT (Défi Fouille de Textes) organisé par le LIMSI a porté sur la classification de textes en français selon le jugement favorable ou défavorable qu ils expriment. En mai 2008, l atelier FODOP 08 (Fouille de Données d Opinions) organisé conjointement à la Conférence INFORSID avait pour objectif de promouvoir des échanges entre chercheurs issus de différentes communautés. Dans la littérature, il existe généralement deux types d approches pour la détection d opinion et de la polarité. Certaines sont basées sur le lexique, d autres sur l apprentissage. Le premier type d approche utilise un lexique de mots qui désignent un sentiment. Ce lexique est soit externe c est-àdire construit indépendamment de tout corpus, et dans ce cas, il peut être général (SentiWordNet 4, lexique SUBJ, General Inquiry, Wilson lexicon) ou construit manuellement, soit généré automatiquement à partir du corpus (les mots qui contiennent une opinion sont extraits directement du corpus). À chaque mot du lexique est associé un ensemble de scores d opinions et du score de la polarité. Ce score est traité différemment par les différentes approches pour le calcul du score d opinion d un document. La méthode la plus simple est de donner à un document un score égal au nombre total de mots qui contiennent une opinion présents dans le document (e.g. Zhou et al., 2007 ; Fautsch & Savoy, 2008). Le deuxième type d approche basée sur l apprentissage automatique consiste à attribuer des données à un classifieur pour l apprentissage. Ce dernier génère un modèle qui est utilisé pour la partie test de l apprentissage. Ce type d approche comprend deux aspects : extraction de features et apprentissage du classifieur. Les principales features utilisées sont les suivants : mots seuls, bigrammes, tri-grammes, parties du discours (POS, analyse de l arbre syntaxique) et polarité. Les principaux classifieurs sont les SVM, Naive Bayes, Maximum Entropy et la régression logistique (Song et al., 2007 ; Mishne & de Rijke, 2006b ; Lee et al., 2008). Notre expérimentation utilise un modèle de représentation et d analyse des opinions et sentiments qui s appuie sur la fusion d un modèle sémantique et d un modèle numérico-symbolique combinant une expertise linguistique avec des outils d intelligence artificielle. Nous présentons notre approche plus en détail en section

179 3. Étude expérimentale Notre étude s inscrit dans le cadre du projet de Recherche et Développement DoXa, labellisé par le pôle de compétitivité francilien CAP DIGITAL, et qui concerne le domaine de l Ingénierie des Connaissances. Le projet vise à mettre en place une plateforme de technologies et méthodologies d analyse automatique des opinions et sentiments (abrégés en O&S) au sein de grands volumes de textes rédigés en langue française. Le présent travail porte sur la construction et structuration du vocabulaire permettant l extraction des données d opinion positives ou négatives. Dans le cadre de nos recherches, nous prenons l opinion au sens de jugement de valeur (par opposition au jugement de réalité) sur une entité concrète ou abstraite laquelle peut être un objet, une idée, un projet, un fait, un événement, une situation, ou une personne. Cette entité est le thème sur lequel porte l opinion. Comme l indique (Kerbrat-Orecchioni, 1980), «le jugement de valeur peut-être exprimé de manière affective engagement affectif de l énonciateur vis-à-vis de l objet qualifié ou de manière évaluative ou appréciative engagement intellectuel de l énonciateur vis-à-vis de l objet qualifié. Le jugement peut être exprimé à la fois de manière affective et de manière évaluative» Corpus d étude et environnements logiciels Le langage des opinions et sentiments dépend fortement du domaine concerné, ce qui implique que, malgré notre ambition de pouvoir couvrir à l aide de nos ressources de grands corpus avec des domaines et sous domaines variés, plus nous diversifions le domaine moins les résultats d extractions seront précis. Pour les besoins du projet, nous avons utilisé deux corpus. D une part, un corpus portant sur les jeux vidéo, et composé de critiques, de blogs, de reportages sur des salons ou événements ayant traits au domaine des jeux vidéo et touchant parfois celui du cinéma. Ce corpus se présente sous la forme de articles et contient mots. D autre part, un corpus rassemblant des conversations téléphoniques issues d une enquête de satisfaction client qui contient mots. Les textes analysés dans le cadre de nos travaux sont principalement des textes de types posts dont la longueur est comprise en moyenne entre 200 et 2000 mots. Nous utilisons conjointement deux environnements logiciels. D une part, Unitex 3.0. beta (Paumier, 2003), développé à l Université Paris-Est, est un environnement logiciel open source multiplateforme et multilingue. Il permet d analyser des textes en langue naturelle en utilisant des ressources linguistiques telles que des dictionnaires électroniques, des grammaires locales ou des tables de lexique-grammaire qui sont représentées sous forme d automates, de transducteurs ou (pour les grammaires locales) de réseaux de transitions récursifs RTN. D autre part, le moteur d analyse HST (High Speed Transducer) développé par la compagnie Arisem, utilise des formats semblables à ceux d Unitex, et gère également des ressources de type ontologique Méthode d analyse et de détection des opinions et sentiments La méthode d analyse et de détection des opinions et sentiments proposé ici s appuie sur la fusion d un modèle sémantique et d un modèle numérico-symbolique. Elle vise à aller au-delà d une classification binaire permettant de catégoriser les textes selon l axe de la polarité ou d une classification quaternaire croisant l axe de la polarité et l axe de l intensité. Elle vise également à mettre en œuvre pour un texte donné, une analyse locale des opinions ou sentiments exprimés au niveau phrastique, et une analyse globale des opinions ou sentiments exprimés au niveau des portions de texte et du texte entier. L objectif est de permettre la mise en œuvre de parcours d analyse allant d une vision macro et quantitative à une vision micro et qualitative. En schématisant, le modèle DoXa intègre une représentation des O&S qui s articule sur trois niveaux : i. MICRO : l analyse est faite au niveau de la phrase ou portion de phrase. ii. iii. MESO : l analyse concerne le paragraphe ou la portion de texte. MACRO : l analyse porte sur l ensemble du texte. Au niveau MICRO, l analyse est effectuée grâce à une approche symbolique qui, malgré un coût parfois élevé, permet d annoter le plus finement possible des segments de texte sensiblement longs ( 7 mots), appelés segments évaluatifs, et de leur attribuer des traits tels que la polarité et l intensité. Cette annotation s appuie sur un ensemble de catégories sémantiques d O&S que nous décrivons en détail en section

180 L application du modèle numérico-symbolique permet de synthétiser l ensemble des annotations posées au niveau MICRO afin de caractériser premièrement le contenu évaluatif de chaque paragraphe (niveau MESO) et, ensuite, dans un second temps, celui du texte dans son intégralité (niveau MACRO). Elle permet également, notamment lorsque les informations sont ambigües, imprécises, contrastées voire contradictoires, de prendre des décisions sur des annotations isolées, par exemple «je suis ni content ni mécontent» ou «je suis à la fois en colère et déçu». La composante numéricosymbolique est fondée sur des opérateurs et des heuristiques d agrégation issus de l apprentissage automatique et la théorie des ensembles flous. Nos travaux de recherche sont consacrés à l analyse et annotation fine des O&S au niveau MICRO Modèle de représentation sémantique des opinions et sentiments Les annotations produites reposent sur le modèle O&S du projet DoXa, qui est inspiré des travaux de (Mathieu, 2006) sur la classification des verbes de sentiment, et la théorie de l évaluation (Martin et al., 2005). Un premier jeu de catégories sémantiques a été soumis à des annotateurs humains pour évaluation sur un corpus de posts issus de blogs portant sur les jeux vidéos. Les retours des annotateurs ont permis de simplifier le modèle, en réduisant le nombre de catégories initialement définies sur la base de regroupements des catégories. Le tableau 1 présente les vingt catégories sémantiques retenues, munies de leur polarité intrinsèque, de leur étiquette en anglais (utilisée dans les ressources avec le préfixe cat_), de celle de la catégorie antonyme si elle existe et, enfin, illustrées d un exemple. Ces catégories sémantiques s appliquent à tout type de catégorie grammaticale appelées ici constituants de base : adjectif, nom, verbe, adverbe et expression (semi-)figée. La présence d une négation dans la phrase peut donner lieu à une inversion de polarité qui se traduit dans l annotation du segment évaluatif traité, soit par un passage à la catégorie antonyme (cf. Etiquette Cat. Antonyme) soit par l ajout de l attribut neg. En voici quelques exemples : intéressant, cat_satisfaction int3 pas intéressant, cat_dissatisfaction int3 inquiet, cat_fear int3 pas inquiet, cat_fear int3 neg Catégorie Sémantique Polarité Intrinsèque Etiquette Etiquette Cat. Antonyme Exemple Accord positive Agreement Disagreement approbation Colère négative Anger exaspération Apaisement positive Appeasement rassurée Valorisation positive Appraisal Depreciation bienveillant Ennui négative Boredom rébarbatif Mépris négative Contempt <prendre> en grippe Dévalorisation négative Depreciation Appraisal dénigrer Mésentente négative Disagreement Agreement <mettre> en doute Gêne négative Discomfort perturber Déplaisir négative Displeasure répugnant Insatisfaction négative Dissatisfaction Satisfaction incompétent Crainte négative Fear effroi Surprise Négative négative NegSurprise PosSurprise sidéré Plaisir positive Pleasure divertir Surprise Positive positive PosSurprise NegSurprise <couper> le souffle Tristesse négative Sadness découragement Satisfaction positive Satisfaction Dissatisfaction adorable Connotation méliorative positive MelConnot bravo Connotation péjorative négative PejConnot problématique Attente neutre Expectation souhaiterais Tableau 1. Catégories sémantiques des opinions et sentiments 5 Au sein du projet DoXa, la tâche d agrégation d annotation est confiée au Laboratoire d Informatique de Paris 6 (LIP6), quant à celle d annotation MICRO, elle est le fruit de la collaboration du LIGM et de la société ARISEM. 174

181 4. Annotation des segments évaluatifs et calcul de l intensité L annotation d un segment évaluatif indique son appartenance à une ou plusieurs catégories sémantiques (cf. tableau 1 ci-dessus), chacune munie d une valeur d intensité prise sur une échelle en comportant dix (1-10). Cette intensité résulte de la prise en compte de l intensité intrinsèque 6 associée à tout constituant de base prenant ses valeurs entre 3 et 7, et éventuellement d un ou plusieurs modifieurs spécifiques qui possèdent trois niveaux en intensification comme en atténuation. Les valeurs inférieures (<3) et supérieures (>7) sont respectivement atteintes par l application de ces modifieurs. L exemple suivant présente un adjectif isolé, puis combiné avec deux modifieurs différents : intéressant, cat_satisfaction int3 très, AdvInt2 très intéressant, cat_satisfaction int5 peu, AdvAtt1 peu intéressant, cat_satisfaction int2 La modification d intensité peut également être produite par la présence de préfixes (e.g. ultra intéressant, mega jeu), de superlatifs (e.g. le jeu le plus marrant du monde), ou encore de modifieurs adverbiaux divers (e.g. très, extrêmement, à peu près satisfait). Nous avons divisé ces derniers en huit classes 7. Pour expliquer le processus du calcul de l intensité, nous avons construit une phrase d exemple qui intègre l ensemble des niveaux de modification d intensité traités par les ressources développés : Ce jeu est unanimement vraiment le plus hyper intéressant qu on connaisse L adjectif intéressant est précédé de plusieurs mots qui contribuent chacun à leur tour à la modification de son intensité de base (intensité intrinsèque = 3). L intensité de base pouvant prendre dix valeurs, celle des modifieurs pouvant en prendre trois en intensification comme en atténuation, les combinaisons s avèrent fort nombreuses. Cette explosion combinatoire rend quasiment impossible le calcul de l intensité résultante par un simple transducteur. C est pourquoi nous avons dû opter pour une approche incrémentale qui calcule l intensité résultante 8 de proche en proche. Cette méthode est explicitée par la ligne ci-dessous dans laquelle les crochets symbolisent l intensité intrinsèque ou la modification d intensité apportée par un constituant de base ; et les parenthèses, la manière dont ces intensités sont deux à deux combinées : Intensité résultante = ( ( [unanimement] [vraiment] ) ( [le plus] ( [hyper] [intéressant] ) ) ) 10 = Annotation des segments évaluatifs consécutifs Les ressources de chaque catégorie sémantique représentées sous forme de graphe dictionnaire et les données indiquant l ordre dans lequel les appliquer constituent un module. L analyse des segments évaluatifs consiste d abord à traiter le texte par un module appelé transverse qui reconnaît les modifieurs de toutes sortes ainsi que les négations. Ensuite, les modules des catégories sémantiques (cf. tableau 1, section 3.3) sont successivement appliqués au texte afin de reconnaître chacun les données lexicales qui leur sont propres. En les combinant avec les négations et modifieurs précédemment identifiés, on produit les annotations des segments complexes. Un ultime traitement, s appuyant sur la présence des connecteurs, permet de repérer parmi les segments reconnus ceux qui seraient diversement reliés entre eux : comparatifs (supériorité, égalité, infériorité), conjonctifs (coordination, disjonction, énumération, opposition). En voici quelques exemples extraits de nos corpus d étude : 6 Nous situant dans une perspective de TAL et de linguistique de corpus, nous avons adopté une démarche empirique et itérative pour l attribution des valeurs d intensité intrinsèque aux constituants de base. Faute de données appropriées pour le français, nous avons fait appel à des linguistes de l équipe du LIGM qui ont attribué des intensités sur un certain nombre représentatif des unités lexicales (constituants de base). Puis, les retours des annotateurs ont permis, d une part, de résoudre les conflits de valeurs attribuées et, d autre part, de définir une échelle opérationnelle pour le calcul de l intensité. 7 Bien qu ils ne soient pas tous des quantifieurs stricto sensu, nous avons tenté de traduire au niveau de l intensité (seule variable de notre modèle) les variations aspectuelles ou modales qu ils peuvent apporter, et qui incluent des notions comme par exemple, la source de l information émise ou le positionnement du locuteur vis-à-vis de son énoncé. 8 Toute valeur de l intensité résultante qui dépasse l intensité maximale de 10 est remplacée par

182 plus de frustration que de plaisir,.comparsup+annotation1=cat_dissatisfaction int5+ DissatisfactionNoun;Annotation2=cat_Pleasure int3}+pleasurenoun charmante mais pas forcément compétente,.opposition+annotation1=cat_satisfaction int4+ SatisfactionAdj;Annotation2=cat_Depreciation int3+depreciationmais+maiscomp 5. Implémentation et importation sous Unitex En termes d implémentation, sous HST, cette approche s exprime à l aide d un format de ressources intermédiaire entre dictionnaire et grammaire que nous appellerons dictionnaires de motifs. Ils sont composés de lignes dont la partie gauche est semblable à une expression régulière simplifiée et la partie droite à une entrée de dictionnaire Dela. Chaque ligne est comparable à une grammaire à plat représentable par un graphe ne comportant qu un seul chemin comme par exemple : <faire> d une pierre deux coups > Expression+Verbe. Les dictionnaires de motifs sont utilisés pour représenter, d une part, des constituants de base avec leur intensité intrinsèque ou la modification d intensité qu ils opèrent : <avoir> le bourdon > cat_sadness int4+sadnesssemifrozen. D autre part, ils représentent des règles de modification de l intensité comme : {AdvInt2} {cat_displeasure int1} > cat_displeasure int3+displeasurecomp. En appliquant, dans l ordre adéquat, de tels dictionnaires, on peut reconnaître chaque composant d un segment évaluatif (simple ou complexe), et calculer de manière incrémentale son intensité. Lors de l analyse d une phrase, HST utilise, d une part, des ressources de type ontologique pour capter les thèmes sur lesquels portent les opinions exprimées dans les segments évaluatifs ; et, d autre part, des ressources représentées par des grammaires locales ou des dictionnaires pour traiter les segments évaluatifs. Afin de profiter des possibilités des deux environnements HST et Unitex, et d améliorer ainsi potentiellement les ressources produites, nous avons développé un programme qui permet d importer dans l environnement Unitex des données issues de HST. Chaque dictionnaire de motif est importé sous la forme d un graphe dictionnaire qui s applique comme un dictionnaire Dela et construit dynamiquement des entrées dans le dictionnaire du texte. À titre d exemple, considérons le mini dictionnaire ci-dessous qui comprend divers types d entrées 9 impliquées dans le traitement de notre exemple : hyper > PrefInt3+ModInt3+PrefModifier <intéressant> > cat_satisfaction int3+satisfactionadj+satisfactionadjint3 {PrefInt3}={SatisfactionAdjInt3} > cat_satisfaction int6+satisfactionadjint6+satisfactionpref Voici (cf. figure 1) le graphe dictionnaire équivalent généré par le programme d importation : Figure 1. Graphe dictionnaire issu d un dictionnaire de motif L application d un ensemble de graphes dictionnaires à notre exemple de référence permet de visualiser sous Unitex (cf. figure 2 ci-dessous), dans le dictionnaire du texte, les analyses et intensités partielles consécutivement produites, i.e. hyper intéressant, le plus hyper intéressant, ainsi que le segment évaluatif intégralement reconnu avec l intensité correcte : 9 Hyper est un préfixe intensifieur entrainant une incrémentation d intensité +3, <intéressant > permet de reconnaitre les formes fléchies de cet adjectif auxquelles une intensité intrinsèque de 3 est attribuée. La dernière ligne est une règle qui calcule l intensité résultante d un préfixe intensifieur d intensité +3 appliqué à un adjectif de catégorie Satisfaction d intensité 3. Le signe «=» permet d accepter les formes avec ou sans trait d union. 176

183 Figure 2. Dictionnaire du texte : segments évaluatifs reconnus 6. Dictionnaires d opinions et sentiments Les dictionnaires contiennent, à ce jour, entrées de type lexical et entrées de type grammatical (règles de calcul d intensité résultante et de négation). Les tableaux 2 et 3 donnent, pour les vingt catégories sémantiques O&S (cf. tableau 1, section 3.3), le nombre d entrées lexicales respectivement par catégorie sémantique et par catégorie syntaxique : Catégorie sémantique Entrées Catégorie sémantique Entrées Agreement 189 Dissatisfaction 169 Anger 283 Expectation 565 Appeasement 107 Fear 195 Appraisal 485 MelConnot 83 Boredom 61 NegSurprise 141 Contempt 245 PejConnot 264 Depreciation 653 Pleasure 339 Disagreement 223 PosSurprise 96 Discomfort 92 Sadness 288 Displeasure 126 Satisfaction 202 Catégorie syntaxique Entrées Adjectifs 2279 Adverbes 169 Noms 826 Verbes 832 Expressions Figées 261 Expressions Semi-Figées 558 Adjectifs Modifieurs 51 Adverbes Modifieurs 535 Tableaux 2 et 3. Catégories sémantiques et syntaxiques : nombre d entrées 7. Conclusion et perspectives Dans cet article, nous avons décrit notre contribution sur la détection d opinions et de la polarité dans les blogs et les enquêtes de satisfaction client, qui porte plus spécifiquement sur le développement des ressources linguistiques permettant de caractériser une opinion positive ou négative dans les documents. Ces ressources ont été développées selon le modèle des opinions et sentiments (O&S) du projet DoXa. Nous avons proposé une méthode incrémentale permettant de calculer l intensité des segments de texte en tenant compte de phénomènes linguistiques complexes tels que la négation, la comparaison, la coordination ou l opposition. Dans la phase suivante du projet, nous envisageons une évaluation des ressources produites afin de pouvoir, d une part, procéder à des levées d ambigüité et, d autre part, compléter et raffiner les dictionnaires et grammaires existants. Une évaluation globale de la tâche de détection d opinions et sentiments est également envisageable à la fin du projet A cette période, une version publique des ressources développées sera mise à la disposition de la communauté. 177

184 Bibliographie Fautsch, C. & Savoy, J UniNE at TREC 2008: Fact and Opinion Retrieval in the Blogsphere, In Proceedings of the 17 th Text REtrieval Conference (TREC 2008). Kerbrat-Orecchioni, C L énonciation. De la subjectivité dans le langage. Paris : Armand Colin. Lee, Y., Na, S.-H., Kim, J., Nam, S.-H., Jung, H.-Y. & Lee, J.-H KLE at TREC 2008 Blog Track: Blog Post and Feed Retrieval, In Proceedings of the 17 th Text REtrieval Conference (TREC 2008). Martin, J. R. & White, P. R. R The Language of Evaluation: Appraisal in English, London & New York : Palgrave MacMillan. Mathieu, Y. Y A Computational Lexicon of French Verbs of Emotion, Computing Attitude and Affect in Text: Theory and Applications, Springer Dordrecht, The Netherlands, pp Mishne, G. & de Rijke, M. 2006a. Capturing global mood levels using blog posts, In Proceedings of the AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006), Stanford, California, USA, pp Mishne, G. & de Rijke, M. 2006b. A study of blog search, In Proceedings of the 28 th European Conference on Information Retrieval (ECIR 2006), vol. 3936, London, UK, pp Mishne, G. & Glance, N Predicting movie sales from blogger sentiment, In Proceedings of the AAAI 2006 Spring Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW 2006), Stanford, California, USA, pp Pang, B. & Lee L Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, vol. 2 (1-2), pp Paumier, S De la reconnaissance de formes linguistiques à l analyse syntaxique, Thèse de doctorat, Université de Marne-la-Vallée. Popescu, A.-M. & Etzioni, O Extracting product features and opinions from reviews, In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing (HLT/EMNLP 05), Vancouver, B.C., Canada, pp Riloff, E. & Wiebe, J Learning extraction patterns for subjective expressions, In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 03), Sapporo, Japan, pp Song, R., Tang, Q., Shi, D., Lin, H. & Yang, Z DUTIR at TREC 2007 Blog Track, In Proceedings of the 16 th Text REtrieval Conference (TREC 2007). Wiebe, J., Wilson, T, & Cardie, C Annotating expressions of opinions and emotions in language, Language Resources and Evaluation, vol. 39 (2-3), pp Yang, K., Yu, N. & Zhang, H WIDIT in TREC 2007 Blog Track: Combining Lexicon-Based Methods to Detect Opinionated Blogs, In Proceedings of the 16 th Text REtrieval Conference (TREC 2007). Zhou, G., Joshi, H. & Bayrak, C Topic categorization for relevancy and opinion detection, In Proceedings of the 16 th Text REtrieval Conference (TREC 2007). 178

185 Márton Náray-Szabó Université Péter Pázmány, Piliscsaba, Hongrie LES CONSTRUCTIONS A VERBE SUPPORT ET L AFFIXATION EN HONGROIS Résumé Les constructions à verbe support (CVS) possèdent un statut particulier en hongrois. Certaines d entre elles sont considérées par bien des linguistes, même de nos jours, comme redondantes, voire même incorrectes dans cette langue. Une des possibles causes pour lesquelles le hongrois résisterait à une certaine mesure aux verbes supports (Vsup), pourrait être la présence massive d affixes (préverbes et suffixes) aspectuels, intensifs et autres, ce qui rendrait redondantes ces constructions. Or, ces verbes affixés ont bien souvent une variante nominale qui peut entrer dans une CVS, voire même dans la nominalisation de celle-ci. Sur un corpus de prédicats de parole, nous examinons les différences syntaxiques et sémantiques systématiques entre les noms et leurs dérivés préfixaux et suffixaux. Mots-clés: constructions à verbe support, préfixation, suffixation, hongrois, nominalisation du verbe support. 1 Approches des constructions à verbe support et leur application pour le hongrois Au point de vue des constructions à verbes supports (CVS), le hongrois est en situation particulière (Dobos 2001 : 9-12). De plus, pendant longtemps, ces expressions étaient considérées par certains linguistes hongrois comme étrangères (Gósy & Heltai 2005), voire inadaptées (Grétsy & Kemény 2005) à la structure de cette langue. Nous nous sommes donc penché sur un des problèmes susceptibles de mieux saisir cette spécificité, à savoir l impact de l affixation sur les CVS. Au lieu d entrer en discussion sur les avantages et les désavantages des différentes approches, il suffit ici de mentionner les plus importantes écoles ayant traité du sujet jusqu à l heure actuelle, ainsi que quelques linguistes hongrois appartenant à ces approches. Les structuralistes allemands ont reconnu dans les années 60 (von Polenz 1963, Daniels 1963) qu en allemand, et surtout dans le registre formel, il s observe un type d unité phraséologique non encore décrit suffisamment, qui contient des verbes qu ils appellent verbes fonctionnels («Funktionsverben», von Polenz 1987 : 70). Dans ces constructions, ils supposent l existence d un nom d action ou d état qui est actualisé dans la phrase grâce à un verbe sémantiquement affaibli, mais dans une bonne partie des cas, il est préférable en langue standard de remplacer ces expressions par un verbe simple synonyme. Cependant, ils reconnaissent certaines valeurs aspectuelles à ces verbes (Hentschel & Weydt 2003 : 86). En Hongrie, après quelques descriptions sommaires et simplistes (du genre «Ne dites pas ceci, mais dites cela», Grétsy & Kemény 1978), les linguistes se sont penchés sur la question au cours des années 90 pour la première fois (Kálmán et al. 1989, Keszler 1995, Lengyel 1999, Dobos 2001, 2009), principalement dans un cadre structuraliste. Sous l influence des linguistes allemands, certains adoptent une attitude restrictive plutôt que descriptive (Gósy & Heltai 2005). Les générativistes entament une analyse en profondeur sur les CVS presqu en même temps que les structuralistes (Grimshaw & Mester 1988), mais s y intéressent surtout du point de vue de l attribution des cas et des théta-rôles (rôles sémantiques) par le verbe (qu ils appellent light verb), et non à ses valeurs supplémentaires (aspect, etc.) dans la construction. Dans un cadre complètement différent, mais suivant le même type de raisonnement, la grammaire 179

186 lexico-fonctionnelle se tourne vers la problématique de l aspect aussi (Butt & Geuder 2001). Parmi les chercheurs hongrois générativistes, on doit citer É. Kiss (É. Kiss 1999), qui définit les «verbes légers» (light verbs) pour le hongrois de la même façon que les autres de ce courant. Mel čuk et ses disciples partent de relations lexicales concrètes, qu ils appellent fonctions, dont deux (Oper et Func) sont à assimiler à la notion de verbe support (Polguère 2003 : ). Notre approche est celle du lexique-grammaire (Daladier 1978, Giry-Schneider 1987, Gross, M. 1981, 1998, Gross, G. 1996a, 1996b, Gross, G. & Pontonx 2004), dont les avantages sont les fondements de sa définition, le nombre des critères, et son applicabilité pour rendre compte systématiquement des phénomènes sémantiques aussi bien que syntaxiques. Mentionnons quelques rares tentatives jusqu ici faites par des linguistes hongrois de décrire les CVS hongrois dans cet esprit (Balogh 2000, Varga 2007). Pour la comparaison des théories énumérées ci-dessus, nous nous référons ici à une de nos études (Náray-Szabó 2010 : ). 2 Les expressions examinées Afin d obtenir un ensemble suffisamment homogène, mais en même temps représentatif de CVS, nous avons opté pour la constitution d une liste aléatoire d une centaine de noms illocutoires (d après une liste de Leech 1983 : , traduite en hongrois). D un point de vue distributionnel, nous avons délimité cette classe dans une étude antérieure grâce aux trois constructions revenir sur N, dire son N et entendre N, par rapport à trois classes connexes : les prédicats constatifs, psychologiques et perlocutoires (Náray-Szabó, sous publication). Nous avons comparé notre définition ( prédicats dont le signifié consiste à réaliser un acte qui change le monde extérieur par sa prononciation même ) avec d autres, déjà existantes. Remarquons toutefois que cet acte peut être visé par le nom comme événementou comme résultat, voire même en tant qu objet physique résultant de l acte, suivant le contexte (Grimshaw 1990, Sleeman & Brito 2010). Ce dernier aspect sera analysé plus en détail dans la section 6 ci-dessous. 3 Sujet de la présente étude Nous nous intéressons ici aux noms prédicatifs illocutoires du hongrois contemporain à tous ses niveaux (langues spécialisées ou non) 1. La majorité d entre eux sont susceptibles de former une CVS, et il existe un verbe ordinaire morphologiquement apparenté à celle-ci. Bien que les grammaires hongroises traditionnelles condamnent souvent l emploi de certaines CVS si le verbe simple correspondant existe, Dobos (2001) et (2009) montrent bien qu à quelques exceptions près, elles ont des fonctions parfois bien distinctes, et sont donc loin d être redondantes. La majorité des verbes illocutoires morphologiquement apparentés (V i ) à ces noms (N i ) connaissent une, voire plusieurs formes précédées d un préverbe (p-v i : ajánl recommander, proposer, felajánl offrir, accepter, megajánl mettre une note sans examen, beajánl recommander pour un poste, kiajánl faire une offre de service ). Une bonne partie de ces formes peuvent être transformées en noms prédicatifs (avec ou sans préverbe) par suffixation (ajánlat (N i = V i -s), felajánlás (p-v i -s)) ou dérivation régressive (átok (N i ) malédiction ). Parfois il existe plusieurs nominalisations provenant d un verbe donné, ayant chacun des sens différents (ajánlat objet d une offre, d une proposition, ajánlás recommandation écrite ou action de proposer ), mais toutes les combinaisons p-v-s n existent pas. L existence d une CVS sans ou avec préverbe (CVS, p-cvs) n est pas toujours attestée, mais est assez fréquente : ajánlatot (meg)tesz, felajánlást (meg)tesz. Enfin, les CVS, à leur 1 Nous avons interrogé le moteur de recherche Magyar Nemzeti Szövegtár (MNSz ; Corpus National Hongrois) pour les recherches. 180

187 tour, peuvent être nominalisées, soit par la suffixation sur le verbe support (Vsup-s) précédé du N i au génitif (ajánlat (meg)tétele), soit par la formation d un composé suffixé (ajánlattétel ; V i -s-vsup-s). Ce dernier n est jamais possible avec un préverbe sur le Vsup (*ajánlatmegtétel ; V i -s-p-vsup-s). Il s agit donc d examiner la relation entre la dérivation préverbale des N i, la nominalisation suffixale des Vsup 2 d un côté, et les propriétés sémantiques des dérivés de l autre. 4 Propriétés syntaxiques générales des CVS du hongrois En lexique-grammaire (ouvrages mentionnés dans la section 1), les Vsup servent à l actualisation des noms prédicatifs dans la phrase, en portant les marques morphologiques du temps, du mode, de la personne, du nombre, de l aspect et de l intensité, tandis que c est le nom qui opère la sélection des arguments. A côté des verbes supports basiques (neutres) comme pour le nom ajánlat, on a tesz faire, ad donner, mond dire, intéz adresser, on distingue des variantes aspectuelles (megismétel répéter ), converses 3 (kap recevoir ), stylistiques (él faire usage de ), modales (előhozakodik littéralement se précipiter en avant ) et d intensité (bombáz bombarder de ), qui constituent des CVS paraphrasant les structures de base 4. Rappelons les critères appliqués par Gross, G. 1996b (72-78) pour faire la délimitation entre CVS, expressions figées et constructions libres. Ceux-là s appliquent presque tous au hongrois : (1) Péter (ezt az ígéretet tette + tette az ígéretet + (egy) ígéretet tett + megtette (ígéretét + *ígéretemet)). Pierre a fait (cette+la+une+e+sa+*ma) promesse). (détermination libre, coréférence obligatoire avec le sujet) (2) Péter ünnepélyes ígéretet tett. Pierre a fait une promesse solennelle. (adjonction d un adjectif) (3) Péter több ígéretet tett, mint Mária. Pierre a fait plus de promesses que Marie. (comparatif en que) (4) Az ígéret, amelyet Péter tett La promesse que Pierre a faite (relativation) (5) Péter ígérete + az ő ígérete la promesse de Pierre + sa promesse équivalant à la CVS (effacement du Vsup) (6) *Ígéretet tett Péter, nem mást. C est une promesse que Pierre a fait, pas autre chose (interdiction de l extraction) (7) *Mit tett Péter? Ígéretet. Qu a fait Pierre? Une promesse. (interdiction de l interrogation en que) Le hongrois est seulement différent par rapport à la passivation (structure aujourd hui désuète) et à la nominalisation du Vsup. Cela est possible de deux manières : köszönet nyilvánítása (N i (génitif) V i +suff ; action de remercier ), köszönetnyilvánítás (N i +V i +suff ; 2 Cette étude s intéresse avant tout à l existence de ces dérivés. Dans les cas douteux, un minimum de 5 occurrences sur MNSz ont été considérés suffisants, au-dessous de cela, un point d interrogation a été mis si Google fournit un minimum de 100 occurrences valides. 3 Il faut bien faire la différence entre causative et converse : Péter ajánlatott csikart ki Máriától. ( Pierre a arraché une offre à Marie. ) Péter ajánlatot kapott Máriától. ( Pierre a reçu une offre à Marie. ) 4 Pour chaque variante, il faut aussi déterminer le cas du nom, ce qui est très variable en hongrois. Le nominatif aussi peut apparaître : il s agit de CVS du type N0 Vsup (egy vélekedés kering, terjed, megjelenik une opinion circule, se propage, apparaît ). Notons en outre que les CVS du type Vsup N i (acc) hogy P (megállapítást nyer, hogy P il a été constaté que P ) sont nombreuses, surtout en langue journalistique et juridique. Enfin, les verbes felvet, kivált, kér sont des opérateurs causatifs appliqués à un verbe support : kérdést felvet soulever une question, reakciót kivált provoquer une réaction, választ kér demander une réponse. 181

188 remerciement formelle, officielle ). On trouve encore un test chez Langer 2004 (qui complète celui de Gross 1996b) : (8) Péter (ígéretet és ajánlatot tett + *ígéretet és virágot tett az asztalra) Pierre a mis promesse et offre Pierre a mis promesse et fleur sur la table (coordination seulement avec un autre nom prédicatif) Enfin, on pourrait mentionner la montée de l adverbe, décrite par Giry-Schneider (1987 : 31), qui a l inconvénient de se prêter à plusieurs interprétations : (9) Péter komoly ígéretet tett. Pierre a fait une promesse sérieuse. (10) Péter komolyan tette ígéretét. Pierre a fait sa promesse sérieusement. ou Pierre était sérieux en faisant sa promesse. 5 Préverbes et noms prédicatifs en hongrois Les préverbes en hongrois sont des morphèmes lexicalement liés à un verbe ou à un de ses dérivés, mais syntaxiquement indépendants (É. Kiss 2004 : 41), qui constituent des prédicats de second ordre (É. Kiss 2004 : 15). Leurs fonctions spatiales, temporelles, aspectuelles et d intensité sont simultanément reflétées par la classification d É. Kiss En suivant et en subdivisant les catégories vendlériennes, elle constate que la présence des préverbes sur le verbe n est possible qu en cas d événements complexes ou inhomogènes (É. Kiss 2004 : 15), comportant deux prédicats élémentaires, dont l un est pris en charge par le préverbe. Ainsi, elle distingue : a) des changements d états (accomplissements sur le plan temporel, spatial ou psychologique ; eljátszik valamit jouer jusqu à la fin ) ; b) des déplacements ayant un but (achèvements ou accomplissements ; begurul glisser à l intérieur en roulant ) ; c) des activités ayant un pseudo-objet réfléchi (kitáncolja magát danser jusqu à en être fatigué ) ; d) des activités exprimant un mouvement élémentaire (megrezdül faire une vibration très courte ) ; e) et des états (prédicats d état combinés avec des localisations ; ottmarad rester làbas ). Parmi les noms prédicatifs illocutoires issus d un verbe au préverbe (p-n i ), on trouve des exemples des groupes a) (felajánlás don d une somme d argent ou l argent donné ), b) (beajánlás action de recommander qn pour un poste ; dont be vers l intérieur ) et d) (felkiáltás cri très court et aigu ). Une minorité des noms sont dotés d un sens non illocutoire (physique ou psychologique) sans préverbe, celui de l illocution étant lié au nom avec préverbe : (fel)fedés N i : couvrir p-n i : révéler, (meg)bocsátás N i : lâcher p-n i : pardonner, (fel)mentés sauver et destituer ou dispenser, (meg)rovás graver et blâme, (meg)jegyzés noter et faire une remarque, (ki)rohanás courir et fulminer, (elő)írás écrire et prescrire, (bele)egyezés correspondre et consentir, (el)várás attendre et exiger, (meg)erősítés renforcer et confirmer, (be)ismerés connaître et reconnaître, (fel)tevés mettre et supposer. Cette différence est encore plus prononcée dans le cas de composés dont le premier élément, un nom, est en voie de se grammaticaliser comme préverbe : (jóvá)hagyás laisser et approuver, (egyet)értés comprendre et être d accord. Comme dans chaque langue, il en existe des noms prédicatifs sans verbe morphologiquement correspondant : részvét(et nyilvánít) faire ses condoléances részt vesz participer, szemrehányás(t tesz) faire une reproche *szemrehány. Il importe en outre de mentionner à propos des CVS avec préverbe et celles sans préverbe que la différence entre elles n est jamais aspectuelle (hívást intéz faire un appel téléphonique felhívást intéz lancer un appel à des personnes ), comme c est le cas souvent entre un Vi et le p-vi correspondant (át + be + el + fel +ide + ki + le + oda + rá + tele)kiált crier (avec indication de différentes directions) ). 182

189 6 Nominalisation des CVS Dans ce qui suit, regardons la relation entre degré de cohésion morphologique lexicale et propriétés sémantiques dans les CVS et leurs composés en général. Comme on l a déjà vu dans la section 3, il s agit ici des constructions N i, CVS, N i (génitif) Vsup-s (nominalisation du Vsup), N i -Vsup-s (composé). Si nous prenons le départ des N i, il convient d abord de se fixer les paramètres pour caractériser la nature sémantique des noms d action en général. Contrairement à Grimshaw (1990), qui distingue noms d événements, noms de résultats et noms d objets issus de l action Sleeman & Brito (2010 : 15) établit deux paramètres : l agentivité, qui se vérifie par la présence d un complément en par, obligatoire ou facultatif, et le résultativité, qui se manifeste par le caractère facultatif de ces agents. La non-agentivité est liée à la possibilité d un complément «pseudo-agent» au génitif. Concernant les N i, nous pouvons établir 4 groupes, en allant des noms les plus «résistants» aux Vsup vers ceux qui connaissent la variabilité la plus complète des constructions issues de CVS. a) La CVS n existe pas pour le N i : felfedés révélation ; helytelenítés désapprobation ; fejmosás action de laver la tête à qn (54 verbes) Ce groupe contient des noms qui possèdent un seul emploi, notamment événementiel, au sens de Grimshaw (1990), agentif non résultatif, selon Sleeman & Brito (2010). Même si la CVS existait, elle ne contenait pas de nuance résultative, seulement événementielle. Le résultat ne peut pas être exprimé par ces noms. (11) Az eljárás [génitif] (Péter általi) helytelenítése ( la désapprobation de la procédure (par Péter) ) (agentif non résultatif) Péter helytelenítése ( la désapprobation de P. ) (12) *Péter az eljárás helytelenítését végezte. ( P. a fait la désapprobation de la procédure ) (agentif non résultatif) (13) *Az eljárás helytelenítése ( Le caractère désapprouvé de la procédure ) (résultatif) b) La CVS existe : panasz plainte ; felmentés acquittement ; kérés demande (56 verbes) Les noms de ce groupe ont au moins une interprétation résultative. C est une de ces dernières qui est observable dans les CVS : le procès (CVS) et son résultat (N i ) sont à la fois exprimés (agentif (non) résultatif chez Sleeman & Brito (2010)). (14) Mária [gén.] (Péter általi) felmentése ( L acquittement de M. par P. ) (agentif résultatif) (15) Péter felmentést adott Máriának. ( P. a donné un acquittement à M. ) (agentif non résultatif) Péter felmentése ( L acquittement (écrite) de P. ) (résultat ou objet) c) La CVS et la nominalisation du Vsup (type N i (génitif) Vsup-s) existent, le composé n existe pas : hívás appel téléphonique ; kérelem demande ; igazolás attestation (11 verbes) Ici, les noms sont des résultats de l action, mais ils ne possèdent pas toujours d emploi événementiel. Ce dernier rôle est pris en charge par la nominalisation du Vsup. Les arguments internes de l action sont manifestés sous forme d adjoints ou d adjectifs. L agentivité est seulement exprimable grâce à une CVS. (16) Péternek [gén.] (az újsághoz intézett) (helyreigazítási) kérelme ( demande (de rectification) (par P.) (auprès du journal) ) (non agentif résultatif) (17) Péter (módosítási) [adj.] kérelmet adott be (a hivatalhoz). ( P. a déposé une demande de modification auprès de l office ) (agentif résultatif) 183

190 (18) A (módosítási) [adj.] kérelem (Péter általi) beadása ( Le dépôt de la demande (de modification) (par P.) ) (N i : agentif résultatif, Vsup-s : agentif non résultatif) d) La CVS existe, le Vsup peut être nominalisé et le composé nominal (type N i -Vsup-s) peut être formé : ajánlat recommandation ; javaslat proposition ; köszönet salutation (17 verbes) Ces derniers n ont jamais de sens événementiel, seul l emploi résultatif. Ils sont également dotés d un sens distinct de celui du N i seul. Les exemples (16) à (18) sont également valides pour ce groupe. En plus de cela, on a (19) Péter [gén] (Máriának szóló) (módosításra vontakozó) javaslattétele ( l action de proposer (une modification) (à M.) par P. ) (non agentif non résultatif) Péter (módosításra vonatkozó) javaslata ( proposition de modification de Pierre ) (non agentif résultatif) Concernant les données de la mini-statistique, les nominalisations de Vsup ne seraient pas nombreux, mais les configurations c) et d) requièrent des contextes spécifiques, ce qui peut expliquer en partie leur présence basse dans MNSz 5. Concernant le reste, les noms ayant au moins une CVS correspondante seraient plus nombreux que ceux qui n affichent pas cette propriété (84 et 54 noms respectivement), bien que pour certains noms du groupe b), il n y ait que peu d occurrences de CVS dans MNSz. Il est à noter que parmi les noms n acceptant pas la CVS, c est le suffixe -ás/-és qui prévaut largement (suffixe typiquement événementiel), tandis que dans les composés, le suffixe -at/-et (qui exprime le résultat de l action). Evidemment, toutes ces données devraient être vérifiées sur un corpus bien plus étendu. En examinant les N i qui entrent dans une CVS et ceux pour lesquels cette possibilité n existe pas (ou n est pas attestée), on est donc arrivé ci-dessus à la règle suivante : si la CVS existe, c est que le N i possède au moins un sens de résultat ou d objet. En effet, les N i, des groupes b), c) et d), outre de signifier un événement (l acte de langage accompli), peuvent signifier l idée évoquée dans l acte (jóslat prophétie ), l état résultant de la réalisation de l acte (áldás bénédiction ), la matérialisation concrète de l acte (követelés prétention à une somme ), une attitude (gúny ironie ), la manifestation écrite de l acte (ajánlat offre ), un acte juridique, qui va au-delà d un simple acte de langage (rágalmazás diffamation ). Précisons aussi que les différences systématiques qui existent entre les V i et les CVS ne font pas l objet de notre étude. Nous nous référons ici plutôt à certains linguistes hongrois, qui ont déjà suffisamment décrit le phénomène (Dobos 2001, 2009). Rappelons à titre indicatif les types d écart principaux : a) différences distributionnelles ; b) différences sémantiques substantielles (différences sémiques) ; c) différences aspectuelles (les CVS sont plus variables à ce niveau que les verbes correspondants) ; d) restriction, dans le cas de certaines CVS directives ou commissives, à un domaine comme le droit, la religion ou le domaine militaire ; e) différences stylistiques (le plus souvent, les CVS représentent un style plus formel, plus officiel, souvent renforcé par une valeur métaphorique du Vsup). Même s il s agit d une nominalisation toute autre, la restriction à un seul domaine s observe aussi entre les CVS et les nominalisations du Vsup et les composés aussi. Le domaine est plus restreint que pour la CVS, notamment à la vie professionnelle, religieuse ou à l administration, comme dans felhívás közzététele publication d un avis ; kérelem benyújtása dépôt d une demande officielle ; igazolás kiállítása délivrance d une attestation mais aussi dans ajánlattétel action de faire une offre commerciale ; javaslattétel action de 5 Les noms du groupe b) ont tous une possibilité hypothétique de nominalisation sur le Vsup, mais nous n en avons pas relevé d occurrences dans le corpus. 184

191 faire une proposition dans un corps administratif ; tanácsadás activité d un conseiller professionnel ; tanúságtétel acte de faire un témoignage dans un contexte religieux. 7 Conclusions Ayant présenté, à l exemple d un groupe de prédicats nominaux, quelques propriétés des CVS en hongrois, il semble y avoir dans les CVS un lien entre le degré de cohésion au niveau morphologique (capacité du Vsup de se combiner avec des affixes) et la diversité des contenus sémantiques exprimables grâce à tel ou tel dérivé. Remarquons toutefois que cette dernière affirmation devra faire l objet d une recherche plus vaste, ce qui dépasserait évidemment les cadres de cette étude. D un autre côté, nous avons montré, contrairement à ce qui pourrait être supposé, que l affixation n est pas un «concurrent» de la formation des CVS en hongrois : tandis que la première sert à préciser des contenus sémiques ou aspectuels du prédicat ou la direction de l action, les CVS représentent l événementialité ou un niveau stylistique ou un domaine différent par rapport au verbe simple correspondant. 185

192 Références Balogh, P Les adjectifs temporels du français et du hongrois. Thèse de doctorat. Université Paris 13. Butt, M., Geuder, W On the (semi)lexical status of light verbs. In : Corver, N., Riemsdijk, H. (éds.), Semilexical categories : the function of content words and the content of function words. Berlin/New York : Mouton de Gruyter. Daladier, A Problèmes d analyses de nominalisations et de groupes nominaux complexes en français. Thèse de 3e cycle, Université Paris 7. Daniels, K Substantivierungstendenzen in der deutschen Gegenwartssprache. Nominaler Ausbau der verbalen Denkkreises. Sprache und Gemeinschaft (4) Dobos, Cs A funkcióigés szerkezetek vizsgálata (különös tekintettel az orosz jogi szaknyelvre). Thèse de doctorat. Université de Debrecen, Hongrie. Dobos, Cs Funkcióigés szerkezetek. Miskolc : Passzer É. Kiss, K., Kiefer, F., Siptár, P Új magyar nyelvtan. Budapest : Osiris. É. Kiss, K Egy igekötőelmélet vázlata. Magyar Nyelv (100) Giry-Schneider, J Les prédicats nominaux en français : les phrases simples à verbes supports. Genève : Droz. Gósy, M., Heltai, P A terpeszkedő szerkezetek hatása a feldolgozásra. Magyar Nyelvőr (129) Grétsy, L., Kemény, G Nyelvművelő kéziszótár. Budapest : Tinta. Grimshaw, J., Mester, A Light Verbs and Theta-Marking. Linguistic Inquiry (19) Grimshaw, J., Argument Structure. Cambridge : MIT Press. Gross, G. 1996a. Prédicats nominaux et compatibilité aspectuelle. Langages (121) Gross, G. 1996b. Les expressions figées. Noms composés et autres locutions. Paris : Ophrys. Gross, G., Pontonx, S. de. (éds) Les verbes supports : nouvel état des lieux. Lingvisticae Investigationes, Fascicule spécial, (27)2. Amsterdam/Philadelphia : Benjamins. Gross, M Les bases empiriques de la notion de prédicat sémantique. Langages (63) Gross, M La fonction sémantique des verbes supports. Travaux de linguistique (37) Hentschel, E., Weydt, H Handbuch der deutschen Grammatik. Berlin : Walter de Gruyter. Kálmán, Gy., Kálmán, L., Nádasdy, Á., Prószéky, G A magyar segédigék rendszere. Általános Nyelvészeti Tanulmányok (17) Budapest : Akadémiai Keszler, B A mai magyar nyelv szófaji rendszerezésének problémái. Magyar Nyelvőr (119) Langer, S A linguistic test battery for delimiting support verb constructions. Lingvisticae Investigationes (27) Leech, G Principles of Pragmatics. London : Longman. Lengyel, K A segédigék kérdéséhez. Válasz Uzonyi Kiss Judit és Tuba Márta cikkére. Magyar Nyelvőr (123) Magyar Nemzeti Szövegtár : Váradi, T The Hungarian National Corpus. Proceedings of the 3rd LREC Conference, , Las Palmas, Espagne : s. n., Náray-Szabó, M Verbes supports et contrastivité : théorie et usage. Des mots et du texte aux conceptions de la description linguistique (éds. A. Dutka-Mankowska, T. Giermak-Zielinska). Warszawa : Wydawnictwa Uniwersytetu Warszawskiego Náray-Szabó, M. sous publ. Verbes supports et prédicats illocutoires. Actes de l EUROPHRAS Granada, Espagne. Polguère, A Lexicologie et sémantique lexicale. Montréal : Presses Universitaires de Montréal. Sleeman, P., Brito, A. M Nominalization, Event, Aspect, and Argument Structure: a Syntactic approach. Argument Structure from a Crosslinguistic Perspective. (éds. M. Duguine, S. Huidobro, N. Madariaga). Amsterdam, Philadelphia : John Benjamins Varga, L Classification sémantique des prédicats de mouvement du hongrois dans l optique du traitement automatique. Thèse de doctorat. Université Paris 13. von Polenz, P Funktionsverben im heutigen Deutsch. Sprache der rationalisierten Welt. Wirkendes Wort (5) von Polenz, P Funktionsverben, Funktionsverbgefüge und Verwandtes : Vorschläge zur satzsemantischen Lexikographie. Zeitschrift für germanistische Linguistik (15)

193 Mirto Mauro Ignazio Università di Palermo METAPHORICAL VS. LITERAL: NOTES ON THE ITALIAN VERB STRAPPARE * Abstract Superficially, the sentences (a) Ada strappò la confessione a Piero, and (b) Ada strappò la camicia a Piero diverge solely in the post-verbal noun. Yet their semantic differences go far beyond this noun: (a) means Ada made Piero confess against his will, whilst (b) means Ada tore Piero s shirt. We contend that in (a) strappare is a Vsup causatif (Gross 1998) licensing Ada as subject and >Cause<, whilst confessione licenses Piero as its notional subject and >Agent<. In (b), strappare is a transitive licensing Ada as >Agent<, and la camicia the shirt as >Affectee<. The metaphorical vs. literal senses of strappare are set against the background of a number of stances taken by Saussure, and seen as a diversity amenable to syntax only. Keywords: saussure, support verb, opérateur causatif, noun predicate, metaphor. 1. Introduction In the celebrated manuscript found in 1996, published by Gallimard in 2002 with the title Ecrits de linguistique générale, Saussure makes the following statement: «(Proposition n o 5.) Considérée à n importe quel point de vue, la langue ne consiste pas en un ensemble de valeurs positives et absolues mais dans un ensemble de valeurs négatives ou de valeurs relatives n ayant d existence que par le fait de leur opposition.» (Saussure, 2002 : 77) It is common knowledge that this Saussurean stance has countless consequences on linguistic analysis (see e.g. Culler 1986, Derossi 1965). One of such consequences is the difference between literal and metaphorical meaning. In Saussure s view, there are no grounds for drawing such a difference. The reasons stem directly from the tenets quoted above: «Corollaire. Il n y a pas de différence entre le sens propre et le sens figuré des mots (ou : les mots n ont pas plus de sens figuré que de sens propre), parce que leur sens est éminemment négatif.» (Saussure, 2002 : 72) This work aims at exploring the syntax and semantics of the verb strappare literally: tear, take away in Italian, more precisely in uses such as that in sentence (1), which gives rise to a metaphor, to be opposed to the literal use in (2): 1 * We would like to express our thanks to the two anonymous reviewers for their comments. Needless to say, errors and shortcomings remain our own. 1 Sentence (2) yields a default interpretation in which Piero is wearing the shirt, which is to be opposed to Luca strappò la camicia di (of) Piero Luca tore Piero s shirt, which does not necessarily yield such an interpretation. As a transitive verb, strappare carries at least another literal meaning, as in Mi strappò la penna He wrested the pen from me. In (2), strappare is ambiguous between the meanings tear to pieces and wrest. Besides, one of the anonymous reviewers has noticed that under the tear meaning the subject of strappare can be a noun such as chiodo, as in Il chiodo strappò la camicia a/di Piero The nail tore Piero s shirt, which thus bears the semantic role >Instrument<. Worth of note is the fact that in (1) the same subject (pragmatically or elliptically interpreted as e.g. la paura del chiodo the fear of the nail ) cannot be interpreted as >Instrument<. Other verbs 187

194 (1) Ada strappò la confessione a Piero. Ada wrung the confession to Piero Ada wrung the confession from Piero. (2) Ada strappò la camicia a Piero. Ada tore the shirt to Piero Ada tore Piero s shirt. The sentences in (1) and (2) share the same surface structure and linear order shown in (3) below: (3) N 0 strappare N 1 a N 2 Besides, they appear structurally identical, insofar as in both N 0 is a subject, N 1 is a direct object, and N 2 is an indirect object (pro-drop properties for N 0 and clitic pronouns for N 1 and N 2 provide conclusive evidence that this is the case in both (1) and (2)). Nevertheless, the meanings the two occurrences of strappare yield are different, as the translations indicate. On the surface, the metaphor vs. literal difference seems to relate to the nature of the head noun within the direct object NPs of the clauses, given that in (1) confessione confession is Abstract, whilst in (2) camicia shirt is Concrete. Below, we will show that such a view is too simplistic, and that the meaning difference in (1) and (2) cannot depend in any straightforward way on the [± Concrete] nature of the post-verbal noun. From a semantic point of view, sentences such as (1) and (2) raise our interest because they bring about the following entailment patterns: (1) entails Piero confessò Piero confessed, whereas one of the meanings of (2) (see fn. 1) entails Piero ha/indossa una camicia Piero has/is wearing a shirt. We take the view that the former entailment pattern hinges on syntax only. For space reasons, marginal attention will be paid to the latter entailment pattern, which might be due either to syntax or be based on pragmatic grounds. Our interest is threefold. It lies: (a) in the syntactic function that confessione confession fulfils in (1); (b) in the valence and selectional restrictions of strappare wring when it combines with an N 1 such as confessione; and (c) in the semantic outcome such combinations yield. On the one hand, the observed entailment pattern concerning (1) can also be expressed in the form of a phrase such as la confessione di Piero Piero s confession, or of a sentence, shown in (4), that most analysts would consider as an instance of the support verb construction: (4) Piero fece una/la confessione. Piero made a/the confession Piero made a/the confession. On the other hand, in (1) the verb strappare wring appears to work as does causative fare in Italian (see La Fauci and Mirto 2003), for reasons that will be provided shortly, but also on account of another entailment pattern that (1) brings into being, inasmuch as if (1) is true, then (5), a fare causative, must also be true: that in Italian carry the meaning of strappare in (1), though without giving rise to a metaphor, are carpire to extort, to snatch, to worm out and estorcere to extort. 188

195 (5) Ada fece confessare Piero. Ada made confess Piero Ada made Piero confess. Put differently, (1) concurrently entails both (4) and (5). The following questions raise problems that will serve as pivot points of sections 2, 3, 4 and 5, whilst the answers to such problems provided in section 6 will wind up the paper: a) Is strappare in (1) the same strappare that occurs in (2)? Or are these simply homophonic verbs endowed with distinct predicate-argument structures? b) Do the entailments between (1), on the one hand, and (4)-(5), on the other hand, obtain syntactically? c) In the light of Saussure s viewpoints, can the metaphorical vs. literal use in (1) and (2), respectively be turned into a difference (an opposition) between linguistic signs? 2. Causative vs. non-causative strappare A sharp difference between the uses of strappare in (1) and (2) emerges when as in (6) and (7) below the subject s head noun is [ Animate]: 2 (6) Lo sguardo della vittima strappò la confessione a Piero. the look of.the victim wrung the confession to Piero The victim s look wrung the confession from Piero. (7)* Lo sguardo della vittima strappò la camicia a Piero. the look of.the victim wrung the shirt to Piero The victim s look tore Piero s shirt. Whilst in (7) the [ Animate] head noun sguardo look brings about an ungrammatical sentence, the subject of the clause in (6) can bear either one of the values [± Animate], as a comparison between (1) and (6) demonstrates. 3 The difference between the well-formed (6) and the ill-formed (7) thus provides evidence that the occurrence of the verb strappare in the former clause cannot be fully identical to the occurrrence of strappare in the latter. In Italian, the phenomenon displayed in (1) and (6) is also found in fare causatives. Let us compare the causative in (5) to that in (8) below: (8) Lo sguardo della vittima fece confessare Piero. the look of.the victim made confess Piero The victim s look made Piero confess. 2 Sentence (1) triggers a default interpretation which assigns the subject Ada an active role (>Agent<) in the event bringing about Piero s confession. Under this interpretation, the subject of (1) is manipulative (Song 2006: ), i.e. he purposefully causes the event (see Wechsler 2006). Nevertheless, such a reading is not necessarily true, as (6) suggests. Different scenarios can be thought of, in which the referent of the subject is somehow involved but plays no active role. See e.g. fn. 1 and sentence (10) below, in which Ada might be unaware of Piero s presence, or could even elliptically mean il pensiero di Ada the thought of Ada. 3 In the literature, such a relationship between the verb and its subject, as in e.g. *The stone thinks (Bussmann 1996: 419), is often treated under the rubric of subcategorization or selectional restrictions. 189

196 The comparison raises a question: is it the case that strappare in (1) and (6) is syntactically characterized as fare is in (5) and (8)? A similar hypothesis is taken into consideration by Maurice Gross in relation to predicates such as mettre lit. put labelled as Vsup causatif (1998: 6) when they occur in such sentences as (9a): 4 (9) a. La nouvelle a mis Luc en rage. The news made Luc angry. b. Luc est en rage. Luc is angry. The pair in (9) calls to mind the pair (1)-(4). (1) entails (4) and, compared to it, contains an extra argument, i.e. Ada, working as subject and >Cause<. Sentence (9a) which contains an extra argument also working as subject and >Cause<, i.e. la nouvelle the news entails (9b). In (1) and (9a), the extra argument is licensed by strappare and mettre, respectively. Yet, the semantic nuances these verbs convey are distinct: in (9a) mettre is also inchoative with regard to the state expressed in the entailed (9b), whereas in (1) strappare carries negative connotations, inasmuch as it implies that the entailed event Piero confessed, or Piero s confession, took place against Piero s will. As Gross (1998: 10) points out, the extra argument that mettre introduces in (9a) has a non-restreint character (unmarked with regard to Animacy, thus non-manipulative, see fn. 2), as happens in fare causatives, e.g. in (5) and (8). As (6) shows, from this viewpoint strappare is also unconstrained. 3. A predicative role for N 1 Whilst in sentence (2) N 1 can virtually be any Concrete noun (with the meaning differences, i.e. tear vs. take away, signalled in fn. 1), there is only a handful of nouns most of which appear Abstract that can work as the head noun of the direct object of strappare in (1), e.g. accordo agreement, applauso applause, concessione concession, invito invitation, promessa promise, risarcimento indemnity, damages, sì yes, and sorriso smile. 5 As N 1 s of this clause type, such nouns can be modified by e.g. an adjective, as in (10), a sentence that entails (11), which in turn is a paraphrase of (12): 6 (10) Ada strappò un enigmatico sorriso a Piero. Ada wrung an enigmatic smile to Piero Ada wrung an enigmatic smile from Piero. (11) Piero fece un enigmatico sorriso. Piero made an enigmatic smile Piero gave an enigmatic smile. 4 Another pair provided by Gross (1998: 8) is: Luc est triste Luc is sad and La nouvelle rend Luc triste The news saddened Luc. In Italian, mettere lit. put appears syntactically akin to mettre in (9a) in the sentence La notizia mette paura a Max The news scares Max, which entails Max ha paura (della notizia) Max is afraid (of the news). 5 A concordance search on the ItWac corpus for Italian (Web-derived, with about two billion words, generates about 100 nouns occurring after strappare (12,486 occurrences overall). About 20 of such nouns are Abstract and yield meanings comparable to that carried by strappare in (1). 6 The term paraphrase is here used in the way pointed out by Harris Certain predictable semantic differences between a support verb construction such as (11) and one with a heavy verb as in (12), concerning e.g. the iteration of the event, are here disregarded (see Gross 1998). 190

197 (12) Piero sorrise enigmaticamente. Piero smiled enigmatically Piero smiled enigmatically. That is, (10) simultaneously entails both (11) and (12). It is common knowledge that the post-verbal noun of support verb sentences such as (4) and (11) functions as a predicate noun. It is such a predicative role that makes (11) the paraphrase of (12), and vice versa, and that accounts for the semantic equivalence between the adjectival modification in (11) and the adverbial one in (12) (see Gross 1981, Nakamura 2009). The nature of N 1 in the clause type instantiated by (1) and (10), as well as the entailment patterns shown above, suggest that in such a clause type N 1 fulfils a predicative role. However, a translation equivalence such as the following: if strappare combines with a Concrete post-verbal noun, then it carries either the meaning tear (to pieces) or take violently away, otherwise strappare means wring, in which the semantic opposition Concrete vs. Abstract is conceived in absolute terms, would not always yield the correct semantic outcome, as the sentences below demonstrate: (13) Lei mi stava strappando il cuore. She was wringing my heart. (14) Lei mi stava strappando l anima. She was tearing my soul. Besides, sentences such as (1) or (10) suggest that the notional subject of the predicative N 1 is regularly encoded as the indirect object of the clause. Nevertheless, sentence (15) below provides evidence that the syntax of strappare is more intriguing, and to a certain extent idiosyncratic, inasmuch as in (15) the notional subject of vittoria victory, i.e. gli ungheresi the Hungarians, coincides with the syntactic subject of strappare: (15) Gli ungheresi strapparono una sorprendente vittoria agli italiani. The Hungarians pulled off a surprise victory over the Italians. 4. Strappare, give, and fare Remarks similar to those made above about strappare in (1) can be made for the English verb give when employed as in (16a), to be compared to its use in (16b): 7 (16) a. (That episode + He) gave us another laugh. b. (*That episode + He) gave a laugh. The subject of give can be [± Animate] in (16a), unlike the subject of give in (16b), which turns out to be compatible only with the [+ Animate] value of the feature. Importantly, in (16a) the micro-semantic role >Laugher< maps onto the referent of the (final) direct object us, whilst in (16b) maps onto the referent of the subject he. 7 Consider also The thought of such treasures disappearing into private collections brings a sigh to Serena Kelly, in which the syntax of bring combining with the predicate noun sigh whose notional subject is Serena Kelly appears to have something in common with that of give in (16a). 191

198 From a functional point of view, are these occurrences of give alike? The differences just mentioned suggest that in (16a) give works as strappare does in (1), i.e. as a causative (unergative) that assigns its subject the semantic role >Cause< (notice that (16a) is a good paraphrase of That episode + He made us laugh), whilst in (16b) give works as a support verb. In other words, in (16a) give licences an argument surfacing as its subject, as also does the noun predicate laugh, though its notional subject is encoded as the (final) direct object of the clause. On the other hand, in (16b) the sole predicate endowed with an argument frame is the noun predicate laugh, which imposes a [+ Animate] referent to its subject. In (16b), give has a blank valence, since it simply inherits the argument of laugh. Turning to the Italian fare, a comparison between (17a) and (17b) shows that this verb can introduce a new subject not only if employed as a causative (La Fauci and Mirto 2003), but also when it combines with a predicative post-verbal noun: 8 (17) a. Marco ha fatto la doccia al bambino. Marco washed the child (under a shower). b. Marco ha fatto la doccia. Marco took a shower. Most analysts would share the view that in (17b) fare works as a support verb. It follows that in (17b) Marco, licensed by the noun predicate doccia shower as a (notional) subject, is as well the subject of fare. Also in (17a) doccia appears to work as a noun predicate, but this time its notional subject is al bambino to the child, which is encoded as an indirect object. Thus in (17a) fare seems to license an argument, that, as in (1), (9a), and (16a), enters the structure as the clause syntactic subject. However, unlike in (1), (9a), and (16a), such a subject must be [+ Animate] (perhaps [+ Human]), which suggests that its semantic role is >Agent< rather than >Cause<. Moreover, like (16a) and unlike (1) and (9a), the verb contributes no shades of meaning such as negative connotation or inchoativity. 5. Constructions converses In (1), the noun predicate confessione surfaces as a direct object, exactly as happens in the support verb construction exemplified by means of (4) and (11). Still in (1), Piero, the only argument licensed by confessione, is an indirect object. An enconding that might appear parallel to (1) takes place in (18): (18) Il Presidente rilasciò un intervista al giornalista. The President gave an interview to the journalist. This sentence can be assimilated to the so-called constructions converses (as in e.g. Il tassista prese una multa dal vigile The taxi driver was fined by the agent, see G. Gross 1989). Worth of note is the fact that (18) entails the clause il giornalista intervistò il Presidente the journalist interviewed il Presidente. In (18), intervista interview could be analyzed as is the post-verbal noun of (1), namely as a noun predicate, insofar as il giornalista the journalist, the indirect object of (18), functions as its notional subject. 9 8 Most interestingly, the sequence Marco ha fatto la doccia, common in (17a) and (17b), does not yield the same meaning, given that (17a) does not entail (17b). 9 A noun phrase such as l intervista del giornalista al Presidente the journalist s interview to the President also suggests that in (18) intervista interview works as a noun predicate, and that both Presidente President and giornalista journalist are its arguments. However, it is unclear whether a formal account of such relations 192

199 6. Answers Answer to question (a): the above discussion suggests that there exist (at least) two verbs strappare, homophonous, that have distinct argument-frames and yield distinct meanings. Their differences are itemized below: 10 strappare in (1): o the verb licenses N 0 with the semantic role >Cause<; o the verb does not license N 1, which is predicative. As a result, N 1 does not play any semantic role, and, as happens to the noun predicate of support verb sentences such as (4), it surfaces as a direct object; o the verb does not license N 2, which is instead licensed by N 1 with the semantic role >Agent<. strappare in (2) (under the tear meaning): o the verb licenses N 0 with the semantic role >Agent<; o the verb licenses N 1 with the semantic role >Affectee< (or >Theme<); o either the verb licenses N 2 as its third argument (this way the relationship between N 1 and N 2 is established pragmatically rather than syntactically), or N 2 is an argument of N 1 (the relationship between N 1 and N 2 is thus established syntactically rather than pragmatically). Answer to question (b): The predicative role of confessione, together with its notional subject Piero, accounts for why (1) entails the support verb sentence (4). On the other hand, a causative role for strappare, which thus licenses N 0 as >Cause<, corroborates the entailment of the fare causative in (5) by sentence (1). Answer to question (c): according to Saussure, «what is commonly referred to as a grammatical fact fits our definition of a linguistic unit» (both translation and quote are from Culler, 1986: 58). That is, as Culler puts it, according to Saussure «there is no fundamental difference between a linguistic unit and a grammatical fact» (1986: 58). In the analysis we put forward above, in (1) strappare is a one-place causative predicate. The same analysis cannot hold true for (2) if both N 0 and N 1 (at least) are licensed by a transitive strappare. Moreover, in (1) the subject of strappare can take both values [± Animate] and keep the same semantic role >Cause<, whilst this is not the case for the subject of strappare in (2), given that the same alternation yields a change in the semantic role from >Agent< to >Instrument< (see fn. 1). Still according to Saussure, «signs are entirely differential objects» (quote from Culler 1986: 58). Under our hypothesis, the metaphorical and literal uses in (1) and (2), respectively, are to be ascribed to two different predicate-argument frames for strappare. In (1), strappare combines with a predicative N 1 and is not a change of state verb (the direct object undergoes no change of state), whilst in (2) strappare combines with an argumental N 1 and is a change of state verb. In the Relational Grammar framework (for an introduction see e.g. Marlett 1991), a clause can be multistratal and «distinct predicates occur seriatim» (Rosen 1991: 127). Within the revised version in La Fauci and Mirto 2003, each predicate is formalized by means of two should hinge on the lexical properties of the verb rilasciare or on the predicative role of the post-verbal noun intervista interview. 10 As pointed out above, (2) is ambiguous: within the interpretation that sees Piero as wearing the shirt, the licensing of the indirect object a Piero from Piero, whose semantic role appears to be >Possessor< but, to a certain extent, also >Affectee<, (see Mirto 1998: for a similar case in Korean) appears to be problematic. 193

200 binary features: [± Initiator] and [± Licenser]. The positive value of the former indicates that a predicate originates the clause, i.e. occurs in its first stratum, whereas the positive value of the latter means that a predicate licenses one or more arguments. Causative fare is conceived as [ Initiator], insofar as the [+ Initiator] predicate invariably is the infinitive following fare (e.g. confessare in (5) and (8)), and [+ Licenser] because it licenses a (new) subject. In both (1) and (2) strappare is clearly [+ Licenser], though in different ways, since in (2) it is a transitive predicate, whilst in (1) it is an unergative whose subject plays the semantic role >Cause<. The feature [± Initiator] gives another means to distinguish the two uses of strappare, because in (1) the [+ Initiator] predicate is confessione, and strappare is therefore [ Initiator], whereas in (2) strappare is [+ Initiator]. These features formally distinguish the two uses, yield distinct meanings, and allow us to treat the two occurrences as distinct linguistic signs, instead of accounting for the difference on the sole basis of metaphor vs. literal uses. To conclude, let us consider all together the verbs mettre in (9a), give in (16a), and fare in (17a). If it is true that in such sentences these predicates bear the same syntactic features that strappare has in (1), this provides us with a way to formally characterize, and expand cross-linguistically, Gross s (1998) intuition concerning the Vsup causatif. References BUSSMANN, Hadumod, 1996, Dictionary of Language and Linguistics [translated and edited by G. Trauth and K. Kazzazi], Routledge, New York-London. CULLER, Jonathan, 1986, Ferdinand de Saussure (revised edition), Cornell University Press, Ithaca, New York. DEROSSI, Giorgio, 1965, Segno e struttura linguistici nel pensiero di Ferdinand de Saussure, Del Bianco editore, Udine. GROSS, Gaston, 1989, Les constructions converses du français. Librairie Droz, Genève-Paris. GROSS, Maurice, 1981, Les bases empiriques de la notion de prédicat sémantique, «Langages» 63, GROSS, Maurice, 1998, La fonction sémantique des verbes supports, «Travaux de linguistique» 37, HARRIS, Zellig S., 1981, Papers on Syntax, Reidel, Dordrecht-Boston. LA FAUCI, Nunzio and Ignazio M. MIRTO, 2003, Fare. Elementi di sintassi. ETS, Pisa. MARLETT, Stephen, 1991, A Course in Relational Grammar, University of North Dakota. MIRTO, Ignazio M., 1998, The Syntax of the Meronymic Construction, ETS, Pisa. NAKAMURA, Takuya, 2009, Sur la correspondance entre adverbe dans una phrase verbale et adjectif dans une phrase à verbe support, in «Arena Romanistica» 4, ROSEN, Carol, 1991, Relational Grammar: L2 learning and the components of L1 knowledge, in Crosscurrents in Second Language Acquisition and Linguistic Theories, T. Huebner and Charles A. Ferguson (eds.), Amsterdam/Philadelphia, John Benjamins, SAUSSURE, Ferdinand de, 2002, Ecrits de linguistique générale, Gallimard, Paris. SONG, Jae Jung, 2006, Causatives: Semantics, in Encyclopaedia of Language and Linguistics, Vol. 2, Second edition, Keith Brown (editor in chief), Elsevier, Oxford, WECHSLER, Stephen, 2006, Thematic structure, in Encyclopaedia of Language and Linguistics, Vol. 12, Second edition, Keith Brown (editor in chief), Elsevier, Oxford,

201 Monville-Burston Monique Université de Chypre Kakoyianni-Doa Fryni Université de Chypre PREPOSITIONS/CONJONCTIONS TEMPORELLES AVEC ORIENTATION PROSPECTIVE : JUSQUE/UNTIL/MECHRI Résumé Sur la base d un corpus de textes écrits et dans une approche contrastive, les sens et emplois des trois prépositions/conjonctions (PC) jusque (français), until (anglais), mechri (grec moderne) sont examinés. On montre que du point de vue des syntagmes qu elles introduisent, ces PC diffèrent peu : toutes trois peuvent être suivies d un Adv-temps, d un SN, d un SPrep et d une P. Toutefois, elles diffèrent au niveau sémantique. Jusque est marqué pour la durativité, et s il y a focalisation sur le terminus elle laisse la place à avant. Until est compatible avec tous les types de polarité négative mais exclut l expression de la date-limite. Seule la polarité négative avec valeur ponctuelle limite les emplois de mechri. Mots-clés : préposition/conjonction, temporalité, aspect, polarité négative, termination. 1. Introduction Bien que cet article ne se réclame pas explicitement de la théorie de Maurice Gross, il ne se situe pas moins dans la lignée de la théorie lexique-grammaire. En effet il reconnaît et applique certains grands principes qui la définissent : importance donnée au lexique, nécessité d associer étroitement grammaire et lexique dans la description linguistique, utilisation de critères distributionnels. Pour respecter la réalité des usages linguistiques, la collecte des données s est faite sur des corpus, sans que soit écarté le bénéfice des jugements introspectifs de grammaticalité. 1 L étude présentée ici est contrastive. Elle compare trois prépositions / conjonctions (PC) : jusque (français), until (anglais), mechri (grec moderne) 2. A la différence de until qui ne peut se référer qu au temps, jusque et mechri sont des outils de structuration de l espace (j irai jusqu à Paris) qui s appliquent métonymiquement à d autres domaines, comme ceux du temps (1) et du degré (2). 3 (1) Il va pleuvoir jusqu à demain. (2) On pourra loger jusqu à cinq personnes dans cette chambre. Mais un noyau sémantique invariant, l expression d une «polarité extrême» (Adler & Asnes 2007), fait l unité des emplois de jusqu à et de mechri (spatiaux, temporels et scalaires). Valeur spatiale Valeur temporelle Valeur scalaire Fr. + J irai jusqu à Paris + Je resterai jusqu à 5h + Il a bu jusqu à 10 verres Ang. - + I ll stay until Gr. + Tha pao mechri to Parisi + Tha mino mechri tis Ipie mechri kai 4 10 potiria Tableau 1 Valeurs générales comparées de jusque, until et mechri Nous nous concentrerons ici sur les valeurs temporelles des trois PC. 5 Nous présenterons d abord leur sens lexical général (Section 2), et les constructions où on les rencontre (Section 1 Les données ont été recueillies dans la base Frantext pour jusque et ses variantes, dans le corpus du portail électronique grec Komvos pour mechri, et sur Internet et dans la base COCA pour until. 2 Pour plus de commodité, toutes les variantes morphosyntaxiques de la PC à moins qu il soit nécessaire de les distinguer seront représentées par jusque pour le français (jusque, jusqu à, jusqu en, jusqu à ce que, jusqu au moment où, etc.), par until pour l anglais (until, till), et par mechri pour le grec (mechri, mechris, mechri na, mechri pou). 3 Voir par exemple Borillo 1998 ; Leeman Dans ce cas, mechri est renforcé par l adverbe-conjonction ke ( et, aussi ). Voir aussi note

202 3). Puis nous examinerons les contraintes qui limitent leur emploi, ce qui permettra de dégager similarités et différences entre les trois langues dans l expression de la temporalité avec orientation prospective. Les contraintes considérées seront de trois ordres : a) aspect lexical de la PC et du verbe qui la gouverne (Section 4) ; b) aspect grammatical de ce même verbe (Section 5) ; c) effet de la négation appliquée à ce verbe (Section 6), et effet d une focalisation sur le terminus dénoté par la PC (Section 7). 2. Sens lexical général de la PC Nous avons dit que les PC considérées exprimaient de façon invariante une polarité extrême. Pour leurs valeurs temporelles, cette polarité se manifeste dans l expression d un moment atteint (jusqu à maintenant, until now, mechri tora) ou à atteindre dans la postériorité (jusqu à ce soir, until tonight, mechri apopse). Cette orientation prospective se double d une idée d espace/étendue qui apparaît bien si le point initial du procès verbal est spécifié (depuis ce matin jusqu à ce soir ; from this morning until tonight ; apo to proi mechri to vradhi). Considérons de plus près la situation typique où apparaît la PC (3). (3a) Le concert a duré jusqu à minuit. (3b) The concert lasted until midnight. (3c) H sinavlia diirkese mechri ta mesanikta. La PC indique un espace de temps orienté prospectivement et combiné à un terme (Schéma 1). t est un point de référence déterminé par le locuteur, mais dont la spécification n est pas essentielle. t est le moment qui fixe le terme de l espace de temps dénoté par la PC (minuit, midnight, ta mesanikta). A la différence de t, il est spécifié. Sémantiquement la PC a donc deux composantes : un terme (t ) et un parcours (t-t ). 6 Nous empruntons à Leeman (2005) le terme parcours, car il décrit bien le dynamisme de la PC (voir la flèche dans le schéma 1) > t t point de référence choisi par le locuteur Schéma 1 terme de l espace de temps indiqué par la PC Normalement le parcours par t-t est couvert par le procès du verbe introducteur (Exemples (3)), mais sans que ce soit une nécessité comme nous le verrons dans la suite. Le Schéma 2 représente des situations prototypiques, comme en (3) > (PC) ====================> (procès verbal) t t point de référence choisi par le locuteur Schéma 2 terme de l espace de temps indiqué par la PC 5 Dans le traitement de nos corpus, nous avons appliqué les critères discriminatoires établis par Adler et Asnes 2007 pour écarter les emplois scalaires. 6 Comme le disent bien Le Bidois & Le Bidois (1971 : 426), jusque «marque le point d arrivée dans le temps et suppose en outre une continuité qui a là son terminus.» Quirk & al. (1985 : 533) indiquent que until se réfère au temps dans sa dimension linéaire et non ponctuelle et dénote un «forward span», un espace de temps orienté vers l avant. 7 Damourette & Pichon ( : 2904) remarquent judicieusement que le terme temporel (t ) dénoté par jusque peut être «le dernier englobé ou le premier laissé dehors» (Cf. la notion de localisation interne/externe dans Leeman 2005). Ainsi doit-on suppléer inclus, exclus, etc., si nécessaire, comme dans la phrase suivante : Jusqu'au 7 août inclusivement, les autorités britanniques ont déclaré ignorer l'accord Lyttelton-De Gaulle. En grec, on fait suivre ou précéder mechri de la conjonction ke ( et ) pour signifier l inclusion: Mechri ke tis 7 avgoustou, oi Vretanikes arches dilonan agnia tis simfonias Lyttelton-De Gaulle (Voir Babiniotis 2010 : 954). 196

203 Normalement donc, le procès verbal est en relation de coïncidence avec le décalage temporel t-t. Nous verrons cependant (Section 6) que dans certaines constructions négatives, cette relation de coïncidence n est pas totale. 3. Constructions temporelles dans lesquelles entre la PC Les corpus utilisés montrent (cela ne s applique évidemment pas à until) que, comparé aux emplois spatiaux et scalaires, l usage temporel de la PC est bien représenté. Pour le français on a relevé 539 emplois temporels de jusque sur 1090, soit près de la moitié (49,5%). Pour le grec le corpus a donné 236 mechri à valeur temporelle contre 110 mechri à valeur spatiale ou de degré, soit 68%. Le constituant qui gouverne la PC est normalement un verbe. En général ce verbe la précède mais l ordre peut être renversé, avec évidemment des implications du point de vue du discours que nous ne pouvons pas développer ici. La PC introduit dans les trois langues un certain nombre de constituants syntaxiques (adverbe, SN, SPrep, et P), et beaucoup de similarités sont à noter. Nous en présentons un résumé cidessous, en illustrant d exemples. 3.1 Adverbe de temps Français : jusque tard dans la nuit, jusqu ici Anglais : until late in the night, until tomorrow Grec: mechri arga to vradhi, mechri avrio 3.2 Syntagme nominal [avec article (a), ou sans article (b)] Français : (a) jusque six mois plus tard ; (b) jusque les derniers jours Cette construction est rare en français (trois exemples seulement dans le corpus), alors qu elle est très courante dans les deux autres langues. Anglais : (a) until last week ; (b) until the 1 st of April Grec: (a) mechri thanatou (génitif), jusqu à la mort ; (b) mechri ta mesanikta (accusatif) jusqu à minuit Syntagme prépositionnel (avec en conséquence la constitution d une locution prépositive complexe) : Français : jusqu à demain ; jusque dans trois mois, jusqu en (mars) 2000 En français, cette construction est la construction de base, à la différence des deux autres langues. La seconde préposition (le plus souvent à, en), est elle-même suivie d un adverbe ou d un SN. Anglais : until after Christmas Grec : mechri (ke+ E) prin (E+ apo) liga chronia, jusqu à il y a quelques années ; (ke+e) mechri meta (E+ apo) tis giortes, jusqu à après les fêtes. En grec, cette construction ne se rencontre guère qu à avec prin apo et meta et généralement avec le renforcement par la conjonction ke (cf. note 7). Il est à noter que le N qui participe aux constructions 3.2 et 3.3 se réfère le plus souvent à des entités temporelles (heure, date, mois, etc.), comme le montrent les exemples cités plus haut Phrase enchâssée (P) Français : (a) Elle a pris le médicament recommandé jusqu à ce que sa tension baisse ; (b) Elle a pris le médicament recommandé jusqu au jour où il a été retiré du commerce. Dans ce cas jusque est la tête d une conjonction complexe, jusqu à ce que, qui est normalement suivi du subjonctif en français contemporain. 10 Avec l indicatif, on préfère 8 Le nom qui suit mechri est à l accusatif et plus rarement au génitif, ce dernier cas se rencontrant dans des expressions figées : mechri thanatou; mechri skasmou, jusqu à la mort, jusqu à l étouffement. 9 La préposition peut aussi, dans les trois langues, être suivie d un N déverbal : Français : jusqu à mon retour, jusqu à la chute de Constantinople ; Anglais : until my return, until the fall of Constantinople ; Grec : mechri tin anaxorisi mou, mexri tin ptosi tou Bizantiou. 197

204 jusqu au moment/jour où. 11. Il est à noter que les P au subjonctif tendent à avoir une interprétation résultative, en plus de temporelle. On comparera (a) et (b) ci-dessus. Anglais: (a) I had to stay in Fresno until the school year ended; (b) the corn was soaked until it sprouted. Until conjunction et until préposition sont identiques dans la forme. P peut recevoir ou non une interprétation résultative selon le contexte, sans que la différence soit formellement marquée par une variation modale. (b) est temporel-résultatif ( on a fait tremper le maïs jusqu à ce qu il germe ), tandis que (a) est purement temporel ( j ai dû rester à Fresno jusqu à ce que les cours finissent ). Until peut s employer avec la forme verbale non-finie en ed: I ll stay here until ordered to move ( *Je resterai ici jusqu à ordonné de me déplacer), mais il s accommode mal de la forme progressive en ing : (?)I ll stay here until getting further instructions ( je resterai ici jusqu à nouvel ordre ), l aspect progressif étant peu compatible avec la valeur télique de la subordonnée en until (voir Quirk & al : ). Grec : (a) Se perimena mechri pou niktose ( je t ai attendu jusqu au moment où il a fait nuit ); (b) Tha mino edo mechri na viktosi ( je resterai ici jusqu à ce qu il fasse nuit ). Mechri suivi de P est accompagné ou bien de na, la marque du subjonctif, de pou na, ou tout simplement de pou, un complémentiseur largement employé dans la subordination en grec; dans ce dernier cas le verbe est à l indicatif. Mechri pou se rencontre plutôt pour présenter des situations passées déjà réalisées comme dans (a), alors que mechri na est plutôt employé avec des situations où l on anticipe la réalisation du procès, comme dans (b) Aspect lexical Dans les constructions où entre la PC, l aspect lexical est à prendre en compte, dans une double perspective : d une part du point de vue de la PC elle-même, qui comme nous l avons vu, est aspectuelle puisqu elle dénote une étendue de temps (durativité) bornée à droite par un terme (télicité) ; d autre part du point de vue du verbe qui gouverne le SPrep ou la P introduits par la PC. 13 L aspect de la PC peut entrer en concurrence avec l Aksionsart. Comme la PC impose la représentation mentale d une extension temporelle (avec terme atteint ou à atteindre), l éventualité est forcément vue du point de vue du temps nécessaire à sa réalisation. La composante sémantique parcours de la PC, entraîne donc des conséquences importantes pour l association PC-Aksionsart : les éventualités de type état et processus (à savoir non-téliques) sont celles qui s associent de préférence avec la PC, et cela est vrai dans les trois langues, comme on le voit en (4) et (5), par opposition à (6) et (7). État (4a) Elle a cru (p.c.) au Père Noël jusqu à l an dernier. 14 (4b) She believed (pret.) in Santa Claus until last year. (4c) Pisteve (imp.) sto Agio Vasili mechri (kai) persi. 10 Voir Glätti Les grammaires de référence, mais non pas notre corpus, donnent un certain nombre de contre-exemples. 11 Les exemples de P à un mode non-fini (infinitif) sont tous scalaires dans notre corpus: chanter jusqu à perdre la voix. 12 Il n est cependant pas exclu d avoir mechri na dans des phrases passées (Holton et al, 1999 : 379). Babiniotis (2002 : 1094) remarque qu alors mechri pou indique le moment où l action passée de la principale s est trouvée réalisée : Imoun distichismenos mechri pou se ksanavrika / j étais malheureux jusqu au moment où je t ai retrouvé, alors que mexri na indique que l action de la principale est envisagée comme en cours de réalisation : perimename mechri na perasi I bora ( Nous avons attendu que l averse passe ). 13 Nous utilisons ici les catégories aspectuelles (Aksionsarten) établies par Vendler (1967) pour les verbes, et la terminologie de Caudal (2006) pour les désigner en français. Une éventualité (un procès verbal) peut exprimer un état (rester, attendre), ou un événement. Dans ce second cas, elle est dynamique. Les événements sont euxmêmes de deux sortes : processus (- téliques : marcher, chanter) et terminations (+ téliques). Les terminations se subdivisent elles-mêmes en atomiques (s éveiller, partir) et non-atomiques (tracer un cercle, faire une tarte). 14 Les abréviations suivantes sont utilisées : imp. = imparfait et p.c. = passé composé, pour le français ; pret. = prétérite et p.perf. = present perfect pour l anglais ; imp. = imparfait et aor.= aoriste pour le grec. 198

205 Processus (5a) Il a régné (p.c.) jusqu en (5b) He reigned (pret.) until (5c) Vasilevse (aor.) / Vasileve (imp.) mechri to Termination non-atomique (6a) *Elle a mangé (p.c.) une pomme jusqu à 5 heures. (6b) *She ate (pret.) an apple until (6c) *Efage (aor.) ena milo mechri tis Termination atomique (7a) *Il est arrivé (p.c.) jusqu à 5 heures. (7b) *He arrived (pret.) until (7c) *Eftase (aor.) mexri tis Aspect grammatical L aspect grammatical, information aspectuelle exprimée par la morphologie flexionnelle verbale, est aussi intéressant à considérer. En français, selon notre corpus, tous les temps verbaux s accommodent bien de jusque, à l exception de l imparfait. En effet la composante télique de jusque interfère avec la valeur non-achevée de ce temps : *aujourd hui il dormait jusqu à midi, à moins qu il y ait itérativité: il dormait tous les dimanches jusqu à midi. 17 En anglais, until s associe librement avec les divers temps verbaux sous leur forme progressive (a) ou non (b), selon les contextes : (a) He was sleeping until the bomb exploded, il a dormi jusqu à ce que la bombe éclate ); (b) He slept until noon, il a dormi jusqu à midi ), avec présence ou non d itérativité. Cependant le present perfect qui exprime que l action verbale est achevée avec des résultats observables dans le présent, est d un emploi difficile avec until. La PC, fixant une borne, implique souvent que l action verbale n est plus valide à t (et ne peut alors pas se continuer dans un état résultatif) : *I have waited (p. perf.) for him until 5.00, je l ai attendu jusqu à 5 heures. 18 En grec, tous les temps verbaux sont utilisables dans la proposition dont dépend mechri. En particulier au passé, à la différence du français et comme on le voit dans les phrases (4c) et (5c), l imparfait ne fait pas difficulté. Si l on suit Moser (2008 : 7-8), l opposition aspectuelle binaire perfectif-imperfectif (et donc aoriste-imparfait) est subjective. Les situations peuvent être vues par le locuteur perfectivement (de l extérieur, comme un tout) ou imperfectivement (de l intérieur, dans leur développement). En grec, l aspect grammatical n entre donc pas en conflit de façon cruciale avec l aspect lexical de la PC Phrases négatives Comme l ont remarqué un certain nombre de travaux (Karttunen 1974 ; Declerck 1995 ; Hitzeman 1991), until est sensible à la forme négative de la phrase où il se trouve. Cette polarité négative influence aussi jusque et mechri. Considérons d abord les phrases à éventualité de type état (8) et processus (9). État (8a) Il n est pas resté jusqu à ce que je revienne. (8b) He didn t stay until I returned. 15 Pour les contraintes sur le choix des temps avec la PC, voir la section Des interprétations itératives peuvent cependant rendre acceptables l association termination-pc : J ai acheté (p.c.) le New York Times tous les jours jusqu en 2005/ I bought (pret.) The New York Times every day until 2005/Agoraza (imp.) to New York Times kathe mera mechri to Voir aussi l exemple de P. Vialar cité par Grevisse (1980 : 1341): Le train s arrêtait à chaque station de Sologne, jusqu à ce qu apparut la Loire. Malgré l unicité du voyage en train, on a l imparfait à cause de la répétitivité des arrêts. 18 (?) He has lived in Paris until now est cependant plus acceptable, l adverbe now ( maintenant ) liant la situation au présent. 19 Au sujet de l emploi du passé composé en grec et de ses conditions d emploi avec mechri, voir la discussion de Giannakidou

206 Processus (8c) Dhen emine mechri na epistrepso. (9a) Il n a pas dormi jusqu à 5 heures du soir. (9b) He didn t sleep until 5.00 p.m. (9c) Dhen kimithike mechri tis 5.00 mm Dans ces phrases, comme le montre le schéma 3, l espace de temps défini par la PC n est pas entièrement couvert par l éventualité et s arrête à un point t : Il (la personne en question) n a pas attendu mon retour, il est parti avant ; il s est réveillé à 3 heures, non pas à 5 heures). Il y a une coïncidence, mais partielle seulement, entre la durée du procès t-t et le parcours défini par la PC t-t > (PC) ==========> (procès verbal) t t t point de référence choisi par le locuteur Schéma 3 terme de l espace de temps indiqué par la PC En anglais cependant ce type de phrase est ambigu. Il peut en effet recevoir une interprétation ponctuelle (Karttunen 1974). Le parcours t-t indique dans ce cas la durée de la nonoccurrence du procès verbal. (9b) peut alors aussi signifier qu il a fallu attendre 5 heures du soir pour que la personne en question commence à dormir. Ce n est qu en t que le procès verbal se réalise. Cette interprétation s applique aussi aux terminations : ainsi pour (10a) et (10b), où respectivement l arrivée de la personne en question coïncide avec mon retour et la consommation de la pomme ne commence pas avant 5 heures. C est ce que montre le schéma 4 où t, le début de la réalisation du procès verbal, se superpose à t. (10a) He didn t arrive until I returned. (10b) He didn t eat his apple until > (PC) І - - -> -- (procès verbal) t t, t point de référence choisi par le locuteur Schéma 4 terme de l espace de temps indiqué par la PC Ces types d emplois ne s observent pas en français. La phrase (9a) ne peut pas signifier que la personne s est endormie seulement à 5 heures. Et dans le cas des terminations, on devra substituer avant (où l idée de parcours est absente) à jusque pour sauvegarder la grammaticalité de la phrase. (11a) Il n est pas arrivé *jusqu à ce que / avant que je revienne. (11b) Il n a pas mangé sa pomme *jusqu à / avant 5 heures. En grec, de la même façon, on devra substituer prin ( avant ) à mechri dans les phrases équivalentes. (12a) Dhen eftase *mechri na / prin epistrepso. (12b) Dhen efage to milo tou *mechri / prin tis Certaines phrases négatives cependant sont acceptables, par exemple : Min figis mechri na epistrepso ( Ne pars pas avant que je revienne ). C est ce type de phrases et plus généralement les phrases à terminations (négatives ou positives), associées grammaticalement à mechri qui vont nous intéresser dans la Section

207 7. La PC et les terminations non encore réalisées Nous avons montré dans la Section 4 que les verbes de type termination (téliques, nondynamiques) n étaient pas compatibles avec la PC. En grec cependant on observe que l emploi de mechri est possible avec ce type de verbe pour exprimer le moment précis avant lequel une éventualité doit/va se produire. Les contextes les plus favorables à ces emplois sont les contextes potentiels, où l action verbale est encore non réalisée, et où la phrase principale est au futur, à l impératif ou est plus généralement injonctive (Voir aussi Giannakidou 2002). (16a) Paradoste/ na paradosete / tha paradosete / prepi na paradosete tis ergasies sas mexri tis 2 dekemvriou. ( Remettez/ Veuillez remettre/ Vous remettrez/ Vous devez remettre vos devoirs avant le 2 décembre ) Le schéma 5 illustre cette situation : le procès verbal (non-duratif) se réalise dans la période de temps définie par t-t, à un point t > (PC) І (procès verbal) t t t point de référence choisi par le locuteur Schéma 5 terme de l espace de temps indiqué par la PC Babiniotis (2010 : 953) dit que dans ce cas mechri exprime une «limite ultime de l'espace de temps». En effet, l attention est concentrée nettement sur la borne finale dénotée par la PC, et non sur le parcours à balayer pour l atteindre. Ni l anglais ni le français ne permettent cet usage, où l idée de parcours étant quasiment occultée, celle de date limite devient dominante. Dans ce cas, le français n accepte qu avant, et l anglais utilise la préposition by qui d ailleurs, dans son sens temporel, est incompatible avec des éventualités dynamiques (She swam *by/until 5.00, Elle a nagé jusqu à 5 heures ) : (16b) Remettez/ Veuillez remettre/ Vous remettrez / Vous devez remettre vos exercices *jusqu au/avant le 2 décembre. (16c) Hand in / Please hand in / You ll hand in / You have to your exercises *until/by December Conclusion Notre étude comparative a laissé apparaître que jusque, until et mechri, du point de vue de la constitution des syntagmes qu ils introduisent, ne diffèrent pas de façon fondamentale : on les trouve tous trois suivis d un adverbe de temps, d un SN, d un SPrep et d une P. Le français se singularise cependant par l adjonction presque constante d une préposition à jusque. D autres différences sont dues au système linguistique de chaque langue (existence de cas en grec, d oppositions modales indicatif/subjonctif, en grec et en français, par exemple). Mais ce qui a permis de dégager les résultats les plus intéressants a été l étude des compatibilités / incompatibilités du sens lexical (aspectuel) de la PC (parcours + terminus) avec l Aktionsart et l aspect grammatical du verbe dont dépend la PC. Le Tableau 2 résume ces résultats, en mettant en valeur les contraintes qui restreignent l utilisation de jusque, until et mechri. Jusque est sémantiquement le plus rigide, car il est marqué, au sens jakobsonien, pour l aspect duratif : la notion d un parcours à accomplir pour le procès verbal est exigée. S il y a focalisation sur le terminus avant se substitue jusque. 201

208 Fr. Ang. Gr. PC avec éventualités nondynamiques (parcours t-t complet) + Il est resté jusqu à 5 heures + He stayed until Perimene mechri tis 5.00 PC en polarité négative avec éventualités dynamiques (parcours t-t partiel) + Il n a pas dormi jusqu à 5 heures (= jusqu à 3h) + He didn t sleep until 5.00 (= until 3.00) + Dhen kimithike mechri tis 5.00 (= mechri tis 3.00) PC en polarité PC visée potentielle négative [toutes + centration sur le éventualités] terminus [toutes (valeur ponctuelle : éventualités] t = t ) (valeur ponctuelle : t entre t et t ) - (ne pas avant) - (avant) + He didn t arrive - (by) until 5.00 (= he arrived only at 5.00) - (dhen prin) + Paradoste tis ergasias sas mechri tis 5.00 Tableau 2 Emplois temporels comparés de jusque, until et mechri C est until qui s accommode le mieux des énoncés négatifs, mais il est incompatible avec l idée de date-limite. Quant à mechri, sa gamme d utilisation est large. Son emploi est peu restreint par l aspect grammatical du verbe (Section 4) et il n est exclu que des emplois ponctuels avec polarité négative. Références ADLER, S. & M. ASNES Audacieuses jusqu à la témérité/braves jusqu à la folie. In P. C. Lopez (dir.), Actas del VI Congreso de Linguistica General (3-7/05/2004, Santiago de Compostela), Vol. 2(1) : BORILLO, A L espace et son expression en français. Paris : Ophrys. CAUDAL, P Aspect. In D. Godard, L. Roussarie & F. Corblin (dir.) Sémanticlopédie: dictionnaire de sémantique, DAMOURETTE, J. & E. PICHON Des Mots à la pensée. Paris : D Artrey. DECLERCK, R The problem of not until, Linguistics 33, GIANNAKIDOU, A Until, aspect and negation: a novel argument for two untils. In B. Jackson (ed.), SALT 12, Cornell University, Ithaca, NY GLÄTTI, H Sur le mode régi par jusqu à ce que, Revue de linguistique romane 38 : GREVISSE, M Le Bon usage. Gembloux : Duculot. HITZEMAN, J Aspect and adverbials, SALT 1, HOLTON, D., P. MACKRIDGE, I. WARBURTON-ΦΙΛΙΠΠΑΚΗ, Ειπήνη Γραμματική της Ελληνικής Γλώσσας. Αθήνα: Εκδόζειρ Παηαηάκη. KARTTUNEN, L Until. CSL LE BIDOIS, G. & R. LE BIDOIS Syntaxe du français moderne. Paris : Picard. LEEMAN, D La préposition jusque. In P. Dendale (éd) Le mouvement dans la langue et la métalangue, Recherches linguistiques, 27 : MOSER, A The changing relationship of tense and aspect in Greek. Sprachtypologie und Universalienforschung /Typology and Universals (STUF) 61: QUIRK, R., S. GREENBAUM, G. LEECH & J. SVARTVIK A comprehensive grammar of the English language. Harlow : Longman. VENDLER, Zeno Linguistics in philosophy. New York: Cornell University Press. ΜΠΑΜΠΙΝΙΩΤΗΣ, Γ. [Babiniotis, G] Λεξικό της Νέας Ελληνικής Γλώσσας. Αθήνα: Κένηπο Λεξικολογίαρ Ε.Π.Ε. ΜΠΑΜΠΙΝΙΩΤΗΣ, Γ. [Babiniotis, G] Γραμματική της Νέας Ελληνικής. Αθήνα : Ελληνικά γπάμμαηα. 202

209 Nguyen Tien Van Université Cedex Gaio Mauro Université Cedex UTILISATION DE LA RELATION «VERBE PREPOSITION TOPONYME» POUR UN INVENTAIRE LEXICAL AUTOMATIQUE Résumé Nous proposons une approche, permettant à partir d un modèle, d extraire et d interpréter des informations à connotation géographique à partir d une analyse automatique d un corpus de textes littéraires (récits de voyages dans les Pyrénées au XIX e siècle). Il s agit de la combinaison d une approche lexico-syntaxique permettant le marquage et l interprétation d expressions contenant au moins une entité nommée géographique avec une analyse grammaticale ciblée impliquant des verbes de déplacement (ou de perception) permettant le marquage d expressions de mouvement et d expressions spatiales. L inventaire lexical obtenu à l aide de cette démarche est ensuite exploité à des fins d enrichissement d une ontologie géographique construite par l IGN. Mots-clés: extraction de concepts, modélisation spatiale, lexique géographique, grammaire hors contexte, enrichissement d ontologie. 1 Introduction L un des buts du projet GEONTO 1 est de créer une ontologie initiale spécifique au domaine géographique tel que mise en avant par Uitermark(2001) ou Brodeur(2004) (et plus particulièrement à la topographie) puis de l enrichir de manière automatique. L ontologie initiale a donc été créée en collaboration avec l équipe de recherche du COGIT de l IGN impliquée dans le projet. Dans le cadre de cet article, nous présentons une méthode afin de réaliser automatiquement, à partir d un ensemble de textes, un inventaire lexical potentiellement à connotation géographique. Cet inventaire devant par la suite servir à enrichir les concepts de l ontologie ci-dessus énoncée. Nous nous sommes exclusivement intéressés à des situations dans lesquelles le mot ou le groupe de mots se retrouvent à proximité d une entité nommée géographique et sont impliqués dans une relation de dépendance grammaticale avec un verbe de déplacement (ou verbe de perception) et éventuellement avec une préposition. La problématique est détaillée en -2-. En -3- nous discutons des travaux existants relatifs au traitement automatique de langue (TAL) et les ressources lexicales. Notre méthode et le résultat d expérimentation sont présentés en -4- et La problématique Le lexique à constituer doit être obtenu à partir de l extraction des syntagmes nominaux employés pour leur connotation géographique (territoire aride, au sud de l étroite vallée, ) dans le fonds documentaires constitués de plusieurs centaines de récits de voyage. Afin d opérer automatiquement cette extraction de manière ciblée, il faudrait disposer des modèles permettant de différencier les syntagmes à connotation géographique parmi tous ceux contenus dans des textes. Ci-après quelques extraits de notre corpus, afin d illustrer nos propos : 1 GEONTO http ://geonto.lri.fr/, est un projet ANR (ANR-07-MDCO ). 203

210 «[ ] Depuis quelques temps une vive curiosité avait porté mes regards vers la Maladetta[... ] Je parlai de mes intentions à plusieurs guides de Luchon [ ] [ ]Après avoir contemplé, avec une admiration mêlée d effroi, la charpente altière des MontsMaudits, nous songeâmes bientôt à descendre sur le territoire aride au sud de la région d Aragon. Le temps était menaçant : de légers brouillards parcouraient les hauteurs, et précédaient des nuages d une teinte grisâtre, qui roulaient vers nous, venant de l ouest des Pyrénées, un orage s amoncelait : il ne tarda pas à éclater. Ayant renvoyé nos chevaux et payé le tribut accoutumé à la complaisance des carabineros (douaniers) espagnols, nos guides chargèrent nos provisions sur leurs épaules, et nous descendîmes, assez lestement, vers le pied de la Maladetta, laissant à notre droite les roches calcaires de la Pèna-Blanca. Arrivés au fond de la vallée du Plan-des-Etangs, qui est plus élevée que sa voisine, la vallée latérale de l hospice de Bagnères, de 446 mètres, nous laissâmes derrière nous une cabane habitée pendant l été par des bergers espagnols, pour remonter, par un plan rocailleux, jusqu au gouffre de Tourmon, qui absorbe les eaux d un torrent rapide, descendant de la partie orientale du glacier de la Maladetta[ ]» Comme nous pouvons le constater dans ces exemples, les termes à extraire sont très souvent associés à des entités nommées géographiques. Cette observation est corroborée par les travaux de Vandeloise (1986) sur le couple (cible, site) et de Borillo (1998) sur le couple (entité concrète, repère spatial). Toutefois, si cette observation est intéressante, elle reste incomplète car des expressions considérées comme non géographiques peuvent également être associées à une entité nommée de lieu (ex : guides de Luchon, mes regards vers la Maladetta), des expressions géographiques peuvent exister sans être associées à un nom de lieu comme «cabane» et d autre part. L étude de notre corpus a permis d observer que très fréquemment ce couple se trouve en relation, au sein d une même phrase, avec des verbes de déplacement («remonter jusqu au gouffre de Tourmon») ou des verbes de perception («contempler la charpente altière des Monts-Maudits»). Enfin, dans plusieurs cas la construction de ce couple fait appel à des relations spatiales afin de faire référence à un lieu complexe («descendre sur le territoire aride au sud de la région d Aragon»). Nous proposons donc un modèle et son opérationnalisation afin de permettre, par la prise en compte de ces observations, un traitement automatique. Cela nous mène à proposer le modèle VPT, des détails de ce modèle et son opérationnalisation sont ensuite proposés. 3 Etat de l art et travaux connexes Le gazetteer et le problème de détection des entités nommées : la détection des entités nommées géographiques, et de manière plus générale des entités nommées (personnes, entreprises, ) est une problématique reconnue comme jouant un rôle important dans nombreux traitements automatiques de la langue Sagot et al.(2008) et notamment dans le cas de l extraction automatique d information Poibeau(2003). Nous nous intéressons exclusivement aux entités nommées géographiques que nous considérons comme étant un groupe nominal dont le noyau est un nom de lieu ou nom toponymique. Dans de nombreux travaux comme par exemple Rocío et al.(2010), ou au sein de notre équipe Loustau et al.(2008), Palacio(2010), la détection entités nommées géographiques est élaborée à l aide des gazetteers 2. Il existe plusieurs gazetteers accessibles par Internet tels que : Geonames, BDNyme, Word Gazetteer, GEOnet Names Serve (GNS) 3, Dans notre travail, les noms toponymiques une fois repérés permettent de déclencher le processus de marquage/interprétation des expressions évoquant la ou les relations spatiales ainsi que le syntagme verbal de déplacement ou de perception afin de construire une structure en traits sémantiques permettant d isoler les informations à extraire. 2 Un gazetteer est un dictionnaire ou répertoire géographique dont les entrées sont des noms toponymiques. A chaque entrée du dictionnaire peuvent être associées des informations comme l appartenance à une ou plusieurs structures administratives (commune, région, pays, ), la caractéristique physique (montagne, rivière, route, ), des données statistiques, une géométrie exprimée dans un référentiel géographique

211 Expression spatiale dans le texte et la modélisation spatiale : selon Borillo(1998), un lieu est une portion de l espace matériel dans lequel nous nous situons et nous évoluons. Nous considérons donc que dans l expression «la partie orientale du glacier de la Maladetta», le repère spatial peut être déduit de la même manière que dans l exemple précédent via le nom toponymique «Maladetta» et l entité concrète est incarnée ici par l expression «partie oriental du glacier». Cette expression contient une précision de localisation (que appelons indirection) au sein de l entité concrète. Cette précision est exprimée via une relation spatiale nécessitant une interprétation. Il existe deux types d approches permettant de raisonner et donc d interpréter au travers de relations spatiales : des approches quantitatives comme celle proposée par Balbiani et al.(2000) ou par Vieu(1997), et des approches qualitatives telles que celle proposée par Allen(1991), ou par Freksa(1992) ou encore par Frank(1996). Les approches quantitatives prennent en compte les aspects mesurables relatifs aux lieux tels que la longitude et la latitude, tandis que les approches qualitatives opèrent sur des représentations symboliques. Selon ces approches, les relations spatiales peuvent être catégorisées en trois classes principales : topologiques comme décrite par Egenhofer et al.(1991) (ex : dans, à l intersection, etc.), directionnelles formalisées par Ligozat(1998)) (ex : au sud de, etc.), et métriques (ex : à 10km de, etc.). Afin d obtenir une représentation automatique proche du lieu nous prenons en compte l évocation des relations spatiales grâce à une approche hybride Gaio et al.(2008). Expression de déplacement : selon Talmy(2000), dans les langues latines comme le français, le mouvement est caractérisé par le verbe. Dans notre corpus, d après une étude réalisée dans notre équipe par Loustau et al.(2008), l expression du déplacement est essentielle dans un récit de voyage. Plusieurs travaux linguistiques comme ceux de Boons(1987), de Laur(1991) et de Sarda(2000) ont été réalisés afin d étudier le rôle des verbes de déplacement dans la langue. Ces auteurs ont proposé une catégorisation des verbes de déplacement via leur polarité. En synthèse nous dirons que les polarités sont : initiale (ex : quitter), médiane (ex : visiter), ou finale (ex : arriver). D autre part, dans un écrit, en particulier dans un récit de voyage, lorsque le narrateur souhaite rendre compte de certaines actions ou sensations, les verbes de perception (ex : voir) acquièrent une importance particulière. TAL et la grammaire hors contexte : à des fins d extraction d information, il est indispensable d utiliser les outils de TAL. Ces outils permettent de traiter les textes sur différents niveaux. Pour le prétraitement du corpus, nous avons besoin d une analyse morphosyntaxique de texte. Pour cette étape des outils tels que TreeTagger Schmidt(1994) et Melt Denis et al.(2009)) peuvent être utilisés 4. Les grammaires hors contexte 5 sont souvent utilisées en TAL. Ces grammaires se composent d un ensemble de règles qui permettent de remplacer une séquence d expression (nom, adjectif, verbe, etc.) par un nouvel identifiant unique d un niveau d abstraction plus élevé (syntagme nominal, syntagme verbal, etc.). Dans le cas de ce travail, la grammaire hors contexte est utilisée pour marquer non seulement des informations à un niveau d abstraction syntaxique plus élevé (groupes de noms propres, groupes de nom communs) mais également à un niveau sémantique (ex : verbe de déplacement, nom toponymique, etc.) grâce à l utilisation combinée de ressources lexicales hétérogènes. 4 Pour la version actuelle de notre chaîne de traitement (section 4), nous utilisons TreeTagger. Toutefois, cet analyseur produit des erreurs dans certains cas (section 5). Nous envisageons donc de tester Melt dans une version ultérieure en espérant qu il soit plus robuste et permette de réduire certaines erreurs. 5 Formellement, un langage est hors-contexte si et seulement si il existe un automate à pile qui le reconnaît. 205

212 4 Opérationnalisation Le modèle VERBE PRÉPOSITION TOPONYME (VPT) : tel que schématisé dans la fig.1 combine de manière parcimonieuse les travaux précédemment évoqués relatifs à l expression spatiale dans la langue, aux relations spatiales et au lexique verbal. Ce modèle décrit un triplet (VPT) qui se compose d un verbe en général de déplacement mais également de perception (V), d une préposition (P), et d un Toponyme (T). Le Toponyme est défini de façon récursive à partir des noms toponymiques, des relations spatiales (ou indirections), et des termes associés. FIG. 1 Schématisation du modèle proposé Le caractère étoile (*) dans la fig.1 signifie que le composant correspondant pourra être présent zéro ou plusieurs fois. Les autres composants doivent y apparaître au moins une fois. Voici quelques exemples extraits du corpus : remonter à Gavarnie contempler la charpente altière des Monts-Maudits remonter jusqu au gouffre de Tourmon arriver au fond de la vallée du Plan-des-Etangs franchir l arête occidentale de la Frondella au petit col Wallon passer sur le versant de Cauterets par la brèche de Courouaou de Bouc etc. Comment construire automatiquement ce modèle VPT? Et comment sert-t-il à extraire un lexique à connotation géographique? Cela est réalisé par une chaîne de traitement complète au sein de laquelle nous avons défini une grammaire et utilisé ou construit diverses ressources lexicales : liste de verbes de déplacement et de perception avec leur polarité, des gazetteers, liste d expressions évoquant des relations spatiales et leur correspondance dans le modèle hybride proposé par Gaio et al.(2008), ontologie de concepts topographiques, thésaurus de termes pour l indexation documentaire. La chaîne de marquage des triplets VPT : l objectif (fig.2) est de marquer les triplets VPT, puis d en extraire des expressions selon un certain filtre. FIG. 2 Illustration de la chaîne de marquage des triplets VPT L entrée de notre chaîne correspond à un texte dont les mots ont été soumis au préalable à un étiquetage morphosyntaxique. Seuls les groupes de mots reconnus selon un ensemble de patrons obtiennent un sur-étiquetage soit par extension du nom (propre ou commun), soit par détection de la sémantique (relation spatiale, verbe de déplacement ou de perception, nom de lieu), puis selon des règles de composition le toponymique est isolé et par le suite le triplet 206

213 VPT. Les patrons sont construits grâce à des règles de la grammaire hors-contexte et aux ressources lexicales que nous allons successivement étudier en détail. La grammaire : dans notre chaîne de traitement, les étiquettes sont assignées au fur et à mesure. En effet, un groupe de noms communs, ou terme candidat : «territoire aride», est marqué à partir des noms communs «territoire» et des adjectifs «aride» préalablement étiquetés par l analyseur morphosyntaxique. La fig.3 présente notre grammaire de marquage de 4 cas distincts de la catégorie «groupe de nom commun» : FIG. 3 La grammaire de marquage des groupes de noms communs De même, «un groupe de nom propres» est repéré par des noms propres précédemment étiquetés par l analyseur morphosyntaxique, par exemple Mont de Marsan : groupepropre(gp) > nompropre(np1), de, nompropre(np2). Ensuite, les groupes de noms propres sont cherchés dans des gazetteers afin d être validés comme nom toponymiques. Dans l étape suivante, les Toponymes sont étiquetés, voici une des règles : Toponyme(T) > groupenomcommun(g1), indirection(i), groupenomcommun(g2), de, nomtoponymique(nt) À droite de la règle, les groupes de nom commun G1 «territoire», G2 «région», le nom toponymique NT «Aragon», les indirections «au sud de» sont précédemment étiquetés. Dans ce cas, il s agit d un Toponyme dit complet «territoire aride au sud de la région d Aragon». Nous définissons ainsi des règles pour des Toponymes partiels : Nom toponymique le Gave de Pau ; syntagme nominal associé au nom toponymique dans les plaines d Espagne; groupe de nom commun + indirection + nom toponymique nos logements respectifs à Bagnères-de-Luchon; Indirection + syntagme nominal + nom toponymique au sud de la vallée du Plan-des-Etang. Enfin les triplets VPT (descendre sur le territoire aride au sud de la région d Aragon) sont étiquetés à partir des verbes «descendre», des prépositions «sur)»et des Toponymes «territoire aride au sud de la région d Aragon», voici un des règles : VPT(verbe :V...pre :P...toponyme :T) >Verbe(V),Preposition(P),Toponyme(T). Dans celle-ci, les verbes sont préalablement marqués à l aide d une base lexicale. Le marquage des triplets VPT dépend de la nature du verbe (transitif direct, transitif indirect ou intransitif). Dans ce cas, il s agit d un triplet VPT dont le verbe est associé aux prépositions. A l heure actuelle les règles de notre grammaire couvrent 4 cas de groupes de noms communs, 14 cas de groupes de noms propres, 10 cas de toponymes, et 15 cas de triplets VPT. Les ressources utilisées : nous avons construit une base lexicale des verbes de 75 verbes de déplacement, construite en nous appuyant sur les travaux précédemment cités. Afin d étendre la capacité de repérage d un lexique à connotation géographique nous y avons ajoutons 29 verbes de perception et nous étudions actuellement l intérêt de traiter également 59 verbes qui, compte tenu de leur contexte d utilisation nous nommons par convenance : topographiques «nous nous abattions péniblement sur les versants qui dominent l hospice de Bénasque et la vallée de l Essera». Le tab.1 présente la distribution des verbes plus fréquents dans les corpus en fonction de leur catégorie. La deuxième colonne des tableaux indique le nombre de fois où le verbe est associé au triplet VPT. La dernière colonne est le pourcentage de cette association par rapport au nombre d occurrences du verbe dans tout le corpus étudié. 207

214 TAB.1 Classification et distribution des verbes plus fréquents dans les corpus Chaque verbe dans la base est décrit par deux informations importantes : la catégorie du verbe (verbe de déplacement, verbe de perception, etc), et une forme de «polarité». Concernant les verbes de déplacement celle-ci est de trois type «initiale», «médiane» et «finale». Pour les verbes dits de perception nous avons considérés qu ils se comportaient de manière équivalente aux verbes de déplacements médians. Enfin, pour la dernière famille de verbes une étude empirique est en train d être menée. Dans la construction des triplets VPT, nous distinguons deux types de verbes : verbes associés aux prépositions (e.g. verbes transitifs indirects), et verbes non associés à une préposition (e.g. verbes transitifs directs). Concernant les verbes de déplacement, ils peuvent être transitifs directs (visiter, traverser, ), ou transitifs indirects (aller, arriver, venir, ), alors que tous les verbes de perception ont été considérés comme étant transitifs directs (voir, contempler, ). Enfin, les indirections du modèle VPT sont repérées à l aide d une base lexicale construite à partir des relations spatiales modélisées selon l approche hybride Gaio et al. (2008) on distinguera : les relations topologiques, les relations directionnelles et les relations métriques discrétisées pour être traitées comme une combinaison des deux précédentes. Afin de valider les groupes de noms propres comme les noms toponymiques, nous utilisons deux gazetteers : BDNyme de l IGN qui comporte noms de lieu français, et Geonames qui en contient Quelques éléments sur l enrichissement : Comme déjà mentionné l objectif premier de ce travail consiste à utiliser des textes grand public pour l enrichissement d une ontologie de domaine spécifique. Après avoir extrait à partir des triplets VPT marqués, les termes trouvés sont comparés avec les termes utilisés comme label de concept dans l ontologie de référence. Comme montré dans la fig.2, cette tâche est réalisée par le module parcours d ontologie qui vérifie si un terme existe dans une ontologie. Sinon, il est retenu comme candidat à l enrichissement. À cette étape, soit l enrichissement est semi-automatique le terme est alors proposé à l expert afin qu il choisisse le meilleur emplacement dans l ontologie pour son insertion. Soit l enrichissement est automatique dans ce cas nous nous appuyons sur une ressource tierce générique (tel que wordnet ou un thésaurus générique tel que RAMEAU de la BnF) afin de déduire via les relations de subsomption l emplacement le plus adéquat pour son insertion dans l ontologie. Dans notre exemple les trois concepts «région», «territoire», et «territoire aride» sont candidats à enrichir l ontologie initiale de l IGN proposée par Abadie et al.(2010). 5 Expérimentation et évaluation Evaluation quantitative : nous avons expérimenté notre méthode sur 12 livres ce qui fait un total de 2400 pages environ, fournis par la médiathèque de Pau (MIDR). Le tab. 2 présente quelques exemples. Le tab.3 indique l apport de l utilisation des verbes de perception et des verbes dits topographiques tandis que la précision sur chaque type de verbe reste stable. Parmi 208

215 323 termes extraits et validés par des experts (soit 1137 occurrences dans le corpus), 260 termes n existent pas dans l ontologie de l IGN, 119 étant des termes composés comme : «débouché des ports», «panorama des cimes», «embranchement des routes», TAB.2 Nombre total d apparitions pour quelques termes extraits : (a) > 10 fois ; (b) une fois TAB.3 La précision sur les corpus expérimentés L extraction manuelle de termes à partir de corpus exige un important travail. L intérêt principal de notre méthode est donc l automatisation de ce travail d extraction et sa capacité à être utilisée sur des corpus de taille très importante. Quelques exemples de bruit et de silence : ci-après quelques cas, illustrés par un exemple, dans lesquels les termes extraits n ont pas une connotation géographique. 1) Depuis que j ai quitté le confort de la vie de Bordeaux, je trouve [ ] Cas de polysémie des verbes, ici le verbe «quitter». 2) Il serait devenu un peu fier vis-à-vis de ses camarades d Arrens[ ] Cas d erreurs générées par les pré-traitements. Ici un faux étiquetage de l analyseur morphosyntaxique, l étiquette «verbe voir» a été donnée à «vis» dans «vis-à-vis». En analysant les résultats de l expérimentation, nous avons également détecté des cas dans lesquels les termes à connotation géographique n ont pas été extraits, ci-après quelques exemples : 1) Pour ce qui est des variations du niveau du gouffre, il y a, en effet, une crue et une baisse[ ] Cas où le contexte phrastique est tel qu il n existe aucune indication qui permette d identifier le terme. 2) [ ]le pic de Néthou, n a été encore gravi par personne[ ] Cas où un pré-traitement supplémentaire est nécessaire. Ici transformation de la structure passive. 3) Avant d arriver à la fin de la vallée, nous traversons le bras de la Garonne et nous grimpons sur le plateau d Esquierry[ ] Cas d incomplétude des ressources. Ici «Esquierry» est un nom toponymique valide toutefois il n est pas répertorié dans les gazetteers utilisées. 6 Conclusion et perspectives Dans cet article, nous avons proposé une méthode de modélisation et son opérationnalisation pour permettre de réaliser automatiquement un inventaire lexical à connotation géographique à partir d un fonds documentaire. Pour cela, nous nous appuyons, d une part, sur des lexiques et une structure locale permettant de modéliser l information géographique contenue dans des textes, et d autre part sur un ensemble de règles construites grâce à une grammaire hors 209

216 contexte, ces trois aspects sont opérationnalisés au sein d une chaîne automatique permettant de traiter en entrée un corpus de taille quelconque. Notre méthode offre deux avantages majeurs (1) chaque élément du modèle est marqué par un module. Cela permet de traiter les cas complexes pour chaque élément du modèle avant de les rassembler. (2) les règles peuvent traiter des configurations complexes pouvant par exemple comporter plusieurs verbes, plusieurs noms toponymiques ou plusieurs triplets VPT. Le patron VPT que nous avons proposé peut également être utilisé dans un but de détection de noms toponymiques non encore répertoriés dans les ressources. Par exemple, pour la phrase «nous grimpons sur le plateau d Esquierry», le triplet VPT (grimper, sur, le plateau d Esquierry) sera marqué, et on supposera dans un premier temps que «Esquierry» est un nom toponymique. Dans un second temps, on vérifiera si le terme «plateau» existe dans l ontologie géographique enrichie, si tel est le cas «Esquierry» sera considéré comme un nom toponymique validé. Dans un futur proche, nous avons l ambition d étendre notre méthode pour pouvoir extraire également des termes non directement attachés aux triplets VPT, par exemple, le terme «ville» dans la phrase «Jusqu à cette ville, nous avons longé la Garonne». Pour le traitement de tel cas, nous proposons un modèle basé sur les relations n-aires dont VPT fait partie. Références ABADIE N. & MUSTIÈRE S. (2010). Constitution et exploitation d une taxonomie géographique à partir des spécifications de bases de données. RIG, 20(2), ALLEN J. F. (1991). Planning as temporal reasoning. KR, BALBIANI P. & MULLER P. (2000). Le raisonnement spatial. Le temps, l espace et l évolutif en sciences du traitement de l information. Cepadues Editions. BOONS J.-P. (1987). La notion sémantique de déplacement dans une classification syntaxique des verbes locatifs. LANGUE FRANÇAISE, 76(76), BORILLO A. (1998). L espace et son expression en français, L essentiel. Orphrys. BRODEUR J. (2004). Interopérabilité des données géospatiales : Élaboration du concept de proximité géosémantique. PhD thesis, U. Laval, Québec, CA. DENIS P. & SAGOT B. (2009). Coupling an annotated corpus and a morphosyntactic lexicon for state-of-the-art pos tagging with less human effort. In Proceedings of PACLIC 2009, Hong Kong, China. EGENHOFER M. & R.D. F. (1991). Point-set topological spatial relations. IJGIS, 5(2), FRANK A. U. (1996). Qualitative spatial reasoning : Cardinal directions as an example. IJGIS, 10(3), FREKSA C. (1992). Using orientation information for qualitative spatial reasoning. GAIO M., SALLABERRY C., ETCHEVERRY P., MARQUESUZAÀ C. & LESBEGUERIES J. (2008). A global Process to Access Documents Contents from a Geographical Point of View. JVLC, 19(1), LAUR D. (1991). Sémantique du déplacement et de la localisation en français : une étude des verbes, des prépositions et de leur relation dans la phrase simple. PhD thesis, U. Toulouse II, FR. LIGOZAT G. (1998). Reasoning about cardinal directions. Visual Languages and Computing, 9(1). LOUSTAU P., NODENOT T. & GAIO M. (2008). Spatial decision support in the pedagogical area: Processing travel stories to discover itineraries hidden beneath the surface. In 11th AGILE , Girona, ESP. PALACIO D. (2010). Combinaison de critères par contraintes pour la Recherche d Information Géographique. PhD thesis, U. de Pau et des Pays de l Adour, FR. POIBEAU T. (2003). Extraction automatique d information. Hermès Lavoisier. ROCÍO A.-M. & ERICK L.-O. (2010). Geo information extraction and processing from travel narratives. In Transforming the Nature of Communication, 14th ICE, , Helsinki, FIN. SAGOT B. & BOULLIER P. (2008). Sxpipe2 : architecture pour le traitement présyntaxique de corpus bruts. TAL, 49(2), SARDA L. (2000). L expression du déplacement dans la construction transitive directe. Syntaxe et Sémantique, SCHMIDT H. (1994). Probabilistic part-of-speech tagging using decision trees. In ICNMLP, Manchester, UK. TALMY L. (2000). Toward a Cognitive Semantics, chapter How language structures space. The MIT Press. UITERMARK H. (2001). Ontology-Based Geographic Data Set Integration. PhD thesis, U. Twente, NL VANDELOISE C. (1986). L espace en français. Paris, France, Seuil. VIEU L. (1997). Spatial representation and reasoning in artificial intelligence. In STR,

217 Paumier Sébastien Université Paris-Est Marne-la-Vallée Nam Jeesun HUFS UN SYSTÈME DE DICTIONNAIRE DE MOTS SIMPLES DU CORÉEN Résumé Les lexiques des langues agglutinantes ne se prêtent pas à une représentation par liste d'entrées, car la combinatoire des morphèmes est si grande qu'elle produirait un dictionnaire gigantesque. Une façon de contourner ce problème est de représenter de tels lexiques directement sous une forme factorisée, en particulier à l'aide d'automates. Dans cet article, nous présentons une description d'un tel système pour le coréen. Ce système est pleinement opérationnel, et a déjà fait l'objet d'adaptation pour d'autres langues agglutinantes. Mots-clés: coréen, dictionnaire électronique, langue agglutinante, tal, automates. 1. Introduction Les analyseurs morphologiques se divisent schématiquement en deux grandes catégories: les systèmes à base de règles de calcul, utilisant ou non de l'apprentissage automatique (Koskenniemi 1984, Beesley & Karttunen 2003, Han & Palmer 2005) et ceux reposant sur des lexiques construits manuellement par des linguistes (Gross 1989, Courtois 1990, Silberztein 1993). Les premiers offrent une économie de main d'œuvre lors de l'adaptation à une nouvelle langue et une certaine tolérance à l'erreur. Les seconds garantissent une meilleure précision. Le système que nous proposons s'inscrit dans cette deuxième catégorie. L'approche classique consiste à produire un lexique sous forme de liste d'entrées et à le transformer ensuite en un format plus propice à une exploitation logicielle, le plus souvent sous forme d'automate, ce formalisme étant particulièrement adapté à cette tâche (Revuz 1991, Roche & Schabès 1997). Toutefois, il n'est pas possible d'utiliser cette méthode pour des langues agglutinantes comme le coréen, car la combinatoire des morphèmes est telle qu'un dictionnaire sous forme de liste occuperait une taille gigantesque. Il est donc nécessaire de construire directement le lexique sous la forme d'un automate qui factorise les morphèmes et évite l'explosion combinatoire. De premiers prototypes d'un tel système ont été proposés pour le coréen par (Lee 1997) et (Huh 2005), mais des problèmes d'architecture, de formats de fichiers et de maintenance les rendaient difficiles à manipuler, non seulement par les utilisateurs finaux de ces analyseurs, mais, ce qui est plus problématique, également par les linguistes chargés de produire les données. En effet, si la description d'un lexique sous forme d'une liste d'entrées est aisément manipulable par un linguiste, la nécessité de gérer l'agglutination introduit une complexification du formalisme de description pouvant considérablement dégrader son utilisabilité réelle si la tâche du créateur de ressources en devient trop compliquée. Nous décrivons dans cet article une nouvelle version de ce système de dictionnaire, beaucoup plus simple d'utilisation, et généralisable aux autres langues agglutinantes. Nous avons conservé le principe d'une description du dictionnaire directement sous forme d'automates, mais en déplaçant au maximum la complexité qui se trouvait jusque-là dans les données elles-mêmes vers les programmes chargés de les manipuler, réduisant ainsi au 211

218 minimum les efforts d'adaptation demandés aux linguistes produisant les dictionnaires, notamment en terme de lisibilité et de maintenabilité des données, critères toujours cruciaux dès lors qu'il y a intervention humaine. Ce système a été intégré au logiciel libre de traitement de corpus Unitex (Paumier 2010). 2. Architecture générale du système La majeure partie des mots simples en coréen est constituée d'une racine à laquelle vient se combiner une série de postpositions. Ainsi dans le DECO (Dictionnaire Electronique du COréen), les quatre catégories Nom (NS), Verbe (VS), Adjectif (AS) et adverbe (DS) sont enregistrées avec les codes flexionnels indiquant les classes des postpositions attachables, alors que la catégorie Determinant (TS) ne demandant aucune série de postpositions est intégrée sans le code flexionnel (Nam 2002, 2003, 2007). Les tokens en coréen dits Eojeol sont une unité plus grande qu un mot en français, ce qui cause une complexité sérieuse de l analyse morphologique et une ambiguїté plus grave qu en français. De plus, dans les cas des verbes et des adjectifs, la racine peut subir des variations morphologiques qui conduisent à l'obtention d'une ou plusieurs variantes, chacune pouvant se combiner avec une certaine classe de postpositions. Dans la discussion suivante, nous allons détailler les différentes composantes du système avec le cas des verbes. 2.1 Génération des variantes des racines La génération des variantes des racines suit exactement la même logique que la procédure de flexion automatique utilisée pour les langues non-agglutinantes (Silberztein 1999). Le principe est de recenser les formes canoniques en leur associant des codes qui décrivent leur paradigme flexionnel. Ces paradigmes sont décrits sous la forme d'automates décrivant des opérateurs à appliquer sur la forme canonique pour obtenir les formes fléchies, à l'aide d'un mécanisme de pile. Figure 1: graphe générant les variantes des racines de la classe VS03 Par exemple, le graphe de la figure 1 permet d'obtenir deux variantes à partir d'une racine donnée. Le L commun aux deux chemins indique qu'on doit retirer un caractère syllabique Hangul. Le chemin du haut indique qu'on obtient, sans autre modification, une nouvelle racine dotée du code EV#EV03_1. Dans le chemin du bas, la séquence Jㄹ indique qu'on doit retirer une lettre Jamo et ensuite ajouter la lettre ㄹ. La racine ainsi obtenue portera le code EV#EV03_2. Ce type de code servira par la suite à établir la correspondance entre une racine et sa classe de postpositions. Notons ici que le coréen se distingue des autres langues par l'emploi d'un double système d'écriture. Les mots sont constitués de caractères syllabiques Hangul qui sont des 212

219 représentations de suites de lettres Jamo. Ainsi, le caractère Hangul 가 correspond aux deux lettres Jamo ᄀ et ᅡ. Le problème est que les variations subies par les racines ne correspondent pas toujours à des caractères Hangul, comme c'est le cas dans l'exemple de la figure 1. Il a donc été nécessaire de gérer le passage d'un système d'écriture à l'autre. Par ailleurs, le coréen autorise l'emploi de certains caractères chinois en remplacement de caractères Hangul. Ce phénomène a été géré par l'établissement d'une liste des correspondances autorisées dont voici un court extrait: 諫 간 間 간 乫 갈 喝 갈 Grâce à cette liste, le linguiste n'a pas à se préoccuper de ce type de variantes et peut se contenter de tenir à jour un dictionnaire des formes écrites en coréen, le système de consultation de dictionnaire se chargeant d'établir automatiquement les correspondances avec les caractères chinois. Au total, dans le cas des verbes, les classes de variantes de racines sont au nombre de 64. À l'issue de la phase de génération des variantes des racines, on obtient un dictionnaire de racines au format DELAF que l'on transforme en automate, aussi bien pour le compresser que pour en accélérer la consultation. Pour des raisons d'efficacité, les entrées sont converties sous forme de suites de lettres Jamo avant d'être compressées sous forme d'automate. En effet, la complexité de la recherche d'un mot dans un automate est en taille alphabet longueur du mot. Or, la taille de l'alphabet Jamo est inférieure à 30 lettres alors que le nombre de caractères Hangul est supérieur à Description des classes de postpositions La combinatoire des postpositions est complexe, mais comporte néanmoins de nombreuses régularités. Pour cette raison, les classes de postpositions sont décrites au moyen de grammaires modulaires pouvant s'appeler les unes les autres, afin de factoriser les descriptions redondantes. Chaque classe est caractérisée par sa grammaire principale dont le nom correspond à l'un des codes produits à l'étape de génération des variantes de racines. Les grammaires de postpositions associent des étiquettes morpho-syntaxiques à des séquences constituées de caractères Hangul et/ou Jamo. La figure 2 montre la grammaire des postpositions EV/EV03_2. Elle sera mise en correspondance avec les racines portant le code EV#EV03_2 1. La figure 3 montre le sousgraphe SUG3_2 appelé depuis cette grammaire. On peut y voir que chaque morphème est associé à un étiquetage morpho-syntaxique. 1 Le dièse remplace dans les graphes le caractère / qui a déjà une utilisation particulière. 213

220 Figure 2: extrait du graphe de postpositions EV/EV03_2 Figure 3: graphe de postpositions SUG3_2 L'ensemble des grammaires de postpositions est constitué de 2728 graphes. 2.3 Graphe dictionnaire La mise en correspondance des racines avec leurs classes de postpositions se fait au moyen d'un graphe comme celui de la figure 4. Les symboles < et > qui entourent le contenu du graphe indiquent qu'il s'agit d'un graphe destiné à être appliqué caractère par caractère au texte que l'on souhaite analyser. Le symbole <AS> indique que l'on veut reconnaître une racine en consultant le dictionnaire de racines que l'on a construit précédemment. Lorsqu'on a reconnu une racine, les lignes comme $AS.EQ=EA#EA23_2$ jouent le rôle de tests pour savoir quelle branche va ensuite être explorée. Ainsi, si la racine contient le code EA#EA23_2, on explorera ensuite la grammaire de postpositions EA/EA23_2 2 pour finir d'analyser la séquence de caractères trouvée dans le texte. Pour chaque chemin de la grammaire de postpositions qui permet d'atteindre la fin du mot du texte que l'on est en train d'analyser, on produira une analyse qui sera constituée de la racine reconnue ainsi que de la suite de postpositions construite par concaténation lors de l'exploration du chemin de la grammaire de postpositions. 2 Dans un nom de sous-graphe, le caractère : remplace le caractère slash, pour la même raison que dans la note précédente. 214

221 Figure 4: extrait du graphe dictionnaire des mots simples du coréen Ce graphe est destiné à être appliqué au texte que l'on souhaite analyser par le programme de consultation de dictionnaire intégré à Unitex. L'analyse morphologique du coréen est ainsi ramenée à un classique problème de pattern matching. Le résultat de cette opération est un fichier listant pour chaque séquence reconnue, ses coordonnées dans le texte ainsi que la séquence de morphèmes étiquetés qui la compose. Ce fichier est ensuite utilisé pour construire pour chaque phrase du texte un automate décrivant toute la combinatoire des étiquettes morpho-syntaxiques reconnues, comme celui présenté sur la figure 5, dans lequel les transitions en pointillés entre deux boîtes signalent que les deux morphèmes représentés par ces boîtes appartiennent à un même mot typographique (Eojol). Figure 5: extrait d'un automate de phrase Contrairement aux analyseurs du coréen existant comme Geuljabi ( ce système offre toutes les analyses possibles sous forme de parcours possibles dans les automates de phrase. Cette approche qui privilégie le rappel permet de ne pas bloquer des analyses ultérieures en commettant des erreurs d'étiquetage tôt dans la chaîne de traitement d'un texte. 215

222 3. Performances L'application du dictionnaire complet sur un texte codé en UTF-16LE de 275 Ko, contenant 3298 phrases, prend 4,5 secondes sur un PC Core 2 Duo sous Ubuntu à 2,4 Ghz et produit analyses pour séquences reconnues. Une fois cette étape terminée, la construction des automates de phrase prend 3 secondes. Sur un texte de 10 Mo contenant phrases, l'application prend 1m37s pour analyses correspondant à séquences reconnues. La construction des automates de phrases prend 4m8s. Malgré l'augmentation de complexité par rapport aux mécanismes utilisés pour les langues non agglutinantes, ces temps de traitement sont tout à faits acceptables pour des besoins applicatifs. Il nous manque encore une évaluation humaine complète du dictionnaire produit pour le coréen pour vérifier qu'il ne contient pas d'erreurs, mais la mise en œuvre complète du système sur des données à grande échelle a d'ores et déjà permis de faire la preuve de sa viabilité. 4. Conclusion Le modèle de système de dictionnaire que nous avons construit pour le coréen offre plusieurs avantages. Il est simple à utiliser, car les différentes données sont toutes éditables aisément sous une forme graphique, ce qui est particulièrement utile pour décrire la combinatoire des postpositions. Ainsi, toute la complexité a été transféré des données vers les programmes chargés de les manipuler, ce qui fait que les utilisateurs linguistes n'ont besoin d'aucune compétence particulière pour maîtriser un formalisme de description complexe. De plus, la technique mise en oeuvre peut être directement réutilisée pour les autres langues agglutinantes. Cela a notamment déjà été le cas pour gérer des cas d'agglutination en arabe (Neme 2011). Cette technique a également été étendue avec succès au traitement des mots composés du coréen, pour lequel la procédure de flexion reprend une partie de la flexion des mots simples. Enfin, tous les mécanismes utilisés sont pleinement opérationnels et diffusés dans le logiciel libre Unitex. 216

223 Références Beesley, K., Karttunen, L Finite State Morphology. CSLI Publications. Courtois, B Un système de dictionnaires électroniques pour les mots simples du français, Langue Française 87, Paris: Larousse, pp Gross, M La construction de dictionnaires électroniques. Annales des Télécommunications, tome 44, nø 1-2, pp. 4-19, Issy-les-Moulineaux/ Lannion: CNET. Han Ch. H., Palmer, M A Morphological Tagger for Korean: Statistical Tagging Combined with Corpus-based Morphological Rule Application. MT journal. Huh, H.-G Délimitation et étiquetage des morphèmes en coréen par ressources linguistiques. Thèse de doctorat. Université de Marne-la-Vallée. Koskenniemi, K A general computational model for word-form recognition and production. In Proceedings of the 10th international Conference on Computational Linguistics and 22nd Annual Meeting on Association For Computational Linguistics (Stanford, California, July 02-06, 1984). Annual Meeting of the ACL. Association for Computational Linguistics, Morristown, NJ, Lee, C.-Y La construction de lexiques de formes fléchies et l'analyse morphologique du coréen. Thèse de doctorat. Université Paris 7. Nam, J.-S Construction of the Sub-modules of Korean Electronic Dictionary of Nouns DECO-N. HUFS Dissertations N-34. Hankuk University of Foreign Studies. Korea Nam, J.-S Some issues on the construction of the electronic lexicon of Korean adjectives. Language Research Seoul National University. Korea Nam, J.-S Inflection of Korean Verbs and Adjectives DECOP. Parkleejung Publishing Company. Korea. Neme, A A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers. (accepted for WoLeR 2011) Paumier, S Unitex 2.1 User Manual. Revuz, D Dictionnaires et lexiques: méthodes et algorithmes. Thèse de doctorat. Université Paris 7. Roche, E., Schabès, Y. (eds.) Finite-State Language Processing. Cambridge, Mass./ London, MIT Press. Silberztein, M Dictionnaires électroniques et analyse automatique de textes le système INTEX. Masson. Paris. Silberztein, M INTEX: a Finite State Transducer Toolbox. Theoretical computer science. Vol 231:1, pp

224 218

225 Piot Mireille Université de Grenoble SYNTAXE VS PHONOLOGIE DANS LA FORMATION DU SYSTEME ROMAN DES CONJONCTIONS DE SUBORDINATION : LA QUESTION DES ORIGINES DES COMME ET DE LEURS EQUIVALENTS ROMANS Résumé La conjonction quomodo latine est considérée depuis les débuts de la linguistique romane comme à l origine non seulement de la conjonction comparative comme et de ses équivalents romans mais aussi des conjonctions homonymes temporelles et causales (et leurs équivalents romans) sur la base d explications de type (morpho-)phonologiques (assorties d a priori sémantiques). Nous remettons ici en cause cette origine commune pour les homonymes temporelles et causales (pour lesquelles nous envisageons l hypothèse cum) en nous appuyant sur l existence de phénomènes tant anciens que contemporains caractérisant leur comportement syntaxique et les différenciant de la comparative. Mots-clés: romanistique, phonologie, syntaxe, sémantique, étymologie. Nous abordons ici une question qui a soulevé différents avis et débats parmi les romanistes de la grande époque (dont nous rendons compte dans notre première partie) mais qui ne souffre plus aucune discussion aujourd hui : la quasi-totalité des linguistes notamment français se ralliant à une vision unique et unitaire de l origine et de l analyse de comme et de ses équivalents romans dans leurs différents emplois, solution qui offre le choix de la facilité en s abstrayant de la réalité des phénomènes syntaxiques trop souvent ramenés à des considérations par analogie calquant le latin. Nous avions exposé au cours d un récent Hommage (cf. notre article 2009) certains comportements très différents de comme comparatif vs modalisateur et de leurs équivalents romans (avec une totale analogie entre le français, l espagnol et l italien) qui ont amené de la part de notre collègue G. Kleiber la réflexion que comme était une question d une complication extrême et que les sémanticiens qui parlaient de la polysémie de comme étaient dans une erreur profonde. Les travaux plus récents (2010a et 2010b) que nous avons mené sur les mêmes items romans mais sur leurs différents emplois conjonctifs, avec les valeurs de comparaison, temps, cause, viennent à l appui des mêmes conclusions. Et, en particulier, il ressort du dernier (Piot, 2010b) qu une propriété syntaxique particulière du français 1 individualise (en les regroupant) le comportement de comme temporel et celui de comme causal d une part, du comportement de comme comparatif d autre part : ce qui remet évidemment en cause la doxa actuelle polysémique attribuant à un item unique (quomodo) l origine de toutes ces valeurs. D autres propriétés syntaxiques communes à toutes ces langues romanes, le plus souvent dans des états anciens mais parfois encore actuels, concourent à fonder cette remise en cause. Nous reprenons, dans la seconde partie de la présente étude, pour les expliciter, l ensemble de ces phénomènes syntaxiques. 1 Reprise de nos travaux antérieurs (1978, 1988 et 1995) 219

226 1. Les travaux anciens sur comme et ses équivalents romans Nous reprenons ici les termes de la problématique très ancienne qui a agité au siècle précédent les comparatistes des langues romanes essentiellement sur la base de considérations morpho-phonologiques. Or, si celles-ci ont été alors assurément très bien menées, elles l ont été sur des matériaux par essence soumis à variations et lacunaires : les textes de toutes origines parvenus jusqu à nous des premiers siècles du latin tardif et de la période d essor des langues qui en sont issues. Ce qui permet des décisions arbitraires sur la persistance ou la disparition de certaines formes et items. Nous faisons aussi le point de ces travaux sur la question qui nous préoccupe dans la mesure où certains d entre eux nous apparaissent peu mis en valeur ou totalement oubliés de nos contemporains, au moins dans la vulgate francofrançaise 2 où les vues exprimées par le FEW et en particulier par l œuvre de P. Imbs (1956) semblent primer totalement sur le sujet 3. Diez (1870) donne pour origine du como (etc.) comparatif du roman le latin quomodo, le passage de l une à l autre forme s expliquant phonologiquement de manière très simple par perte de la syllabe finale. Et il signale, de plus, sans s y attarder, qu «un synonyme de quando est la particule comparative come, como, comme, cum» 4. L erreur originelle est sans doute là. Le choix de quomodo, plutôt que cum (prétendument disparu à la fin de l époque latine), s explique à peu près uniquement pour lui comme pour ses immédiats successeurs par l impossibilité d expliquer autrement que par cette perte de syllabe la présence du [o] final de la forme como (la plus répandue dans l aire romane) ; l éventail des valeurs sémantiques de quomodo et de cum étant les mêmes à la fin du latin tardif. Cependant les variantes formelles come et coma vont également donner lieu à discussion, et l on s étonne que les solutions envisagées pour ces dernières ne l aient pas également été pour résoudre la première. Les débats et l enrichissement sur l analyse des formes reviennent, en effet, à ses successeurs romanistes européens et français. Nous citerons parmi ceux-ci les travaux de J. Vising (1895), J. Jeanjaquet (1894), J. Pirson (1908) et le Dictionnaire Général (Hatzfeld, Darmesteter et Thomas, 1890). Vising et Pirson en particulier apparaissent comme particulièrement intéressants dans la mesure où, travaillant sur l ensemble des langues romanes, ils mettent de plus en correspondance des alternances de formes morphophonologiques avec des variations dans les contextes syntaxiques. J. Vising (1895) 5, à la suite des relevés et analyses effectués par lui-même et ses contemporains sur les textes les plus anciens des différentes langues de la romanité, met en valeur des variations de formes de l item comparatif selon que celui-ci introduit une phrase (à verbe tensé) : com/cum, con, como, cuemo, cum (fr., prov, it., esp., port., roum.) ou bien un syntagme nominal (ou équivalent pronominal) : com(m)e, coma (Cf. les exemples de notre exemplier). Il propose pour origine de la variante com(m)e l existence d une séquence (déjà supposée par d autres à partir de dérivations phonologiques) quomodo et (avec fusion des deux particules) tandis qu il suppose comme origine pour coma la séquence quomodo ad (selon le même procédé). Pirson, reprenant les analyses de Vising, indique que l hypothèse de la présence de ad pour la variante coma est refusée par A.Tobler (1895) arguant du fait que le provençal aurait dérivé aussi en ce cas comaz (devant voyelle) à côté de coma (devant consonne). Finalement Schuchardt (1899) révisant sa propre première hypothèse (et celle de 2 Tel n est pas le cas, en revanche, d autres traditions linguistiques comme celles du Dicionario de dicionarios do Galego Medieval 3 Alors que les extrapolations de Imbs à partir du français à l ensemble des langues romanes peuvent être justement soumises à critiques si l on considère les évolutions et phénomènes précis de ces langues (cf. par exemple Herman, 1963, à propos de l espagnol). 4 Pour exprimer le temps, p. 318, T. III de la traduction française. 5 Cité par le Dicionario de dicionarios do galego medieval. 220

227 Vising) pour tenir compte de l argument de Tobler est amené à proposer quomodo ac qui ne contrevient pas aux règles de dérivation phonologiques du provençal, du portugais ou de l ensemble des langues romanes ; l emploi de ac se retrouvant par ailleurs déjà à l origine du a de la locution dialectale de l italien ancien va a ddormi. En latin tardif, comme rappelé ci-dessus, quomodo prend aussi une valeur temporelle, puis une valeur de cause que quando avait également (malgré sa valeur d origine exclusivement temporelle). Et Pirson (1908) d ajouter que «la conjonction quomodo devenue quomo et como dans la langue parlée, risquait fort de se confondre avec cum, quand elle eut adopté la valeur temporelle et causale. Et il semble bien que la confusion ait eu lieu à en juger par [des exemples de textes où l une ou l autre des deux conjonctions est utilisée selon la variante de copie du même texte]». La même vision s exprime chez Jeanjaquet (1894) : «Mais l idée [temporelle] de quomodo pouvant s exprimer simplement par quo (co), la fusion avec cum (co) était très facile. C est du mélange de ces divers éléments qu est sorti l usage temporel de come, como, cum. Il est donc exagéré de rapporter uniquement à cum le comme temporel français, comme le fait le Dictionnaire Général de Darmesteter, Hatzfeld et Thomas (s.v. comme 2)». Et d ajouter sans le moindre argument (ni phonologique, ni morphologique, ni syntaxique): «La plus grande part revient bien plutôt à quomodo». Nous n avons pu retrouver jusqu ici dans leurs œuvres les raisons du choix opéré par Darmesteter et Thomas, fins romanistes, mais les propriétés syntaxiques que nous examinerons en seconde partie font que nous inclinons à penser que leur option (privilégiant cum comme origine pour les valeurs temporelle et causale ) se révèle tout à fait fondée si l on considère la syntaxe. Mais dans la tradition, à la suite de leurs contradicteurs, toutes les discussions sont totalement axées sur l évolution à partir de quomodo pour rendre compte des différentes formes observées dans les différentes langues romanes, alors même que la dérivation à partir de cum, morpho-phonologiquement moins problématique (sauf pour la variante como nonepliquée), est totalement refusée. Malheureusement, la postérité contemporaine voit le renforcement de l hypothèse quomodo, jusqu aux positions non étayées mais sans appel de J. Herman (1963) : «Contrairement aux particules che, que, ca, co, etc., aucune difficulté étymologique ne se présente dans le cas des formes romanes cuemo, come, cum, com, etc. : il est hors de doute que toutes ces formes remontent à quomodo» (toujours sans preuve factuelle, contrairement aux habitudes de ce grand linguiste). Et la tradition actuelle française sur l ancien et le moyen français depuis Imbs (1956) jusqu à Kuyumcuyan (2006) répète à l envi cette affirmation, allant jusqu à expliquer certains phénomènes syntaxiques des états anciens (l emploi du subjonctif pour comme temporel ou causal ) par une aberration des copistes médiévaux faisant un calque sur le cum du latin, alors même que cet emploi perdure contemporainement dans le cas de l une des langues romanes (l espagnol, pour le como causal actuellement seulement dans le registre narratif ou littéraire 6 ). Cette manière de négliger ou de tordre totalement tout phénomène syntaxique (y compris contemporain) allant contre cette thèse, sans argumentation étayée, nous paraît relever du domaine de la foi. Cette cécité nous paraît provenir d a priori mettant l accent au départ sur les explications de type phonologique, puis surtout par la suite sur une vision sémanticienne par essence (la polysémie) associée au défaut de ne plus considérer les phénomènes romans sur l ensemble de ces langues mais uniquement dans une perspective intralinguistique dont témoignent les travaux français actuels. 6 Cf Bosque/Demonte (2000), pp

228 2. Les propriétés syntaxiques de comme temporel / comme causal Vs comme comparatif, et leurs équivalents romans Les propriétés auxquelles nous nous attachons exclusivement ici (nous avons examiné ailleurs de près l ensemble des propriétés caractérisant les différents emplois de ces items en les comparant, Piot 2010a et Piot 2010b) sont uniquement les suivantes : - (2.1) une propriété non abordée ni analysée dans nos travaux précédents : l emploi du subjonctif dans les subordonnées en comme temporel et surtout comme causal (et équivalents romans) dans les états anciens des principales langues romanes que nous considérerons : français, espagnol et italien. Nous aborderons également la survivance de cette propriété en espagnol contemporain pour l item causal. - puis (2.2) la propriété spécifique du français d une pro-forme conjonctive dans le cas de comme temporel et de comme causal vs son impossibilité dans le cas de comme comparatif Le subjonctif dans les subordonnées temporelles et causales en comme/ como/come La présence et l évolution des valeurs sémantiques de cause et de temps associées aux items romans comme/ como/come ne semblent pas se dérouler selon le même schéma si l on considère les trois langues envisagées : l expression de la cause apparaît comme beaucoup plus ancienne que celle du temps en espagnol ancien (Vising 1895 et Herman, 1967), alors que l inverse est vrai pour le français (la cause n apparaissant vraiment qu en moyen français vers le XIV-XVèmes siècles) ; enfin les deux valeurs semblent coexister en italien ancien (come de temps très présent chez Dante ; avec déjà des formes marquées différemment (come et (co)sí come) et des propriétés identiques à celles des emplois modernes, hormis la question du subjonctif. Les propriétés syntaxiques de position des phrases conjointes sont les mêmes entre l état ancien et l état contemporain pour les trois langues : antéposition souvent préférée mais non exclusive pour les subordonnées de temps : (1) a Commo asmaba Oria a su entendimiento, / oió fablar a Christo" (Oria, 88a). b Comme ils eüssent soupé et qu il y avoit largement gens. (Commynes, I, 5.) c Come voi scontrate Benvenuto, ditegli (Vita, 1, LXI, p.118, r.1). Com' io al piè de la sua tomba fui, / guardommi un poco, e poi, quasi sdegnoso, / mi dimandò: «Chi fuor li maggior tui?». (Dante, Commedia, Inf. 10, p. a163, vv ) alors que cette antéposition est absolument obligatoire pour les subordonnées de cause (Mazzoleni 2006 allant jusqu à définir ce caractère obligatoire comme celui d une rigidité cataphorique ) : (2) a En tod esto, como el rey don Alfonso de Castiella ouiesse pusto de guerrear a don Alffonso rey de Leon con mayor crueleza que fasta alli, vde los grandes omnes de los regnos...metieronse en medio (Primera Crónica General de Espaňa) 222

229 b Et comme li dis Jehans eust bien la basse justice et la demande fust reele, a li apartenoit bien ceste connoissance de connoistre qui avoit droit en l eritage. (Coutume du Bauvaisis, VI-233) 7 c Sì [così] come [=> poiché] il folle e l pigro non puote avere neuno bene, così il savio uomo non puote avere alcuno male. (Fiori e vita di filosafi, cap. 20, rr ) Mais ces propriétés n interviennent pas a priori pour la définition de l origine de ces items (cum ou quomodo pour les valeurs de temps et de cause ), dans la mesure où les questions d ordre et de position des subordonnées en latin dans le cas de l un et l autre item nous sont peu connues ou difficiles à cerner au travers de corpus soumis à variation. En revanche, la question de l emploi du subjonctif dans ces subordonnées est un phénomène dûment connu et relevé comme caractéristique du cum latin et non de quomodo. Or, dans les subordonnées de temps et surtout de cause les exemples romans abondent d exemples d emploi de ce mode dans l un et l autre cas. Mais les tenants de la solution quomodo les récusent en les prétendant œuvres de copistes ou de traducteurs du latin calquant sur cum (historicum) latin les exemples romans, en bref œuvres et lubies de littérateurs et non tendance profonde de la langue. Voir notamment les exemples de Imbs (1956), Herman (1963) pour la tradition française, et la récapitulation fournie par Ridruejo (1981) pour l espagnol, alors que les spécialistes de l italien ancien : soit campent sur les mêmes positions (Blücher 1967 par exemple), soit négligent totalement d évoquer le problème (entre autres, Mazzoleni 2006). Seule exception notable : l hispaniste américain Keniston (1937) qui s insurge contre le procès en création littéraire et culte et affirme que l emploi du subjonctif dans les subordonnées de cause en espagnol concerne aussi bien des textes littéraires que des textes d origine populaire. La permanence contemporaine de cet usage en espagnol dans des textes littéraires et/ou narratifs est attestée jusque par Bosque/Demonte (2000) avec des exemples y compris forgés tels que : (3) Como nadie (propuso/propusiera) ninguna enmienda, se efectuó directamente la votación Pour l italien, une indication intéressante en faveur de l hypothèse cum pour le temps est fournie par une observation de Blücher (1967) faisant le parallèle entre les subordonnées de l italien introduites par come prima (ou come pria) et le correspondant latin cum primum alors que quomodo prima (ou primum) apparaît non attesté. Même s il fait ensuite la supposition que cette dernière séquence s est directement substituée à cum primum sans en avoir la moindre attestation, pour conserver l hypothèse ou plutôt la solution quomodo. Pour résumer la situation de l emploi du subjonctif dans les subordonnées de nos trois langues : - en ce qui concernent les subordonnées de temps romanes les plus anciennement attestées (ce que montrera notre exemplier), à savoir pour le français et pour l italien, la situation est la même : à côté de l emploi de l indicatif pour tous les autres temps, le subjonctif est observable (et même pour d autres temps que ceux observés, imparfait et plus que parfait, en présence du cum latin). Cet emploi étant très tardif pour l espagnol ne semble pas avoir 7 Les exemples de comme causal en ancien français sont rarissimes : Hermann (1963) en signale une dizaine douteux (confondus avec l emploi comparatif), Bertin (1997) ne les rencontre que dans des textes didactiques d origine savante (dont l exemple ci-dessus) ou des traductions, et cette rareté perdure jusqu encore en moyen français. 223

230 suscité de relevé d attestations, mais l usage du subjonctif étant très présent y compris actuellement dans les autres subordonnées temporelles dans cette langue, il ne s agirait pas là d un cas anormal. -en ce qui concerne les subordonnées de cause romanes les plus anciennement attestées : pour l espagnol, l on observe la possibilité d emploi de l indicatif comme du subjonctif (y compris contemporainement dans des textes narratifs ou littéraires) avec un plus grand éventail de temps verbaux (comme dans le cas du cum latin) ; pour l italien, tous les exemples recueillis indiquent l emploi de l indicatif, mais peut-être est-ce faute d un intérêt particulier ou d une recherche approfondie dans les corpus sur le problème du mode dans ces subordonnées par les spécialistes de la période? Quant au français, où cette valeur apparaît tardivement pour comme, l emploi du subjonctif est plutôt la règle, l indicatif y apparaissant exceptionnellement, ce que montreront les exemples recensés (notamment Bertin 1997). Malgré certaines analogies de comportement, il semble bien qu il faille voir des stratégies linguistiques particulières à chacune de ces langues La pro-forme conjonctive spécifique du français Nous avons mis en évidence (Piot 1988) que l emploi de la pro-forme conjonctive que pour éviter la répétition de la même conjonction de subordination en tête de deux subordonnées coordonnées vaut pour toutes les conjonctions de subordination du français, dont quand, comme et si, et les différencie des items homonymes (relatifs) présents par exemple dans les constructions interrogatives indirectes et apparentées. Or, ce trait caractérise comme temporel : (4) Comme il arrivait et comme il trébuchait, le coup est parti =Comme il arrivait et qu il trébuchait, le coup est parti aussi bien que comme causal : (5) Comme il se fait tard et comme vous êtes seule, je vous raccompagne chez vous = Comme il se fait tard et que vous êtes seule, je vous raccompagne chez vous Au contraire, en cas de répétition de comme comparatif en français (contrairement donc à tous les items conjonctifs d autres classes de conjonctions du français), s observe l absence d une telle possibilité de substitution : (6) Tu feras comme lui l a fait et comme nous te le dirons Tu feras comme lui l a fait et *que nous te le dirons Ce dernier trait nous paraît remettre particulièrement en cause la nature du comme comparatif comme identique à celle des autres comme subordonnants et son caractère originel par rapport à ces derniers. Visiblement, le comme comparatif possède une individualité qui ne permet pas sa reprise par que, au contraire des deux autres dont l origine pourrait être rapprochée par un même étymon. 224

231 Conclusions Un problème important résulte de la confrontation que nous avons menée entre les items come/comme/como correspondant aux trois valeurs étudiées ici : quelle est l origine de la différence de comportement syntaxique manifeste et très importante entre la valeur "comparative" d une part et les valeurs "temporelle" et "causale" d autre part, notamment visà-vis de la possibilité de substitution par une pro-forme de ces items? Sans compter les autres propriétés observées qui les différencient. Il nous semble fondamental, à la lumière des phénomènes syntaxiques observés, que l hypothèse d un étymon unique quomodo soit très sérieusement révisée, de même que soit remis en cause le refus total de l hypothèse cum, exclue pour de simples raisons phonologiques. De même nature nous semble être l hypothèse courant dans la doxa, notamment française, d un calque de l emploi de cum et du subjonctif du latin classique par les lettrés du Moyen-Age pour expliquer les formes du subjonctif existant dans les états anciens et parfois encore contemporain des langues romanes de ce mode associé aux valeurs "temporelles" et "causales" de come/comme/como au lieu de les admettre comme une possible hérédité de cum (d ailleurs diversement reprise par les différentes langues romanes) transmise par le latin tardif. Références Bertin, Annie (1997) L expression de la cause en ancien français. Genève : Droz. Blücher, Kolbjorn (1967) Come nel toscano antico. In Revue Romane, Vol.2., p Bogard, Sergio (1994) Las oraciones causales en el espaňol medieval.in: Nueva revista de Filología Hispánica, XLII, 1. p Bosque, Ignacio / Demonte, Violeta (2000) Gramática descriptiva de la lengua española. (3 vol.) Real Academia Española, Colección Nebrija y Bello. Madrid : Espasa Calpe. Corpus del español (Mark Davies), Corpus OVI dell Italiano Antico : Dicionario de dicionarios do galego medieval : sli.uvigo.es/ddgm/ Dictionnaire de l occitan médiéval : DMF : Hatzfeld, Adolphe- Darmesteter, Arsène- Thomas, Antoine ( ) Dictionnaire général de la langue française du commencement du XVIIe siècle jusqu'à nos jours. Paris : Delagrave. 2 vol. Herman, Josef (1963) La formation du système roman des conjonctions de subordination, Berlin, Akademie - Verlag. Huguet, Edmond (1932) Dictionnaire de la langue française du XVIème siècle. Paris : Librairie Champion. Imbs, Paul (1956) Les propositions temporelles en ancien français. Paris : Publications de la Faculté des Lettres de l'université de Strasbourg. Jeanjaquet, Jules (1894) Recherches sur l origine de la conjonction que et des formes romanes équivalentes. Diss. Paris-Leipzig-Neuchâtel : Welter- Fock- Attinger frères. 103 p. Keniston, Hayward (1937) The Syntax of Castilian Prose.The Sixteenth Century. Chicago : Kuyumcuyan, Annie (2006) Comme et ses valeurs : le point de vue historique (XIVe - XVIe siècles). In: Langue française, 149, Mazzoleni, Marco (2006) Le congiunzioni subordinanti (sì) come e secondo che in italiano antico. In: Cuadernos de Filología Italiana, vol. 13, MENARD Philippe (1997), «Remarques sur certains emplois de com(me) en ancien français», in M. Riegel & G. Kleiber (eds), Les formes du sens. Études de linguistique française, médiévale et générale offertes à Robert Martin à l occasion de ses soixante ans, Paris, Duculot : Moellering, William (1943) The function of the subjunctive mood in como clauses of fact. In Hispania, Vol. 26, No. 3, Oct., Moignet, Gérard (1959) Essai sur le mode subjonctif en latin post-classique et en ancien français. Paris : PUF. 2 vol. Mosteiro Louzao (1999) Las conjunciones de causa en castellano medieval. Origen, evolución y otros usos. Santiago de Compostela : Verba, Anuario Galego de Filoloxia, Anexo 45. Piot, Mireille (1978) Etudes transformationnelles de quelques classes de conjonctions de subordination du français. Thèse de 3ème cycle, Université Paris 7 et LADL ; 475 p. Piot, Mireille (1988) : Coordination-subordination : une définition générale. Langue 225

232 Française, 77, 'Syntaxe des connecteurs' (éds. Gaston Gross- Mireille Piot); février 1988; pp.3-18 Piot, Mireille (1995) Composition transformationnelle de phrases par subordination et coordination. Thèse d'etat ès Lettres et Sciences Humaines, Université Paris 7 et LADL, 426 p. / (1998) Editions du Septentrion, Coll. «Thèse à la carte». Piot, Mireille (2009) Come, Comme, Como : de la modalité de phrase à la modalité discursive. In: Recueil de contributions scientifiques: "Panorama des études en linguistique diachronique et synchronique. Mélanges offerts a Józef Sypnicki", Łask: Oficyna Wydawnicza LEKSEM. Piot, Mireille (2010 a) Les tables. La grammaire du français par le menu. Hommage à Christian Leclère. T.Nakamura, C. Fairon, A. Dister et E. Laporte (eds). Cahiers du Cental, 6, Piot, Mireille (2010 b): Diversité de comme et de ses équivalents espagnols et italiens. (à paraître, in Actes du XXVIe Congrès International de Linguistique et de Philologie Romanes (València, Espagne). Pirson, J. (1908) Quomodo en latin vulgaire, In Philologische und volkskundliche arbeiten Karl Vollmüller zum 16. oktober 1908/ hrsg von Karl Reuschel und Karl Grüber. P RAE, CORDE, Corpus diacrónico del Español, ; Renzi, Lorenzo / Salvi, Giampaolo (2007) Grammatica del italiano antico. (3 voll.) Bologna : Il Mulino. Ridruejo, Emilio (1981) Como + subjuntivo con sentido causal. Logos Semantikos, Vol. IV : Gramatica, p Madrid/ Berlin : Gredos/ de Gruyter. Schuchardt, Hugo (1899) In ZRPh (Zeitschrift fur romanische Philologie), 23, p Sornicola, Rosanna (2003) Aspetti sincronici e diacronici delle funzioni coordinative e avverbiali di come, con particolare riguardo all area italiana meridionale In Bollettino Linguistico Campano, N ¾, pp Tobler, Adolf (1895) In : ASNS (Archiv für das Studium der neueren Sprachen), 95, p Velando Casanova, Mónica (2005) Las estructuras comparativas con como en la crónica medieval: de Alfonso X a López de Ayala, Col.lecció Estudis Filològics, N 21, Castelló de la Plana : Publicacions de la Universitat Jaume I. Vising, Johan (1895) Quomodo in den romanischen Sprachen ;In Abhandlungen Herrn Pro. Dr.Adolf Tobler. Halle. Réédition 1974, Genève : Slatkine reprints. P

233 Ranaivoson Jeannot Fils Université d Antananarivo, Madagascar jfranaivoson@yahoo.fr Andriamise Lakoarisoa Université d Antananarivo, Madagascar lakoandriamise@yahoo.fr LES VALEURS SEMANTIQUES DES SUPPORTS EN MALGACHE Résumé Les valeurs sémantiques des supports n'ont pas encore été bien approfondies par les grammairiens du malgache. Cette communication a pour objectif d'ouvrir le champ d'investigation pour combler cette lacune. Dans la première partie, nous dressons un rapide bilan des travaux faits en matière d'étude des supports dans la langue malgache. La seconde partie présente la méthodologie adoptée. La troisième partie est consacrée à l'étude d exemples de valeurs sémantiques des supports. Cette étude a permis d'une part, de mettre au jour des valeurs sémantiques insoupçonnées des supports et d'autre part, de constater que malgré une régularité avérée de leur fonctionnement sémantique, les supports ne se laissent pas appréhender de façon globale. Mots-clés: malgache, valeurs sémantiques, aspect intensif, aspect intrinsèque, aspect volontaire. Introduction. Les supports n ont pas, jusqu à présent, reçu l attention qu ils méritent en malgache 1, malgré les quelques études dont ils on fait l objet 2. La présente étude, menée dans la perspective d enrichissement de la langue malgache en structures exploitables en néonymie, sera consacrée à l éclaircissement leur fonctionnement sémantique. 1. La grammaire malgache et la notion de support : les acquis et les lacunes Les aspects formels du problème des supports ont été largement décrits par les lexicogrammairiens du malgache. Les supports élémentaires ont été inventoriés. Les opérations qui entrent en jeu dans les nominalisations sont connues. Les contraintes structurales et distributionnelles dans la mise en relation des phrases à verbe ou adjectif ordinaire avec celles à support ont été étudiées 3. Cependant, les aspects sémantiques du sujet n ont pas été approfondis. Les valeurs sémantiques des supports élémentaires ont été ignorées et celles de leurs extensions n ont été abordées qu incidemment. Il en est ainsi du passage suivant «Ces extensions ont, pour la plupart, une valeur d'hyperbole comme mamely dans mamely hazakazaka i Be» (RANAIVOSON J. F., 1996 (b)). Or, l observation des habitudes discursives des sujets parlants révèle que le recours à des structures à support n est pas aussi automatique qu on le croyait, même si aucune règle grammaticale ne s y oppose ; que même les supports dits élémentaires apportent la plupart du temps une valeur sémantique supplémentaire aux prédicats qu ils affectent. Les exemples suivants illustrent ce constat. Grammaticalement, la relation : (1a) Manoratra taratasy ho ahy i Soa (Ecrire lettre pour moi Soa) (Soa m écrit une lettre) 1 Langue de la famille malayo-polynésienne parlée à Madagascar. 2 Ces études ont été faites dans le cadre d un mémoire de maîtrise (RAZANAJATO L. de G., 1982, d un doctorat de troisième cycle (RANAIVOSON J. F. 1996(a)) et d un doctorat nouveau régime (RANAIVOSON J. F. 1996(b)). 3 Voir pour cela les ouvrages consacrés à la lexique-grammaire du malgache donnés dans la bibliographie. 227

234 = (1b) Manao fanoratana taratasy ho ahy i Soa (Faire écriture lettre pour moi Soa) est envisageable, mais personne n emploierait la phrase (1b). Cette phrase, tout à fait grammaticale, peut servir dans l explication de la nominalisation de manoratra (écrire) en fanoratana (action d écrire) mais n est pas et ne sera probablement jamais attestée dans un texte ou dans une conversation. Et pourtant, la relation : V N 1 Prép N 2 N 0 = Vsup V-n N 1 Prép N 2 N 0 dans laquelle entrent (1a) et (1b) est usuelle. Dans les phrases reliées (2a) Mamboly hazo Rakoto (Planter arbre Rakoto) (Rakoto plante (un + des) arbre(s)) = (2b) Manao fambolena hazo Rakoto (Faire plantation arbre Rakoto) (Rakoto fait un reboisement) La phrase verbale (2a) exprime, à l intuition, une action ; la phrase nominale (2b) une activité, c est-à-dire «(un) ensemble des actes coordonnés et des travaux de l être humain, fraction spéciale de cet ensemble» (Le ROBERT, 1977). Il semble que la relation V = manao V-n a lieu si et seulement si V-n (E + N 1 ) est l expression d une activité. C est justement l absence de ce sens spécifique qui rend la phrase (1b) ci-dessus discursivement bizarre. La langue ne conçoit pas que le fait d écrire une lettre à une personne soit une activité. Par contre fambolen-kazo (plantation d arbres, reboisement) en est indubitablement une. La non automaticité de la relation Adj = VsupAdj-n est illustrée par l exemple suivant : (3a) Adala iny zaza iny ((Fou + Sot) cet enfant là) = (3b) Misy hadalana iny zaza iny (Il y a folie cet enfant là) La phrase (3a) présente deux interprétations : soit «cet enfant est fou, aliéné», soit «cet enfant est sot, turbulent». Dans sa première interprétation, elle n est pas reliée à (3b) 4. Dans sa deuxième interprétation, elle l est et la phrase nominale comporte l aspect intensif. (3b) se traduit exactement par «cet enfant (est très turbulent + est extrêmement sot)». Manao (faire) et misy (il y a) sont des verbes supports élémentaires, donc théoriquement vide de sens. Les contenus sémantiques des prédicats nominaux qu ils affectent prouvent pourtant qu ils apportent des nuances aspectuelles absentes dans les formes verbales ou adjectivales correspondantes. L emploi des supports est aussi motivé sur le plan discursif. Prenons pour illustration le verbe mangataka (demander) et le nom prédicatif supporté manao fangatahana ((faire + adresser) une demande). En variant les caractéristiques des arguments, on bloque parfois relation la relation V = Vsup V-n : (4) Raha tsy manam-bola ianao (mangataha +??manaova fangatahana ) any amin-drainao (Si tu n as pas d argent (demande + adresse une demande) à ton père) 4 Malgré leur identité formelle les adjectifs adala (fou, aliéné) et adala (turbulent, sot), divergent dans leurs comportements syntaxiques. Si la forme a le sens de «fou, aliéné» l expression de l aspect intensif est assumée par l auxiliaire tena (en vérité, complètement) : tena adala (complètement fou) ou l adverbe tanteraka (complètement) : adala tanteraka (complètement fou) à l exclusion de l adverbe be (beaucoup, très). Adala be est attesté mais signifie «très turbulent, insensé» et non pas «*très fou». Si elle a le sens de «turbulent, sot» le même aspect intensif est exprimé soit par l adverbe be (beaucoup, très) : adala be (très turbulent, très sot), soit par le couple VsupAdj-n : misy hadalana ((très + extrêmement) (turbulent + sot)), à l exclusion de l auxiliaire tena (complètement) et de l adverbe tanteraka (complètement). Tena adala et adala tanteraka n ont qu une seule interprétation : «complètement fou» mais pas «complètement (*turbulent, sot)». 228

235 (5) Raha tsy manam-bola ianao (??mangataha + manaova fangatahana) any amin ny banky (Si tu n as pas d argent (demande + adresse une demande) à la banque) (6) Raha tsy manam-bola ianao (mangataha + *manaova fangatahana) any amin ny arabe (Si tu n as pas d argent (demande + *fait une demande) dans la rue) On constate que le prédicat verbal est employé pour l expression des actes banaux, le prédicat nominal pour celle des actes institutionnels ou institutionnalisés qui requièrent une certaine solennité. Les valeurs discursives des supports ne sont pas l objet de la présente étude. Nous tenions seulement à signaler leur existence dans la langue malgache. Leurs valeurs aspectuelles seront discutées dans les pages qui suivent. 2. Position du problème et méthodologie adoptée pour le résoudre Les prédicats nominaux à support 5 sont toujours plus longs que les prédicats verbaux ou adjectivaux correspondants. Y recourir va donc à l encontre du principe même d économie. Résultant d un choix et grammaticalement non contraint, l emploi des supports est nécessairement significatif sur un plan ou sur un autre. Le problème est de connaitre la motivation du choix, autrement dit les valeurs sémantiques des supports eux-mêmes. L appréciation de ces valeurs se fera, toutes les fois qu il est possible, par comparaison des phrases nominales à support avec les phrases verbales ou adjectivales correspondantes. Pour cela, des constituants lexicaux non essentiels de syntagme comme les auxiliaires aspectuels, les adverbes ou locutions adverbiales seront mis à contribution. Dans les cas des noms prédicatifs autonomes, c est-à-dire non associées ni à des formes verbales ni à des formes adjectivales, la méthode est évidemment inopérante. Dans tous les cas, étant obligatoires, les supports élémentaires de ce type de nom sont sémantiquement neutres et équivalent exactement à des affixes. Il en est ainsi de manao (faire) dans manao baolina (jouer au ballon). Baolina (ballon, jeu de balle, match de football) n a pas de verbe qui lui soit morphologiquement associé. *Mibaolina ou *Mambaolina 6 sont absents du lexique. Manao ne fait qu actualiser baolina et apporte les valeurs temporelles, diathétiques et aspectuelles (duratif, non résultatif) normalement exprimées par les affixes. 3. Quelques valeurs sémantiques des supports en malgache Les valeurs sémantiques des supports qui seront l objet de la présente étude ne sont pas les seules qui existent dans la langue malgache. Tout au plus, ce sont des échantillons permettant de prendre conscience de l existence des variations aspectuelles consécutives à la nominalisation par support. Les valeurs sémantiques ci-dessous énumérées sont habituellement exprimées lexicalement dans les phrases verbales ou adjectivales, à l exception de l aspect intrinsèque/extrinsèque qui est inhérent à la relation entre le sujet et sont état. Dans ce cas précis, les supports font office d éléments révélateurs L aspect intrinsèque vs extrinsèque Misy (il y a) est le verbe support élémentaire de la plupart des noms prédicatifs issus d adjectifs en malgache. Il a contextuellement le verbe manana (avoir) et l adjectif feno (plein) pour extensions. Tous les trois apportent au nom qu ils supportent une nuance d intensité, comme on le verra ci-dessous (3.3.) 5 En malgache, un nom prédicatif peut être actualisé soit par un verbe soit par un adjectif, comme dans manampitiavana ny olombelona izy (avoir amour le genre humain il) (il a de l amour pour le genre humain) où le support manana (avoir) est un verbe et be fandeferana izy (beaucoup tolérence il) (il a une grande tolérance) où le support be «grand» est un adjectif. 6 Mi- et man- sont les sont les préfixes qui peuvent théoriquement affecter le radical baolina 229

236 Quand l adjectif prédicat exprime le caractère intrinsèque du sujet, la correspondance entre lui et le couple misyadj-n ou fenoadj-n est bloquée, comme dans l exemple suivant : (7) Mangidy ny kininina (Amère la quinine) (La quinine est amère) = *(Misy + Feno) ngidi(ny) 7 ny kininina ((Il y a + pleine de) amertume la quinine) Avec le même adjectif, ladite correspondance a lieu si le caractère qu il exprime est extrinsèque au sujet : (8a) Mangidy ny fiainana (Amère la vie) (La vie est amère) = (8b) (?Misy + Feno) ngidi(ny) ny fiainana ((Il y a + pleine de) amertume la vie) (La vie est (E + très) amère) La quinine est, en effet, intrinsèquement amère. La vie ne l est qu accidentellement. On peut supposer raisonnablement que ce comportement divergent est du à l emploi au sens propre ou figuré de l adjectif. Mais les faits infirment cette hypothèse. Dans la phrase : (9) Mangidy ny fahafatesana (Amère la mort) (La mort est amère) mangidy est employé métaphoriquement. Or, les suites : *(Misy + Feno) ngidi(ny) ny fahafatesana ((Il y a + Pleine de) amertume la mort) ne forment pas des phrases acceptables. La mort, dans la conception des sujets parlants qui transparait dans la langue, est fondamentalement amère. C est donc le caractère intrinsèque ou extrinsèque de l état qui est déterminant. Si le caractère intrinsèque de l état d un sujet venait à lui manquer, naturellement ou dans des circonstances exceptionnelles mais formellement indiqué par la négation tsy (pas), le verbe support misy peut opérer mais pas l adjectif feno. (10) Tsy mangidy ity angivy 8 ity (Pas amer cet angivy ) (Cet angivy n est pas amer) (11) Tsy (misy +* feno) ngidi(ny) ity angivy ity (Pas (E + *plein) d amertume cette angivy) (Cette angivy n a pas d amertume) (12) Tsy mangidy ny angivy aminy (Pas amer l angivy pour lui) (L angivy n est pas amer pour lui) (13) Tsy (misy +* feno) ngidi(ny) ny angivy aminy (Pas (E+*plein) d amertume l angivy pour lui) (L angivy n a pas d amertume pour lui) Le verbe support misy et l adjectif support feno, sans véhiculer eux-mêmes l aspect extrinsèque, en sont l indice L aspect volontaire vs involontaire En malgache, l aspect volontaire/involontaire n est pas exprimé par les verbes mais par des adverbes, des locutions adverbiales ou des auxiliaires aspectuels : (14) Mihomehy tsy nahy ny mpianatra (Rire pas volontaire les élèves) (Les élèves rient involontairement) 7 La morphologie de ngidiny est un malgachisme. La forme attendue et généralement attestée du reste, est un radical (ici ngidy (amertume)), à laquelle est adjoint le pronom personnel conjoint ny (de lui, d elle, sa, son ) co-référent du sujet. Autres exemples : tsy misy tsiro (E + ny) io hena io (cette viande n a pas (de + son) goût) tsy misy dika (?*E + ny) ny teninao (ta parole n a pas (de + son) poids). 8 Espèce de solanacées dont le fruit est comestible mais très amer. 230

237 (15) Minia mitsiky ny mpampianatra (Agir à son gré sourire le enseignant) (L enseignant (sourie intentionnellement + s efforce de sourire)) Tsy nahy (involontairement) est une locution adverbiale, minia (agir (de son propre gré + intentionnellement)) est un auxiliaire aspectuel. Par contre, dans les phrases nominales, l aspect volontaire ou involontaire est contenu dans le support lui-même. Vaky (cassé, éclaté) contient l aspect involontaire, velona (né, sonné, éclaté, ) l aspect volontaire. C est ainsi qu on a, (16) (Vaky + *Velona) hehy ny mpianatra ((Cassé + Eclaté + Né + Eclaté) rire les élèves) (Les élèves éclatent de rire) (17) (*Vaky + Velona) tsiky ny mpampianatra ((Cassé + Eclaté + Né + Eclaté) sourire le enseignant) (L enseignant laisse (naître + s épanouir) un sourire (sur ses lèvres)) (18) (Vaky + Velona) taraina ny mponina ((Cassé + Eclaté + Né + Eclaté) plainte la population) (La population (émet des plaintes + porte plainte)) Pour la langue malgache, le rire est donc nécessairement involontaire, le sourire volontaire et la plainte peut avoir les deux caractères. La phrase verbale: (19) Mitaraina ny mponina (Se plaindre la population) (La population se plaint) à laquelle peuvent être reliées (18) a, par conséquent, une double interprétation : l une volontaire, l autre involontaire. L adjectif support vaky porte en lui l aspect involontaire, velona l aspect volontaire. C est ainsi qu on a : velom-pisaorana (se fendre en remerciement, remercier), velom-panahiana (avoir des soupçons + soupçonner), mais pas : *vaky fisaorana ni *vaky fanahiana, le remerciement et le soupçon étant considérés par la langue comme des actes éminemment volontaires. Par contre, l aveu et les pleurs étant considérés comme des actes involontaires ou contraints, le support qui leur est approprié est vaky : vaky barara (faire des aveux, avouer), vaky ranomaso 9 (fondre en larmes, pleurer), à l exclusion de velona : *velom-barara, *velondranomaso. 3.3 L aspect intensif L aspect intensif est une des valeurs sémantiques que les verbes et les adjectifs supports apportent régulièrement aux noms prédicatifs qu ils affectent. Les noms prédicatifs concernés sont issus soit d adjectifs tels que hatavezana (embonpoint), soit de verbes intransitifs tels que fitsaharana (arrêt), soit de verbes transitifs exprimant non une action mais un sentiment comme fitiavana (amour) ou un comportement comme fitandremana (soin, attention). Sont donc exclus les noms prédicatifs issus de verbes transitifs exprimant clairement une action, tels que manoratra (écrire) 10. Soient les phrases suivantes : 9 Ranomaso (pleurs, larmes) est un nom prédicatif autonome. Le verbe qui lui est associé sémantiquement est mitomany (pleurer). D ailleurs, le nom tomany (pleurs) qui est morphologiquement lié à ce verbe peut aussi être supporté par vaky. Vaky tomany (se fondre en larmes, pleurer) est le synonyme de vaky ranomaso, mais d emploi moins fréquent. 10 Les suites suivantes ne sont pas des phrases acceptables : *(E + tsy) (misy + feno + manana) fanoratana taratasy ho anao izy ((E + pas) (il y a + plein + avoir) écriture lettre pour toi il). 231

238 (20a) Tsy mitsahatra ny orana (Pas (cesser + s arrêter) la pluie) (La pluie ne cesse pas) = (20b) Tsy (misy + manana) fitsaharana ny orana (Pas (il y a + avoir) arrêt la pluie) (La pluie ne (cesse jamais + marque aucun arrêt)) La phrase (20a) est neutre sur le plan de l intensité. Les phrases (20b) contiennent, outre les sens déjà exprimés dans la phrase verbale, une idée d intensité. En fait, elles sont les synonymes de la phrase verbale comportant un adverbe qui exprime précisément l aspect intensif. (20c) Tsy mitsahatra mihitsy ny orana (Pas (cesser + s arrêter) jamais la pluie) (La pluie ne cesse jamais) La variation de supports sert parfois à exprimer des degrés différents d intensité. Il en est ainsi dans les exemples suivants : (21a) Tsy menatra iny rangahy iny (Pas honteux cet homme là) (Cet homme n a pas honte) (21b) Tsy misy henatra iny rangahy iny (Il n y a pas honte cet homme là) (Cet homme n a aucune honte) (21c) Lany henatra iny rangahy iny ((Epuisé + Consumé) honte cet homme là) (Cet homme est sans vergogne) La phrase verbale est neutre sur le plan de l intensité. La phrase à Vsup tsy misy (ne pas avoir, il n y a pas) contient l idée d intensité supérieure et celle à Adjsup lany (épuisé + consumé) celle d intensité suprême ou au dernier degré. Parfois, les phrases nominales comportant les deux degrés d intensité, à savoir le degré supérieur et le degré suprême, existent mais la phrase verbale qui leur est théoriquement associée n est pas attestée: (22a) Tsy misy jery io zaza io (Il n y a pas (intelligence + esprit) cet enfant là) (Cet enfant est très (inintelligent + idiot)) (22b) Very jery io zaza io (Perdu (intelligence + esprit) cet enfant là) (Cet enfant est (dénué de raison + fou)) *Tsy mijery io zaza io 11 (Pas regarder cet enfant là) A la place de tsy mijery, où le verbe mijery est morphologiquement associé à jery, on peut avoir les adjectifs adalaladala ou fokafoka «un peu fou, étourdi». Les phrases non nominales sémantiquement associées à (22a) et (22b) sont donc : (23) (Adaladala + Fokafoka) io zaza io (Un peu fou + Etourdi) cet enfant là) (Cet enfant est (un peu fou + étourdi)) dans lesquelles les prédicats sont des adjectifs. Parfois, la langue recourt à un adjectif support maty (mort) dans nos exemples- pour exprimer le degré suprême d intensité : (24a) Tsy mieritreritra ianao (Pas refléchir tu) (Tu ne réfléchis pas) 11 Cette suite signifie normalement «cet enfant ne regarde pas» et ne peut être reliée ni à (22a) ni à (22b). En fait, le radical jery est polysémique : regard-réflexion, regard-vision, regard-sollicitude, regard-attention. Il prend le préfixe verbal mi- dans ses trois dernières acceptions. Dans le sens de regard-vision, il peut prendre les formes nominales fijery (manière de regarder) et fijerena (action de regarder). Dans le sens de regard-sollicitude et de regard-attention, seule la forme nominale fijerena (sollicitude, attention) est attestée. 232

239 (24b) Tsy misy eritreritra ianao (Il n y a pas réflexion tu) (Tu es sans conscience) (24c) Maty eritreritra ianao (Mort réflexion tu) (Tu es sans moralité) Dans les phrases positives, les faits ne sont pas aussi tranchés. Trois cas peuvent se présenter : - Le verbe support misy véhicule l aspect intensif comme dans les phrases négatives: (25a) Matavy ilay omby (Gras le bœuf) (Le bœuf est gras) (25b) (Misy hatavezana ilay omby (Il y a embonpoint le bœuf) (Le bœuf est très gras) - Il est en alternance avec feno et exprime une intensité inférieure tandis que feno assume l expression de l intensité supérieure : (26a) Marina ny teniny (Vraie sa parole) (Sa parole est vraie) (26b) (Misy + Feno) fahamarinana ny teniny ((Il y a + Pleine) vérité sa parole) (Il y a du vrai dans sa parole + Sa parole est pleine de vérité) - Il est en alternance avec manana (avoir) et tous les deux expriment une intensité inférieure : (27a) Marary izy (Malade il) (Il est malade) (27b) (Misy + Manana) aretina izy 12 ((Il y a + avoir) maladie il) (Il est affecté d une (certaine) maladie) Les adverbes à valeur d intensif appropriés à ces trois types de prédicats adjectivaux sont différents ; preuve, s il en est, de la relation étroite entre les aspects formels et sémantiques du phénomène. On a : fatratra (au plus haut degré) pour matavy (gras) à l exlusion de mafy et tanteraka, tanteraka (complètement) pour marina (vrai) à l exclusion de fatratra et mafy, mafy (intensément, gravement) pour marary (malade) à l exclusion de tanteraka. D où les syntagmes : Matavy (fatratra + *tanteraka + *mafy) (Gras au plus haut degré) Marina (*fatratra + tanteraka + *mafy) (Complètement, absolument vrai) Marary ( fatratra + *tanteraka + mafy) (Gravement, intensément malade) Les valeurs aspectuelles des verbes et adjectifs supports ne sont donc pas les mêmes selon que la phrase dans laquelle ils opèrent est négative ou positive. Dans le premier cas, ils véhiculent l aspect intensif comportant divers degrés dont le dernier peut être assimilé au terminatif, comme dans very jery, lany henatra et maty eritreritra des phrases (21c), (22b) et (24c) ci-dessus. Dans le deuxième cas, elles sont dépendantes du type de noms qu ils affectent, comme on vient de le voir. Conclusion 12 Dans ces phrases, les degrés d intensité existent mais ils vont du minimum au neutre ou, du moins, de ce qui est un signe ou un début à un état avéré ou terminal. La «maladie» dont il est question est éventuellement une petite manie, quelque chose de bénin, en tout cas moins grave que l état exprimé par l adjectif marary «malade». Dans le langage quotidien, on peut être taxé de (misy + manana) aretina «affecté d une (certaine) maladie» sans qu on soit cliniquement ou apparemment malade. Pour atténuer le sens d un adjectif, la langue use fréquemment de ces supports. (Misy + Manan-) kilema «avoir un handicap» est employé euphémiquement pour kilemaina «handicapé», manam-pahasahiranana «avoir du souci» pour sahirana «soucieux». 233

240 La présente étude a permis de constater qu en malgache le couple support-nom supporté comporte au moins une valeur sémantique supplémentaire par rapport au prédicat verbal ou adjectival auquel il est relié. Seuls les supports élémentaires des noms prédicatifs autonomes sont sémantiquement vides. Ce qui est logique, étant donné qu ils ne sont pas facultatifs. Les valeurs sémantiques en question sont multiples mais obéissent à des règles, donc prévisibles. Le fait que la plupart des valeurs sémantiques supplémentaires du couple support-nom supporté est exprimé lexicalement dans les phrases verbales ou adjectivales prouve que les supports, dans leur majorité et/ou dans la plupart des cas sont des outils autant sémantiques que grammaticaux. Bibliographie ABINAL et MALZAC, RR.PP, 1888, Dictionnaire Malgache-Français, Edition de 1993, Fianarantsoa, Librairie Ambozontany. GIRY-SCHNEIDER, J., 1978, Les constructions du verbe faire. (L opérateur faire dans le lexique), Genève, Droz. GIRY-SCHNEIDER, J., 1987, Les prédicats nominaux en français. Les phrases simples à verbe support, Genève-Paris, Droz. GROSS, G., 2011, Manuel d analyse linguistique, manuscrit. GROSS, M., 1975, Méthode en syntaxe, Paris, Hermann. RABENILAINA, R. B., 1985, Lexique-grammaire du malgache. Constructions transitives et intransitives, Thèse de doctorat d Etat, Université Paris VII, L.A.D.L. RABENILAINA, R. B., 2001, Ny teny sy ny fiteny malagasy (La langue et les dialectes malgaches), Antananarivo, Société Malgache d Edition. RAHARINIRINA-RABAOVOLOLONA, L., 1991, Lexique-grammaire des composés malgaches, Thèse de doctorat, Université Paris VII, L.A.D.L. RAJAONA, S., 1972, Structures du malgache. Etude des formes prédicatives, Fianarantsoa, Librairie Ambozontany. RALALAOHERIVONY, B. S., 1994, Lexique-grammaire du malgache. Constructions adjectivales, Thèse de doctorat, Université Paris VII, L.A.D.L. RANAIVOSON J. F. 1996(a), La nominalisation en malgache. Etude des formes manaon, Thèse de doctorat de troisième cycle, Université d Antananarivo, Département de Langue et Lettres Malgaches. RANAIVOSON J. F. 1996(b), Etude des constructions à prédicat mx-n en malgache. Classe d objets et traduction, Thèse de doctorat, Université Paris XIII, L.L.I. RAZANAJATO, L. de G., 1982, Ny matoanteny mpanova manao (Le verbe opérateur manao (faire)), Mémoire de maîtrise, Université d Antananarivo, Département de Langue et Lettres Malgaches. SAUSSURE, F. de, 1916, Cours de linguistique générale, Payot, Paris. 234

241 Ronan Patricia Université de Lausanne FUNCTIONS OF SUPPORT VERB CONSTRUCTIONS IN EARLY ENGLISH Abstract This qualitative and quantitative study investigates functions and frequency of support verb constructions in a 100,000-word Old English sample corpus. The sample indicates that textual frequencies are comparable to or even higher than in Modern English, in spite of the considerably more synthetic typological structure of Old English. Two main functions of early English support verb constructions are identified. First, specifying agentative or aspectual information structures to compensate the increasing loss of earlier affixation. Secondly, the creation of verbal concepts for which no simple verbal expression exists in the target language, such as the inclusion of new cultural concepts. Keywords: support verb constructions, support verb functions, Old English, language typology. 1. Introduction The current study examines the use of support verb constructions in Old English and investigates their frequency and their usage. The term support verb constructions is used for collocations of semantically low-content inflected verbs with predicate nouns. These structures have been observed and described in various languages, and the terminology that is used to describe them includes expanded predicate (Algeo 1995), complex verb (Brinton 1996), multi-word verb (Kaalep and Muischnek 2006), light verb constructions (various authors, going back to Jespersen , IV: 117), Funktionsverbgefüge (Balles 2003), verbonominale Konstruktion (van Pottelberge 2001), or support verb construction (Danlos 1992, Oyharçabal 2004, Langer 2009). While many scholars confine their research to structures paralleled by simple verbs, others include structures do not have parallel simplexes (e.g. Claridge 2000, Balles 2003, Family 2011). This is done on the grounds that, on the one hand, the resulting group is seen as semantically largely non-compositional and the meaning is overall verbal. On the other hand the inflectional verbal system may be not comprehensive enough to express the lexemes in question in verbal simplexes, even though simplexes typically exist for these concepts in other languages. This approach is also used in the present study, and, in cases of doubt, resulting collocations have typically been included where single-verb paraphrases can be found easily. That early English contains examples of support verb structures is a well known fact. Prominent descriptions of collocations of certain verbs with nouns are given in Visser (1963), and Denison (1981) has investigated multi-word verbs with an emphasis on the early Middle English Ormulum. A comprehensive, corpus-based investigation of support verb constructions in Old English has been carried out by Akimoto & Brinton (1999). The authors restrict their study to those verbs that correspond to the most frequently used verbs in Modern English, namely do, give, have, make and take (1999: 23). As predicate nouns the authors only admit those which had a corresponding simple verb in Old English (Akimoto & Brinton, ibid.). As a result, predicate nouns without an equivalent simple verb are excluded. While type frequency, i.e. the number of 235

242 different collocational types, is indicated in their study, token frequency, i.e. the overall number of examples, is not mentioned. A previous study on support verb constructions in Old English and Old Irish (Ronan and Schneider 2009) has provided these parameters for verbs of giving in the two languages under investigation. The current study concentrates on Old English support verb constructions and examines their distribution and their functions in greater detail. This study is structured as follows: data and method will be introduced briefly, then the use of two sample verbs from the Old English corpus, sellan give and fremman perform is discussed. The results from Old English are then compared to studies on Modern English and Old Irish to assess the influence of typological factors, and conclusions are drawn. 2. Data and method The data has been extracted from a corpus of mainly 9 th and 10 th century Old English texts, totalling about 107,000 words. This was done by a semi-automatic search of the online version of the Toronto Dictionary of Old English corpus (dipaulo Healy et al., 2004). The texts investigated were Bede s The Old English Ecclesiastical History of the English People (80,000 words), Beowulf and The Judith Fragment (12,000 words), The Voyage of Ohthere and Wulfstan from the Old English Orosius (2000 words) and the Anglo-Saxon Chronicle A (15,000) words. In a first step, potential support verbs were identified on the basis of previous studies (Visser 1963, Akimoto and Brinton 1999), and by going through Old English texts and through dictionaries. Once potential verbs were identified, all possible morphological and graphic variants of the stem forms of the putative support verbs taken into account. The basis for identifying these potential forms was provided by the attestation in the Anglo-Saxon dictionary (Bosworth and Toller 1898). The forms were then entered in the search interface provided by the Dictionary of Old English corpus. Even though almost complete recall can be assumed for the early English data due to the broad search patterns, precision was very low and extensive manual filtering of false positives, such as incorrect verbal forms and faulty predicates, took place. In most cases these false positives were examples where the searched-for stem had non-verbal homographs, or in which the verb was used not as a support verb, but as a full verb with a direct object. 3. Discussion of the data 3.1 Main Old English types A pioneering study of support verb constructions in Old English has been carried out by Akimoto & Brinton (1999). These authors have investigated the Old English equivalent of the most prominent Modern English support verbs and thus provided a survey of the use of dōn do, macian make, sellan give, giefan give, niman take and habban have. In the present investigation, structures with gewyrcan create, fremman perform, and dælan share were also taken into account. Further, it has been observed that a number of Old English aspectual verbs are used like auxiliaries, particularly onginnan & beginnan begin, onfon receive, wunian be used to, swican & blinnan cease. Akimoto and Brinton have restricted their investigation to collocations with predicate nouns that have a parallel verbal simplex, which precludes the possibility to investigate in how far support verb constructions may serve to fill gaps in the verbal paradigm. In contrast to Akimoto and Brinton s study, the present approach admits both predicate nouns that are either derived from verbs, or have formed the basis for verbal derivatives, and those predicate nouns which are not connected to a verbal simplex. That this may be useful is suggested by studies which stress the function of multi-word verbs in creating new verbal concepts, as is done for example by 236

243 authors working from an early Indo-Iranian perspective (Jacobi 1903, Balles 2003). Due to space constraints, this paper will illustrate the use of Old English support verb constructions on the examples of sellan give and fremman perform. 3.2 sellan give The use of sellan has long been attested with semantically diverse nouns from both the more abstract and the more concrete ends of the scale, such as e.g. andswar answer, ár honour, áð oath, gafol tax, due, geþeaht thought, gifu gift, grið peace, fulluht baptism, fultum help, leoht light, forgifnyss forgiveness, leaf permission, leave, mildheortness mercy, sibb peace, ræst rest, sige victory, treow truth, and wær convenant (Bosworth and Toller 1898 s.v. sellan, Akimoto and Brinton 1999). These attestations provide evidence both of predicate nouns with and without parallel verbal simplexes. Where equivalent simplexes exist, the collocation may offer semantic or pragmatic specification of the verbal concept as compared to the verbal simplex: (1)... Bæt þaet he him geþeaht sealde asked that he him council gave... he asked that he give him council (Bede 4 [0608 ( )]) The noun geþeaht council has a corresponding derivative, geþeahtian to take council, but we can observe differences in the agent structures of the phrases. The subject of geþeahtian expresses an experiencer, the combination geþeaht sealde give council changes the argument structure of the verb, the subject expresses the agent of an action. Similar behaviour can be observed with georness zeal, which is related to the non-agentive geornan to desire. (2) & ealle geornesse ic sealed to leornienne & to All zeal I applied to lean & to smeagenne halige gewritu. investigate Holy Scripture I applied all zeal to learning and investigating the Holy Scripture (Bede ( )) In contrast to its simple form, which is intransitive, geornesse sellan expresses the agentive to apply zeal to. A further example of such adjustment of agent structure is provided by the verb bysnian to set an example, derived from bysn example and the agent-centred sealdon bysne they gave examples (e.g. Bede 1[0139 (9.46.8)]). In addition to predicate nouns with a verbal simplex, examples without equivalent simple verbs can be found. This especially holds for ælmessan sellan give alms, and áð sellan give an oath, e.g.: (3) þæt he wolde þearfum ælmessan sellan that he wanted the needy alms give that he wanted to give alms to the needy (B5 [0070 ( )]) (4) & Scottas him aðas sealdan, and the Irish him oaths gave and the Irish gave him oaths (Chron A [0585 (946.3)]) 237

244 The collocation ælmessan sellan give alms is tentatively included because it is paraphrasable as donate. Nevertheless, it tends towards the concrete end of the collocational scale. It seems justifiable to include these in the range of support verb constructions if we follow construction grammar approaches that argue that all (related) grammatical items are on a cline from general to idiosyncratic (Goldberg and Jackendorff 2004: 532-3). Constructions are those groups that have properties that is not (entirely) derivable from their parts and, like idioms, they are taken to be stored in the lexicon (ibid, 533-4). Overall, in the early English material, a prominent group of examples for creating new verbal concepts stems from the domain of Christianity, as illustrated by 3. above. Here support verb constructions seem to act as a typologically appropriate way to add new semantic concepts into the morpho-syntactic structure of the target language, Old English. The textual distribution of sellan collocations is as follows: Sellan F (N, Bede) F (N, Beowulf) F (N, Chronicle A) F (N, Othere F (N, ) Frequency / 46 Frequency per / ,000 Table 1: frequencies of sellan with predicate nouns in the sample corpus With a frequency of 47 tokens per 100,000 words in the corpus, sellan proves to be one of the more frequently used support verbs. It is used with 21 different predicate nouns, 13 of which (62%) have verbal equivalents. There is notable variation between the textual genres in the corpus, indicating that stylistic or dialectal variation plays a role. In sum, we can observe two types of sellan collocations: where no equivalent verbs exist, a new transitive or di-transitive verbal concept is created. The semantic core of the verb sellan makes it appropriate for use in collocations expressing directedness of action. Where a corresponding simplex exists, sellan typically offers a semantic specification of directed transmission of the entity. Its core use appears to be in the context of transmission of goods, rewards or knowledge, concepts which are likely to be metaphorical extensions from originally more concrete expressions of physical transmission. The verbal semantics might appear more or less concrete. Overall, the use of Old English sellan seems to be similar to the use of give in support verb constructions in Modern English as described by Allerton (2002). 3.3 fremman perform In contrast to sellan, fremman is used in the contexts of nouns expressing actions which have an impact on other people. The predicate nouns can correspond to simplexes (5 & 6), and examples without corresponding simplexes (7) are also found. (5) swa deorlice dæd gefremede fagum sweordum so valuable deed performed shining swords thus performed a valuable deed with shining swords (Beo[0162 (583)]) (6) ne meaht ðu me nu ofer ðisne dæg ænige helpe not may you me now after this day any help ne geoce gefremman nor safety perform/provide 238

245 you can offer me no help nor safety after this day. (B5 [0329 ( )]) (7) ac ymb Hreosnabeorh eatolne inwitscear oft gefremedon. But at Hreosnabeorh dreadful evil slaughter often perform and at Hreosnabeorg often committed dreadful malicious slaughter (Beo [0681 (2472)]) The frequency distribution in the texts of the corpus investigated is as follows: Fremman F (N, Bede) F (N, Beowulf) F (N, Chronicle A) F (N, Othere F (N, ) Frequency 9 21 / / 30 Frequency per / / ,000 Table 2: frequencies of fremman with pedicate nouns in the sample corpus Notably, Beowulf has disproportionally many fremman collocations. In Beowulf, fremman is used complemented both by nouns with and without parallel verbal simplex. By contrast, only examples with parallel simplexes are found in Bede. The covered semantic fields mainly express actions which impact on others. In the other texts, the predicate nouns found with fremman can typically be found with the verbs dōn do and macian make, both of which may be described as factitive markers. Especially in Beowulf fremman seems to fulfill similar factitive functions. The support verbs under investigation in the present study, especially the ones with more restricted distribution, tend to be used with predicate nouns from related semantic fields. It seems likely that increased grammaticalisation of a particular support verb takes place by adding predicate nouns of related semantic fields to the already existing collocations. Semantic specialisation seems to be particularly prominent in the cases where a corresponding simple verb exists. In other cases, the primary function of the support verb construction seems to be to fill the gap in the verbal paradigm, and the support verb chosen is selected on the basis of the appropriateness of its semantic contribution to the collocation. 4. Comparison with later English and with Old Irish As the support verb construction allows the semantic content of a corresponding simple, inflected verb to be spread among different parts, support verb structures can be considered analyticising. Modern English is indeed a typologically rather analytic language with a morpheme count of 1.68 per word according to Greenberg (1960). Anglo-Saxon by contrast is considered typologically more synthetic with an average morpheme count of 2.12 per word (Greenberg 1960: 193). This observation might have led us to believe that Old English should have fewer (analyticising) support verb constructions than Modern English, an assumption that the comparison of frequent structures in the two languages does not seem to bear out. In the 107,000- word sample corpus investigated, 196 support verb constructions were found, plus 127 aspectual constructions consisting of auxiliaries plus infinitive. This figure may be compared to the findings by Algeo (1995), who posits the following frequencies of attestation for the most prominent Modern English support verb constructions. His databases are the 1 million word Brown Corpus, compiled in the 1960ies on the basis of American English data, and the 1 million word LOB corpus, compiled of British English material at the same time period. 239

246 Modern English counts Brown types LOB types Brown tokens LOB tokens Total 2 mio word corpora types/tokens Do 4 / 4 / 4/4 Give /80 Have /155 Make /126 Take /79 Total 1 mio word corpora /444 Table 3: support verbs in the Brown and the LOB corpora (Algeo 1995: 214) Comparing the Old English results to Algeo s Modern English results is difficult for a number of reasons. On the one hand, the Modern English data is based on material from a large number of different domains and informants, whereas the Old English figures are based on considerably less varied data from the written domain only, and over-represent the material from Bede s Ecclesiastical History. Therefore the two studies differ in the sampling procedures applied. Further, the total word count of the Modern English material is ten times as high as that of the Old English material, which skews comparability. Finally, the study by Algeo takes into account the most prominent support verbs in the corpora investigated, but makes no mention of less frequent constructions, which for the purpose of comparability with the total Old English counts would need to be added to the Modern English data. As a solution to the latter, we can table the Old English to likewise only include the five most frequent support verbs in the corpus. This is done in the table 4. Most frequent Old English verbs in the corpus of 100,000 words Types Tokens Habban have Sellan give Fremman perform Dōn do Niman take 4 22 Total/total per 1 mio words 95/ /1620 Table 4: five most frequent support verbs in the Old English sample corpus This table suggests that, in spite of the sampling differences between the Old English data investigated above, and the Modern English data investigated by Algeo (1995), examples of support verb constructions in Old English are remarkably frequent in comparison with Modern English, and this is in spite of the fact that Modern English is considered to be typologically more analytic than Old English. The problems of data sampling aside, this high frequency in Old English may be due to various factors. One factor seems to be that support verb structures are used for semantic specification of verbal expressions, which may be particularly relevant in the case of Old English as the very varied, Norman-French and Norse influenced vocabulary of later English was not yet available or, in the case of Norse not yet established. On the other hand, already during the Old English period, verbal prefixation that served for semantic and aspectual specification got increasingly lost (Hiltunen 1983) and alternative modes of expressing these categories needed to be found, and the development of periphrasis to specify aktionsart in Germanic languages has already been mentioned in this context (Hiltunen 1983, van Pottelberge 240

247 1996). Further, the very productive conversion of nouns into verbs only started at the Early Modern English period and was not available to create verbs from nouns at the period under consideration. That typological syntheticity does not seem to be an obstacle to the use of support verb constructions is also illustrated by investigations of comparable structures in synthetic languages such as the Indo-European proto-language (Balles 2004), Sanskrit (Jacobi 1903) or Old Irish. For the latter, corpus material dating from the 9 th and 10 th centuries has been investigated (Ronan 2010). The Insular Celtic language Old Irish has complex morphological patterns, particularly in the verbal paradigm, and Tristram (2009: 262) has identified Old Irish to have a mean morpheme count of 3.57 per word. This might lead one to expect concentration on synthetic patterns of word or phrase formation, with little prominence of periphrastic verbal structures. In fact, an investigation of an Old Irish 100,000 word corpus, carried out following the same principles as the investigation into the Old English material under investigation here, proves Old Irish to have an even stronger attestation of support verbs than both Old and Modern English, averaging 403 structures per 100,000 words in the corpus material. Results from early Irish material have shown that these structures were also well established in early Irish both to fill gaps in the verbal paradigm and to specify agent and aspect structures (Ronan and Schneider 2009, Ronan 2010). Thus for Old English, as well as for Old Irish, Indo-European, or Sanskrit, verbalization of nominal concepts can be considered an important function of support verb constructions, as well as the specification of categories like aktionsart (Ronan, MS). 5. Conclusion It has been argued that the function of support verb constructions in the Old English material under investigation appears to be two-fold. On the one hand, they play a role in specifying the information structure of the collocations in question as compared to corresponding simple verbs. Examples adduced here have centred on illustrating differences in agent structures, and aspectual uses have also been mentioned. In this respect the support verb construction could be considered a sign of typological changes towards increasing analyticity. On the other hand, support verbs are also employed to incorporate new cultural concepts for which no simple verbal expression exits in the target language, and they fill gaps in the verbal paradigms due to missing integration of new nouns into the linguistic system. It is further argued that the increasing loss of verbal prefixation, as well as the non-existence of semantic doublets due to language contact, and the lack of the later very productive conversion from nouns to verbs added to the usefulness of support verb constructions. Considerable numbers of attestation in Old English suggest that support verb constructions must be quite well established at the period already, and that it is likely that variation in the use of support verbs expresses meaning differences. These findings seem relevant for the study of English language history as they show that even at its most synthetic linguistic stages, Old English made use of structures that are considered part of an analytic linguistic paradigm, and it is not the only overall synthetic language to do so. The data investigated suggests that the use of support verb constructions is in fact a means to enable the language to specify the semantic content of verbal expressions on the one hand and to allow for the absorption of new cultural concepts, factors which are independent of overall linguistic syntheticity. 241

248 References Akimoto, M. & Brinton, L : The Origin of the Composite Predicate in Old English. In: Brinton, L. & M. Akimoto (eds), Algeo, J. 1995: 'Having a look at the expanded predicate.' In: Bas Aarts and Charles F. Meyer (eds.) The Verb in Contemporary English. Theory and Description. Cambridge: CUP. pp Allerton, D. J Stretched Verb Constructions in English. London: Routledge. Balles, I Die lateinischen idus-adjektive und das Calandsystem. Indogermanisches Nomen. Derivation, Flexion und Ablaut. Akten der Indogermanischen Gesellschaft, Bremen: Hempen Verlag, Balles, I Die Tendenz zum analytischen Sprachtyp aus der Sicht der Indogermanistik. In: Hinrichs, U. (ed.). Die europäischen Sprachen auf dem Weg zum analytischen Sprachtyp. Wiesbaden: Harrassowitz Verlag, Bosworth, J. and T. N. Toller An Anglo-Saxon Dictionary. Oxford: Clarendon Press. Brinton, L. 1996: 'Attitudes towards increasing segmentalization: Complex and phrasal verbs in English.' Journal of English Linguistics 24: Brinton, L. & M. Akimoto (eds). 1999: Collocational and Idiomatic Aspects of Composite Predicates in the History of English. Amsterdam/Philadelphia: Benjamins. Claridge, C Multi-word Verbs in Early Modern English. Amsterdam: Rodopi. Danlos, L Support verb constructions: linguistic properties, representation, translation. Journal of French Language Studies (1992), 2, Denison, D Aspects of the history of English group-verbs: With particular attention to the syntax of the Ormulum. DPhil dissertation, University of Oxford. dipaulo Healy, A., D. Haines, J. Holland, D. McDougall, I. McDougall, and X. Xiang The Toronto Dictionary Corpus in Electronic Form, TEI-P3 conformant and TEI-P4 conformant version. Toronto: DOE Project. Family, N Verbal Islands in Persian. Folia Linguistica 45:1, Goldberg, A. and R. Jackendorff The English resultative as a family of constructions. Language 80, Greenberg, J A Quantitative Approach to the Morphological Typology of Language, International Journal of American Linguistics. Vol. 26 No. 3, Hiltunen, R The Decline of the Prefixes and the Beginnings of the English Phrasal Verb. (Annales Universitatis Turkuensis Series B, Vol. 160). Turku: University of Turku Press. Jacobi, E Über den nominalen Stil des wissenschaftlichen Sanskrits, Indogermanische Forschungen 14, Jespersen, O A Modern English Grammar on Historical Principles. 7 Vols. London/Copenhagen: Allen/Unwin/Munksgaard. Kaalep, H.-J. & Muischnek, K. 2006: Multi-verb words in a flective language: the case of Estonian, Proceedings of ACL 2006 Workshop on Multi-word-expressions in a multilingual context. Syndey: ACL, Langer, S Funktionsverbgefüge und automatische Sprachverarbeitung (Support Verb Constructions and Natural Language Processing). München: LINCOM. Oyharçabal, B Basque light verb constructions, IKER-UMR 5478, Bilbao: Euskaltzaindia, (also: Ronan, P. MS. Make Peace and Take Victory: Support Verb Constructions in Old English in Comparison with Old Irish. Ronan, P Support verb constructions in Early Irish. In: Josephson, F. (ed.) Celtic Language Law and Letters. Proceedings of the 10 th Conference of Societas Celtologica Nordica, Gothenborg: Meijerbergs Arkiv, Ronan, P. and G. Schneider Multi-verbal expressions of giving in Old English and Old Irish. Online-proceedings of Corpuslinguistics, Liverpool Traugott, E A Historical Overview of Complex Predicate Types. In: Brinton, L. & M. Akimoto (eds), Tristram, H.L.C Wie weit sind die inselkeltischen Sprachen (und das Englishe) analytisiert? In: Hinrichs, W. (ed.) Eurolinguistik: Entwicklungen und Perspektiven. Wiesbaden: Harrassowitz Van Pottelberge, J Verbalnominale Konstruktionen als Vorläufer der Funktionsverbgefüge. Gent: Studia Germanica Gandensia. Van Pottelberge, J Verbonominale Konstruktionen, Funktionsverbgefüge. Vom Sinn und Unsinn eines Untersuchungsgegenstandes. Heidelberg: C. Winter Universitätsverlag. Visser, F. Th An Historical Syntax of the English Language. Leiden: Brill. 242

249 Samvelian Pollet Université Sorbonne Nouvelle Danlos Laurence Université Paris Diderot Sagot Benoît Université Paris Diderot ON THE PREDICTABILITY OF LIGHT VERBS Abstract In the two main frameworks studying light verb constructions (LVCs) in French, namely Lexicon- Grammar and DEC (Dictionnaire Explicatif et Combinatoire), the idiosyncratic nature of the light verb (LV) for a given predicative noun has been emphasized. In this paper, while acknowledging some idiosyncratic cases, we want to highlight the existence of a continuum between LVCs and ordinary constructions involving heavy verbs and, as a consequence, the partial predictability of the combination of a given LV with a predicative noun. We debate these issues with examples both in French and Persian. Keywords: light verb constructions, french, persian, predictability. 1. Introduction Light verb constructions (LVCs) have been a focus of interest in several studies since mid 70 s and early 80 s for various reasons: Contrary to prototypical verbal constructions where the verb is the syntactic and semantic head of the sentence and its syntactic dependents are also its semantic arguments, in LVCs, one of the syntactic dependents of the verb, generally its direct object, functions as the semantic head, projecting its own argument structure, while the verb, which is semantically light, bears only inflection and projects no argument structure. Given the fact that the verb has no semantic contribution or rather its semantic contribution is quite weak, it cannot be selected lexically, that is on the basis of its semantic contribution. The combination of a particular predicative noun (PN) with a particular light verb (LV) is thus a matter of idiosyncrasy: The noun and the verb form a collocation that must be stored in the lexicon. These issues have been addressed for French in at least two large-scale lexicographic enterprises, namely Lexicon-Grammar and DEC (Dictionnaire Explicatif et Combinatoire), which are briefly introduced in Section 2. Both approaches underline the non-predictability of the light verb for a given predicative noun. The aim of our paper is to debate this nonpredictability. For achieving this goal, we shall study a set of LVCs in two languages, French and Persian, the latter interestingly displaying only roughly two hundred verbs. Any of these verbs is comparable to a light verb, at least to some extent (Section 3). More specifically, we shall investigate the continuum that can be drawn from light verbs to heavy (prototypical) verbs (Section 4), as well as the predictability of light verbs associated with neologisms (Section 5). 243

250 2 French light verbs in Lexicon-Grammar and DEC The notion of light verb was first introduced in (Gross, 1976) to deal with nominalizations: the forms of the dependents of agression in (1a), in particular the preposition contre against to introduce the second argument, cannot be derived from the verbal construction in (1b). On the other hand, the preposition contre against is found in the LVC in (1c), which is, for M. Gross, the transformational source of the NP in (1b) through (1d). (1) a. l agression de Luc contre Marie (the attack of Luc against Mary) b. Luc a agressé Marie (Luc attacked Mary) c. Luc a commis une agression contre Marie (Luc committed an attack against Mary) d. l agression que Luc a commise contre Marie (the attack Luc committed against Mary) This first notion was furthermore extended in several directions, among which: The notion of reverse verb : parallel to the paradigm in (1) with an active diathesis, there exists the paradigm in (2) with a passive diathesis in which subir suffer is referred to as reverse light verb. Note that the preposition par by within the NP in (2c) is not found in the reverse LVC but in the passive verbal construction in (2a). (2) a. Marie a été agressée par Luc (Mary was attacked by Luc) b. Marie a subi une agression de/de la part de Luc (Mary suffered an attack from Luc) c. l agression de Marie par Luc (the attack of Mary by Luc) the notion of aspectual variant: parallel to the paradigm in (3), there exists the paradigm in (4) in which prendre take, perdre loose and garder keep are respectively referred to as inchoative, terminative and durative aspectual variants of the (aspectually neutral) light verb avoir have. (3) a. Luc a de l influence sur Marie (Luc has some influence on Mary) b. l influence de Luc sur Marie (the influence of Luc on Mary) c. Luc influence Marie (Luc influences Mary) (4) a. Luc prend de l influence sur Marie (Luc takes some influence on Mary) b. Luc perd son influence sur Marie (Luc loses his influence on Mary) c. Luc garde son/de l influence sur Marie (Luc keeps some/his influence on Mary) the extension of these notions to predicative nouns which are not verbal nominalizations. The paradigms in (1)/(2) and (3)/(4) remain identical when replacing respectively agression attack with meurtre murder or influence influence with ascendant ascendancy, except that the morphologically related verb doesn t exist. Parallel to the work made by Maurice Gross and his colleagues, Igor Meľčuk and his colleagues introduced, in the framework of the Dictionnaire Explicatoire et Combinatif (DEC) (Meľčuk et al., 1995), the lexical functions Oper1 and Oper2 which are respectively equivalent to the notions of light verb and reverse light verb. Aspectual variants of light verbs are represented by composition of lexical functions, for example IncepOper1 for an inchoative variant. Moreover, DEC introduced lexical functions Func1 and Func2 for cases in which the nominalization or predicative noun occurs in the subject position (Un cri a échappé à Luc A cry escaped Luc, Un tsunami a frappé le Japon A tsunami hit Japan ). Such examples are discussed in (Danlos, 2010). 244

251 These two lexicographic enterprises, lexicon-grammar and DEC, are comparable 1 in that they agree on the fact that the semantic contribution of a light verb is quite weak: its contribution is limited to time and aspectual information (Gross, 1981) 2. This (supposedly) weak semantic contribution (apparently) gives to light verbs a non-predictable (idiosyncratic) nature: lexicon-grammar and DEC defend the idea that, for each predicative noun, its light verbs (including its aspectual and diathetic variants) must be registered. This idiosyncratic nature is indeed visible when translating a LVC into another language (Danlos, 1992). For example, prendre une décision translates as make a decision and faire une sieste as take a nap. Nevertheless, it is clear that a large majority of French LVC whose light verb is faire translates as French LVC whose light verb is make (Danlos, 1993). So our position is more nuanced: we argue that it is necessary to make an inventory of lexicalized constructions (prendre une décision, faire une sieste) but that, on the other hand, there exist productive rules which allow us to predict the light verb (and its aspectual and diathetic variants) for a given predicative noun in a number of cases. This position will be defended in Section 4 for speech nouns and in Section 5 for neologisms. Beforehand, let us present the notion of complex predicate in Persian. 3. Light verbs and complex predicates in Persian The number of simplex verbs in Persian can be estimated around Only a subset of these verbs, around 120, is currently used in today s Persian. The morphological formation process outputting verbs from nouns or adjectives, though available, is not productive. When they need to refer to a new event type, speakers resort to complex predicates (CPs), formed by a verb (in bold face) and a preverbal element (in italics), which can be a noun (5a), an adjective (5b), a preposition (or particle) (5c) or a prepositional phrase (5d) (Vahedi-Langrudi, 1996; Karimi, 1997; Karimi-Doostan, 1997; Megerdoomian, 2002; Goldberg, 2003; Folli et al., 2005; Samvelian, forthcoming): 4 (5) a. Maryam bâ Omid harf zad Maryam with Omid=DDO talk hit Maryam talked to Omid. b. Maryam dar=râ bâz kard Maryam door=ddo open did Maryam opened the door. c. Maryam ketâb=râ bar dâšt Maryam book=ddo PART had Maryam took the book. d. Maryam be xande oftâd Maryam to laugh fell 1 However, they diverge in methodology. Lexicon-grammar progresses by light verbs, for example faire in (Giry-Schneider, 1978) and (Giry-Schneider, 1987), the pair donner/recevoir in (Gross, 1982), the triplet avoir/prendre/perdre in (Vivès, 1984). On the other hand, DEC progresses by predicative nouns. For a given predicative noun, the set of its lexical functions and so its light verbs are registered in its entry (Mel cuk, 2004). 2 Diathesis information should at least be added to the semantic contribution of light verbs. 3 (Khanlari, 1986) s estimation is 279. (Sadeghi, 1993) claims there are 252 verbs in Persian. 4 In reality, there are verbs formed from nouns or adjectives, but they are mainly created by the Academy of Persian Language and Literature, which suggests and approves equivalents for the foreign general or technical terms. The verb râyidan compute, for instance, is a recent creation by the Academy. However, it should be noted that these creations, which are far less numerous than spontaneous creations, are not easily adopted by the native speakers, who almost systematically prefer using the complex predicate counterpart, which, for râyidan for instance, is kampyut kardan (lit. computation do ). 245

252 Maryam started laughing. About 30 of these verbs are used to form CPs. Two of them, kardan do and šodan become are always light verbs, the others have both light and lexical uses. Nouns used in CPs can either be concrete nouns (6a), abstract predicative nouns (6b) or so-called verbal nouns (6c): (6) a. dast zadan touch or applaud (lit. hand hit ) b. dust dâštan like, love (lit. friend have ) c. fekr kardan think (lit. thought do ) One of the main consequences of the reduced number of verbs is the fact that many verbs are somehow light verbs, in that they are so polysemous that their meaning cannot be determined without their complements. Furthermore, in many cases, the light uses of a verb derive from its predicative uses by semantic drift or by analogy. In order to illustrate these points, let us consider one of the productive light verbs, which has also heavy uses, zadan hit. The following examples illustrate two of its uses as a heavy verb: (7) a. Maryam Omid=râ bâ čâqu zad Maryam Omid=DDO with knife hit Maryam hit Omid with a knife. b. Maryam rang=râ be divrâr zad Maryam this painting=ddo to wall hit Maryam applied this painting to the wall. In these examples, zadan means respectively hit (or hit with ) and apply. The =râmarked noun is then an ordinary complement and argument of the verb. Now consider (8): (8) a. Maryam Omid=râ čâqu zad Maryam Omid=DDO knife hit Maryam stabbed Omid. b. Maryam divrâr=ra rang zad Maryam wall=ddo paint hit Maryam painted the wall. In this second set of examples, the noun acting as a direct objet in (7), appears in a bare form and forms a CP with the verb. The noun-verb sequence behaves thus like a unique predicate and projects an arguments structure. Each sequence corresponds to a single verb ( stab and hit ). To some extent, the verb zadan in (8) is comparable to a light verb: it does not project an argument structure alone, but it does so in conjunction with the preverbal nominal element. Though, on the other hand, these uses are also comparable to the lexical (or predicative) uses of zadan in (7), to the extent that zadan conserves its meaning. These examples illustrate the fact that there is no clearcut distinction between a light verb and a lexical verb in Persian. The fact the the verb conveys a meaning makes the new noun-verb combinations predictable. Thus, all predicates which means applying something on a surface or injury or harm are realized with zadan. There are indeed examples of CPs where zadan seems to be semantically empty or light, but even in these cases it is generally possible to establish semantic groupings so that new combinations are formed according to the same pattern, as in the following examples: (9) a. Maryam be Omid telefon zad 246

253 Maryam to Omid telefon hit Maryam phoned Omid. b. Maryam be Omid imeyl zad Maryam to Omid hit Maryam ed Omid / Maryam sent an to Omid. On the basis of such examples, a parallel can be established between the formation of CPs in Persian and the convesion of nouns in verbs in languages such as French or English, the unique difference being the fact that in Persian there are more verbs used to form CPs than verb formation affixes in French, for instance. 4 From light verbs to heavy verbs A fact that has been observed in different studies on LVCs is the semantic coherence of some classes of nouns combining with a specific or a set of LVs. For instance (Giry-Schneider, 1981) notes that nouns denoting a semiotic content (i.e., noms de parole) generally combine with the verb dire say. One may assume that such regularities depend on the degree to which the LV has a specific semantic content. Indeed, dire is not a semantically vacuous verb and selects a conceptual class of objects. So the fact that the predicative nouns combining with dire display semantic coherence is not that surprising. What s more intriguing is the fact that the semantic coherence is observed even with what could be considered as typical LVs, such as lancer throw and glisser slide in the following attested examples: (10) a. Il lance une remarque sur la température dans les bureaux puis me tend une brochure. b. Dans le silence, sa voix si particulière, grave et rocailleuse lance un commentaire acerbe (11) a. Même le très sérieux FAZ qui avait analysé le phénomène «Astérix» lors de sa sortie en France dans un article intitulé Hollywood à la gauloise, glisse un compliment sur Gérard Depardieu : «Gérard Depardieu montre à nouveau son ventre rond et son talent pour la comédie dans le rôle d Obélix». b. Un élégant gentleman glisse un commentaire : «Je sors de la messe, je suis venu directement voter.» The LVs lancer and glisser are generally considered to be semantically vacuous, though they can combine with a semantically coherent class of nouns, roughly the same as those combining with dire. Moreover, once such LVs form lexicalized LVCs with semantically coherent classes of nouns, the speakers tend to assign them a semantic content. This can be shown by the attested examples in (12), in which the complement of lancer and glisser is not a predicative noun but a clause. Such examples shouldn t exist if these verbs were really semantically vacuous. Indeed, the fact that the clausal complement is interpreted here as the content of an utterance can only stem from the verbal interpretation. In other words, lancer and glisser behave in these examples as verbs of utterance in the same way as dire. (12) a. Elle a dit ensuite qu elle était très contente pour Marseille, puis, en chambrant un peu, elle a lancé que ça ne serait pas aussi bien qu à Lille! b. Au PS, qui a envoyé une délégation aux Antilles le week-end dernier, Dominique Paillé a lancé que cette démarche était «malvenue». (13) a. «Pauvre con va», glisse un Sarkozy vexé à un homme qui l offense. b. Un ami dessinateur lui glisse que les mangakas gagnent bien leur vie. 247

254 The same situation holds in Persian. First, there are coherent semantic classes of predicative nouns that combine with the same LV. The nouns denoting verbal communication and/or different types of shouts, for instance, generally combine with zadan hit, see harf zadan (talk hit talk ) or faryâd zadan (shout hit shout ). There are of course some exceptions, for example the noun sohbat talk, synonymous to harf, does not combine with zadan but with kardan do. The significant fact, however, is that we encounter attested examples of sohbat zadan (e.g., Bijankhan corpus, We can decide to discard these neologisms, considering that they are performance mistakes. There is however another significant fact to mention here: we have not found any occurrences of harf kardan, although kardan is far more frequent as a light verb than zadan. So our conclusion is that although the speakers store all lexicalized combinations of LVCs, they also store more abstract knowledge about the most frequent combinations with a given semantic pattern or content. This is the reason why they extend the paradigm of harf zadan to sohbat zadan, but not the reverse. This explains also their capacity to creat new LVCs or to interpret LVCs that they have never encountered before. Furthermore, as in French, LVs tend to be assigned a semantic content and begin functionning like heavy verbs, if they occur in a set of combinations with a regular semantic pattern. This point can be illustrated by combinations such as pol zadan build a bridge (lit. bridge hit) and tâq zadan build a ceiling (lit. ceiling hit), which are lexicalized CPs. The existence of a set of combinations in which the verb zadan can be interpreted as build enables the speakers to assign a semantic content to zadan in these contexts and then to extend the set to other neologisms such as sâxtemân zadan build a building. Although there are very few attested examples of this latter construction, its very existence confirms the fact that speakers interpret zadan as build in all those combinations where the direct object denotes an object that can be built. 5 Light verb constructions involving neologisms Another way to point out the continuum that ranges from heavy verbs to semantically empty verbs is to study light verb constructions involving neologisms as predicative nouns. This is because the very existence of such constructions would contradict purely lexical accounts of light verb selection, i.e., theories that would deny any generalizations on how a predicative noun may somehow select its light verb(s). Indeed, by definition, neologisms are not yet in any lexicon, and in particular they cannot lexically select any associated light verbs. This shows that nominal neologisms involved in light verb constructions use productive mechanisms for this purpose. For unvailing these mechanisms, we carried out a corpus-based study for identifying light verb constructions in French whose predicative nouns are recent loan words. The reason why we restrict ourselves to loan words is that other types of neologisms (typically, resulting from derivational processes) might tend to mimic the behaviour of existing predicative nouns: it is not suprising that bioagression uses the same light verbs (e.g., commettre and subir) than agression. Since most recent loan words in French have English as a source language, we restricted our study to English. In our experiments, we used the following practical definition of what a neologism is. First, we extracted from the GoogleBooks 1-grams 5 all tokens, considered here as inflected forms, that can be found at least once in books scanned by Google and published in the 90s. Second, we extracted all inflected forms from the Lefff lexicon (Sagot, 2010). We consider as a candidate neologism any fully lowercase token that is unknown to one of these two inflected forms lists. 5 See 248

255 Building a high-quality large-scale corpus that contains enough occurrences of new loan words for finding them involved in light verb constructions is not as straightforward as it seems. We used the whole French Wikipedia, including discussion pages, 6 as well as the frwac web-based corpus (Ferraresi et al., 2010). The French Wikipedia being in Wikipedia raw format, we first turned it into a 441-million-token full-text corpus. Concerning the frwac corpus, after processing it for dealing with various technical issues (such as encoding) we tokenized it into approximately 1.6 billion tokens. In the resulting 2 billion-token corpus, we looked for occurrences of the pattern Vsup Det Npred, where Vsup is any inflected form of one of 38 possible light verbs, 7 Det is a token that might be a determiner 8 and Npred is any candidate neologism as defined above. Using this pattern, we extracted 27,666 unique sequences occurring at least twice, among which relevant sequences covering light verb constructions with a neologism as a predicative noun, non-relevant Verb Det Noun sequences for non-light verb constructions (e.g., the verb is a heavy verb) as well as many invalid sequences (e.g., sequences in which the noun is misspelled or sequences found in sentences written in other languages than French). Identifying relevant candidate sequences, and, among them, identifying those whose predicative noun is a loan word with English origin was achieved manually. This resulted in a list of 391 candidate light verb constructions involving 303 unique English loan words as candidate predicative nouns. Examples thereof include faire un remix remix, effectuer un heal heal (a video game character), porter un chokeslam execute/deliver a chokeslam, 9 donner une masterclass give a masterclass, effectuer un striptease (perform a) striptease, avoir des flashbacks experience flashbacks, avoir un spin (have a) spin, faire du trading trade (as a financial instrument). In order to understand whether and how the light verb selection process is driven by the predicative noun, we manually examined all 391 extracted LVCs in terms of semantic similarity with existing LVCs. It appears that each of the 391 LVCs can be considered analogous to at least one LVC that involves the same light verb and a semantically similar predicative noun (this latter notion being used here in an informal way). For example, faire un remix can be considered similar as faire un arrangement, donner une masterclass to donner un cours, or faire du trading to faire du commerce. In other words, neologisms appear in LVCs, but all such LVCs are analogous to previously existing ones. No idiosyncrasy is added to the language by LVCs whose predicative noun is a neologism. This is a strong argument in favor of the (partial) predictability of the light verb selection process. 6 Conclusions and perspectives We have shown, using both examples from French and Persian, that a simple account of light verbs as semantically empty units overlooks the predictability of light verbs for several predicative nouns and does not account for at least two phenomena, namely the continuum that exists between light and heavy verbs and the productivity of light verb-predicative noun constructions. An example thereof is the verb lancer, which behaves as a traditional light verb in constructions such as lancer une plaisanterie crack a joke, but that can also be used with a clausal complement (lancer que P) or be selected by neologisms as in lancer un buzz. 6 See 7 The complete list is: accorder, allonger, allouer, apporter, asséner, attribuer, avoir, bourrer, commettre, connaître, crépiter, distribuer, donner, décocher, déployer, effectuer, engager, faire, filer, flanquer, infliger, jeter, lancer, livrer, mener, mettre, nourrir, partager, perpétrer, porter, posséder, pousser, prendre, recevoir, ressentir, subir, émettre, éprouver. 8 Patterns of the form Vsup Npred have been tried as well (cf. avoir peur (de), English fear), but preliminary experiments have shown that loan words do not appear in such patterns. 9 A chokeslam is a type of throw in professional wrestling. 249

256 An interesting follow-up to this work would be to systematically study the behavior of nominal neologisms in Persian language, since the verbal lexicon in this language can only grow by creating new complex predicates involving verbal lexemes selected non-arbitrarily. Acknowledgments This work has been partly funded by the ANR grant EDyLex (ANR-09-CORD-008) and the ANR-DFG grand PerGram (ANR/DFG MU 2822/3-1). References Danlos L Support verb constructions: linguistic properties, representation, translation. Journal of French Linguistic Studies, 2(1), Danlos L A propos de la traduction de faire en anglais. In Actes des Troisièmes Journées Scientifiques du réseau LLT de l AUPELF-UREF, Montréal, Canada. Danlos L Extension de la notion de verbe support. In T. Nakamura, Éric Laporte, A. Dister & C. Fairon, Eds., Les Tables. La grammaire par le menu. Volume d hommage à Christian Leclère, p Cahiers du Cental, Presses Universitaires de Louvain. Ferraresi, A., S. Bernardini, G. Picci and M. Baroni Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation. In Xiao, R. (ed.) Using Corpora in Contrastive and Translation Studies. Newcastle: Cambridge Scholars Publishing. Folli R., Harley H. & Karimi S Determinants of event type in persian complex predicates. Lingua, 115, Giry-Schneider J Les nominalisations en français. Genève: Droz. Giry-Schneider J Les compléments nominaux du verbe dire. Langages, 63, Giry-Schneider J Les prédicats nominaux en français. Les phrases simples à verbe support. Genève: Droz. Goldberg A. E Words by default: The persian complex predicate construction. In E. Francis & L. Michaelis, Eds., Mismatch: Form-Function Incongruity and the Architecture of Grammar, p Stanford: CSLI Publications. Gross G Un cas de constructions inverses : donner et recevoir. Lingvisticae Investigationes, 6(2), Gross M Sur quelques groupes nominaux complexes. In J.-C. C. et M. Gross, Ed., Méthodes en grammaire française, p Paris: Klincksieck. Gross M Les bases empiriques de la notion de prédicat sémantique. Langages, 63, Karimi S Persian complex verbs: Idiomatic or compositional. Lexicology, 3, Karimi-Doostan G Light Verb Constructions in Persian. PhD thesis, University of Essex. Khanlari P Tarix-e zabân-e farsi (A History of the Persian Language). Editions Nashr-e Now. Megerdoomian K Beyond Words and Phrases: A Unified Theory of Predicate Composition. PhD thesis, University of Southern California. Meľčuk I Verbes supports sans peine. Lingvisticæ Investigationes, 2(27). Meľčuk I., Clas A. & Polguère A Introduction à la lexicologie explicative et combinatoire. Duculot. Sadeghi A On denominative verbs in persian. In Farsi Language and the Language of Science, p Tehran: University Press. Sagot B The Lefff, a freely available, accurate and large-coverage lexicon for French. In Proceedings of the 7th Language Resource and Evaluation Conference (LREC), Valetta, Malta. Samvelian P. forthcoming. Les prédicats complexes Nom-Verbe en persan. Etude syntaxique et sémantique. Paris: Hermès-Lavoisier. Vahedi-Langrudi M.-M The syntax, Semantics and Argument Structure of Complex Predicates in Modern Farsi. PhD thesis, University of Ottawa. Vivès R L aspect dans les constructions nominales prédicatives. Lingvisticæ Investigationes, 8(1),

257 Schneider Gerold University of Zurich USING AUTOMATICALLY PARSED CORPORA TO DISCOVER LEXICO- GRAMMATICAL FEATURES OF ENGLISH VARIETIES Abstract We employ syntactic parsing to describe and to discover lexico-grammatical features of English regional varieties. In the absence of suitable Treebanks, automatically parsed corpora (tree jungles) can be used. As an example we focus on Indian English, using the International Corpus of English (ICE), and the British National Corpus (BNC). We use a largely corpus-driven method. There are few differences in frequencies of syntactic relations between the corpora, but considerable differences when taking the intricate relations between grammar and lexis into account. We describe differences in the use of zero articles, verb-preposition constructions, and ditransitive verbs. We show that relatively small corpora can be used to discover subtle lexicogrammatical differences. Keywords: lexico-grammar, syntactic parsing, language variation, indian english, corpusdriven. 1 Introduction Parsing technology has made considerable advances recently, opening new perspectives for descriptive linguistics. van Noord and Bouma (2009, 37) state that [k]nowledge-based parsers are now accurate, fast and robust enough to be used to obtain syntactic annotations for very large corpora fully automatically. We apply parsed corpora as a new resource for linguists. Automatically parsed treebanks, also called tree jungles, have been used for e.g. Danish (Bick, 2003) and French (Bick, 2010). The currently available English corpora which are manually analysed for syntactic structure, for example ICE-GB and the Penn Treebank, are too small for infrequent word-word interactions, and no treebanks for English regional varieties exist yet. In this situation, automatically parsed corpora can be used as a stopgap to Treebanks. The detection of regional differences between the various dialects of a language is a major task in synchronic linguistics. We discuss the example of Indian English (IndE), compared to British English (BrE). We use the International Corpus of English (ICE), comparing ICE-India to ICE-GB and partly to the British National Corpus (BNC), when data sparseness problems arise. We use a largely corpus-driven method (Tognini-Bonelli, 2001), paired with manual filtering and linguistic inspection, to detect features of IndE. The interaction of lexis and grammar has become a linguistic research focus. In computational linguistics, lexicalisation learnt from syntactically annotated corpora has made fast largescale parsing possible (e.g. Collins (1999)), and in descriptive linguistics, it has given rise to lexicogrammatical and construction grammar theories, for example systemic functional grammar (Halliday, 1994) and collostructions (Stefanowitsch and Gries, 2003). Distinctive phenomena between English varieties typically concentrate at the interface between grammar and lexicon (Schneider, 2004). 251

258 Table 1: Parser performance on GREVAL test corpus 1.1 Indian English (IndE) We use IndE as an example variety in this investigation. English is one of the official languages of India. Although there are few native IndE speakers, English is used as lingua franca to allow communication between speakers of the many indigenous languages, such as Urdu, Hindhi, Bengali, Marathi, Tamil, and many others. It is therefore an important second or third language for many Indian people, there are over 90 million speakers of IndE. Features of IndE have been described in linguistic research (Gupta and Kapoor, 1991). In the current paper, we are trying to detect regional features in a corpus-driven approach. We do not take previous knowledge as a starting point. The aim is to test a corpus-driven approach as a means of discovering regionalisms. 1.2 Using a syntactic dependency parser We have used a probabilistic dependency parser, Pro3Gres (Schneider, 2008), which is fast (the BNC parses in one day), close to Tesnière (1959) s Dependency Grammar conception, and which has been evaluated on several genres and varieties (Haverinen et al., 2008; Lehmann and Schneider, 2009). It is suitable for parsing different varieties of English, as it is robust, so that its output is quite reliable on a number of English varieties (Schneider and Hundt, 2009). For example, it does not enforce subject-verb agreement, it uses statistical preferences instead of strict subcategorisation frames (this entails that e.g. that non-ditransititive verbs can act as ditransitive, a feature that we use in section 3.2, or that prepositional phrases with divergent prepositions get attached, a feature that we need for section 3.3). An evaluation of the performance on subject, object and PP-attachment relations, using the GREVAL gold standard (Carroll, Minnen, and Briscoe, 2003) is given in table Corpus data We used the following corpora for our investigation: in section 3.2, we used the written part of ICE-India and compared it to the written part of ICE-GB. In sections 2 and 3.3 we used the entire ICE-India corpus and compared it to BNC. In section 3.1 we used about two thirds of the written part of ICE-India (the parts which fall into the genres that we investigated) and compared to the same subset of other ICE corpora, namely ICE-GB, ICE-NewZealand and ICE-Fiji. 2 Corpus-Driven Diagnostics As a first step to discovering variety differences, we measured the total number of occurrences of each syntactic dependency relation. There are, for example, considerable differences between different English genres, so differences between English varieties could be expected. It turns out, however, that differences are typically small. Differences are too subtle to leave a visible impact in frequency counts. In fact, the vast majority of sentences in ICE-India could just as well have been produced by a British or American speaker, there is nothing unusual in them. The differences are intricate. Schneider (2004) observes that, in regional varieties of English 252

259 Table 2: Trigrams that are at least 480 times more surprising in ICE-India than BNC distinctive phenomena tend to concentrate at the interface between grammar and lexicon, concerning structural preferences of certain words (like the complementation patterns that verbs allow), co-occurrence and collocational tendencies of words in phrases, and also patterns of word formation. (Schneider, 2004, 229) It may thus be revealing to investigate the lexical material that is used in syntactic relations. While there are no semantic class restrictions for most relations, some relations have strict restrictions. A case in point is the relation obj2, which is only permitted to occur with ditransitive verbs, and with elect verbs. The total number of obj2 relations in ICE-India is very similar to ICE-GB, but the distribution of lexical verbal heads differs. For example, there are 12 instances where provide is used as a ditransitive verb in ICE-India written, while the only one instance in ICE-GB written is a parsing error. We discuss ditransitive verbs in more detail in section 3.2. A second case in point are prepositions in prepositional phrases. We compared frequencyordered lists of prepositions in the prep relation, but found no obvious difference. The seven most frequent prepositions appear in the same order in both corpora. While such lists of heads are short in a strongly restricted class situation such as ditransitive verbs or prepositions, open class lists are unwieldy and difficult to interpret without further statistical processing and filtering. In order to detect lexico-grammatical differences in open class relations, we thus try to approach the corpus from the opposite end, the lexical end, since approaching from the global grammatical end, counting frequencies of grammatical relations, showed very few differences. Particularly frequent word-sequences, also known as surface collocations, can be detected by using statistical distribution measures such as mutual information, Z-score or Observed Over Expected (O/E). We used O/E as it copes relatively well with sparse data and is easy to interpret. We calculated O/E for all ICE-India trigrams and compared them to British English. When using ICE-GB, data sparseness problems are very serious: very many ICE-India trigrams are unseen in ICE-GB. Due to Zipf s law, data sparseness is typically very serious for lexical items in a one million word corpus. In order to alleviate the problem, we used the 100 million word BNC to 253

260 Table 3: ICE-India trigrams and ditransitive verbs compare collocations. We calculated an O/E ratio, O/E(ICE-India) divided by O/E(BNC). We then set a threshold T, for example 100, to report trigrams that are T times more surprising in ICE-India than in the BNC. The lists thus obtained are dominated by proper nouns and punctuation marks. After filtering trigrams containing proper nouns and punctuation, we obtain the results shown in table 2 for a threshold T = 480. The majority of the hits arise from text selection criteria, for example there are relatively many legal texts in ICE-India (proviso to section, statement before the), many medical texts (the blood group), and the spoken data percentage is much larger, showing hesitations etc. (a very very, in the in). But we also see quite formal expressions (do not recollect) and, as it turns out when checking the occurrences in the corpus, zero articles (for number of), i.e. expressions involving an NP where BrE or American English speakers would expect an article, but IndE speakers often do not use any. We focus on zero articles in section 3.1. An example of the trigram for number of is: (1) And for number of years following the Nehruvian outlook this society has built itself. (ICE-India S1b-054) We also investigated which frequent ICE-India trigrams are absent in the BNC. After filtering proper names and punctuation, the frequency-ranked top of the list is given in table 3 on the left. 1 Besides text selection, Indian features like archaic spellings (nowadays), formal language (the honourable minister), unusual verb complementation with prepositional phrases (is called as), and written numbers (sixty-six and half) appear in this list. Examples that show the trigram is called as are: (2) A substance which is helping in chemical reaction is called as a reagent. (ICE-India S1b-004) (3) Thus the intermediate state between crystalline & isotopic state is called as themesophase or liquid crystals. (ICE-India W1a-020) 1 A few of these trigrams appear both in the BNC and ICE-India, but the tagger assigned them different tags 254

261 Figure 1: Zero-form article percentages per _NN-tagged chunk head noun (singular common noun) across genre and variety We investigate verb complementation by prepositional phrases in section 3.3. Although lists like tables 2 and 3 contain true positives, they contain a high level of garbage, hits that are rare or absent in the BNC due to data sparseness. Larger corpora, and more sophisticated methods are sought for. As for more sophisticated methods, we analyze the parsed material in the following section. Before doing so, let us summarize: The corpus-driven approach with additional manual filtering has uncovered the following potential features of IndE. IndE seems to leave out determiners in some situations (e.g. for number of). We discuss this in section 3.1. Ditransitive verbs have a different distribution in IndE, which we discuss in section 3.2. Verb complementation may also involve unusual prepositional phrases (e.g. is called as). We discuss this in section Analysis 3.1 Zero articles While the number of articles per noun is only slightly higher in ICE-GB, the number of nouns that have a zero article are considerably higher in ICE-India, as we discuss now. We have tested a large subset, consisting of two thirds of the written part of the ICE corpora. In ICE-GB, 10,034 of the 27,360 singular common nouns, or 36.7%, have no article. In ICE- India, 12,633 of the 29,032 singular common nouns, or 43.5% have no article. The difference is statistically highly significant (chi-square contingency test, p < 0.01%). In Figure 1 we have broken down zero articles by genre. While the percentage is spread quite homogenously across genres in ICE-GB, ICE-India shows a peak in the least edited genre, student essays, and a tendency towards over-correction in the most edited genre, press. The need to include zero articles in corpus studies is widely acknowledged in descriptive linguistics:... no study of article use is truly complete without the discussion of zero articles (Sand, 2004, 295). Unfortunately, in surface-based approaches it is very difficult to detect zeroforms (e.g. Sedlatschek (2009, 198)). In a syntactic approach, a zero article form is simply a noun chunk without an article. There are potential complications, however. Quirk et al. (1985, 246) point out that zero articles are only present with nouns that can also be used with a definite article. In e.g. I like Richard there is no zero article, but a zero form, as the zero form is only a label denoting the absence of any article (Berezowski, 2009, 7). In order to increase the correspondence between zero form and zero 255

262 Table 4: Candidates for Indian verb-pp constructions, obtained with O/E ratio>35 and f(bnc)<3 article, we only measure zero forms of singular common nouns, because few singular nouns, unlike proper names or plural nouns, occur exclusively without article. 3.2 Ditransitive verbs We mentioned that a frequency-ordered list of ditransitive verb occurrences from the written components of ICE-India and ICE-GB shows considerable differences. The list of all occurrences except for hapax legomena is given in table 3 on the right. Marked differences are in boldprint. An example of provide from ICE-India is: (4) I am enclosing herewith a detailed resume of my professional career and feel that I can provide you the best possible services in the areas required. (ICE-India W1b-024) Grant occurs twice in ICE-GB written and six times in ICE-India written, all syntactic analyses are correct. Hand occurs twice in ICE-GB written and four times in ICE-India, all syntactic analyses are correct. These differences may thus arise from a text selection coincidence just as well as represent an Indian feature. All instances of develop are parser errors. Differences in ditransitive verbs, particularly provide, are confirmed in the corpus linguistics literature, for example Mukherjee and Hoffmann (2006). They list 5 new ditransitive verbs that occur in ICE-India, but only provide occurs more than 4 times in the one-million word corpus (we only used the written component, i.e. 400,000 words). Mukherjee (2009, 125) writes that as most of the new ditransitives are relatively rare, only few of them can be detected in the 1- million-word ICE-India corpus. Verb complementation is often described as particularly important for linguistic variation: Verb complementation is an all-pervading structural feature of language and thus likely to be more significant in giving a variety its character than, for example, lexis. (Olavarrìa de Ersson and Shaw, 2003, p. 118). 3.3 Verb-preposition constructions For this investigation, we leave the distinction between preposition and verbal particle underspecified. All verb-pp constructions are included, irrespective of whether they are complements or adjuncts. To retrieve unusual verb-preposition combinations, we use the O/E measure. O/E is a probabilistic measure of surprise, it tends to give particularly high scores to rare events, and it works well on rare collocations. We used the BNC instead of ICE-GB because of sparse data problems, which can partly be alleviated by using a large comparison base. The O/E ratio that we 256

263 use expresses how much more surprising a collocation is in ICE-India than in the BNC. It is calculated as follows: O(India) O India (R,w 1,w 2 ) N India O/ E(India) O/ E ratio O/ E(BNC) E(India) O India (R,w 1 ) O India (R,w 2 ) O(BNC) O BNC (R,w 1,w 2 ) N BNC E(BNC) O BNC (R,w 1 ) O BNC (R,w 2 ) where N is corpus size, R is the relation (pobj), w 1 the head (verb), w 2 the preposition or verbal particle. We then apply variable thresholds to generate candidates for specifically Indian verb-pp constructions. For O/E ratio > 35 and f(bnc) < 3 we get the candidates shown in table 4. In the last column, we give a comment, assessing whether the candidate is a true positive, based on manual inspection of all occurrences. Using lower thresholds leads to lower precision, but more instances are recalled, e.g.: (5) So he was using the stones and preparing instruments out of it (ICE-India S1b-008) (6) And he has described all about that. (ICE-India S1a-092) (7) Then from government aided school I switched over to government school. (ICE-India S1a-024) (8) You had the guts of your blighted mother to complain against us to the Governor. (ICE- India W2f-018) (9)... he tried to enlighten the people and be aware towards all these irregularities and if possible try to remove them. (ICE-India S1a-007) (10) Wings are absent to apterygotes. (ICE-India W1a-019) Counts are very low, too low for reaching statistical significance. Although a one-million word corpus is very small for lexical research, particularly for lexical interaction research, valid insights can be obtained, the amount of manual filtering required is easily manageable. Our findings are confirmed in the previous literature but also list new pairs. Differences in verb-preposition and verbal particle use in IndE are described in Sedlatschek (2009), Mukherjee (2009), Nesselhauf (2009). The former two authors hypothesize on the reasons for the differences; for example analogy to existing, semantically related particle verbs (e.g. in 10) or noun-verb conversion (e.g. in 8). Concerning articles, many Indian substrate languages do not have articles, which makes it difficult for language learners to acquire the concept. However, while such explanations sound reasonable, they are empirically almost impossible to prove. 4 Conclusions and Outlook We have demonstrated the benefits of using NLP techniques to help descriptive linguistic studies. In particular, we have shown that automatically parsed corpora can be used to detect regional English variety features and subtle lexico-grammatical differences using a largely corpus-driven method. As the data inspection phase involves analyzing, commenting and sub-categorizing instances, the overhead which manual filtering creates is a manageable disadvantage compared to a fully automatic approach. We are not aware of any fully automatized approach to this task. The features that we found are all confirmed in the descriptive linguistic literature. Concerning research on zero articles, only a syntactic approach offers the appropriate tools to measure zero article frequency. We have shown that with small corpora (1 million words or even less) many regional features can be discovered. We have conducted similar investigations on other corpora of the ICE family, 257

264 and we have investigated additional features, such as differences in tense, aspect and modality. We will use our method to discover regional features from large web-collected corpora. References Berezowski, Leszek The Myth of the Zero Article. Continuum, London. Bick, Eckhard A CG & PSG hybrid approach to automatic corpus annotation. In Kiril Simow and Petya Osenova, editors, Proceedings of SProLaC2003, pages 1 12, Lancaster. Bick, Eckhard FrAG, a hybrid constraint grammar parser for French. In Proceedings of LREC 2010, Valletta, Malta. Carroll, John, Guido Minnen, and Edward Briscoe Parser evaluation: using a grammatical relation annotation scheme. In Anne Abeillé, editor, Treebanks: Building and Using Parsed Corpora. Kluwer, Dordrecht, pages Collins, Michael Head-Driven Statistical Models for Natural Language Parsing. Ph.D. thesis, University of Pennsylvania, Philadelphia, PA. Gupta, R.S. and Kapil Kapoor English in India: Issues and Problems. Academic Foundation, Delhi. Halliday, M.A.K An Introduction to Functional Grammar, 2nd ed. Arnold, London. Haverinen, Katri, Filip Ginter, Sampo Pyysalo, and Tapio Salakoski Accurate conversion of dependency parses: targeting the Stanford scheme. In Proceedings of Third International Symposium on Semantic Mining in Biomedicine (SMBM 2008), Turku, Finland. Lehmann, Hans Martin and Gerold Schneider Parser-based analysis of syntax-lexis interaction. In Andreas H. Jucker, Daniel Schreier, and Marianne Hundt, editors, Corpora: Pragmatics and discourse: papers from the 29th International conference on English language research on computerized corpora (ICAME 29), Language and computers 68. Rodopi, Amsterdam/Atlanta, pages Mukherjee, Joybrato The lexicogrammar of present-day Indian English. Corpus-based perspectives on structural nativisation. In Ute Römer and Rainer Schulze, editors, Exploring the Lexis-Grammar Interface. John Benjamins, Amsterdam, pages Mukherjee, Joybrato and Sebastian Hoffmann Describing verb-complementational profiles of New Englishes: A pilot study of Indian English. English World-Wide, 27(2): Nesselhauf, Nadja Co-selection phenomena across New Englishes. Parallels (and differences) to foreign learner varieties. English World-Wide, 30(1):1 26. Olavarrìa de Ersson, Eugenia and Philip Shaw Verb complementation patterns in Indian Standard English. English World-Wide, 24(2): Quirk, Randolph, Sidney Greenbaum, Geoffrey Leech, and Jan Svartvik A comprehensive grammar of the English language. 11th edn. Longman, London. Sand, Andrea Shared morpho-syntactic features in contact varieties of English: Article use. World Englishes, 23: Schneider, Edgar How to trace structural nativization: Particle verbs in World Englishes. World Englishes, 23:2: Schneider, Gerold Hybrid Long-Distance Functional Dependency Parsing. Doctoral Thesis, Institute of Computational Linguistics, University of Zurich. Schneider, Gerold and Marianne Hundt Using a parser as a heuristic tool for the description of New Englishes. In Proceedings of Corpus Linguistics 2009, Liverpool. Sedlatschek, Andreas Contemporary Indian English: variation and change. Varieties of English around the world. John Benjamins, Amsterdam / Philadelphia. Stefanowitsch, Anatol and Stefan Th. Gries Collostructions: investigating the interaction between words and constructions. International Journal of Corpus Linguistics, pages Tesnière, Lucien Eléments de Syntaxe Structurale. Librairie Klincksieck, Paris. Tognini-Bonelli, Elena Corpus Linguistics at Work. John Benjams, Amsterdam. van Noord, Gertjan and Gosse Bouma Parsed corpora for linguistics. In Proceedings of the EACL 2009 Workshop on the Interaction between Linguistics and Computational Linguistics: Virtuous, Vicious or Vacuous?, pages 33 39, Athens, Greece. Association for Computational Linguistics. 258

265 Sigogne Anthony Université Paris-Est Constant Matthieu Université Paris-Est Laporte Éric Université Paris-Est INTÉGRATION DES DONNÉES D UN LEXIQUE SYNTAXIQUE DANS UN ANALYSEUR SYNTAXIQUE PROBABILISTE Résumé Cet article présente les résultats d une évaluation sur l intégration des données issues d un lexique syntaxique, le Lexique-Grammaire, dans un analyseur syntaxique. Nous montrons qu en modifiant le jeu d étiquettes des verbes et des noms prédicatifs, un analyseur syntaxique probabiliste non lexicalisé obtient des performances accrues sur le français. Mots clés: analyse syntaxique probabiliste, lexique syntaxique, lexique-grammaire. 1 Introduction Les lexiques syntaxiques sont des ressources très riches pour les langues qui en disposent. Ils contiennent de nombreuses informations utiles comme les cadres de sous-catégorisation qui nous renseignent sur le comportement syntaxique des entrées du lexique. La plupart du temps, ces lexiques concernent uniquement les verbes mais on peut en trouver certains, comme le Lexique-Grammaire (Gross, 1994), qui traitent d autres catégories grammaticales comme les noms, adjectifs ou encore les adverbes. De nombreux travaux basés sur l analyse syntaxique symbolique font état de l utilisation d un lexique syntaxique, par exemple (Sagot, 2006; Sagot & Tolone, 2009; de La Clergerie, 2010). En ce qui concerne l analyse syntaxique statistique, on trouve un certain nombre de travaux qui expérimentent l intégration des données d un lexique syntaxique dans des analyseurs basés sur des grammaires probabilistes telles que les Grammaires Syntagmatiques guidées par les Têtes [HPSG] (Carroll & Fang, 2004), les Grammaires Lexicales-Fonctionnelles [LFG] (O Donovan et al., 2005; Schluter & Genabith, 2008) ou encore les Grammaires Probabilistes non-contextuelles [PCFG] (Briscoe & Carroll, 1997; Deoskar, 2008). Ces derniers ont incorporé des informations de valence au niveau du lexique et de la grammaire et ont observé un léger gain de performance. Cependant, leurs ressources lexicales ont été obtenues automatiquement à partir d un corpus. De plus, les informations de valence concernaient principalement les verbes. Dans cet article, nous allons voir comment nous pouvons exploiter les données du Lexique-Grammaire afin d améliorer un analyseur syntaxique probabiliste basé sur une grammaire PCFG. Nous décrivons, section 2, l analyseur syntaxique probabiliste utilisé dans le cadre de nos expériences. Dans la section 3, nous présentons succinctement le Lexique-Grammaire ainsi que la version au format Lglex. Nous détaillons les informations présentes dans ce lexique qui peuvent être utilisées dans le cadre de l analyse syntaxique probabiliste. Ensuite, dans la section 4, nous présentons une méthode d intégration de ces informations dans le processus d analyse syntaxique, puis, à la section 5, nous décrivons les expériences et nous discutons des résultats. Enfin, section 6, nous concluons. 2 Analyse syntaxique non lexicalisée L analyseur syntaxique probabiliste, utilisé pour nos expériences, est le Berkeley Parser (appelé BKY par la suite) (Petrov et al., 2006) 1. Cet analyseur est basé sur un modèle PCFG 1 L analyseur BKY est disponible librement à l adresse http ://code.google.com/p/berkeleyparser/ 259

266 non lexicalisé. Le principal problème des grammaires hors-contexte non lexicalisées est que les symboles pré-terminaux (étiquettes morpho-syntaxiques) encodent des informations trop générales qui discriminent peu les ambiguïtés syntaxiques. L avantage de BKY est qu il tente de remédier au problème en générant une grammaire ayant des symboles pré-terminaux complexes. Il suit le principe des annotations latentes introduites par (Matsuzaki et al., 2005). Cela consiste à créer itérativement plusieurs grammaires, qui possèdent un jeu de symboles pré-terminaux de plus en plus complexes. A chaque itération, un symbole de la grammaire est séparé en plusieurs symboles selon les différents comportements syntaxiques du symbole qui apparaissent dans un corpus arboré. Les paramètres de la grammaire latente sont estimés à l aide d un algorithme basé sur Espérance-Maximisation (EM). Dans le cadre du français, (Seddah et al., 2009) ont montré que BKY donne des performances au niveau de l état de l art. Ils ont également montré que certains analyseurs, basés sur le paradigme lexicalisé (les noeuds syntagmatiques sont annotés avec le mot tête), étaient moins performants que BKY. 3 Lexique-Grammaire Les tables du Lexique-Grammaire constituent aujourd hui une des principales sources d informations lexicales syntaxiques pour le français 2. Leur développement a démarré dès les années 1970 par Maurice Gross et son équipe (Gross, 1994). Ces informations se présentent sous la forme de tables. Chaque table regroupe les éléments d une catégorie donnée partageant certaines propriétés définitoires, qui relèvent généralement de la sous-catégorisation. Ces éléments forment une classe. Il existe des tables pour différentes catégories grammaticales (noms, verbes, adverbes,...). Ces tables ont récemment été rendues cohérentes et explicites dans le cadre du travail de (Tolone, 2011) 3, notamment au moyen d une table des classes. Cette table particulière encode les propriétés définitoires qui sont communes à toutes les entrées d une classe. Ces propriétés n étaient présentes initialement que dans la littérature. Par exemple, cette table nous indique que les verbes de la table V_35LR acceptent une construction syntaxique de type N0 V N1. Cependant, les tables du Lexique-Grammaire ne sont pas directement exploitables par la machine. Nous utilisons donc le format Lglex (Constant & Tolone, 2008), qui est une version structurée des tables au format XML. Chaque entrée des tables du Lglex contient différentes informations telles que le numéro de la table, les arguments possibles ainsi que leur nombre et les constructions syntaxiques acceptées. FIG. 1: Extrait de la hiérarchie des tables des verbes Nous disposons, pour les verbes uniquement, d une hiérarchie des tables sur plusieurs niveaux 4. Chaque niveau contient plusieurs classes qui regroupent des tables du Lexique- 2 On pourra citer également les lexiques LVF (Dubois & Dubois-Charlier, 1997), Dicovalence (Eynde & Piet, 2003) et Lefff (Sagot, 2010). 3 Ces ressources sont librement disponibles à l adresse http ://infolingu.univ-mlv.fr>données_linguistiques>lexique_grammaire> Téléchargement 4 La hiérarchie des tables des verbes est disponible à l adresse suivante : http ://igm.univ-mlv.fr/ sigogne/arbretables.xlsx 260

267 Grammaire qui ne partagent pas forcément toutes leurs propriétés définitoires mais qui ont un comportement syntaxique relativement similaire. La figure 1 montre un extrait de la hiérarchie. Les tables 4, 6 et 12 sont regroupées dans une classe QTD2 (transitifs directs à deux arguments avec un objet pouvant être sous la forme d une complétive). Puis cette classe est elle-même regroupée avec d autres classes au niveau supérieur de la hiérarchie pour former une classe TD2 (transitifs directs à deux arguments). Les caractéristiques de chaque niveau sont indiquées dans le tableau 1 5 (le niveau 0 représente l ensemble des tables présentes dans le Lexique-Grammaire). On peut noter que les tables des verbes contiennent 5923 formes verbales distinctes pour entrées différentes. La colonne #classes précise le nombre de classes distinctes. Quant aux colonnes AVG_1 et AVG_2, elles indiquent le nombre moyen d entrées par classe et le nombre moyen de classes par forme verbale distincte. Niveau #classes AVG_1 AVG_ TAB. 1: Caractéristiques de la hiérarchie des tables des verbes Le principal avantage d avoir une hiérarchie des tables est d obtenir une réduction du nombre de classes associées à chaque verbe présent dans les tables. Nous verrons que la réduction des ambiguïtés est cruciale lors de nos expériences. 4 Exploitation des données du Lexique-Grammaire De nombreuses expériences d analyse syntaxique faites sur le français (Crabbé & Candito, 2008; Seddah et al., 2009), ont montré qu en raffinant les étiquettes morpho-syntaxiques du corpus d apprentissage, les performances étaient accrues. Nous allons nous inspirer de ces travaux en intégrant aux étiquettes des informations issues du Lexique-Grammaire. Dans le cadre de cet article, nous utiliserons uniquement les tables des verbes et des noms prédicatifs. Les numéros de table des entrées du lexique sont des indices importants sur les comportements syntaxiques. Dans une première expérience, appelée AnnotTable, nous avons ajouté l information du ou des numéros de table associés au nom ou au verbe. Par exemple, le verbe chérir appartient à la table 12. L étiquette est donc V_12. Pour un verbe ambigu comme sanctionner, appartenant aux tables 6 et 12, l étiquette induite est V_6_12. Ensuite, dans le cadre des verbes, nous avons effectué des variantes de l expérience précédente en prenant en compte la hiérarchie des tables des verbes. Cette hiérarchie permet d obtenir un jeu d étiquettes de taille moins conséquente selon le niveau de regroupement utilisé. Les classes ajoutées aux étiquettes morpho-syntaxiques dépendent maintenant du verbe ainsi que du niveau spécifique dans la hiérarchie. Par exemple, le verbe sanctionner, ayant pour numéros de table 6 et 12, a pour étiquette V_QTD2 aux niveaux 1 et 2, puis V_TD2 au dernier niveau. Dans le cas où le verbe est ambigu, le suffixe contient toutes les classes de la hiérarchie dont les numéros de table du verbe font partie. Cette expérience sera appelée AnnotVerbes par la suite. 5 On peut également préciser que 3121 verbes (3195 entrées) sont dit non ambigus. C est à dire que toutes leurs entrées sont présentes dans une seule et même table. 261

268 En ce qui concerne les noms prédicatifs, nous ne disposons pas encore de hiérarchie des tables. Nous avons donc testé deux méthodes. Une première méthode très simple, appelée AnnotIN, consiste à ajouter un suffixe IN à l étiquette d un nom si ce nom est dans le lexique syntaxique, et donc s il s agit d un nom prédicatif. La deuxième méthode, appelée AnnotNoms, consiste à créer une hiérarchie des tables des noms à partir de la table des tables des noms prédicatifs. Cette hiérarchie est faite en fonction du nombre d arguments maximum que peut prendre un nom d une table d après les propriétés définitoires spécifiées pour cette table dans la table des tables. Nous disposons donc d un seul niveau hiérarchique. Par exemple, les noms de la table N_aa peuvent prendre 2 arguments au maximum alors que ceux de la table N_an04 ne peuvent en prendre qu un seul. Les caractéristiques de chaque niveau sont indiquées dans le tableau 2 6 (le niveau 0 représente l ensemble des tables présentes dans le Lexique-Grammaire). Niveau #classes #noms #entrées AVG_1 AVG_ TAB. 2: Caractéristiques de la hiérarchie des tables des noms 5 Expériences et évaluations Pour nos expérimentations, nous avons utilisé le corpus arboré du français, le French Treebank (appelé FTB par la suite) (Abeillé et al., 2003), contenant phrases et mots issus du journal Le Monde (version de 2004). Ce corpus étant de petite taille, nous avons effectué nos évaluations selon la méthode dite de validation croisée. Cette méthode consiste à découper le corpus en p parties égales puis à effectuer l apprentissage sur p-1 parties et les évaluations sur la partie restante. On peut itérer p fois ce processus. Cela permet donc de calculer un score moyen sur un échantillon aussi grand que le corpus initial. Dans notre cas, nous avons fixé le paramètre p à 10. De plus, nous avons appliqué les mêmes prétraitements sur les étiquettes morpho-syntaxiques que dans (Crabbé & Candito, 2008). C est à dire que les étiquettes morpho-syntaxiques tiennent compte de l annotation morphologique riche du FTB (mode des verbes, clitiques,...), ce qui conduit à obtenir un jeu de 28 étiquettes distinctes 7. Les mots composés ont été fusionnés afin d obtenir un unique token. Dans les expériences qui suivent, nous allons tester l impact de la modification du jeu d étiquettes du corpus d apprentissage, à savoir l ajout des informations issues du Lexique- Grammaire décrites dans la section. Les résultats des évaluations sur les corpus d évaluation sont reportés en utilisant le protocole standard PARSEVAL (Black et al., 1991) pour des phrases de taille inférieure à 40 mots. Le score de F-mesure tient compte du parenthésage et également des catégories des noeuds (en tenant compte des noeuds de ponctuation). Pour chaque expérience, nous avons indiqué les résultats Baseline, à savoir les résultats de BKY entraîné sur le corpus arboré original (sans annotations issues du Lexique-Grammaire). Nous avons également indiqué le pourcentage de verbes ou de noms prédicatifs annotés distincts sur la totalité du corpus pour chaque méthode d annotation 8. La taille du jeu d étiquettes du corpus selon les différentes méthodes d annotation est précisée par la colonne Tagset des tableaux. 6 Le nombre de noms non ambigus est de 6126 pour 6175 entrées. 7 Il y a 6 étiquettes différentes pour les verbes et 2 pour les noms. 8 Le corpus contient 3058 formes verbales distinctes et formes nominales distinctes. 262

269 5.1 Annotation des étiquettes verbales Nous avons tout d abord effectué les expériences sur les verbes décrites dans la section 4, à savoir AnnotTable et AnnotVerbes. Les résultats des expériences sont montrés dans le tableau 3. Dans le cadre de l expérience AnnotVerbes, nous avons fait varier deux paramètres, à savoir Niv. (Niveau) qui indique le niveau de la hiérarchie utilisé et Amb. (Ambiguïté) qui indique qu une étiquette d un verbe est modifiée uniquement si ce verbe appartient à un nombre de classes inférieur ou égal au nombre précisé par ce paramètre. Méthode Niv./ Amb. Tagset %verbes annotés F-mesure/ Etiquetage Gains absolus (F-mesure) Baseline -/ /97.43 AnnotTable -/ ,6% 84.49/97.29 AnnotVerbes AnnotVerbes AnnotVerbes AnnotVerbes AnnotVerbes 1/ ,5% 85.06/ / ,5% 85.35/ / ,9% 85.39/ / ,7% 84.60/ / ,7% 85.20/97.48 TAB. 3: Evaluation de l impact de la modification des étiquettes verbales Pour les verbes non ambigus, nous pouvons observer que l expérience AnnotTable dégrade fortement les performances. Cela provient très probablement de la grammaire qui est trop éclatée en raison de la taille conséquente du jeu d étiquettes. L effet est inversé dès que l on utilise les niveaux de la hiérarchie des tables (niveaux 2 et 3 seulement). Les conséquences de la hiérarchisation des tables sont l augmentation du nombre de verbes annotés comme non ambigus et la réduction de la taille du jeu d étiquettes. Pour les niveaux 2 et 3, 6 des 10 corpus d évaluation obtiennent un gain absolu positif situé entre +0,2% et +1%. En revanche, la prise en compte des verbes ambigus ne permet pas d améliorer les performances (résultats montrés uniquement pour les niveaux 2 et 3 avec ambiguïté maximale de 2). La raison pourrait être identique à celle énoncée pour l expérience AnnotTable, à savoir la taille conséquente du jeu d étiquettes. 263

270 5.2 Annotation des étiquettes des noms prédicatifs Pour les noms prédicatifs, nous avons effectué successivement les expériences AnnotTable, AnnotNoms et AnnotIN, décrites dans la section 4. Les résultats sont précisés dans le tableau 4. De même que pour les verbes, nous avons fait varier le paramètre Ambiguïté pour l expérience AnnotNoms (le nombre de classes maximum associées à un nom étant de 3). Méthode Amb. Tagset %noms annotés F-mesure/ Etiquetage Gains absolus (F-mesure) Baseline /97.43 AnnotTable ,6% 85.10/97.42 AnnotNoms AnnotNoms AnnotNoms AnnotIN ,2% 85.13/ ,5% 85.16/ ,9% 85.05/ ,9% 85.20/97.54 TAB. 4: Evaluation de l impact de la modification des étiquettes nominales Les différentes méthodes d annotation des noms n augmentent que très peu les performances de l analyseur. Contrairement aux verbes, la méthode AnnotTable ne dégrade pas les performances car il y a beaucoup moins de noms annotés (moins de 9%), d où l impact limité du nouveau jeu d étiquettes. L utilisation d une hiérarchie simple des tables des noms, à travers l expérience AnnotNoms, permet d obtenir des gains positifs mais, ici, peu significatifs. On pourra cependant noter que 3 des 10 corpus d évaluation ont été grandement améliorés (de +0.4 à +0.8). De plus, nous obtenons une légère amélioration en annotant certains noms ambigus. Étonnamment, la méthode qui donne les meilleurs résultats, malgré son principe très simple, est AnnotIN. 5.3 Combinaison des annotations Dans une dernière expérience, nous avons combiné les meilleures méthodes d annotation des verbes et des noms prédicatifs, à savoir AnnotIN pour les noms prédicatifs et AnnotVerbes pour les verbes (niveau 3 sans ambiguïté). Les résultats sont indiqués dans le tableau 5. Méthode F-mesure Baseline Combinaison TAB. 5: Evaluation de l impact de la combinaison des méthodes d annotation La combinaison des annotations ne permet pas d augmenter les gains obtenus avec la méthode AnnotVerbes et on observe même une légère dégradation. 264

271 6 Conclusion et perspectives Les travaux préliminaires décrits dans cet article montrent qu en ajoutant certaines informations issues d un lexique syntaxique tel que le Lexique-Grammaire, nous sommes capable d améliorer les performances d un analyseur syntaxique probabiliste. Ces performances sont obtenues, principalement, grâce à la hiérarchie des tables des verbes qui permet de limiter l ambiguïté en terme de nombre de classes associées à un verbe. Ceci a pour effet d augmenter la couverture des verbes annotés selon le niveau de granularité utilisé. En revanche, dès que l on intègre de l ambiguïté, les performances subissent une dégradation. Les résultats obtenus sur les noms prédicatifs, notamment avec une hiérarchie simple des tables, sont peu significatifs mais laissent présager une certaine marge de progression avec une hiérarchie plus complexe comme celle disponible pour les verbes. Dans un futur proche, nous tenterons de reproduire ces expériences en tenant compte des méthodes de clustering de mots introduites par (Candito & Crabbé, 2009; Candito & Seddah, 2010). Grâce à un algorithme semi-supervisé, leurs méthodes permettent de réduire la taille du lexique de la grammaire en regroupant les mots selon leurs comportements syntaxiques dans un corpus arboré. Ces méthodes pourraient donc être complémentaires à nos méthodes d annotations. Une piste similaire à explorer pourrait consister à conserver le tagset original et à remplacer les tokens du corpus par les annotations syntaxiques générées par nos méthodes. 265

272 Références ABEILLE A., CLEMENT L. & TOUSSENEL F. (2003). Building a treebank for French. In A. ABEILLÉ, Ed., Treebanks, Kluwer, Dordrecht. BLACK E., S.ABNEY, FLICKINGER D., GDANIEC C., GRISHMAN R., HARRISON P., HINDLE D., INGRIA R., JELINEK F., KLAVANS J., LIBERMAN M., MARCUS M., ROUKOS S., SANTORINI B. & STRZALKOWSKI T. (1991). A procedure for quantitatively comparing the syntactic coverage of english grammars. In Proceedings of the DARPA Speech and Naturale Language Workshop, p BRISCOE T. & CARROLL J. (1997). Automatic extraction of subcategorization from corpora. In Fifth Conference on Applied Natural Language Processing, p , USA. CANDITO M. & CRABBÉ B. (2009). Improving generative statistical parsing with semi-supervised word clustering. In Proceedings of IWPT 09, p CANDITO M. & SEDDAH D. (2010). Parsing word clusters. In Proceedings of the first NAACL HLT Workshop on Morphologically-Rich Languages (SPRML2010), p CARROLL J. & FANG A. C. (2004). The automatic acquisition of verb subcategorisations and their impact on the performance of an HPSG parser. In Proceedings of the 1st International Conference on Natural Language Processing, Sanya City, China. CONSTANT M. & TOLONE E. (2008). A generic tool to generate a lexicon for NLP from Lexicon-Grammar tables. In Actes du 27ème Colloque Lexique et Grammaire. CRABBE B. & CANDITO M. (2008). Expériences d analyse syntaxique statistique du français. In Actes de TALN 08, p , Avignon, France. DE LA CLERGERIE E. (2010). Building factorized TAGs with meta-grammars. In Proceedings of TAG+10, p DEOSKAR T. (2008). Re-estimation of lexical parameters for treebank PCFGs. In Proceedings of COLING 08, p , Manchester, Great Britain. DUBOIS J. & DUBOIS-CHARLIER F. (1997). Les verbes français. Larousse-Bordas. EYNDE K. & PIET M. (2003). La valence : l approche pronominale et son application au lexique verbal. Journal of French Language studies, p GROSS M. (1994). Constructing Lexicon-grammars. In ATKINS & ZAMPOLLI, Eds., Computational Approaches to the Lexicon, p MATSUZAKI T., MIYAO Y. & TSUJII J. (2005). Probabilistic cfg with latent annotations. In Proceedings of ACL 05, p , Ann Arbor, USA. O DONOVAN R., CAHILL A., WAY A., BURKE M. & VAN GENABITH J. (2005). Large-scale induction and evaluation of lexical resources from the Penn-II and Penn-III treebanks. In Proceedings of IJCNLP 04. PETROV S., BARRETT L., THIBAUX R. & KLEIN D. (2006). Learning accurate, compact, and interpretable tree annotation. In Proceedings of COLING-ACL 06, Sydney, Australia. SAGOT B. (2006). Analyse automatique du français : lexiques, formalismes, analyseurs. PhD thesis, Université Paris VII. SAGOT B. (2010). The lefff, a freely available, accurate and large-coverage lexicon for french. In Proceedings of LREC 2010, La Valette, Malte. SAGOT B. & TOLONE E. (2009). Intégrer les tables du Lexique-Grammaire à un analyseur syntaxique robuste à grande échelle. In Actes de TALN 09, Senlis, France. SCHLUTER N. & GENABITH J. V. (2008). Treebank-based Acquisition of LFG Parsing Resources for French. In Proceedings of LREC08, Marrakech, Morocco. SEDDAH D., CANDITO M. & CRABBÉ B. (2009). Adaptation de parsers statistiques lexicalisés pour le français : Une évaluation complète sur corpus arborés. In Actes de TALN 09, Senlis, France. TOLONE E. (2011). Analyse syntaxique à l aide des tables du Lexique-Grammaire du français. PhD thesis, Université Paris-Est Marne-la-Vallée. 266

273 Tolone Elsa Universidad Nacional de Córdoba, Argentine La Clergerie Éric Université Paris 7, France Sagot Benoît Université Paris 7, France ÉVALUATION DE LEXIQUES SYNTAXIQUES PAR LEUR INTÉGRATION DANS L'ANALYSEUR SYNTAXIQUE FRMG Résumé Dans cet article, nous évaluons divers lexiques avec l'analyseur syntaxique FRMG : le Lefff, LGLex, le lexique syntaxique construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE, ainsi qu'une nouvelle version des entrées verbales du Lefff, obtenues par fusion avec DICOVALENCE et validation manuelle partielle. Pour cela, tous ces lexiques ont été convertis au format du Lefff, le format Alexina. L'évaluation a été faite sur la partie du corpus EASy utilisé lors de la première campagne d'évaluation Passage. Mots clés: lexiques syntaxiques, analyseur syntaxique, campagne d'évaluation, fouille d'erreurs. 1. Introduction De nombreux analyseurs du français ont été développés ces dernières années et il importe de les évaluer afin d'améliorer leur précision et leur robustesse sur des corpus à grande échelle. Ceci est en effet de nature à améliorer l'exploitation des annotations syntaxiques produites, d'une part pour enrichir, améliorer voire créer des ressources linguistiques et d'autre part en vue d'applications concrètes comme l'extraction d'informations ou la fouille de textes. L'objectif de ce travail est d'évaluer divers lexiques syntaxiques par le biais de l'évaluation de l'analyseur syntaxique FRMG (de La Clergerie, 2005a ; Thomasset & Éric de La Clergerie, 2005) lorsqu'il est couplé à chacun d'entre eux. Il s'agit donc d'une évaluation orientée-tâche (task-based) de ces ressources. Nous avons évalué le Lefff dans sa version 3.0 (Sagot, 2010), ainsi que trois ressources obtenues en remplaçant (presque) toutes les entrées verbales du Lefff par d'autres ressources, à savoir successivement le lexique LGLex (Tolone, 2011) construit à partir des tables du Lexique-Grammaire du français, le lexique DICOVALENCE (van den Eynde & Mertens, 2006), ainsi qu'une nouvelle version des entrées verbales du Lefff obtenues à partir de sa fusion avec DICOVALENCE et d'un travail de validation manuelle. Pour cela, tous ces lexiques ont été convertis au format du Lefff, le format Alexina. L'évaluation a été faite sur la partie du corpus EASy utilisé lors de la première campagne d'évaluation Passage (Hamon et al., 2008). Nous commençons par détailler ces quatre ressources lexicales, qu'il s'agisse de lexiques déjà existants (le Lefff, LGLex ou DICOVALENCE) ou de la nouvelle version du Lefff (section 2.2). Nous présenterons ensuite l'analyseur FRMG et la campagne d'évaluation Passage à la section 3, avant de détailler les résultats obtenus par FRMG lorsqu'on lui fait rejouer cette campagne en le couplant successivement avec les quatre lexiques décrits à la section 4. Nous montrons en particulier que pour l'instant, c'est encore la version standard du Lefff qui donne les meilleurs résultats. Enfin, nous discutons à la section 5 de la fouille d'erreurs réalisée sur les sorties produites afin d'identifier les entrées lexicales verbales susceptibles d'expliquer la baisse de précision obtenue par les autres ressources par rapport au Lefff, puis nous concluons à la section Les ressources lexicales 2.1. Lefff, LGLex et DICOVALENCE Nous avons utilisé les données lexicales issues de trois ressources électroniques librement 267

274 disponibles : Lefff (Lexique des formes fléchies du français) 1 : Ce lexique est une ressource morphologique et syntaxique à large couverture du français, qui couvre l'ensemble des catégories (Sagot, 2010). Le Lefff, développé dans le formalisme lexical Alexina, est orienté vers une utilisation dans des outils de traitement automatique, mais cherche à préserver une pertinence linguistique. Il est ainsi utilisé par exemple dans des analyseurs à grande échelle pour différents formalismes (LFG, LTAG, et d'autres). Des travaux récents en ont amélioré la qualité et la couverture pour certaines classes d'entrées (constructions impersonnelles, constructions pronominales, adverbes en -ment, verbes en -iser et -ifier), notamment par comparaison et fusion avec d'autres ressources lexicales comme DICOVALENCE et les tables du Lexique-Grammaire (Sagot & Danlos, 2007 ; Sagot & Fort, 2007 ; Danlos & Sagot, 2008 ; Sagot & Fort, 2009). LGLex 2 : Ce lexique syntaxique a été construit à partir des tables du Lexique-Grammaire du français en un format textuel et XML (Constant & Tolone, 2010), après un travail de mise en cohérence et d'explicitation des propriétés syntaxiques dans les tables du Lexique- Grammaire (Tolone, 2011). Grâce à une définition formelle ou à une interprétation dynamique de toutes les constructions, la version texte du lexique LGLex a ensuite été convertie au format Alexina (Tolone & Sagot, 2011). Cela a pu être fait pour l'ensemble des verbes (issus des 67 tables regroupant entrées, dont entrées distinctes) et des noms prédicatifs (issus des 78 tables regroupant entrées, dont entrées distinctes). DICOVALENCE 3 : Le dictionnaire de valence verbale DICOVALENCE (van den Eynde & Mertens, 2006) est une ressource informatique qui répertorie les cadres de valence de plus de verbes simples du français, soit plus de entrées. Le dictionnaire explicite en outre certaines restrictions sélectionnelles, certaines formes de réalisation (pronominales, phrastiques) des termes, la possibilité d'employer le cadre valenciel dans différents types de passif, etc. La particularité essentielle du dictionnaire réside dans le fait que les informations valencielles sont représentées selon les principes de «l'approche Pronominale» en syntaxe (Blanche-Benveniste et al., 1984). Pour chaque place de valence (appelée paradigme) le dictionnaire précise le paradigme de pronoms qui y est associé et qui couvre en intention les lexicalisations possibles. Il précise aussi les reformulations possibles, comme le passif Construction d'une nouvelle version des entrées verbales du Lefff par fusion avec DICOVALENCE et validation manuelle Bien que le principe général sous-tendant les entrées lexicales du Lefff soit que chaque sens distinct d'un même lemme doive correspondre à une entrée distincte, ce principe n'est respecté que très partiellement dans la version actuelle de la ressource. C'est pourtant une nécessité pour améliorer la qualité du Lefff comme ressource descriptive, pour permettre la prise en compte d'informations telles que les restrictions de sélection pendant ou après l'analyse syntaxique, pour coupler à terme le Lefff avec des ressources lexicales sémantiques, et plus généralement pour envisager l'utilisation du Lefff en analyse sémantique. Nous avons effectué un premier travail dans cette direction, en cherchant à intégrer DICOVALENCE au sein du Lefff. En effet, DICOVALENCE distingue quant à lui les différents sens d'un même lemme verbal en plusieurs entrées. Pour cela, nous avons mis en œuvre la méthodologie décrite dans (Sagot & Danlos, 2008). Ainsi, nous avons tout d'abord 1 Distribution de la version 3.0 en ligne sous licence LGPL-LR à l'adresse 2 Distribution de la version 3.3 en ligne sous licence LGPL-LR à l'adresse Données Linguistiques > Lexique-Grammaire > Téléchargement 3 Distribution de la version 2 en ligne sous licence LGPL-LR à l'adresse 268

275 converti DICOVALENCE au format Alexina, améliorant pour ce faire l'outil de conversion utilisé précédemment (Danlos & Sagot, 2008). La fusion du résultat de cette conversion avec le Lefff a été réalisée de la même façon que dans (Danlos & Sagot, 2008), en préservant toutes les informations issues des deux ressources (exemples, etc.). La difficulté est qu'il est fréquent qu'un lemme verbal donné ait plusieurs entrées dans DICOVALENCE et plusieurs dans le Lefff, ce qui rend délicate la mise en correspondance de chaque entrée de l'un avec zéro, une ou plusieurs entrées de l'autre. Nous avons donc appliqué les heuristiques décrites dans (Danlos & Sagot, 2008), qui permettent la mise en correspondance de deux entrées si les inventaires de fonctions syntaxiques de base (sujet, objets direct et indirects) sont identiques, et si l'inventaire de fonctions syntaxiques obliques (locatif, délocatif, etc.) dans l'entrée du Lefff est inclus dans celui issu de DICOVALENCE. Pour chaque lemme, on obtient ainsi au moins autant d'entrées que dans le lexique qui en contient le moins, et au plus la somme des nombres d'entrées dans chaque lexique, lorsqu'aucune mise en correspondance n'a fonctionné. Pour bénéficier au mieux de la bonne qualité générale des informations syntaxiques présentes dans DICOVALENCE, nous avons décidé de réaliser une validation manuelle partielle mais significative du résultat de la fusion. Ainsi, nous avons validé manuellement toutes les entrées correspondant à des lemmes telles que le nombre d'entrées dans le lexique fusionné était strictement supérieur au maximum du nombre d'entrées entre les deux ressources. Une telle situation signifie en effet qu'au moins une entrée du Lefff n'a pu être mise en correspondance avec une entrée de DICOVALENCE, et inversement, ce qui fait soupçonner que la fusion s'est passée de façon incorrecte en raison d'erreurs dans l'un ou l'autre des lexiques, ou en raison de différences d'analyse (un objet indirect en de pour une ressource pouvant être un délocatif pour une autre, par exemple). Nous avons ainsi validé, corrigé voire fusionné manuellement toutes les entrées pour 505 lemmes verbaux, produisant ainsi 986 entrées. Par ailleurs, nous avons extrait du corpus de l'est Républicain une table de fréquence des formes fléchies, qui nous a permis de dresser une liste des 100 lemmes verbaux les plus fréquents du français. Nous avons validé, corrigé, fusionné et complété manuellement toutes les entrées correspondant à ces lemmes verbaux dans le lexique fusionné. Le résultat de ce travail est un lexique morphologique, syntaxique et sémantique composé de entrées couvrant lemmes verbaux distincts. 3. L'analyseur syntaxique FRMG et la campagne d'évaluation Passage FRMG (FRench MetaGrammar) (de La Clergerie, 2005a ; Thomasset & Éric de La Clergerie, 2005) est un analyseur syntaxique profond à large couverture pour le français. Une description grammaticale de haut niveau sous forme de méta-grammaire sert de point de départ pour la génération d'une grammaire d'arbres adjoints (TAG, Tree Adjoining Grammar) (Joshi et al., 1975). Cette grammaire est transformée par le système DyALog (de La Clergerie, 2005b ; de La Clergerie, 2002) en un analyseur syntaxique. L'analyseur syntaxique FRMG découlant des phases de compilation de la métagrammaire FRMG ne peut bien sûr fonctionner seul. Il s'intègre dans une chaîne complète de traitement comprenant, en amont, le lexique syntaxique Lefff et les nombreux modules de SXPipe (Sagot & Boullier, 2008) en charge de la segmentation, de la correction orthographique et de la détection des entités nommées. Pour une phrase donnée, FRMG retourne l'ensemble des analyses complètes sous forme de forêt. En cas d'échec pour une analyse complète, l'analyseur retourne un ensemble d'analyses partielles couvrant au mieux la phrase. Enfin, sous la contrainte d'un temps limite (timeout), si l'analyseur n'a pu conclure l'ensemble des analyses, il retourne celles déjà disponibles (mode just-in-time). En pratique, très peu de phrases (moins de 1%) se retrouvent sans aucune analyse (complète ou partielle). Ensuite, la forêt d'analyse peut être convertie sous forme d'une forêt de dépendances et 269

276 également désambiguïsée, en utilisant un ensemble de règles heuristiques très peu lexicalisées. On obtient ainsi une unique analyse par dépendance qui peut ensuite être convertie dans le format Passage, utilisé dans le cadre des campagnes d'évaluation Passage. On peut voir par exemple à la figure 1 la sortie au format Passage de la phrase Depuis quelques semaines, les rapports entre les deux camps se dégradent. Figure 1. Exemple de sortie au format Passage Précisons que FRMG est un logiciel libre accessible sous la GForge de l'inria 4. Il est également possible de jouer avec la chaîne de traitement et de visualiser la grammaire FRMG sur La campagne d'évaluation Passage ( ) 5 (Hamon et al., 2008) soutenue par l'anr a pour objectif d'évaluer les analyseurs du français, d'améliorer l'exactitude et la robustesse des analyseurs du français sur des corpus à grande échelle (100 millions de mots) ; et d'exploiter les annotations syntaxiques résultantes pour créer une ressource linguistique plus riche et plus étendue : un treebank pour le français. Six types de constituants ont été choisis pour cette campagne : groupe nominal, (GN), noyau verbal (NV), groupe adjectival (GA), groupe adverbial (GR), groupe prépositionnel (GP) et groupe prépositionnel à noyau verbal (PV). Les relations (dépendances entre mots pleins) à relever sont les suivantes : dépendance sujet-verbe (SUJ-V), dépendance auxiliaire-verbe (AUX-V), objet direct (COD-V), autre complément du verbe (CPL-V), modifieur du verbe (MOD-V), subordonnée (COMP), attribut du sujet ou de l'objet (ATB-SO), modifieur du nom (MOD-N), modifieur de l'adjectif (MOD- A), modifieur de l'adverbe (MOD-R), modifieur de la préposition (MOD-P), coordination (COORD), apposition (APPOS) et juxtaposition (JUXT). Le guide d'annotation utilisé lors de la campagne Passage est le guide des annotations syntaxiques de référence PEAS 6. Les métriques d'évaluation utilisées sont celles définies à l'occasion de la campagne EASy : la précision, le rappel et la f-mesure, avec différents modes de relâchement de contrainte sur la mesure des frontières de constituants (Paroubek et al., 2005). Pour la première campagne de Passage de 2007, la référence utilisée est un extrait d'environ un million de mots du corpus EASy (Paroubek et al., 2005), de styles variés (journalistique, médical, oral, questions, littéraire, etc.), dont phrases constituaient déjà la référence de la campagne EASy en 2004 et 400 nouvelles phrases ont été annotées manuellement depuis Disponible sur le site 270

Montrer encore