Stéphane Gagnon, Sadia Messaoudi, Alain Charbonneau

Classfcaton automatque de textes basée sur une ontologe normée Applcaton du Extensble Busness Reportng Language (XBRL) au Reuters Corpus Volume 1 (RCV1) Stéphane Gagnon, Sada Messaoud, Alan Charbonneau Unversté du Québec en Outaouas 283, boulevard Alexandre-Taché C.P. 1250, succursale Hull Gatneau (Québec) Canada J8X 3X7 stephane.gagnon@uqo.ca RÉSUMÉ. Nous démontrons que l utlsaton d une ontologe normée selon le domane d applcaton permet d amélorer sgnfcatvement la Classfcaton automatque de textes (CAT). Nous utlsons le Extensble Busness Reportng Language (XBRL) pour défnr une ontologe normée et comparons la performance d un engn de CAT (IBM Classfcaton Module v.8.6) face à 2 autres lstes de concepts, soent smple et hérarchque. Notre échantllon de nouvelles fnancères est tré du Reuters Corpus Volume 1 (RCV1), où 2 experts en fnance nous adent à coder 1 000 des 45 000 nouvelles portant sur les fusons et acqustons. Nous rapportons le rappel, la précson, la mesure F, et en plus une mesure dte hérarchque ajustée pour la pertnence de classfcaton au nveau des classes parents, ans qu une mesure plus détallée évaluant l améloraton de la classfcaton au nveau de chaque texte. ABSTRACT. We demonstrate that applyng a doman-specfc ontology standard sgnfcantly mproves Automated Text Classfcaton (ATC). We use the Extensble Busness Reportng Language (XBRL) to defne a standard ontology and compare the performance of an ACT engne (IBM Classfcaton Module v.8.6) aganst 2 other lst of concepts, namely smple and herarchcal. Our sample of fnancal news s extracted from the Reuters Corpus Volume 1 (RCV1), where 2 experts n fnance help us code 1000 of the 45000 news dealng wth mergers and acqustons. We report recall, precson, the F measure, and n addton a herarchcal measure adjusted for classfcaton relevance n parent classes, as well as a more detaled measure evaluatng the classfcaton mprovements at the level of each text. MOTS-CLÉS : Classfcaton automatque de textes, Nouvelles fnancères, Reuters Corpus Volume 1 (RCV1), Ontologe, Extensble Busness Reportng Language (XBRL) KEYWORDS: Automated Text Classfcaton, Fnancal News, Reuters Corpus Volume 1 (RCV1), Ontology, Extensble Busness Reportng Language (XBRL)

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau 1. Introducton La Classfcaton automatque de textes (CAT) est souvent requse en geston des documents numérques, en partculer la classfcaton hérarchque selon une taxonome et/ou ontologe du domane d applcaton. Nous proposons d amélorer la performance de ce type de classfcaton va l utlsaton d une ontologe normée. Nous utlsons le Extensble Busness Reportng Language (XBRL) comme ontologe normée et comparons la performance d un engn de CAT (IBM Classfcaton Module v.8.6) face à 2 autres lstes de concepts, soent smple et hérarchque. On l utlse comme ontologe dans le sens que les nterrelatons entre les concepts ne sont pas unques et lnéares comme dans le cas d une taxonome. Notre échantllon de nouvelles fnancères est tré du Reuters Corpus Volume 1 (RCV1), où 2 experts en fnance nous adent à coder 1 000 des 45 000 nouvelles portant sur les fusons et acqustons. Nous rapportons le rappel, la précson, la mesure F, et en plus une mesure dte hérarchque ajustée pour la pertnence de classfcaton au nveau des classes parents, ans qu une mesure plus détallée évaluant l améloraton de la classfcaton au nveau de chaque texte. 2. Fondements La classfcaton de textes selon une hérarche de classes ou taxonome n a été formalsée que très récemment (Koller and Saham 1997). Les mesures applquées aux classfeurs plats telles la précson et le rappel, ne convennent pas à une classfcaton hérarchque car elles ne prennent pas en consdératon les types d erreurs lées à la mauvase classfcaton (Krtchenko, Matwn et al. 2006). Dans les tâches de classfcaton hérarchque, l est mportant de consdérer la pertnence d un document non seulement par rapport à sa classe mas auss par rapport à la classe parent (Sokolova and Lapalme 2009). Cec est surtout dû au fat qu une classe parente représente des sujets plus généraux que ceux des classes enfants (Y 2006). Pour surmonter ces défs, nous utlsons la mesure hf, basés sur les ancêtres pour évaluer la classfcaton (Krtchenko, Matwn et al. 2004). Formellement, en consdérant une classfcaton hérarchque mult-étquettes, on peut défnr la mesure d évaluaton hf de la façon suvante (Krtchenko, Matwn et al. 2006). Pour toute nstance (d,c ) classfée sous le sous-ensemble C avec C C, d D, C C, on aura Les mcro-moyennes hp (Précson) et hr (Rappel) telles que : hp = Ancêtre(C ) Ancêtre(C ) Ancêtre(C ) [1]

Classfcaton automatque de textes basée sur une ontologe normée hr = Ancêtre(C ) Ancêtre(C ) Ancêtre(C ) La combnason des deux valeurs hp et hr permet de calculer la F-Score (hf) : [ 0 ] 2 ( β + 1) hp. hr, hfβ = [2] β 2 hp + hr β,+. Afn de donner le même pods à la précson et au rappel, on utlse β = 1. 3. Méthodologe Notre étude se concentre sur un problème partculer, sot d évaluer s l utlsaton d une ontologe normée adera à amélorer la classfcaton hérarchque de textes. Nous voulons comparer la performance de ce type de hérarche par rapport à la classfcaton non-normée, telle qu une smple lste de sujets ou une lste de sujets avec hérarche lmtée. Nous utlserons un classfeur commercal, IBM Classfcaton Module (ICM) v.8.6, sans regard aux algorthmes utlsés. Nous utlsons une méthode à 4 étapes répétée pour 3 lstes dfférentes : 1. Développement d une lste de sujets (mots clés) et des ontologes. 2. Échantllonnage des nouvelles. 3. Évaluaton du classfeur sur les échantllons. 4. Comparason et nterprétaton des résultats des dvers tests. Les sujets pour les 3 types de classfcatons ont été sélectonnés sur un sous-sujet d un corpus de nouvelles fnancères, sot sur les fusons et acqustons (Haleblan, Devers et al. 2009), pour produre 3 lstes développées sute à notre recherche : 1. Smple : sujets choss parm la lttérature académque. 2. Hérarchque : sujets choss selon la lttérature, regroupés par facteur prncpal. 3. Normée : sujets trés d une norme comptable nternatonale. Pour construre la lste normée, nous avons utlsé le schéma du Extensble Busness Reportng Language (XBRL) v.2.1, selon le Internatonal Fnancal Reportng Standards (IFRS) (IASB 2009). Nous utlsons en partculer 2 normes : 1. Internatonal Accountng Standard 1 (IAS 1) pour la présentaton des états fnancers : 1.1. [310005] Income statement, by functon of expense - Separate fnancal statements. 1.2. [220005] Statement of fnancal poston, order of lqudty - Separate fnancal statements.

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau 2. IFRS 3 pour les Notes aux états fnancers pour les combnasons d entreprses : 2.1. [817000] Notes - Busness combnatons. La base de données utlsée pour nos tests est le Reuters Corpus Volume 1 (RCV1) (Lews, Yang et al. 2004a). Nous utlsons seulement les 42 890 nouvelles lées au code C181, Mergers and Acqustons, appartenant au code C18, Ownershp Changes. Le nombre de nouvelles a été rédut pour nettoyer la base des nouvelles ncomplètes et produre le RCV1v2 (Lews, Yang et al. 2004b). Grâce à une pette applcaton en Vsual Basc, un certan nombre de nouvelles aléatores est extrat en vue de les trater dans les prochans processus de classfcaton supervsée. Il s agt d une nterface permettant aux experts d étqueter les nouvelles selon les concepts de l ontologe offerte par la norme XBRL. Une fos l échantllonnage des 1000 nouvelles fnalsé, on procède à la classfcaton manuelle des données cblées avec l ade de deux experts du domane. Les deux experts en fnance, recruté parm les étudants du MBA de l Unversté du Québec, travallent ndépendamment l un de l autre et classfent chacun une cope de l échantllon sur la base des sujets hérarchques normés choss. Une applcaton développée sous Access est utlsée afn de faclter l analyse de chacune des nouvelles, leur classfcaton, et leur récupératon en vue du prochan processus. ICM a été entrané sur la base de 120 nouvelles extrates sem-aléatorement de l échantllon de 1000 nouvelles codées. Toutefos, le chox de ces 120 nouvelles se base sur une lste de classes domnantes. La lste des classes domnantes a été chose sur la base de la comparason de la classfcaton des 2 experts en utlsant le tableau de contngence. Les classes au TP élevé étaent alors canddates à la sélecton. Cette méthode de traval content un certan nombre d anomales qu on a tenté de corrger par une réducton des nouvelles et classes. Afn de fare une analyse rche de la dsperson et du pods de chaque sujet ou classe et de chaque nouvelle, on s est appuyé sur l expertse récupérée de la classfcaton manuelle. Les observatons suvantes ont été fates : 1. Des classes sont domnantes telles que Acquston, Sales et Merger. 2. D autres classes sont nsgnfantes pour les 2 experts, telles que Gross, Deprecaton, Other, Imparment, et Inventory. 3. En élmnant les nouvelles contradctores par rapport aux experts (classfcatons totalement dfférentes), on obtent un nombre de nouvelles utlsable pour l étude équvalent à 779 nouvelles (car l y a 221 nouvelles contradctores) parm lesquelles se trouvent les 81 nouvelles compatbles. Dans le but d assurer des mesures non-basées par la présence d un trop grand nombre de classes non-utlsées, on a fat une nouvelle sélecton de nouvelles classées de façon compatbles. Notre approche vse ans à exploter les classes les plus pertnentes pour rédure la propagaton des erreurs dues aux mauvas

Classfcaton automatque de textes basée sur une ontologe normée classements à des nveaux nféreurs de la hérarche (Bennett and Nguyen 2009). On a alors chos 402 nouvelles basées sur l utlsaton du ters des classes domnantes présentées au Tableau 2, pour des échantllons d entraînement et de classfcaton égaux de 201 nouvelles. Il montre qu en comparant l expert1 à l expert2, on remarque que certanes classes ont été prvlégées par les 2. Ans, s on estme que le nombre 17 est satsfasant et que le nombre de classes ntéressantes est 14. Tableau 2. Identfcaton des classes domnantes parm les 3 lstes Classe Fréquence du chox des 2 experts Classe Fréquence du chox des 2 experts Acquston 447 Investment 40 Merger 198 Debt 38 Sales 126 Costs 30 Cash 94 Property 26 Prce 62 Value 24 Earnngs 52 Taxes 17 Admnstratve 49 Control 17 Une fos la classfcaton des 402 nouvelles fnalsée sur la base d une lste normée de 14 classes, on a analysé dans le détal le chox des classes par ICM et chaque expert, et on a conclu que l erreur se trouvat dans le fat que 8 des classes feulles de la lste normée touchaent une parte des nouvelles et non toutes les nouvelles car n apparassant pas dans les lstes smple et hérarchque. En fat on avat comparé en usant d une probablté dfférente qu ne fournssat donc pas le bon résultat. La probablté concernant le fat qu une nouvelle quelconque sot affectée à l une des classes domnantes est de 1/6 (l y a 6 classes feulles) dans la lste smple et dans la lste hérarchque. La même nouvelle a une probablté mons mportante face à une lste normée dont les feulles ne correspondent pas totalement à celles des lstes smple et hérarchque (probablté de 1/14). Afn de corrger l anomale des résultats non totalement probants, une nouvelle lste d entranement contenant 203 nouvelles basée sur 6 classes domnantes a été chose. Un nouvel échantllon de classfcaton a également été sélectonné pour 462 nouvelles. La lste normée a été rédute sur les classes apparassant dans les lstes smple et hérarchque : Merger, Acquston, Prce, Control, Debt, Value. 4. Résultats Les résultats de la classfcaton automatque par rapport aux 2 experts sont rapportés selon les mesures classques de la précson, du rappel, et de la mesure F. On rapporte également la mesure hf de Krtchenko et al. On exécute ICM sur

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau l échantllon de 462 nouvelles sur 6 classes domnantes, où chaque nouvelle reçot un nombre varable de classes pertnentes. On remarque au Tableau 3 que la lste normée amélore sgnfcatvement toutes les mesures classques. Ce résultat n est cependant pas fable car l faut également évaluer la performance de chaque lste selon les relatons parent-enfant des classes. Le Tableau 4 montre les résultats qu permettent de meux compléter les mesures classques. En plus de la mcro et la macro F-Mesures, la mesure hf de Krtchenko et al. est présentée. Les 2 mesures F enregstrent des résultats plus probants par rapport à la mesure hf. Cela n est pas basé sur le fat que les résultats de la mesure hf aent bassé mas plutôt que la mcro et macro mesure aent augmenté. Cette augmentaton nous met dans l oblgaton de trouver des explcatons dans une autre forme d analyse qu va se concentrer sur le rasonnement du classfeur plutôt que sur des calculs qu pourraent mettre de côté la valeur d une classfcaton amélorée et/ou enrche pour une lste normée par rapport aux lstes smple et hérarchque. Tableau 3. Résultats du ICM sur les mesures de base en comparason aux 2 experts Expert 1 Lste Smple Lste Hérarchque Lste Normée Précson 0,5870 0,7156 0,8172 Rappel 0,8104 0,8414 0,8407 F-Mesure 0,6808 0,7734 0,8288 Expert 2 Lste Smple Lste Hérarchque Lste Normée Précson 0,6684 0,7350 0,7700 Rappel 0,7473 0,8260 0,8728 F-Mesure 0,7057 0,7779 0,8182 Tableau 4. Résultats du ICM sur les mesures F et hf en comparason aux 2 experts Expert 1 Lste Smple Lste Hérarchque Lste Normée Macro-F-Mesure 0,5165 0,5056 0,4950 Mcro-F-Mesure 0,6809 0,7734 0,8288 Krtchenko-hF-Mesure 0,6809 0,8397 0,7828 Expert 2 Lste Smple Lste Hérarchque Lste Normée Macro-F-Mesure 0,4417 0,5159 0,5664 Mcro-F-Mesure 0,7057 0,7779 0,8182 Krtchenko-hF-Mesure 0,7057 0,8593 0,8521 Dans le but de meux comprendre l orgne des résultats sur la mesure hf, et possblement de ben démontrer s la lste normée donne une performance supéreure, nous proposons une méthode d analyse des améloratons de la

Classfcaton automatque de textes basée sur une ontologe normée classfcaton entre les 3 lstes. On compare, pour chaque nouvelle, le nombre de classes choses par le classfeur par rapport aux chox de l expert : 1. Améloraton : Le classfeur a chos les mêmes classes choses par lexpert en plus dautres classes que lexpert na pas trouvé. 2. Stablté : Le classfeur a chos les mêmes classes choses par lexpert. 3. Dmnuton : Une classe en mons a été trouvée par le classfeur correspondant au chox de lexpert, ou aucune des classes choses par lexpert na été trouvée par le classfeur. On compare ensute le nombre de classes qu changent de qualté entre les 3 lstes. Le Tableau 5 rapporte le nombre de classes correspondant aux 3 qualtés du classement. Le nombre de classes rapportées nous permet alors de démontrer s la lste normée donne des résultats amélorés, stables, ou dmnués, par rapport aux 2 autres lstes. On constate tout d abord que, pour les 2 experts, la lste normée permet une plus grande stablté du nombre de classes ben classfées. De plus, dans le cas de l expert 2, la lste normée permet une mons lourde dmnuton de la performance de la classfcaton. Elle ne permet pas cependant d améloratons des classfcatons. En résumé, lorsqu on compare les résultats des Tableaux 3, 4 et 5, on peut conclure qu une lste normée amélore les mesures classques, n a pas d effet partculer face aux mesures hérarchques, et permet une classfcaton plus fable par rapport aux autres lstes non-normées. Tableau 5. Comparason de la qualté du classement entre les 3 lstes Expert 1 Smple > Hérarchque Hérarchque Smple > Normée > Normée Améloraton 235 230 222 Stablté 221 219 231 Dmnuton 6 13 9 Expert 2 Smple > Hérarchque Hérarchque Smple > Normée > Normée Améloraton 267 299 202 Stablté 186 159 257 Dmnuton 9 4 3 5. Concluson Nous avons démontré que l utlsaton d une ontologe normée permet d amélorer sgnfcatvement la performance d un engn de CAT. Nous avons élaboré une méthodologe utlsant un classfeur commercal, et avons classfé, selon 3 lstes de sujets ou classes, un échantllon de 1000 nouvelles du RCV1 codé

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau par 2 experts en fnance. Nous avons enfn évalué la performance selon des mesures classques, une mesure hérarchque, et nouvelle méthode pour évaluer l améloraton de la classfcaton. Au plan théorque, notre étude a perms de détermner la valeur relatve des ontologes normées pour almenter d autres pstes de recherches prortares. Elle pourrat être utle aux chercheurs désreux de rédure la complexté de la base de connassance utlsée. Au plan des applcatons, nos résultats devraent servr à amélorer la performance lée au secteur des fnances. Nous envsageons également des systèmes d ade à la décson plus complexes, tels qu un système de survellance des marchés fnancers permettant d nterpréter dvers évènements affectant les socétés cotées en bourse, dans le but de ler ces évènements à des prévsons des cours boursers. 6. Références Bennett, P. N. and N. Nguyen (2009). Refned experts: Improvng classfcaton n large taxonomes, 32nd Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Boston, MA. Haleblan, J., C. E. Devers, et al. (2009). "Takng stock of what we know about mergers and acqustons: A revew and research agenda", Journal of Management 35(3): 469-502. IASB. (2009). "Internatonal Fnancal Reportng Standards - The IFRS XBRL Taxonomy Illustrated". Krtchenko, S., S. Matwn, et al. (2004). "Herarchcal text categorzaton as a tool of assocatng genes wth gene ontology codes", The 2nd European Workshop on Data Mnng & Text Mnng for Bonformatcs: 26 30. Krtchenko, S., S. Matwn, et al. (2006). Learnng and Evaluaton n the Presence of Class Herarches: Applcaton to Text Categorzaton, Lecture Notes n Computer Scence - LNCS - Advances n Artfcal Intellgence. Berln, Sprnger. 4013: 395-406. Koller, D. and M. Saham (1997). Herarchcally classfyng documents usng very few words, Stanford InfoLab. Lews, D. D., Y. Yang, et al. (2004a). "RCV1: A new benchmark collecton for text categorzaton research", Journal of Machne Learnng Research 5(December): 361-397. Lews, D. D., Y. Yang, et al. (2004b). "RCV1-v2/LYRL2004: The LYRL2004 Dstrbuton of the RCV1-v2 Text Categorzaton Test Collecton, 12-Apr- 2004 Verson. Sokolova, M. and G. Lapalme (2009). "A systematc analyss of performance measures for classfcaton tasks", Informaton Processng and Management 45(4): 427-437. Y, K. (2006). "Les défs de la catégorsaton automatque utlsant les systèmes de classfcaton de bblothèque", World Lbrary and Informaton Congress (WIIC) 72nd IFLA General Conference and Councl.