Stéphane Gagnon, Sadia Messaoudi, Alain Charbonneau



Documents pareils
LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

hal , version 1-14 Aug 2009

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Les jeunes économistes

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Remboursement d un emprunt par annuités constantes

Dirigeant de SAS : Laisser le choix du statut social

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Montage émetteur commun

Mesure avec une règle

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Prise en compte des politiques de transport dans le choix des fournisseurs

MINISTERE DE L ECONOMIE ET DES FINANCES

Des solutions globales fi ables et innovantes.

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Editions ENI. Project Collection Référence Bureautique. Extrait

STATISTIQUE AVEC EXCEL

TD 1. Statistiques à une variable.

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

La Quantification du Risque Opérationnel des Institutions Bancaires

Prêt de groupe et sanction sociale Group lending and social fine

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Système solaire combiné Estimation des besoins énergétiques

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

OPTIMALITÉ DU MÉCANISME DE RATIONNEMENT DE CRÉDIT DANS LE MODÈLE ISLAMIQUE DE FINANCEMENT

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

1. Les enjeux de la prévision du risque de défaut de paiement

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Séparation de Sources par lissage cepstral des masques binaires

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Professionnel de santé équipé de Médiclick!

Interface OneNote 2013

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Exercices d Électrocinétique

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Analyse des Performances et Modélisation d un Serveur Web

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Paquets. Paquets nationaux 1. Paquets internationaux 11

Pour plus d'informations, veuillez nous contacter au ou à

Terminal numérique TM 13 raccordé aux installations Integral 33

Stéganographie Adaptative par Oracle (ASO)

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Comparative performance for isolated points detection operators: application on surface defects extraction

Page 5 TABLE DES MATIÈRES

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

santé Les arrêts de travail des séniors en emploi

Grandeur physique, chiffres significatifs

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Étranglement du crédit, prêts bancaires et politique monétaire : un modèle d intermédiation financière à projets hétérogènes

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Le Prêt Efficience Fioul

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Pro2030 GUIDE D UTILISATION. Français

Evaluation de performances d'ethernet commuté pour des applications temps réel

Intégration financière et croissance économique : évidence empirique dans. la région MENA

INTERNET. Initiation à

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

Analyse de sensibilité des modèles de simulation. Samuel Buis UMR 1114 EMMAH Avignon

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

master Objectif Université d Auvergne - Université Blaise Pascal Rentrée 2014 AUVERGNE

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Pratique de la statistique avec SPSS

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

ACTE DE PRÊT HYPOTHÉCAIRE

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Transcription:

Classfcaton automatque de textes basée sur une ontologe normée Applcaton du Extensble Busness Reportng Language (XBRL) au Reuters Corpus Volume 1 (RCV1) Stéphane Gagnon, Sada Messaoud, Alan Charbonneau Unversté du Québec en Outaouas 283, boulevard Alexandre-Taché C.P. 1250, succursale Hull Gatneau (Québec) Canada J8X 3X7 stephane.gagnon@uqo.ca RÉSUMÉ. Nous démontrons que l utlsaton d une ontologe normée selon le domane d applcaton permet d amélorer sgnfcatvement la Classfcaton automatque de textes (CAT). Nous utlsons le Extensble Busness Reportng Language (XBRL) pour défnr une ontologe normée et comparons la performance d un engn de CAT (IBM Classfcaton Module v.8.6) face à 2 autres lstes de concepts, soent smple et hérarchque. Notre échantllon de nouvelles fnancères est tré du Reuters Corpus Volume 1 (RCV1), où 2 experts en fnance nous adent à coder 1 000 des 45 000 nouvelles portant sur les fusons et acqustons. Nous rapportons le rappel, la précson, la mesure F, et en plus une mesure dte hérarchque ajustée pour la pertnence de classfcaton au nveau des classes parents, ans qu une mesure plus détallée évaluant l améloraton de la classfcaton au nveau de chaque texte. ABSTRACT. We demonstrate that applyng a doman-specfc ontology standard sgnfcantly mproves Automated Text Classfcaton (ATC). We use the Extensble Busness Reportng Language (XBRL) to defne a standard ontology and compare the performance of an ACT engne (IBM Classfcaton Module v.8.6) aganst 2 other lst of concepts, namely smple and herarchcal. Our sample of fnancal news s extracted from the Reuters Corpus Volume 1 (RCV1), where 2 experts n fnance help us code 1000 of the 45000 news dealng wth mergers and acqustons. We report recall, precson, the F measure, and n addton a herarchcal measure adjusted for classfcaton relevance n parent classes, as well as a more detaled measure evaluatng the classfcaton mprovements at the level of each text. MOTS-CLÉS : Classfcaton automatque de textes, Nouvelles fnancères, Reuters Corpus Volume 1 (RCV1), Ontologe, Extensble Busness Reportng Language (XBRL) KEYWORDS: Automated Text Classfcaton, Fnancal News, Reuters Corpus Volume 1 (RCV1), Ontology, Extensble Busness Reportng Language (XBRL)

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau 1. Introducton La Classfcaton automatque de textes (CAT) est souvent requse en geston des documents numérques, en partculer la classfcaton hérarchque selon une taxonome et/ou ontologe du domane d applcaton. Nous proposons d amélorer la performance de ce type de classfcaton va l utlsaton d une ontologe normée. Nous utlsons le Extensble Busness Reportng Language (XBRL) comme ontologe normée et comparons la performance d un engn de CAT (IBM Classfcaton Module v.8.6) face à 2 autres lstes de concepts, soent smple et hérarchque. On l utlse comme ontologe dans le sens que les nterrelatons entre les concepts ne sont pas unques et lnéares comme dans le cas d une taxonome. Notre échantllon de nouvelles fnancères est tré du Reuters Corpus Volume 1 (RCV1), où 2 experts en fnance nous adent à coder 1 000 des 45 000 nouvelles portant sur les fusons et acqustons. Nous rapportons le rappel, la précson, la mesure F, et en plus une mesure dte hérarchque ajustée pour la pertnence de classfcaton au nveau des classes parents, ans qu une mesure plus détallée évaluant l améloraton de la classfcaton au nveau de chaque texte. 2. Fondements La classfcaton de textes selon une hérarche de classes ou taxonome n a été formalsée que très récemment (Koller and Saham 1997). Les mesures applquées aux classfeurs plats telles la précson et le rappel, ne convennent pas à une classfcaton hérarchque car elles ne prennent pas en consdératon les types d erreurs lées à la mauvase classfcaton (Krtchenko, Matwn et al. 2006). Dans les tâches de classfcaton hérarchque, l est mportant de consdérer la pertnence d un document non seulement par rapport à sa classe mas auss par rapport à la classe parent (Sokolova and Lapalme 2009). Cec est surtout dû au fat qu une classe parente représente des sujets plus généraux que ceux des classes enfants (Y 2006). Pour surmonter ces défs, nous utlsons la mesure hf, basés sur les ancêtres pour évaluer la classfcaton (Krtchenko, Matwn et al. 2004). Formellement, en consdérant une classfcaton hérarchque mult-étquettes, on peut défnr la mesure d évaluaton hf de la façon suvante (Krtchenko, Matwn et al. 2006). Pour toute nstance (d,c ) classfée sous le sous-ensemble C avec C C, d D, C C, on aura Les mcro-moyennes hp (Précson) et hr (Rappel) telles que : hp = Ancêtre(C ) Ancêtre(C ) Ancêtre(C ) [1]

Classfcaton automatque de textes basée sur une ontologe normée hr = Ancêtre(C ) Ancêtre(C ) Ancêtre(C ) La combnason des deux valeurs hp et hr permet de calculer la F-Score (hf) : [ 0 ] 2 ( β + 1) hp. hr, hfβ = [2] β 2 hp + hr β,+. Afn de donner le même pods à la précson et au rappel, on utlse β = 1. 3. Méthodologe Notre étude se concentre sur un problème partculer, sot d évaluer s l utlsaton d une ontologe normée adera à amélorer la classfcaton hérarchque de textes. Nous voulons comparer la performance de ce type de hérarche par rapport à la classfcaton non-normée, telle qu une smple lste de sujets ou une lste de sujets avec hérarche lmtée. Nous utlserons un classfeur commercal, IBM Classfcaton Module (ICM) v.8.6, sans regard aux algorthmes utlsés. Nous utlsons une méthode à 4 étapes répétée pour 3 lstes dfférentes : 1. Développement d une lste de sujets (mots clés) et des ontologes. 2. Échantllonnage des nouvelles. 3. Évaluaton du classfeur sur les échantllons. 4. Comparason et nterprétaton des résultats des dvers tests. Les sujets pour les 3 types de classfcatons ont été sélectonnés sur un sous-sujet d un corpus de nouvelles fnancères, sot sur les fusons et acqustons (Haleblan, Devers et al. 2009), pour produre 3 lstes développées sute à notre recherche : 1. Smple : sujets choss parm la lttérature académque. 2. Hérarchque : sujets choss selon la lttérature, regroupés par facteur prncpal. 3. Normée : sujets trés d une norme comptable nternatonale. Pour construre la lste normée, nous avons utlsé le schéma du Extensble Busness Reportng Language (XBRL) v.2.1, selon le Internatonal Fnancal Reportng Standards (IFRS) (IASB 2009). Nous utlsons en partculer 2 normes : 1. Internatonal Accountng Standard 1 (IAS 1) pour la présentaton des états fnancers : 1.1. [310005] Income statement, by functon of expense - Separate fnancal statements. 1.2. [220005] Statement of fnancal poston, order of lqudty - Separate fnancal statements.

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau 2. IFRS 3 pour les Notes aux états fnancers pour les combnasons d entreprses : 2.1. [817000] Notes - Busness combnatons. La base de données utlsée pour nos tests est le Reuters Corpus Volume 1 (RCV1) (Lews, Yang et al. 2004a). Nous utlsons seulement les 42 890 nouvelles lées au code C181, Mergers and Acqustons, appartenant au code C18, Ownershp Changes. Le nombre de nouvelles a été rédut pour nettoyer la base des nouvelles ncomplètes et produre le RCV1v2 (Lews, Yang et al. 2004b). Grâce à une pette applcaton en Vsual Basc, un certan nombre de nouvelles aléatores est extrat en vue de les trater dans les prochans processus de classfcaton supervsée. Il s agt d une nterface permettant aux experts d étqueter les nouvelles selon les concepts de l ontologe offerte par la norme XBRL. Une fos l échantllonnage des 1000 nouvelles fnalsé, on procède à la classfcaton manuelle des données cblées avec l ade de deux experts du domane. Les deux experts en fnance, recruté parm les étudants du MBA de l Unversté du Québec, travallent ndépendamment l un de l autre et classfent chacun une cope de l échantllon sur la base des sujets hérarchques normés choss. Une applcaton développée sous Access est utlsée afn de faclter l analyse de chacune des nouvelles, leur classfcaton, et leur récupératon en vue du prochan processus. ICM a été entrané sur la base de 120 nouvelles extrates sem-aléatorement de l échantllon de 1000 nouvelles codées. Toutefos, le chox de ces 120 nouvelles se base sur une lste de classes domnantes. La lste des classes domnantes a été chose sur la base de la comparason de la classfcaton des 2 experts en utlsant le tableau de contngence. Les classes au TP élevé étaent alors canddates à la sélecton. Cette méthode de traval content un certan nombre d anomales qu on a tenté de corrger par une réducton des nouvelles et classes. Afn de fare une analyse rche de la dsperson et du pods de chaque sujet ou classe et de chaque nouvelle, on s est appuyé sur l expertse récupérée de la classfcaton manuelle. Les observatons suvantes ont été fates : 1. Des classes sont domnantes telles que Acquston, Sales et Merger. 2. D autres classes sont nsgnfantes pour les 2 experts, telles que Gross, Deprecaton, Other, Imparment, et Inventory. 3. En élmnant les nouvelles contradctores par rapport aux experts (classfcatons totalement dfférentes), on obtent un nombre de nouvelles utlsable pour l étude équvalent à 779 nouvelles (car l y a 221 nouvelles contradctores) parm lesquelles se trouvent les 81 nouvelles compatbles. Dans le but d assurer des mesures non-basées par la présence d un trop grand nombre de classes non-utlsées, on a fat une nouvelle sélecton de nouvelles classées de façon compatbles. Notre approche vse ans à exploter les classes les plus pertnentes pour rédure la propagaton des erreurs dues aux mauvas

Classfcaton automatque de textes basée sur une ontologe normée classements à des nveaux nféreurs de la hérarche (Bennett and Nguyen 2009). On a alors chos 402 nouvelles basées sur l utlsaton du ters des classes domnantes présentées au Tableau 2, pour des échantllons d entraînement et de classfcaton égaux de 201 nouvelles. Il montre qu en comparant l expert1 à l expert2, on remarque que certanes classes ont été prvlégées par les 2. Ans, s on estme que le nombre 17 est satsfasant et que le nombre de classes ntéressantes est 14. Tableau 2. Identfcaton des classes domnantes parm les 3 lstes Classe Fréquence du chox des 2 experts Classe Fréquence du chox des 2 experts Acquston 447 Investment 40 Merger 198 Debt 38 Sales 126 Costs 30 Cash 94 Property 26 Prce 62 Value 24 Earnngs 52 Taxes 17 Admnstratve 49 Control 17 Une fos la classfcaton des 402 nouvelles fnalsée sur la base d une lste normée de 14 classes, on a analysé dans le détal le chox des classes par ICM et chaque expert, et on a conclu que l erreur se trouvat dans le fat que 8 des classes feulles de la lste normée touchaent une parte des nouvelles et non toutes les nouvelles car n apparassant pas dans les lstes smple et hérarchque. En fat on avat comparé en usant d une probablté dfférente qu ne fournssat donc pas le bon résultat. La probablté concernant le fat qu une nouvelle quelconque sot affectée à l une des classes domnantes est de 1/6 (l y a 6 classes feulles) dans la lste smple et dans la lste hérarchque. La même nouvelle a une probablté mons mportante face à une lste normée dont les feulles ne correspondent pas totalement à celles des lstes smple et hérarchque (probablté de 1/14). Afn de corrger l anomale des résultats non totalement probants, une nouvelle lste d entranement contenant 203 nouvelles basée sur 6 classes domnantes a été chose. Un nouvel échantllon de classfcaton a également été sélectonné pour 462 nouvelles. La lste normée a été rédute sur les classes apparassant dans les lstes smple et hérarchque : Merger, Acquston, Prce, Control, Debt, Value. 4. Résultats Les résultats de la classfcaton automatque par rapport aux 2 experts sont rapportés selon les mesures classques de la précson, du rappel, et de la mesure F. On rapporte également la mesure hf de Krtchenko et al. On exécute ICM sur

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau l échantllon de 462 nouvelles sur 6 classes domnantes, où chaque nouvelle reçot un nombre varable de classes pertnentes. On remarque au Tableau 3 que la lste normée amélore sgnfcatvement toutes les mesures classques. Ce résultat n est cependant pas fable car l faut également évaluer la performance de chaque lste selon les relatons parent-enfant des classes. Le Tableau 4 montre les résultats qu permettent de meux compléter les mesures classques. En plus de la mcro et la macro F-Mesures, la mesure hf de Krtchenko et al. est présentée. Les 2 mesures F enregstrent des résultats plus probants par rapport à la mesure hf. Cela n est pas basé sur le fat que les résultats de la mesure hf aent bassé mas plutôt que la mcro et macro mesure aent augmenté. Cette augmentaton nous met dans l oblgaton de trouver des explcatons dans une autre forme d analyse qu va se concentrer sur le rasonnement du classfeur plutôt que sur des calculs qu pourraent mettre de côté la valeur d une classfcaton amélorée et/ou enrche pour une lste normée par rapport aux lstes smple et hérarchque. Tableau 3. Résultats du ICM sur les mesures de base en comparason aux 2 experts Expert 1 Lste Smple Lste Hérarchque Lste Normée Précson 0,5870 0,7156 0,8172 Rappel 0,8104 0,8414 0,8407 F-Mesure 0,6808 0,7734 0,8288 Expert 2 Lste Smple Lste Hérarchque Lste Normée Précson 0,6684 0,7350 0,7700 Rappel 0,7473 0,8260 0,8728 F-Mesure 0,7057 0,7779 0,8182 Tableau 4. Résultats du ICM sur les mesures F et hf en comparason aux 2 experts Expert 1 Lste Smple Lste Hérarchque Lste Normée Macro-F-Mesure 0,5165 0,5056 0,4950 Mcro-F-Mesure 0,6809 0,7734 0,8288 Krtchenko-hF-Mesure 0,6809 0,8397 0,7828 Expert 2 Lste Smple Lste Hérarchque Lste Normée Macro-F-Mesure 0,4417 0,5159 0,5664 Mcro-F-Mesure 0,7057 0,7779 0,8182 Krtchenko-hF-Mesure 0,7057 0,8593 0,8521 Dans le but de meux comprendre l orgne des résultats sur la mesure hf, et possblement de ben démontrer s la lste normée donne une performance supéreure, nous proposons une méthode d analyse des améloratons de la

Classfcaton automatque de textes basée sur une ontologe normée classfcaton entre les 3 lstes. On compare, pour chaque nouvelle, le nombre de classes choses par le classfeur par rapport aux chox de l expert : 1. Améloraton : Le classfeur a chos les mêmes classes choses par lexpert en plus dautres classes que lexpert na pas trouvé. 2. Stablté : Le classfeur a chos les mêmes classes choses par lexpert. 3. Dmnuton : Une classe en mons a été trouvée par le classfeur correspondant au chox de lexpert, ou aucune des classes choses par lexpert na été trouvée par le classfeur. On compare ensute le nombre de classes qu changent de qualté entre les 3 lstes. Le Tableau 5 rapporte le nombre de classes correspondant aux 3 qualtés du classement. Le nombre de classes rapportées nous permet alors de démontrer s la lste normée donne des résultats amélorés, stables, ou dmnués, par rapport aux 2 autres lstes. On constate tout d abord que, pour les 2 experts, la lste normée permet une plus grande stablté du nombre de classes ben classfées. De plus, dans le cas de l expert 2, la lste normée permet une mons lourde dmnuton de la performance de la classfcaton. Elle ne permet pas cependant d améloratons des classfcatons. En résumé, lorsqu on compare les résultats des Tableaux 3, 4 et 5, on peut conclure qu une lste normée amélore les mesures classques, n a pas d effet partculer face aux mesures hérarchques, et permet une classfcaton plus fable par rapport aux autres lstes non-normées. Tableau 5. Comparason de la qualté du classement entre les 3 lstes Expert 1 Smple > Hérarchque Hérarchque Smple > Normée > Normée Améloraton 235 230 222 Stablté 221 219 231 Dmnuton 6 13 9 Expert 2 Smple > Hérarchque Hérarchque Smple > Normée > Normée Améloraton 267 299 202 Stablté 186 159 257 Dmnuton 9 4 3 5. Concluson Nous avons démontré que l utlsaton d une ontologe normée permet d amélorer sgnfcatvement la performance d un engn de CAT. Nous avons élaboré une méthodologe utlsant un classfeur commercal, et avons classfé, selon 3 lstes de sujets ou classes, un échantllon de 1000 nouvelles du RCV1 codé

Stéphane Gagnon, Sada Messaoud, Alan Charbonneau par 2 experts en fnance. Nous avons enfn évalué la performance selon des mesures classques, une mesure hérarchque, et nouvelle méthode pour évaluer l améloraton de la classfcaton. Au plan théorque, notre étude a perms de détermner la valeur relatve des ontologes normées pour almenter d autres pstes de recherches prortares. Elle pourrat être utle aux chercheurs désreux de rédure la complexté de la base de connassance utlsée. Au plan des applcatons, nos résultats devraent servr à amélorer la performance lée au secteur des fnances. Nous envsageons également des systèmes d ade à la décson plus complexes, tels qu un système de survellance des marchés fnancers permettant d nterpréter dvers évènements affectant les socétés cotées en bourse, dans le but de ler ces évènements à des prévsons des cours boursers. 6. Références Bennett, P. N. and N. Nguyen (2009). Refned experts: Improvng classfcaton n large taxonomes, 32nd Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Boston, MA. Haleblan, J., C. E. Devers, et al. (2009). "Takng stock of what we know about mergers and acqustons: A revew and research agenda", Journal of Management 35(3): 469-502. IASB. (2009). "Internatonal Fnancal Reportng Standards - The IFRS XBRL Taxonomy Illustrated". Krtchenko, S., S. Matwn, et al. (2004). "Herarchcal text categorzaton as a tool of assocatng genes wth gene ontology codes", The 2nd European Workshop on Data Mnng & Text Mnng for Bonformatcs: 26 30. Krtchenko, S., S. Matwn, et al. (2006). Learnng and Evaluaton n the Presence of Class Herarches: Applcaton to Text Categorzaton, Lecture Notes n Computer Scence - LNCS - Advances n Artfcal Intellgence. Berln, Sprnger. 4013: 395-406. Koller, D. and M. Saham (1997). Herarchcally classfyng documents usng very few words, Stanford InfoLab. Lews, D. D., Y. Yang, et al. (2004a). "RCV1: A new benchmark collecton for text categorzaton research", Journal of Machne Learnng Research 5(December): 361-397. Lews, D. D., Y. Yang, et al. (2004b). "RCV1-v2/LYRL2004: The LYRL2004 Dstrbuton of the RCV1-v2 Text Categorzaton Test Collecton, 12-Apr- 2004 Verson. Sokolova, M. and G. Lapalme (2009). "A systematc analyss of performance measures for classfcaton tasks", Informaton Processng and Management 45(4): 427-437. Y, K. (2006). "Les défs de la catégorsaton automatque utlsant les systèmes de classfcaton de bblothèque", World Lbrary and Informaton Congress (WIIC) 72nd IFLA General Conference and Councl.