MarcXimiL. http://marcximil.sourceforge.net. Analyse de similarité



Documents pareils
Gestion collaborative de documents

: seul le dossier dossier sera cherché, tous les sousdomaines

Mercredi 15 Janvier 2014

ANNEXE 2. L interconnexion REFDOC-SUPEB (Web services)

Logiciels libres de Bibliothèques numériques : présentation. Castore & Greenstone. Les autres : CDS Invenio, EPRINTS, Dspace.

Jimmy Clairbois. Projets réalisés dans le cadre professionnel

Bases de données documentaires et distribuées Cours NFE04

Informatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Nous vous garantissons un niveau élevé d exploitation de vos données

Archive ouverte UNIGE Procédure pour le dépôt d un document

VOTRE OFFRE CRM 360 ALL INCLUSIVE. crm.amabis.com

Infrastructure / réseau / sécurité /support utilisateur

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

Catalogue des formations Edition 2015

CAHIER DES CHARGES de la formation : «Excel pour les bibliomètres»

les techniques d'extraction, les formulaires et intégration dans un site WEB

1. Installation du Module

Peut être utilisée à l intérieur du site où se trouve la liste de référence.

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

ArcGIS for INSPIRE SIG RAIL 2011

Livre Blanc WebSphere Transcoding Publisher

Je sais utiliser. Logiciel gratuit de gestion des photos. Étude en 5 parties

MailStore Server 7 Caractéristiques techniques

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Nous vous garantissons un niveau élevé d exploitation de vos données

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Test de HSQLDB et Comparatif avec Sqlite

Excel avancé. Frédéric Gava (MCF)

AmaCRM SAAS vous permet de gérer votre relation client en toute simplicité Nous vous garantissons un niveau élevé d exploitation de vos données

Business Intelligence simple et efficace avec Excel et PowerPivot

PROGRAMME DES NATIONS UNIES POUR LE DEVELOPPEMENT

VOTRE OFFRE CRM 360 ALL INCLUSIVE.

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

Offres de stages 2011/2012

Fiabilité et simplicité d'utilisation sont garanties

PySQLi. Framework d'injection de code SQL

SAP BusinessObjects Web Intelligence (WebI) BI 4

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Compte-rendu re union Campus AAR 3 mars 2015

MyReport, LE REPORTING SOUS EXCEL

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

Focus sur : Comparatif de 3 logiciels de gestion des références bibliographiques

Base de données relationnelle et requêtes SQL

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Conseil de développement durable (C2D) Plénière d ouverture 17 décembre 2014

DataWarehouse. Cahier des Charges - Clauses Techniques

Hébergement de sites Web

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

U N S Y S T È M E D E G E S T I O N D A F F A I R E S I N T É G R É E ( E R P + C R M ) «À L A F I N E P O I N T E D E L A T E C H N O L O G I E».

INF6304 Interfaces Intelligentes

Utiliser Access ou Excel pour gérer vos données

Le ranking de Augure Influencers La méthodologie AIR en détails

ArtemiS 12 HEAD Data Portal 2.0 HEAD Recorder

Introduction aux Bases de Données Relationnelles Conclusion - 1

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

X2BIRT : Mettez de l interactivité dans vos archives

SOLUTION INFORMATIQUE INTÉGRÉE POUR BIBLIOTHÈQUES MÉDIATHÈQUES CENTRES DE DOCUMENTATION ARCHIVES

DOCSaaS Cloud Computing Solutions

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

Les applications webmapping en opensource. 1 Christophe Adriaensen

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

Éléments de programmation et introduction à Java

Découverte et investigation des menaces avancées PRÉSENTATION

Entrepôt de données 1. Introduction

Étude comparative des SIGB Open source KOHA, OPENFLORA, PMB, EVERGREEN. pour les bibliothèques et centres de documentation

Votre solution professionnelle Open Source pour archiver, trouver, gérer, partager... tous vos fichiers multimédia!

Acquisition Indexation Classement & Recherche & Stockage Consultation. Solution d archivage sur mesure

Les nouveaux sites documentaires de l IRD

TMS THE MUSEUM SYSTEM

Tableau Online Sécurité dans le cloud

BUSINESS INTELLIGENCE

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

La Stratégie d Intégration Advantage

Mise en œuvre de les capteurs dans la gestion de l eau

Introduction : présentation de la Business Intelligence

Avantic Software Présentation de solutions GED pour mobiles (Gestion Electronique de Documents)

Retour d expérience sur Prelude

EXCEL TUTORIEL 2012/2013

Les bases de données

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

CliniPACS : distribution sécurisée d'images DICOM en réseau local hospitalier

SOMMAIRE. 1. Préambule Le calendrier Trajectoire d un objet lancé Régression linéaire...9

NOUVELLES FONCTIONNALITES VERSION 2013R2

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

InstallShield 2014 FICHE TECHNIQUE. Création de programmes d installation pour Microsoft Windows

Master Technologies numériques appliquées à l'histoire Deuxième année

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Réseau Global MIDI Note applicative

Initiation à la recherche documentaire

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Secrétariat du Grand Conseil PL 9928-A

Cycle de formation certifiante Sphinx

25 octobre JD EDWARDS ENTERPRISEONE et DÉMATÉRIALISATION

Transcription:

MarcXimiL Analyse de similarité détection de doublons détection préprint/article bibliométrie suggestions à l'usager structure de collections veille documentaire détection de plagiat http://marcximil.sourceforge.net http://marcximil.sourceforge.net A. Borel & J. Krause 1

MarcXimiL : caractéristiques Fonctionne avec tout logiciel compatible MARCXML. Invenio (CERN, INSPIRE, RERODOC, Infoscience) Filtre d'importation pour Virtua Standards utilisés pour la compatibilité (MARCXML, OAI-PMH2, XML-RPC, UTF8) Multi-plateforme (Python 2.4.0 3.1.1 [dernière version]) Algorithmes de recherche d'informations (et autres) Open source : GPLv3 Flexibilité dans l'analyse: stratégies de similarité http://marcximil.sourceforge.net A. Borel & J. Krause 2

MarcXimiL : configuration flexible Flexibilité dans la définition de stratégies d'analyse de similarité: Chargement (MARCXML, OAI-PMHv2) Extraction des notices: quels champs, comment les combiner (concaténer [ex: titre+soustitre], ensembles[100$a+700$a]) Normalisation (case, diacritiques, ponctuation) et indexation des champs (identique, ntf-nidf, shingling, digrams, etc.). Option: utiliser MySQL (plus rapide). Schéma des comparaisons : 1coll, 2colls, pré-clustering [futur: v. 0.3.3] Similarité entre les champs: auteurs, date/année, doi/uid, textuelles (vectorielle [Dice,Salton,Jaccard, Shingles], probabiliste [OKAPI-BM25], orthographique [Levenshtein], ensembliste [Initials, Digrams] ),... Similarité entre notices : moyennes pondérées (classiques & rapides), et fonctions spécialisées (maxsim, ubiquist, boundaries,...) Seuil de rapport (sur la similarité globale) http://marcximil.sourceforge.net A. Borel & J. Krause 3

Utilisation : ligne de commande Appel en ligne de commande (ouvrir un termial, répertoire./bin ) 1) Charger: python similarity.py l coll f marc.xml s similarity_config digrams 2) Comparer: python similarity.py c coll o results.txt s similarity_config digrams 3) MàJ: python similarity.py u coll f update.xml s similarity_config digrams 4) Tuer: python similarity.py k coll NB: nombreuses autres options disponibles, et utilisation via l'api. Les résultats peuvent être exprimés en XML (machine à machine), ou tabulés (par défaut). http://marcximil.sourceforge.net A. Borel & J. Krause 4

Résultats Les identifiants des notices comparées sont transmis dans les résultats. Par défaut: tri par similarité globale décroissante Les valeurs de similarité entre les champs sont renseignées. None est renvoyé si pas applicable. http://marcximil.sourceforge.net A. Borel & J. Krause 5

Résultats: précision (version 0.3.2) Méthodologie: Test en double aveugle: 8 collections de 2000 notices dont 10 quasi-doublons. Total: 16'000 notices dont 80 quasi-doublons. Sources métadonnées: CERN, ETHZ, RERODOC Quasi-doublons de test: erreurs fréquents de catalogage, règles de catalogage, translittération, formats (html vs. text), variation systématiques (au sein et sur le nombre de champs), etc. STRATEGY Recall 10 Recall 20 Recall 50 ubiquist 71.3% 93.8% 96.3% digrams 61.3% 83.8% 92.5% Combinés : ~95% http://marcximil.sourceforge.net A. Borel & J. Krause 6

Résultas: timing (digrams, version 0.3.2) Une collection Toute une collection de 5'000 notices: 7 min 40 Toute une collection de 10'000 notices: 1 h 10 Deux collections Flux entrant de 100 notices par semaine comparées avec les notices des 2 dernières années (~10'000): -> 1min20 Idem pour 1000 notices par semaine (2 ans: ~100'000): -> 2h20 Live (API) 1 notice avec une collection de 10'000 : ~ 1 s NB: performance sur ordinateur de bureau UNIGE. http://marcximil.sourceforge.net A. Borel & J. Krause 7

Futur v0.3.3 : pré-clustering & gestion des résultats 1 - Gestion des résultats [pas commencé] Actuellement, les résultats de chaque analyse sont stockés dans un fichier. Améliorer: stockage SQL, présentation (tri, limites), croisement des résultats, caching (API), etc. 2 - Accélération par pré-clustering [en cours]: Les notices sont passées en revue une par une... Pour chaque notice, comparaison seulement des notices susceptibles d'être des doublons selon le pré-analyse (pour un champ donné qui contiennent au moins un des deux mots dont les DF indiquent qu'ils sont les plus pertinents). Résultats préliminaires (sans les temps de chargement, sur SQLite): 2000 notices -> ~1 min 30, accélération ~ 4x ~ 17'000 notices -> 32 min, accélération ~ 12x http://marcximil.sourceforge.net A. Borel & J. Krause 8

MarcXimiL : conclusion Outil efficace de détection de quasi-doublons. Atout principal : très grande flexibilité. Adapté à l'archive ouverte de l'unige? Utilisation : à côté, sur ordinateur de bureau (?) Vitesse : aucun problème. Détection : aucun problème. Pour s'en assurer : analyse d'une/de collection/s test basée/s sur les méta-données de l'archive ouverte avec doublons fabriqués. http://marcximil.sourceforge.net A. Borel & J. Krause 9