Mesure des usages et présentation des projets MESURE et AnalogIST / ezpaarse



Documents pareils
Gestion des accès, fédération d identités. Olivier Salaün - RENATER

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

ISTEX, vers des services innovants d accès à la connaissance

ISTEX-SNU. ISTEX en quelques clics dans votre portail documentaire. Séminaire technique ISTEX 18 mars 2015

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

Matrice snapshot Jacquelin Charbonnel ANF RNBM - Marseille, 23 mai 2013

Science Direct - Cell Press

Communiqué de lancement. Sage 100 Entreprise Edition Etendue Module CRM inclus

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Atelier 1. Portails documentaires : BioLib et Cemadoc

Archives ouvertes : les enjeux dans les politiques d établissement et les projets internationaux

SharePoint Foundation 2013 Construire un intranet collaboratif en PME (édition enrichie de vidéos)

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

L univers des ENT dans les différents établissements. de formation en Région Centre. Au 18/01/2010

Les nouveaux sites documentaires de l IRD

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

A LA DÉCOUVERTE DE ZOTERO 4.0

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

CATALOGUE DE SERVICES DE LA DIRECTION DU SYSTEME D INFORMATION DE L UNIVERSITE DE LIMOGES

La fédération d identités, pourquoi et comment? Olivier Salaün, RENATER ANF Mathrice 2014

Solution de fax en mode Cloud

Les tableaux de bord de pilotage de nouvelle génération. Copyright PRELYTIS

CQP ADMINISTRATEUR DE BASES DE DONNÉES (ABD)

Un serveur d'archivage

La gestion globale des contenus d entreprise

L auto-archivage en maths, quoi de neuf?

Dématérialisation des factures du Secteur Public

SIMPLIFIEZ-VOUS LE FAX GRÂCE AU CLOUD

Journées ABES-26 mai 2009 [ ] [ Fédération Nancy-Université]

Perspectives en matière de portails géographiques et de 3D

Accès à la messagerie électronique HES

ERP5. Gestion des Services Techniques des Collectivités Locales

PROJET Site Drupal Informationsgeographiques.onema.fr

Guide de l'administrateur de VMware Workspace Portal

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

Présentation des CMS au CIFOM-EAA

Publier dans la Base Documentaire

La solution pour gérer vos connaissances techniques et scientifiques

Support Google Analytics - 1 / 22 -

WebSSO, synchronisation et contrôle des accès via LDAP

Base de Données Economiques & Sociales (dite Unique) des entreprises

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Négociation Elsevier : un accord est signé

Présentation de la solution Open Source «Vulture» Version 2.0

Toutatice, une plateforme Portail/ECM open source pour la publication de contenus et de services métiers

DEMANDE D INFORMATION RFI (Request for information)

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Méthodologie de mise en place de

PEPI GPI (Gestion de Projet Informatique) - Note de Cadrage décembre

Proposer de nouveaux services aux Levalloisiens. Des ressources numériques, accessibles à distance.

SQUID P r o x y L i b r e p o u r U n i x e t L i n u x

Guide de l'utilisateur de SAP BusinessObjects Web Intelligence Rich Client

Guide de l'utilisateur

Syfadis. > Configuration du poste client. Nous vous aidons à réussir. REFERENCE : Syfadis LMS - 20/06/2007. AUTEUR : Equipe technique Syfadis

Solution ing dédiée aux professionnels du marketing et de la communication

Connexion au panneau de contrôle du Cloud Service Portal (CSP)

Fourniture d un outil de gestion du courrier électronique pour les sites internet de la Documentation Française

<Insert Picture Here> La GRC en temps de crise, difficile équilibre entre sentiment de sécurité et réduction des coûts

Sage CRM. 7.2 Guide de Portail Client

Déploiement de l infrastructure SOA. Retour d expérience Août 2013

La suite logicielle Lin ID. Paris Capitale du Libre 25 septembre 2008

Vers une convergence. Plateforme en ligne Mathrice

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Bee Ware. Cible de Sécurité CSPN. Validation Fonctionnelle Validation Fonctionnelle Bon pour application AMOA BEEWARE BEEWARE

CATALOGUE DES OFFRES O2i INGÉNIERIE POUR LES PLATEFORMES ÉDITORIALES

TutoJRES Outils et Services Collaboratifs

Hébergée dans le cloud, notre solution est un logiciel-service (SaaS) entièrement géré par NUXIT :

Cyberclasse L'interface web pas à pas

Portail collaboratif Intranet documentaire Dématérialisation de processus

FileMaker 11. Guide de publication Web instantanée

Joomla! Création et administration d'un site web - Version numérique

AccessMaster PortalXpert

D AIDE À L EXPLOITATION

MINISTERE DES FINANCES ET DE LA PRIVATISATION. Principes du système

ZOTERO. Installation. Bibliothèque de Pharmacie. Service Formation

SOMMAIRE. Savoir utiliser les services de l'ent Outils collaboratifs

WebDAV en 2 minutes. Tous ces objectifs sont complémentaires et ils sont atteints grâce au seul protocole WebDAV. Scénarii

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

Comment utiliser mon compte alumni?

Administration du site (Back Office)

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Guide utilisation SFR Sync. SFR Business Team - Présentation

Communiqué de Lancement. Sage Intégrale V4.50

Gestion collaborative de documents

Twitter et Netvibes pour la veille

EXTRANET STUDENT. Qu'est ce que Claroline?

Manuel utilisateur. des. listes de diffusion. Sympa. l'université Lille 3

CQP Développeur Nouvelles Technologies (DNT)

Février Novanet-IS. Suite progicielle WEB pour l Assurance. Description fonctionnelle

Éditeur Elsevier Langue(s) Multilingue

NFS Maestro 8.0. Nouvelles fonctionnalités

Constat ERP 20% ECM 80% ERP (Enterprise Resource Planning) = PGI (Progiciel de Gestion Intégré)

Agenda mutualisé en ligne - services A.S.V. Informatique.

Archives Ouvertes : retour d expérience et rôle des documentalistes

Mode d'emploi détaillé

FORMATION PcVue. Mise en œuvre de WEBVUE. Journées de formation au logiciel de supervision PcVue 8.1. Lieu : Lycée Pablo Neruda Saint Martin d hères

Nous vous garantissons un niveau élevé d exploitation de vos données

Transcription:

Mesure des usages et présentation des projets MESURE et AnalogIST / ezpaarse novembre 2012 stephane.gully@inist.fr thomas.porquet@couperin.org

Un besoin attesté et récurrent Réaliser des statistiques d'utilisation Récupérer, nettoyer, enrichir les données d'usage Auprès des éditeurs (au format COUNTER dans le meilleur des cas) Localement Nos objectifs Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision 2

Deux projets complémentaires MESURE : un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs Analog'IST / ezpaarse : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement 3

MESURE : Le portail JUSP comme point de départ JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs Premier prototype 2009 148 établissements / 41 fournisseurs Périmètre : Seulement les rapports JR1 et JR1a Via SUSHI 4

A quoi ça ressemble? 5

Le JUSP : JR1 6

Le JUSP : courant / archive 7

Le JUSP : les titres les plus vus 8

MESURE : un prototype en cours Mutualisation et Evaluation des Statistiques d Utilisation des Ressources Electroniques Objectifs : Implémenter le moissonnage automatique de rapports COUNTER via SUSHI Stocker les données disponibles de 2009 à aujourd'hui Point d'accès unique à nos membres Fournir une mise en forme simple et pratique des données 9

Le périmètre de notre prototype 4 éditeurs : IOP (electronic journal et science) Elsevier (ScienceDirect) Springer (Metapress) American Chemical Society (ACS) 5 établissements : Bordeaux 1, Rennes 1, Paris 5, Toulouse 3 et UL (i.e. Nancy 1, Nancy 2, Metz, INPL) 10

MESURE : présentation / page d'accueil générale 11

MESURE : page d'accueil pour un établissement 12

MESURE : représentation graphique du JR1/JR1a 13

MESURE : représentation tabulée enrichie du JR1a 14

MESURE : usage courant / archive 15

MESURE : le détail par titre de l'usage courant / archive Courant et archive agrégés Archive seulement Courant seulement 16

MESURE : évolution annuelle comparée 17

À ce jour Le prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées Le prototype sera soumis à la validation du Groupe de Travail COUPERIN Puis élargissement du périmètre : À d'autres établissements membres de COUPERIN À d'autres fournisseurs qui ont implémenté la norme COUNTER 18

AnalogIST / ezpaarse AnalogIST - Analyse des logs de l'ist EzPAARSE - easy / Progiciel d'analyse des Accès aux RessourceS Electroniques Idée : une plateforme logicielle intitulée ezpaarse servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG 19

Le point de départ : L'existant à l'inist Pour le suivi de ses BiblioSites thématiques, l'inist met en place un groupe statistiques en 2006 3 utilisateurs 1 informaticien et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy Parseurs (un par plateforme éditeur) Tests manuels de validation SG 20

Le cœur du travail : l'analyse de lignes de log 145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HT/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HT/1.1" 404 0 "http://monsite.domaine.fr/data/page1.html" "Chrome" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HT/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Safari/3.0" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HT/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" SG 21

L'analyse de lignes de log IP machine utilisateur 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 22

Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 23

Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur Date de la requête 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 24

Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur Date de la requête Page consultée 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 25

Contenu d'une ligne de log IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HT 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 26

Contenu d'une ligne de log IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HT 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Taille de la requête SG Référent Version de navigateur 27

Portails INIST SG 28

Portails INIST Chercheur Éditeur Des titres de revues lui sont présentés. SG 29

Fonctionnement d'ezproxy EZproxy Client HT HT HTML* PDF SG Éditeur Réécriture transparente des URL HTML PDF 30

Logs générés par EZProxy 126.10.7.11 stephane.gully@inist.fr [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HT/1.1" 200 1993 126.10.7.11 stephane.gully@inist.fr [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HT/1.1" 200 465935 ISSN = 0001-4575 id PDF = 01 SG 31

Avantages d'ezproxy Transparent pour l'utilisateur Pré-configuré pour les grands éditeurs Flexible pour l'authentification Possibilité de mesure des consultations SG 32

Mesures locales des consultations Analyse des logs EZproxy permet de : Compter les consultations par éditeurs Compter les consultations par revues Compter les consultations par articles Par individu Par laboratoire Par «groupe» Chiffres utiles pour : Évaluation des campagnes de tests d'abonnements Choix des abonnements pour le CNRS/ESR Négocier les tarifs avec les éditeurs SG 33

Stratégie d'analyse des logs locales SG 34

Structure d'une URL http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverdat e=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf SG 35

Structure d'une URL http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverdat e=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf ISSN & type du fichier consulté SG 36

Structure d'une URL http://www.sciencedirect.com/science/journal/00014575 ISSN En essayant l'url manuellement on voit que c'est un sommaire HTML SG 37

Structure d'une URL http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 Code éditeur ISSN RFG 0338-4551 LMS... 0027-2671 Type PDF & ID éditeur Nécessite une base de connaissances pour décoder. SG 38

Découper l'url http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y& _origin=browse&_zone=rslt_list_item&_coverda te=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf /_pii=s([0-9]{0,7}[0-9x])/i SG 39

Une structure d'url par plate-forme Sciencedirect = une structure d'url Cairn = une structure d'url SG Chaque plate-forme possède sa structure d'url Un système de reconnaissance d'url par plate-forme Écriture d'un : parseur / module / plugin 40

Limites de l'analyse des URLs URL opaques (session, cryptages) Bases de connaissances à compléter manuellement Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 SG 41

Processus d'analyse des logs Développement peut être réalisé collaborativement Travail d'enrichissement manuel mais peut être réalisé collaborativement SG 42

Le point de départ du projet L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés 43

Analog'IST / ezpaarse Une mutualisation à plusieurs endroits : Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) Partage des parseurs utilisés Conception collaborative de nouveaux parseurs Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée 44

Le calendrier Réunion de faisabilité en novembre 2011 Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations Seconde réunion début janvier 2012 Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire Novembre : lancement officiel de l'implémentation 45

La vision du produit Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs Utilisateurs à terme : les SCD de l'esr Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'ul en partenariat avec Couperin 46

Une réponse aux besoins Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : Des groupes d'usagers Des champs disciplinaires Sur des périodes de temps définies Permettre la construction d'indicateurs homogènes, à partir de traitements communs Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques 47

Fonctionnalités principales (1/2) Reconnaissance des consultations par éditeurs à l'aide de modules spécifiques (parseurs) Traitement des logs en suivant les recommandations COUNTER Utilisation de référentiels d'ezpaarse (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l outil 48

Fonctionnalités principales (2/2) Interface Web pour la correction et l'enrichissement des référentiels d'ezpaarse Génération de rapports d'exécution compilés API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples Détection des anomalies dans les logs avec système d alerte 49

Attention! EzPAARSE n'est pas : Un outil d'analyse ou de visualisation des statistiques en entrée : un fichier log «brut» en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés Un producteur de logs 50

Modalités du développement Logiciel libre Partage / élargissement des partenariats Diffusion du code source à la communauté Facile à déployer par les différents utilisateurs de l'esr Modèle SaaS à mettre en perspective dans les différentes phases de développement Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 E informaticiens 51

Conclusion / perspectives Des réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau Les avancées seront documentées et diffusées Les premières instances d'ezpaarse qui constituent le point de départ du dispositif AnalogIST seront déployées à l'inist et à l'ul 52

Les premières priorités (1/2) 14 «items» ont été dégagés Instance nationale publique AnalogIST Organisation fonctionnelle du réseau AnalogIST Instance locale ezpaarse Recommandations COUNTER (dédoublonnage) Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezpaarse, non encore spécifiée) Reconnaissance du format de la ligne de log Reconnaissance de l'url de la plateforme 53

Les premières priorités (2/2) Utilisation de référentiels éditeurs Utilisation de référentiels de qualification des ressources Utilisation de référentiels de qualification des utilisateurs Interface Web pour correction et enrichissement des référentiels importants Interface WS Interface Web pour injection des logs Détection des anomalies 54