Mesure des usages et présentation des projets MESURE et AnalogIST / ezpaarse novembre 2012 stephane.gully@inist.fr thomas.porquet@couperin.org
Un besoin attesté et récurrent Réaliser des statistiques d'utilisation Récupérer, nettoyer, enrichir les données d'usage Auprès des éditeurs (au format COUNTER dans le meilleur des cas) Localement Nos objectifs Créer une boite à outils pour la récupération, la création puis l'analyse de données d'usage Fournir aux utilisateurs des indicateurs / éléments d'analyse pour l'aide à la décision 2
Deux projets complémentaires MESURE : un portail pour moissonner, stocker et présenter les données d'usage fournis par les éditeurs Analog'IST / ezpaarse : un projet commun CNRS-INIST, Université de Lorraine, Couperin produire des données d'usage exploitables à partir de fichiers de log générés localement (ex : proxy) et mettre en commun la chaîne de traitement 3
MESURE : Le portail JUSP comme point de départ JUSP (Journal Usage Statistics Portal) financé par le JISC pour moissonner, aggréger et présenter les données fournies par les éditeurs Premier prototype 2009 148 établissements / 41 fournisseurs Périmètre : Seulement les rapports JR1 et JR1a Via SUSHI 4
A quoi ça ressemble? 5
Le JUSP : JR1 6
Le JUSP : courant / archive 7
Le JUSP : les titres les plus vus 8
MESURE : un prototype en cours Mutualisation et Evaluation des Statistiques d Utilisation des Ressources Electroniques Objectifs : Implémenter le moissonnage automatique de rapports COUNTER via SUSHI Stocker les données disponibles de 2009 à aujourd'hui Point d'accès unique à nos membres Fournir une mise en forme simple et pratique des données 9
Le périmètre de notre prototype 4 éditeurs : IOP (electronic journal et science) Elsevier (ScienceDirect) Springer (Metapress) American Chemical Society (ACS) 5 établissements : Bordeaux 1, Rennes 1, Paris 5, Toulouse 3 et UL (i.e. Nancy 1, Nancy 2, Metz, INPL) 10
MESURE : présentation / page d'accueil générale 11
MESURE : page d'accueil pour un établissement 12
MESURE : représentation graphique du JR1/JR1a 13
MESURE : représentation tabulée enrichie du JR1a 14
MESURE : usage courant / archive 15
MESURE : le détail par titre de l'usage courant / archive Courant et archive agrégés Archive seulement Courant seulement 16
MESURE : évolution annuelle comparée 17
À ce jour Le prototype est en ligne pour les établissements pilotes qui le testent et accèdent aux données COUNTER moissonnées Le prototype sera soumis à la validation du Groupe de Travail COUPERIN Puis élargissement du périmètre : À d'autres établissements membres de COUPERIN À d'autres fournisseurs qui ont implémenté la norme COUNTER 18
AnalogIST / ezpaarse AnalogIST - Analyse des logs de l'ist EzPAARSE - easy / Progiciel d'analyse des Accès aux RessourceS Electroniques Idée : une plateforme logicielle intitulée ezpaarse servira de brique essentielle dans la création d'une plateforme nationale AnalogIST, synchronisable avec des instances locales, installées au sein des institutions intéressées SG 19
Le point de départ : L'existant à l'inist Pour le suivi de ses BiblioSites thématiques, l'inist met en place un groupe statistiques en 2006 3 utilisateurs 1 informaticien et développe des outils et des procédures d'analyse de fichiers logs d'un EzProxy Parseurs (un par plateforme éditeur) Tests manuels de validation SG 20
Le cœur du travail : l'analyse de lignes de log 145.130.77.81 - toto [10/Jun/2010:03:00:55 +0200] "GET /data/page1.html HT/1.1" 200 1689 "http://www.google.fr/?q=logiciel+libre" "IE6" 126.10.7.11 - bob [10/Jun/2010:03:01:01 +0200] "GET /data/page3_.html HT/1.1" 404 0 "http://monsite.domaine.fr/data/page1.html" "Chrome" 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" 45.78.89.1 - titi [10/Jun/2010:03:01:14 +0200] "GET /data/page3.html HT/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Safari/3.0" 66.130.77.181 - username [10/Jun/2010:03:01:15 +0200] "GET /data/page3.html HT/1.1" 200 1993 "http://monsite.domaine.fr/data/page2.html" "Mozilla/5.0" SG 21
L'analyse de lignes de log IP machine utilisateur 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 22
Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 23
Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur Date de la requête 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 24
Contenu d'une ligne de log IP machine utilisateur Log-in utilisateur Date de la requête Page consultée 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 25
Contenu d'une ligne de log IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HT 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" SG 26
Contenu d'une ligne de log IP machine utilisateur Login utilisateur Date de la requête Page consultée Code retour HT 66.130.77.181 - username [10/Jun/2010:03:01:05 +0200] "GET /data/page2.html HT/1.1" 200 1473 "http://monsite.domaine.fr/data/page1.html" "Mozilla/5.0" Taille de la requête SG Référent Version de navigateur 27
Portails INIST SG 28
Portails INIST Chercheur Éditeur Des titres de revues lui sont présentés. SG 29
Fonctionnement d'ezproxy EZproxy Client HT HT HTML* PDF SG Éditeur Réécriture transparente des URL HTML PDF 30
Logs générés par EZProxy 126.10.7.11 stephane.gully@inist.fr [13/Mar/2012:16:10:01 +0100] "GET http://sciencedirect.com HT/1.1" 200 1993 126.10.7.11 stephane.gully@inist.fr [13/Mar/2012:16:13:41 +0100] "GET http://sciencedirect.com/00014575/01.pdf HT/1.1" 200 465935 ISSN = 0001-4575 id PDF = 01 SG 31
Avantages d'ezproxy Transparent pour l'utilisateur Pré-configuré pour les grands éditeurs Flexible pour l'authentification Possibilité de mesure des consultations SG 32
Mesures locales des consultations Analyse des logs EZproxy permet de : Compter les consultations par éditeurs Compter les consultations par revues Compter les consultations par articles Par individu Par laboratoire Par «groupe» Chiffres utiles pour : Évaluation des campagnes de tests d'abonnements Choix des abonnements pour le CNRS/ESR Négocier les tarifs avec les éditeurs SG 33
Stratégie d'analyse des logs locales SG 34
Structure d'une URL http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverdat e=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf SG 35
Structure d'une URL http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y&_ origin=browse&_zone=rslt_list_item&_coverdat e=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf ISSN & type du fichier consulté SG 36
Structure d'une URL http://www.sciencedirect.com/science/journal/00014575 ISSN En essayant l'url manuellement on voit que c'est un sommaire HTML SG 37
Structure d'une URL http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 Code éditeur ISSN RFG 0338-4551 LMS... 0027-2671 Type PDF & ID éditeur Nécessite une base de connaissances pour décoder. SG 38
Découper l'url http://pdn.sciencedirect.com/science? _ob=miamiimageurl&_cid=271664&_user=40 46427&_pii=S0001457512000747&_check=y& _origin=browse&_zone=rslt_list_item&_coverda te=2012-07-31&wchp=dglbvltzskwb&md5=f5d8d157ccda6d597cb466af123d bff3/1-s2.0-s0001457512000747-main.pdf /_pii=s([0-9]{0,7}[0-9x])/i SG 39
Une structure d'url par plate-forme Sciencedirect = une structure d'url Cairn = une structure d'url SG Chaque plate-forme possède sa structure d'url Un système de reconnaissance d'url par plate-forme Écriture d'un : parseur / module / plugin 40
Limites de l'analyse des URLs URL opaques (session, cryptages) Bases de connaissances à compléter manuellement Exemple chez Springer : http://www.springerlink.com/content/j5q872410p 510m63/fulltext.pdf Exemple chez Cairn : http://www.cairn.info/load_pdf.php? ID_ARTICLE=RFG_218_0009 SG 41
Processus d'analyse des logs Développement peut être réalisé collaborativement Travail d'enrichissement manuel mais peut être réalisé collaborativement SG 42
Le point de départ du projet L'expertise développée depuis 2006 pour ce travail peut être partagée moyennant une refonte du socle technique L'Université de Lorraine, voisine, utilise désormais un reverse proxy unique pour tout ses accès réservés 43
Analog'IST / ezpaarse Une mutualisation à plusieurs endroits : Description du procédé de collecte et d'analyse des logs (formats d'écriture, modalités de stockage) Partage des parseurs utilisés Conception collaborative de nouveaux parseurs Mise à jour des parseurs existants (et des bases de connaissances associées) si la plate-forme d'un fournisseur est modifiée 44
Le calendrier Réunion de faisabilité en novembre 2011 Convergence des abonnements (26 plateformes en commun entre UL et INIST) et des configurations Seconde réunion début janvier 2012 Début mai : 3 jours dégagés pour la rédaction d'un cahier des charges Septembre : Signature d'une convention Couperin/INIST qui acte l'embauche d'un IE supplémentaire Novembre : lancement officiel de l'implémentation 45
La vision du produit Analyse, enrichissement et exploitation des logs d'accès collectés localement aux ressources électroniques proposées par les plate-formes Web des éditeurs Utilisateurs à terme : les SCD de l'esr Pour la 1e mouture : INIST-CNRS et direction de la documentation et de l'édition de l'ul en partenariat avec Couperin 46
Une réponse aux besoins Quantifier et caractériser l'utilisation des ressources électroniques en lien avec : Des groupes d'usagers Des champs disciplinaires Sur des périodes de temps définies Permettre la construction d'indicateurs homogènes, à partir de traitements communs Servir d'aide à la décision pour la conduite des politiques documentaires et scientifiques 47
Fonctionnalités principales (1/2) Reconnaissance des consultations par éditeurs à l'aide de modules spécifiques (parseurs) Traitement des logs en suivant les recommandations COUNTER Utilisation de référentiels d'ezpaarse (éditeurs et groupes d'usagers) dans un format permettant le partage avec une autre instance de l outil 48
Fonctionnalités principales (2/2) Interface Web pour la correction et l'enrichissement des référentiels d'ezpaarse Génération de rapports d'exécution compilés API d'entrée des logs bruts et de sortie des données compilées via des connecteurs multiples Détection des anomalies dans les logs avec système d alerte 49
Attention! EzPAARSE n'est pas : Un outil d'analyse ou de visualisation des statistiques en entrée : un fichier log «brut» en sortie : les données nettoyées et enrichies en fonction des référentiels utilisés Un producteur de logs 50
Modalités du développement Logiciel libre Partage / élargissement des partenariats Diffusion du code source à la communauté Facile à déployer par les différents utilisateurs de l'esr Modèle SaaS à mettre en perspective dans les différentes phases de développement Pour réaliser les fondations de la première instance : 10 mois de travail avec 2 E informaticiens 51
Conclusion / perspectives Des réunions régulières sont organisées pour suivre l'avancée des travaux et redéfinir les priorités au fil de l'eau Les avancées seront documentées et diffusées Les premières instances d'ezpaarse qui constituent le point de départ du dispositif AnalogIST seront déployées à l'inist et à l'ul 52
Les premières priorités (1/2) 14 «items» ont été dégagés Instance nationale publique AnalogIST Organisation fonctionnelle du réseau AnalogIST Instance locale ezpaarse Recommandations COUNTER (dédoublonnage) Interopérabilité avec MESURE (qui nécessitera une étape supplémentaire de transformation du résultat livré par ezpaarse, non encore spécifiée) Reconnaissance du format de la ligne de log Reconnaissance de l'url de la plateforme 53
Les premières priorités (2/2) Utilisation de référentiels éditeurs Utilisation de référentiels de qualification des ressources Utilisation de référentiels de qualification des utilisateurs Interface Web pour correction et enrichissement des référentiels importants Interface WS Interface Web pour injection des logs Détection des anomalies 54