Statistiques d usage des documents accessibles en Libre Accès via Archimer



Documents pareils
Web Analytics. des Visiteurs en Ligne? Raquel de los Santos, Business Consultant Forum emarketing 2012

Fiche signalétique d un service de téléphonie mobile version du 24/08/2012

La situation en matière de pension privées et de fonds de pension dans les pays de l OCDE

Click to edit Master title style. Yann Ferouelle Microsoft France

Rapport mensuel 01-janv janv Visites. 1&1 WebStat pour videobourse.fr

Rapport mensuel 01-sept sept Visites. 1&1 WebStat pour videobourse.fr

GalleryPrintQueue User Guide

Les classes de service pour les projets scientifiques

Google Analytics - Analysez le trafic de votre site pour améliorer ses performances inclut Universal Analytics (2ième édition)

Avec le traitement Swissvax votre carrosserie a droit au meilleur lavage grâce à notre shampooing à base de noix de coco et au ph neutre.

Case study Méthodologie d enquête et développement d une Great Place To Work

Décrets, arrêtés, circulaires

v i e L engagement est une force Prêts à grandir ensemble? Volontariat Entreprise International

Tendances Clés du Marché des Réseaux Sociaux

ICC septembre 2012 Original : anglais. tendances de la consommation du café dans certains pays importateurs.

Liste des établissements adhérant à Worldcat

Secteur bancaire Enjeux d image

REPÈRES ÉCONOMIQUES POUR UNE RÉFORME DES RETRAITES JUILLET 2015

Workshop 1 La dématérialisation des factures. Comment en finir avec les factures papier?

PROGRAMME D ÉTUDES (SPÉCIALITÉ) 1 Ingénieur diplômé de l'école centrale de Marseille UNIF

PDS MULTINATIONAL GROUP. téveloppement PRODUIT & DESIGN

Servir l avenir Une initiative d EUREKA et de la Commission européenne, destinée aux Pme innovantes à fort potentiel de croissance

Initiation à la recherche documentaire LA RECHERCHE SUR INTERNET

INTERNET, C'EST QUOI?

interagir apprendre communiquer attirer

Le Web de A à Z. 1re partie : Naviguer sur le Web

Décrets, arrêtés, circulaires

ICOS Integrated Carbon Observing System

DES PROJETS UNF3S INVESTISSEMENT D AVENIR IDEFI TIL 15 JUIN 2015 > 15 SEPTEMBRE DATE DE L APPEL A PROJETS :

1 La visualisation des logs au CNES

L ESSENTIEL 2014 KEY FACTS & FIGURES

Une plateforme logicielle pour une gestion colorimétrique globale

Formation Webmaster : Création de site Web Initiation + Approfondissement

Les nouveaux sites documentaires de l IRD

ECOLES DE COMMERCE. En ce qui concerne le concours, elles se répartissent en trois catégories

Décrets, arrêtés, circulaires

Mise en place d un SMSI selon la norme ISO Wadi Mseddi Tlemcen, le 05/06/2013

Savoir utiliser les services de l ENT Outils personnels SOMMAIRE

10 points clés pour bien démarrer votre projet web

Jeudi 30 avril L art de bien référencer son site Internet

IPS : Corrélation de vulnérabilités et Prévention des menaces

Formation à la recherche documentaire sur le web

LES MASTERS 2 DANS LE DOMAINE DES STAPS EN FRANCE 2012/2013 NORD-PAS-DE-CALAIS. Université Lille 2

L introduction à la thèse

Le classement des villes les plus gay-friendly de France

Le référencement de mon site

Frédéric LOBEZ. Accounting and Finance Lille

Outils de traitements de logs Apache

Programme Type de Formation SEO

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Environnement Numérique de Travail. Solution : esup-uportal (v.4.0)

PROGRAMME BRAFITEC BRAsil France Ingénieurs TEChnologie

Les actions internationales pour l enseignement supérieur Un objectif de coopération internationale entre pays programmes et partenaires

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

Luc RUBIELLO

Mini-guide utilisateur RefWorks 2.0

Février Novanet-IS. Suite progicielle WEB pour l Assurance. Description fonctionnelle

CONTACT EXPRESS 2011 ASPIRATEUR D S

Après en avoir délibéré le 5 février 2013 ; 1. Analyse

Master 2 Juriste d'affaires. Master 2 Juriste d'affaires Internationales Master 2 Droit de l'entreprise spécialité Droit des Affaires et Fiscalité

VAGUE E. 5 ans (renouvelé par arrêté du 15 Nantes Audencia Nantes (Ecole de management) AUDENCIA septembre 2008) VAGUE F

FaxBox.com est le 1er service de Fax par en Europe. Avec FaxBox.com, vous envoyez et recevez vos fax par où que vous soyez.

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Guide et conseils généraux pour optimiser le référencement d un site internet

: seul le dossier dossier sera cherché, tous les sousdomaines

Ci-après, la liste des masters proposés par les universités françaises pour se former, en 2 ans après la licence, à l un des métiers de la culture.

Le Web et Internet. A. Historique : B. Définitions : reliés entre eux via un système d interconnexion.

Les masters en langues

SENSIBILISATION À LA CYBERSÉCURITÉ : LE COMPORTEMENT À RISQUE DES INTERNAUTES

Ingénieur Jurisprudences Constantes

David BEDOUET, WebSchool Orleans. Cosmina TRIFAN, WebSchool Orleans

TITRES ET DIPLÔMES FRANCAIS OUVRANT DROIT A DISPENSES D'EPREUVES DU DCG ET DU DSCG - SESSION 2013

3 - Admissions 3.1 Banques et concours communs

SEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?

FTP : File TRansfer Protocol => permets d envoyer des gros fichiers sur un serveur (ou de télécharger depuis le serveur)

Optimiser le référencement naturel de son site web

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

WebSpy Analyzer Giga 2.1 Guide de démarrage

TREND MICRO. Le spécialiste de la lutte contre les codes malicieux. Pierre MORENO Responsable Partenaire Trend Micro France

20 techniques et bonnes pratiques d un positionnement visible gratuit et durable sur Internet

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Lancement de la mise à jour de la feuille de route nationale «Infrastructures de Recherche»

Le jour de la formation, deux possibilités s offriront à vous afin de suivre les conférences en direct, à distance, et en ligne :

Pour vos questions ou une autorisation d utilisation relative à cette étude vous pouvez contacter l équipe via contact@4gmark.com

Propriété intellectuelle : comment valoriser son activité?

Mesurer et analyser le trafic d un site internet Comment analyser l audience de son site et connaître les centres d intérêts des visiteurs?

De l intérêt des Réseaux Sociaux pour i2n

La question sociale globale et les migrations. Présentation de Jean Michel Severino aux semaines sociales, 28 Novembre 2010

PARTAGE DE DOCUMENTS EN LIGNE AVEC ONEDRIVE

CCI DE SAÔNE-ET-LOIRE - ATELIER ENP 18 MAI La création de sites internet

PARTICIPATION DES ETABLISSEMENTS AUX RESEAUX STEP ET/OU STAR AU 01/01/2015

Fiche pratique : REPORTING SEARCH

Manuel de déploiement sous Windows & Linux

EXAPROBE-ECS. Présentation ENERGIE, CABLING & SURETE BY DEVOTEAM

COMMENT VENDRE SUR GOOGLE SHOPPING?

Partager rapidement un fichier volumineux

spam & phishing : comment les éviter?

emuseum PUBLIEZ VOS COLLECTIONS SUR INTERNET Pourquoi choisir emuseum? Intégration facile avec TMS Puissante fonction de recherche

Focus messagerie. Entreprises Serveur de messagerie Logiciel client. Particuliers

PRESTATIONS Nouvelles technologies éducatives

Transcription:

Auteur : Fred Merceur Ref : IMN/IDM/ISI/FM/214 1 Date : Janvier 214 Version : 1. Statistiques d usage des documents accessibles en Libre Accès via Archimer Période 25 213

Table des matières 1. Introduction... 2 2. Statistiques d utilisation... 3 2.1. Téléchargements... 3 2.2. Chemin d accès... 1 2.3. Internautes... 13 3. Dépôts... 18 4. Méthodologie... 2 1. Introduction Ce document propose un ensemble de données statistiques sur l usage des documents déposés en Libre Accès dans Archimer, l Archive Institutionnelle de l Ifremer. Seuls les téléchargements du texte intégral des documents ont été pris en compte. La visualisation des fiches de métadonnées n a pas été comptabilisée. Pour éviter que l activité d administration de l Archive (dépôt, contrôle, validation ) ne fausse les résultats, les téléchargements réalisés depuis le réseau informatique de l Ifremer n ont pas été pris en compte. Pour plusieurs données statistiques, des focus sur trois types de documents spécifiques sont proposés : les publications indexées dans le Web Of Sciences (WOS), les thèses et les rapportsf1. Les publications indexées dans le WOS1F2 et les thèses sont particulièrement intéressantes du fait de leur homogénéité en termes de taille et de langue notamment. 1 Rapport de contrats, rapport scientifique, compte rendu (d'essais, de campagnes, de métrologie...), note (de synthèses, de veille prospective ou technologique...) 2 Nous avons différencié les publications indexées dans le WOS du reste des articles disponibles dans Archimer car elles sont souvent accessibles gratuitement via Archimer mais aussi, sous réserve d abonnement, via le site de leurs éditeurs (contrairement, par exemple, aux articles de plusieurs journaux anciennement publiés par l Ifremer, qui sont exclusivement accessibles via Archimer) Page 2

2. Statistiques d utilisation 2.1. Téléchargements Figure 1 : Progression de la somme annuelle des téléchargements des documents2f 3 Nombre de fichiers PDF téléchargés 12 1 8 6 4 2 113635 767371 53297 393556 423328 413197 55154 146772 26 27 28 29 21 211 212 213 Année de consultation Figure 2 : Evolution de la somme mensuelle des téléchargements des documents 14 Nombre de fichiers PDF téléchargés 12 1 8 6 4 2 25 26 27 28 29 21 211 212 213 3 Tout type de documents confondus : publication, acte de colloque, rapport, thèse, HDR, avis, expertise, ouvrage, chapitre d ouvrage, poster. Page 3

Figure 3 : Evolution de la moyenne mensuelle des téléchargements par document 18, 16,66 16,17 16, Moyenne de téléchargements par document et par mois 14, 12, 1, 8, 6, 4, 11,55 7,41 6,99 5,43 7,2 8,78 2,, 26 27 28 29 21 211 212 213 Année de consultation Remarque : les moyennes mensuelles de téléchargement lors d une année n sont calculées ainsi : Téléchargements enregistrés lors de l année des documents déposés avant la fin de l année 1 Nombre de documents déposés avant la fin de l année 1 12 Figure 4 : Evolution de la moyenne mensuelle des téléchargements des publications3f4, des thèses et des rapports Moyenne de téléchargements par document et par mois 1 9 8 7 6 5 4 3 2 1 85,95 56,7 42,79 24,62 22,37 2,31 17,56 19,72 16,79 15,83 13,61 9,27 7,4 7,9 7,82 6,32 7,67 8,24 5,8 4,25 5,5 4,36 5,39 7,19 26 27 28 29 21 211 212 213 Année de consultation Thèses Rapports Publications 4 Publications indexées dans le WOS Page 4

Figure 5 : Histogramme des moyennes mensuelles de téléchargements des documents Erreur! Signet non défini. au cours de l année 213 Nombre de documents 1 2 18 16 14 12 1 8 6 4 2 2 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 Nombre de téléchargements par mois et par document 3 5 618 La Figure 5 se lit de la façon suivante : 1. 65 des 1732 documents déposés en Libre Accès avant le 31 décembre 212 dans Archimer n ont jamais été téléchargés au cours de l année 213 2. 1874 de ces 1732 documents ont été téléchargés de 1 à 11 fois au cours de l année 213. La moyenne mensuelle de téléchargements de ces 173 documents se situe donc entre et 1. 3. 23 de ces 1732 documents ont été téléchargés en moyenne entre 5 et 618 fois par mois au cours de l année 213. Figure 6 : Histogramme des moyennes mensuelles de téléchargements des publications au cours de l année 213 5 45 Nombre de documents 4 35 3 25 2 15 1 5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48... 5 394 Nombre de téléchargements par mois et par publication Page 5

Figure 7 : Histogramme des moyennes mensuelles de téléchargements des thèses au cours de l année 213 35 3 Nombre de documents 25 2 15 1 5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 5 39 Nombre de téléchargements par mois et par thèse Figure 8 : Histogramme des moyennes mensuelles de téléchargements des rapports au cours de l année 213 5 45 Nombre de documents 4 35 3 25 2 15 1 5 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48... 5 33 Nombre de téléchargements par mois et par rapport Page 6

Figure 9 : Evolution de la moyenne mensuelle des téléchargements des thèses par année de dépôt 9 Moyenne de téléchargements par thèse et par mois 8 7 6 5 4 3 2 1 26 27 28 29 21 211 212 213 Année de consultation Année de dépôt 25 26 27 28 29 21 211 212 Figure 1 : Evolution de la moyenne mensuelle des téléchargements des publications par année de dépôt 14 Moyenne de téléchargements par publication et par mois 12 1 8 6 4 2 26 27 28 29 21 211 212 213 Année de consultation Année de dépôt 25 26 27 28 29 21 211 212 Page 7

Figure 11 : Evolution de la moyenne mensuelle des téléchargements des rapports par année de dépôt 25 2 Année de dépôt 26 Moyenne de téléchargements par rapport et par mois 15 1 5 27 28 29 21 211 212 213 Année de consultation 27 28 29 21 211 212 Figure 12 : Histogramme des moyennes mensuelles de téléchargements des thèses en fonction de la taille des fichiers 4 Moyenne de déchargements par thèse et par mois 35 3 25 2 15 1 5 212 213 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 1 1 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 2 2 21 21 22 22 23 23 24 25 ou plus Taille des fichiers PDF en Mo Remarque : La différence très marquée entre les téléchargements des fichiers de tailles inférieures et supérieures à 15 Mo a disparu en 213. Elle était sans doute liée au fait que Google ne semblait pas indexer les fichiers volumineux (la limite semblait se situer autour de 1Mo à 15 Mo en fonction des années). Seules les fiches de métadonnées des gros fichiers étaient indexées. Cette limite semble avoir évoluée en 213 puisqu il est désormais possible de trouver dans les index de Google des fichiers d une taille supérieure à 6 Mo. Page 8

Figure 13 : Histogramme des moyennes mensuelles de téléchargements des documents en fonction de leur année de publication au cours de l année 213 3 25 Moyenne de téléchargement par document et par mois 2 15 1 5 196 1962 1964 1966 1968 197 1972 1974 1976 1978 198 1982 1984 1986 1988 199 1992 1994 1996 1998 2 22 24 26 28 21 212 Année de publication Page 9

5F 2.2. Chemin d accès Tableau 1 : Sources d accès aux documents téléchargés au cours du mois de Novembre 213 Source des téléchargements Nombre de Pourcentage des téléchargements téléchargements4f Google 54384 8,38% Google Scholar 565 7,49% Archimer 1474 2,18% Yahoo 89 1,32% Bing 743 1,1% Blogs, forums, liens dans des articles 49,72% Annuaire Ifremer 49,6% pages WEB Ifremer 287,42% Isidore 264,39% Wikipedia 243,36% Baidu 169,25% documentation.eaufrance 163,24% facebook 144,21% 6 5 Gallica 56,8% Twitter 49,7% Yandex 21,3% ResearchGate 15,2% WorldCat 12,2% academic.research.microsoft 4,1% Autres 2773 4,1% 5 Pourcentage par rapport aux requêtes dont la source est identifiable via la Referring URL 6 Ce tableau ne liste pas un grand nombre de systèmes qui pourraient s apparenter à du SPAM. Certains systèmes réindexent le contenu de documents disponibles dans Archimer et les diffusent sous un format différent (ex : banque pdf.fr ). D autres s apparentent à des barres de recherche qui interceptent les recherches des internautes (ex : babylon, conduit ) avant de les rediriger vers Google. Page 1

Figure 14 : Nuages de mots recherchés dans Google et Google Scholar à l origine de téléchargements de documents rédigés en anglais Traitement : Wordle (http://www.wordle.net) Remarque : Google bascule progressivement tous ses domaines en https. Les recherches des internautes présentés dans ce nuage ne nous seront bientôt plus accessibles. La Referring URL de 3% des recherches dans Google restait exploitable en décembre 213. Page 11

Figure 15 : Nuages de mots recherchés dans Google à l origine de téléchargements de documents rédigés en français Traitement : Wordle (http://www.wordle.net) Page 12

2.3. Internautes Figure 16 : Localisation des téléchargements enregistrés au cours de l année 213 Remarque : 21% des téléchargements 213 ne sont pas localisés sur cette carte. Un point peut représenter jusqu à 38 téléchargements. Page 13

Tableau 2 : Liste des principaux pays utilisateurs des documents rédigés en anglais Pays Nombre de Pourcentage des déchargements téléchargements United States 58869 15,4% France 34 7,9% China 28794 7,6% India 25354 6,6% United Kingdom 22566 5,9% Canada 1948 2,9% Germany 9225 2,4% Spain 9136 2,4% Australia 8436 2,2% Italy 8339 2,2% Indonesia 8199 2,1% Malaysia 6867 1,8% Brazil 6813 1,8% Japan 6589 1,7% Philippines 6538 1,7% Iran, Islamic Republic 6311 1,7% of Thailand 515 1,3% Mexico 598 1,3% Korea, Republic of 4845 1,3% Turkey 4827 1,3% Portugal 4654 1,2% Netherlands 4591 1,2% Algeria 3725 1,% Czech Republic 366 1,% Page 14

Tableau 3 : Liste des principaux pays utilisateurs des documents rédigés en français Pays Nombre de Pourcentage des déchargements téléchargements France métropolitaine 347773 51,7% Algeria 75225 11,2% Morocco 45736 6,8% Tunisia 398 5,8% Canada 1893 2,8% Belgium 13484 2,% United States 1154 1,7% Cote D'Ivoire 9789 1,5% China 9654 1,4% Cameroon 794 1,2% Madagascar 665 1,% Senegal 6518 1,% Reunion 5675,8% Switzerland 4962,7% Guadeloupe 3923,6% United Kingdom 3895,6% Spain 3875,6% Benin 342,5% Martinique 3342,5% Germany 2758,4% Italy 2483,4% New Caledonia 2338,3% French Polynesia 2118,3% Page 15

Tableau 4 : Liste des principaux utilisateurs académiques et privés des documents rédigés en anglais au cours du mois de Novembre 213 Institution Pays Nombre de déchargements Pourcentage des téléchargements Danish Network for Research and Education Denmark 588,15% Taiwan Academic Network Taiwan 58,15% University of Southampton United Kingdom 57,15% Research network University of Ghent Belgium 566,15% Universitaet Bremen Germany 472,12% Korean Education Network Korea, Republic 464,12% of Wageningen University and Research Centre Netherlands 452,12% Universitaet Kiel Germany 436,11% Universite de Bordeaux, Departement TIC France 415,11% The University of Plymouth United Kingdom 412,11% Universiti Putra Malaysia Campus Network Malaysia 382,1% Dalhousie University Canada 376,1% Universite de Brest France 376,1% University of California, San Diego United States 364,1% Universidade do Porto Portugal 354,9% Universidade de Sao Paulo Brazil 325,9% Beijing Baidu Netcom Science and Technology Co., L China 317,8% Navy Network Information Center (NNIC) United States 36,8% University of Stirling United Kingdom 35,8% Algerian Academic Research Network Algeria 33,8% Universite Pierre et Marie Curie France 285,7% University of Wales Bangor United Kingdom 285,7% Prince of Songkla University Thailand 277,7% Instituto Politecnico Nacional Mexico 274,7% Laboratorios LABEIN Spain 271,7% ESMISAB France 269,7% RRM Reseau de la Recherche a Marseille France 269,7% Stiftung Alfred Wegener Institut fuer Germany 267,7% Universiti Sains Malaysia, Penang, Malaysia Malaysia 264,7% Universidade de Aveiro Portugal 258,7% Universite Montpellier II France 257,7% Bergen University, Norway Norway 255,7% TOTAL S.A. France 255,7% Universidad Nacional Autonoma de Mexico Mexico 254,7% University of Tasmania Australia 251,7% University of Hawaii United States 246,6% Universidade do Algarve Portugal 244,6% Instituto Espanol de Oceanografia Spain 244,6% Universitat de Barcelona Spain 242,6% Norwegian University of Science and Technology Norway 236,6% Page 16

Tableau 5 : Liste des principaux utilisateurs académiques et privés des documents rédigés en français au cours du mois de Novembre 213 Institution Pays Nombre de déchargements Pourcentage des téléchargements Algerian Academic Research Network Algeria 3716,55% Universite de Bordeaux France 1834,27% Universite de Caen France 1365,2% Houari Boumediene's University of Science & Techno Algeria 1175,17% Universite de Nantes France 1123,17% Universite de Brest France 133,15% Universite de La Rochelle France 19,15% Universite Montpellier II France 981,15% INRA France 926,14% Tizi University Algeria 759,11% Reseau de la Recherche a Marseille France 654,1% Universite Pierre et Marie Curie France 592,9% ESMISAB France 59,9% Ministere De La Sante Et Des Affaires Sociales France 55,8% University of Littoral Dunkerque France 53,7% Universite de PERPIGNAN France 494,7% Unievrsité de Rennes France 491,7% Gaz de France France 456,7% Universite de Liege (ULg) Belgium 445,7% Universite de Strasbourg France 413,6% Museum national d'histoire naturelle France 48,6% Universite des Sciences et Technologies de Lille France 378,6% Universite du Quebec a Rimouski Canada 376,6% Universite Laval Canada 368,5% Universite Cadi Ayyad Marrekech Morocco 365,5% TOTAL S.A. France 361,5% Universite du Sud Toulon Var France 355,5% Universite de Rouen France 34,5% Universite de Lorraine France 331,5% Electricite De France France 327,5% CNRST (Centre National pour la Recherche Scientifi Morocco 322,5% CEMAGREF Groupement de Bordeaux France 315,5% Institut Universitaire de Technologie de Corte France 314,5% CNRST (Centre National pour la Recherche Scientifi Morocco 37,5% Universite de Nice Sophia Antipolis France 297,4% Universite de Poitiers France 295,4% Institut Polytechnique LaSalle Beauvais France 293,4% Assistance Publique Hopitaux de Paris France 268,4% Page 17

3. Dépôts Figure 17 : Progression du nombre de documents disponibles dans Archimer 25 21747 Nombre de documents 2 15 1 5 16919 1288 933 12421 6368 175 6441 8393 4351 4531 6998 2919 596 276 171 1858 1683 49 935 2885 25 26 27 28 29 21 211 212 213 Année Visibilité Internet Visibilité Intranet Visibilité confidentielle Total Figure 18 : Histogramme du nombre de documents déposés dans Archimer par année de dépôt 25 2 Nombre de documents 15 1 5 25 26 27 28 29 21 211 212 213 Année de dépôt Visibilité Internet Visibilité Intranet Visibilité confidentielle Page 18

Figure 19 : Histogramme des années de publication des documents déposés dans Archimer 9 8 7 Nombre de documents 6 5 4 3 2 1 199 1991 1992 1993 1994 1995 1996 1997 1998 1999 2 21 22 23 24 25 26 27 28 29 21 211 212 213 Année de publication Visibilité Internet Visibilité Intranet Visibilité confidentielle Page 19

4. Méthodologie Les résultats présentés dans ce document sont issus de l analyse des logs du serveur Web Apache de l Ifremer. Toutes les nuits, un script informatique repère dans le fichier de logs, les lignes correspondantes aux téléchargements des fichiers PDF disponibles dans Archimer. Ces lignes se présentent sous la forme suivante : xxx.xxx.xxx.xxx [22/May/213::28:9 +2] "GET /doc/38/14916/12245.pdf HTTP/1.1" 2 492 "http://scholar.google.it/scholar?q=phytoplankton+diversity+during+the+spring+bloom+in+the+northweste rn+mediterranean+sea&hl=it&as_sdt=&as_vis=1&oi=scholart&sa=x&ei=6_sbucilkstr7abgxyggcq&sqi=2&v ed=ccwqgqmwaa" "Mozilla/5. (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26..141.64 Safari/537.31" Les informations ci dessous sont extraites de chaque ligne : L adresse IP (ex : xxx.xxx.xxx.xxx) permet d obtenir des informations (FAI et coordonnées géographiques) sur l identité de l Internaute à l aide de la base GeoIP6F7. La date et l heure du téléchargement (ex : 22/May/213::28:9). L URL du document téléchargé (ex : /doc/38/14916/12245.pdf) contient le numéro d identification du document dans Archimer (ex : 14916). Le code du résultat de la requête HTTP (ex : 2) La «Referring URL» (ex : http://scholar.google.it/scholar?q=phytoplankton+diversity+during...) indique l URL de la page qui est à l origine du téléchargement. Elle correspond, dans notre exemple, à l URL de Google Scholar avec, en paramètre, la question posée par l internaute dans Google Scholar (ex : phytoplankton diversity during the spring bloom in the northwestern mediterranean sea). Si un internaute accède à un document via sa fiche de métadonnées (ex : http://archimer.ifremer.fr/doc/38/14916/), le script remonte dans le fichier de log pour trouver la «Referring URL» de cette première requête. L information «Referring URL» n est pas systématiquement disponible. Les robots, notamment, exécutent souvent des requêtes HTTP sans fournir ce paramètre. Son absence peut donc aider à les identifier. Le «User Agent» de la requête HTTP (ex : Mozilla/5. Windows NT 6.1 ) fournit des informations sur le navigateur de l internaute. Les robots des moteurs de recherche et les aspirateurs de sites sont à l origine de la très grande majorité des téléchargements. Plusieurs actions permettent de filtrer leurs activités : Les requêtes HTTP dont le «User Agent» contient un des mots7f8 associés à des robots (BOT, SPIDER, CRAWLER ) sont supprimées. Les téléchargements provenant de plusieurs FAI (ex : OVH, Microsoft Hosting ) sont également exclues en l absence de paramètre «Referring URL». Un grand nombre de téléchargements exécutés à partir de la même adresse IP est systématiquement suspect : les requêtes sont alors vérifiées manuellement (au delà de 1 requêtes par mois). Dans certains cas, ces téléchargements proviennent d une université dont les appels sortant sont filtrés par un proxy, mais, dans la majorité des cas, il s agit de robots dont les téléchargements sont alors supprimés. 7 http://www.maxmind.com/fr/home 8 Une liste de robots à exclure est disponible sur le site du projet COUNTER : http://www.projectcounter.org/code_practice.html Page 2