Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.

Transcription

1 Web Mining YOUSSOUF Kamal LACHAAL Rafik [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.] M1 - M A S S D é p a r t e m e n t d e Mat h é m a t i q u e s

2 1

3 Remercîments : Nous tenons dans un premier temps à remercier Mr Lionel Cucala, professeur à l université Montpellier 2, d avoir accepté d être l encadrant de notre travail et de nous avoir accordé sa confiance. Nous remercions également Mr Lin Yuan, professeur de TD Système de gestion de Base de données, pour son apport informatique Enfin, nous remercions Mr Kamel Boughaleb, propriétaire du site Top Départ, de nous avoir fourni les données qui ont servi à notre étude. 2

4 TABLE DES MATIERES I. Introduction 5 II. Web mining 6 Nos données 9 III. Présentation du fichier log 11 IV. Structuration et Nettoyage des données 13 Qu y a-t-il à nettoyer dans les données? 13 Méthodes de mise en forme 14 Mise en œuvre du nettoyage 15 V. Détermination des sessions et des visites 17 Identifications des sessions d utilisateurs 17 Identification des visites 19 VI. statistiques générales du site 22 VII. Matrice d acces et d hyperliens 27 VIII. Analyse en composante principale sur les utilisateurs du site 30 Première ACP sur notre jeu de données : 31 ACP : individus en supplémentaire 33 Contribution 35 Interpretation des axes 37 Qualité de représentation 39 IX. Classification Hiérarchique sur Composantes Principales 40 X. Conclusion 44 XI. Bibliographie 45 XII. Annexes 46 Prétraitement des données : 46 Identification des sessions et des visites 48 Statistiques générales 51 3

5 4

6 I. INTRODUCTION En seulement quelques années le Web est devenu la principale source d information. En janvier 2012, on estimait à 550 millions le nombre de sites web. Ces derniers génèrent une activité importante avec plus de 2.2 milliards d internautes en Ces milliards de clics engendrent d immenses masses de données, enregistrées dans un fichier log, qui peuvent nous donner accès à des informations sur le comportement des internautes bien souvent plébiscitées par les webmaster, voulant toujours améliorer la présentation de leurs sites. Pour l exploitation de ces grandes masses de données, une nouvelle méthode est apparue sous le nom de «data mining». Elle constitue l ensemble des outils de fouille de données permettant d extraire des connaissances. La branche du data mining appliquée aux données web porte le nom de «Web Mining», dont l un des axes, qui va nous intéresser, est le «Web Usage Mining» qui porte sur l étude de l usage du web. Nous allons développer dans ce mémoire le processus du web usage mining. Nous verrons à partir d un fichier LOG contenant des données réelles, provenant du site web comment nous pouvons les modéliser afin d en extraire l information utile. Dans un premier temps nous allons présenter le web mining. Ensuite, nous nous intéresserons de près à la structure et au prétraitement du fichier Log. Enfin, nous verrons comment identifier les différentes sessions et visites des internautes. 5

7 II. WEB MINING Le «web mining» est une application du «data mining» qui a pris son essor vers le début des années 2000 avec la révolution de l internet et de l informatique en général. La fouille du web, le terme français, représente l ensemble des techniques appliquées aux données issues du web sur la navigation des visiteurs des sites internet. L objectif de ces techniques est d analyser les informations et les connaissances que contient ce type de données afin de comprendre le comportement des internautes. L intérêt du web mining : 1. Les sites web doivent être en constante amélioration afin d optimiser leur niveau de fréquentation. L étude du comportement des utilisateurs et de leur consultation permet d augmenter l impact des pages et des bannières publicitaires. 2. L accès par identification d un site web permet à l administrateur du site d avoir des informations précises sur l utilisateur afin de proposer un contenu personnalisé. Selon l étude conduite, nous distinguons trois catégories de procédés : Web structure mining : cette méthode est utilisée pour analyser la structure, l architecture et les liens entre plusieurs sites web. Web content mining : Il s agit d une technique d analyse de contenu des sites web. Web usage mining : Pour analyser l usage des pages web. C est sur cette dernière branche du «web mining» que nous allons nous focaliser. Le «web usage mining» est l'application du processus d'extraction des connaissances à partir de bases de Données (ECD) aux données web. Cette technique se base sur les clics effectués par l internaute lors de sa visite sur le site afin d analyser le déplacement des internautes sur les différentes pages d un site web. La procédure d analyse du «web usage mining» se décompose en différentes étapes : le prétraitement des données, l extraction des liens entre pages et l interprétation. Ces étapes sont décrites dans les sections suivantes. FIGURE 1 PROCESSUS DU WEB USAGE MINING 6

8 Les outils statistiques appropriés à l analyse des données web sont ceux du data mining. Qu est-ce que le data mining? Le data mining constitue un ensemble de procédés et outils issus du domaine statistique ou informatique visant à obtenir de l information, jusqu'ici inconnue, à partir d un important volume de données. Il s agit d une technique de «fouilles de données», le terme en français, permettant de détecter d éventuelles associations et tendances. Les techniques de data mining : Les principales techniques de data mining, tout comme l analyse de données, se regroupent en deux familles : Les techniques descriptives : elles permettent d analyser et trouver une interprétation d un ensemble de données Les techniques prédictives : ces techniques utilisent les données disponibles afin de donner un modèle prédictif entre une variable à prédire et des variables prédictives. Il s agit de trouver un modèle qui permettrait de faire des prévisions à partir des données initiales. 7

9 Récapitulatif des méthodes : Technique Famille Sous-famille Algorithme Analyse factorielle Analyse en composantes principales Analyse factorielle des correspondances Analyse des correspondances Modèles géométriques multiples Analyse typologique Méthodes de partitionnement : Centres mobiles K-means Modèles combinatoires Modèles à base de règles logiques Modèles à base de règles logiques Modèles à base de fonctions mathématiques Classifications par agrégation des similarités. Détection de liens Recherche d associations Recherche de séquences similaires Arbres de décision Modèles paramétriques ou semi-paramétriques Régression linéaire ANOVA ANCOVA MANCOVA Modèle linéaire général Régression logistique Prédiction sans modèle Analyse probabiliste k-plus proches voisins (K-NN) 8

10 NOS DONNEES Dans cette étude de cas, nous traitons un jeu de données qui enregistre l historique de navigation du site «top départ», Ce site est une sorte de guide de voyage en ligne qui propose à ses visiteurs, souhaitant voyager, de nombreuses informations pouvant leur être utile. La figure ci-dessous présente un aperçu de la page d accueil du site en question. Figure 1 Sur la figure 2 nous pouvons voir un exemple d information susceptible d intéresser les visiteurs du site voulant voyager en France. Ils peuvent avoir des informations telles que les sites touristiques et les monuments à visiter ou encore des suggestions d activité (randonnée, escalade etc.). 9

11 Figure 2 Les données étudiées concernent l historique d accès au site «top départ», enregistré dans un fichier log contenu sur le serveur du site web, la journée du 1er février 2013 entre 00:00:00 jusqu à 23 :59 :59. Nous présentons dans la section suivante le type de fichier log étudié. Nous avons décidé de traiter plusieurs fichiers log, contenant chacun d eux les requêtes pour une plage d une heure. A l aide du logiciel libre concat 1.4 fr (cf bibliographie 4) nous avons pu concaténer 24 fichiers constituant ainsi les requêtes pour la journée du 1 er Février Nous avons donc un fichier contenant requêtes. 10

12 III. PRESENTATION DU FICHIER LOG Le fichier journal, ou encore le fichier log, est un fichier contenu sur le serveur d un site web qui enregistre toutes les requêtes exécutées et les demandes opérées par le serveur. Chaque fois qu un utilisateur effectue une requête au serveur, une ligne est inscrite dans le fichier log. Les informations enregistrées peuvent être différentes suivant le format du fichier log. En effet, il existe différentes manières d extraire les données concernant les utilisateurs d un site. Les formats les plus utilisés sont «Common log file format (CLF)» et «Extended common logfile format (ECLF)». Le site «top départ» a utilisé un fichier log en format ECLF. Ci-dessous, une illustration d une ligne correspondant à une requête effectuée par un utilisateur [01/Feb/2013:00:59: ] GET /guide-voyage/maroc/photosdiaporama/vue-satellite/vue-satellite-0.html HTTP/ depart.com/guide-voyage/maroc/photos-diaporama/vue-satellite/vue-satellite- 0.html "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; fr-fr) AppleWebKit/ (KHTML, like Gecko) WebClip/ Safari/ " : l adresse de protocole internet, IP, de la machine. - - : Le trait d union correspond à une information manquante. Ici il s agit du login et du mot de passe de l internaute dans le cas d un accès par mot de passe. [01/Feb/2013:00:59: ]: La date et l heure exacte de la requête GET : méthode de requête utilisée. Il en existe d autres : HEAD, POST etc. /guide-voyage/maroc/photos-diaporama/vue-satellite/vue-satellite-0.html : URL de la page demandée. HTTP/1.1 : protocole utilisé 200 : Correspond au code de statut que le serveur retourne à l'internaute lorsque celui ci effectue une requête. Il nous informe sur la réussite ou non de celle-ci. Si la réponse est positive le code commence par 2. Lorsqu il s agit d une redirection le code retourné commence par 3, et s il y a une erreur, alors le code commence par 4 (par exemple erreur 404 : l url demandé n existe pas) : Ce nombre représente la taille en octet du fichier transféré à l internaute. 0.html : la page d origine où la requête a été lancée. Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; fr-fr) AppleWebKit/ (KHTML, like Gecko) WebClip/ Safari/ ) : l user agent indique le navigateur, le système d exploitation : 11

13 L'exemple ci-dessus, indique une requête satisfaite, GET/guide-voyage/maroc/photosdiaporama/vue-satellite/vue-satellite-0.html HTTP/1.1, effectuée par une machine ayant pour adresse IP le 1 er février à minuit 59. Pour résumer, le format ECLF contient les informations suivantes : IP LOGIN DATE ET HEURE TYPE DE REQUÊTE URL STATUT TAILLE REFERER USER AGENT Les données, recueillies par le serveur et enregistrées dans le fichier log, ne sont pas toutes exploitables. Une étape fastidieuse, du fait du nombre important de lignes, et primordiale de nettoyage est nécessaire avant de pouvoir porter une quelconque analyse statistique. Nous allons voir dans la section suivante la procédure de prétraitement des données. 12

14 IV. STRUCTURATION ET NETTOYAGE DES DONNEES QU Y A-T-IL A NETTOYER DANS LES DONNEES? Comme nous l avons dit précédemment, pour une page consultée, il y a bien souvent plus d une requête enregistrée sur le fichier journal. Ceci est principalement dû au fait que les pages web contiennent des liens vers d autres éléments stockés eux aussi sur le serveur. Par exemple, lorsqu un internaute demande une page contenant des images ou autres multimédias, cela revient à faire la requête de cette même page, mais aussi une requête pour chacun des éléments contenus dans la page. On comprendra donc que parmi l ensemble de ces requêtes, une seule reflète la demande réelle du visiteur. Toutes les requêtes correspondant à des images, fichiers multimédias, les scripts java doivent être supprimés de la table de données. On les identifiera principalement par leur extension. Parmi les requêtes effectuées, nous devons aussi différencier celles faites par des internautes et celles faites par les robots web. Ceux-ci scrutent en permanence le contenu du web afin de référencer les différentes pages des sites web. Ils sont majoritairement employés par des moteurs de recherche. On les identifie par leur adresse IP et leur User Agent. Nous avons pu constituer une liste de 4420 adresses IP et une autre de 458 Users Agents (cf bibliographie 6, 7, 8). On peut aussi identifier ces robots en regardant les requêtes effectuées au fichier «\robot.txt». Celui-ci est un fichier texte utilisé par les webmasters qui contient des instructions à destination des robots afin de leur faciliter leur travail de référencement. Les robots commencent donc en général l exploration d un site web à la recherche de celui-ci. On peut donc lister les adresses IP correspondant à ces robots ayant fait la requête et les supprimer. Une dernière manière d identifier les robots est de vérifier la vitesse d enchainement des requêtes pour une même adresse IP. Si pour une même adresse IP, nous avons une suite de requêtes espacées de seulement quelques secondes, nous avons donc affaire à un robot. Néanmoins nous n utiliserons pas cette technique car trop compliquée à mettre en œuvre et les identifications expliquées plus haut sont considérées comme suffisantes. Nous décidons également de garder uniquement les requêtes dont le code retour est compris entre 200 et 399 inclus. Elles correspondent comme expliqué précédemment aux requêtes au moins partiellement satisfaites ou ayant donné lieu à une redirection. Nous supprimons également tous les types de requêtes différents de «GET», car ils n ont pas donné lieu à un chargement de page à partir du serveur. 13

15 METHODES DE MISE EN FORME Avant de pouvoir nettoyer les données, il faut opérer une mise en forme du tableau. C'est-à-dire : Supprimer tous les symboles inutiles comme les crochets et les deux points apparaissant dans la variable date/heure. Réécrire l heure sous forme de trois variables quantitatives (h, min, sec) et ajouter une quatrième variable contenant la somme de ces trois variables sous forme de minutes. Supprimer les variables inutiles qui ne nous apportent pas d informations pertinentes telles que la taille des fichiers, le protocole utilisé ainsi que la date car le fichier traité correspond à une même journée. Supprimer également les variables de login et mot de passe, n étant pas utilisées dans le site. L une des méthodes pour opérer ce formatage, est d utiliser le langage java qui est un langage de programmation orienté objet. Avec ce langage, nous pouvons créer un programme traitant le fichier log au format.txt et lui signifier de récupérer les éléments qui nous intéressent ligne par ligne puis de les ranger dans un nouveau tableau. Ceci peut être fait en utilisant des fonctions sur des chaines de caractères telles que : StringBuffer delete(int start, int end) : enlève tous les caractères compris entre start et end. char charat(int i) : Retourne le caractère à l indice spécifié en paramètre. String substring(int i) : Sous-chaîne depuis i jusqu à la fin. Néanmoins, la méthode pour laquelle nous avons opté est l utilisation de Microsoft Excel. C est un logiciel dont nous avons déjà la maitrise. En ouvrant un fichier texte nous pouvons spécifier les symboles non désirés comme étant des séparateurs. Ils sont ainsi remplacés par des tabulations. Nous pouvons manipuler et supprimer les colonnes à notre guise ainsi que créer de nouvelles variables. 14

16 MISE EN ŒUVRE DU NETTOYAGE Pour nettoyer les données, l approche choisie est le langage SQL. Celui-ci est un langage de requêtes qui peut être utilisé pour effectuer des recherches, des extractions, des tris et mises en forme de données. Oracle Database, qui est un système de gestion de bases de données, est théoriquement adapté pour cela. Il dispose d un outil de chargement de données, «SQL Loader» optimisé pour le chargement de gros fichiers. Celui prend en charge les fichiers txt et csv. Il s utilise en créant un fichier control au format clt, où l on spécifie le fichier à charger, les types de variables et autres paramètres. Une fois ce fichier.clt créé, il ne reste plus qu à utiliser la commande «sqlldr» dans l invite de commandes en précisant l emplacement du fichier, le compte et mot de passe. Après plusieurs tentatives, nous avons renoncé à l utiliser. En effet, nous avons rencontré des difficultés pour le chargement des données surtout pour les URL, dues au fait que celles-ci pouvaient contenir des symboles spéciaux (?, =, %, &). Ceci est peut être dû au fait que le chargement se fait à partir de l invite de commandes et que les caractères spéciaux ne sont pas lus correctement sur celui-ci. Nous nous sommes donc reportés sur SAS 9.3. C est un logiciel avec lequel nous avons déjà travaillé en cours de modèles linéaires généraux. SAS 9.3 intègre la procédure «proc sql» qui nous permet d utiliser des requêtes de type SQL sur les tableaux de données. Il intègre aussi la commande «proc import» qui nous permet d importer des données directement à partir d un fichier Excel format «xlsx» en ayant au préalable spécifié les types de variables dans le fichier Excel. Nous avons donc effectué trois chargements : les données du site web, la liste des IP robots et la liste des Users Agents. Nous créons un quatrième tableau à partir des données listant les adresses IP ayant fait la requête à «/robots.txt». Ce dernier aura listé 1295 adresses IP de robots. Nous opérons un premier nettoyage comme expliqué dans la partie précédente en utilisant la commande «delete» de la «proc sql» % des requêtes sont supprimées (cf annexe 1 à 5). Nous décidons d afficher le nombre d URL différentes ainsi que de les lister afin d avoir une vue d ensemble. Notre liste contient URL différentes. En parcourant la liste, on peut voir que bon nombre de fichiers images et multimédias subsistent, leurs extensions ne se trouvant pas à la fin de l URL, ils n ont pas été pris en compte lors de la suppression. Néanmoins, ils sont tous localisés dans un même dossier «/Templates» se trouvant à la racine. Après recherche, nous avons découvert que celui-ci est un dossier de mise de forme couramment utilisé dans le monde du web pour stocker des fichiers images et multimédias souvent créé automatiquement. Nous remarquons également, en consultant la liste, la présence d url très longues contenant le mot «pub». Celles-ci ne sont en fait que des publicités envoyées automatiquement par le site non désiré par l internaute et ne reflétant pas son comportement. Nous trouvons aussi la présence d autres URL commençant par ou contenant «application.php». Ce sont des applications liées à d autres pages destinées à rendre le site dynamique et interactif. Ces requêtes sont donc générées automatiquement lorsque les internautes consultent certaines pages. Nous avons aussi découvert deux autres dossiers «/archive» et «/captcha» contenant des fichiers multimédias et images se trouvant eux aussi à la racine, ainsi que des fichiers avec des extensions qui nous sont inconnues (.rss,.swf). 15

17 Toutes ces URL sont spécifiques au site « Nous procédons donc à un second nettoyage en effaçant les URL contenant : «Templates» «Pub» «application.php» «.rss», «.swf» «captcha» (cf annexe 6 et 7) Nous totalisons maintenant 97.16% de requêtes effacées et URL différentes pour le site. TABLEAU 1 : STATISTIQUE DU NETTOYAGE Libellé Nombre de requêtes Pourcentage de requêtes Total de requêtes ,00% Requêtes par IP ayant consulté /robots.txt ,70% Requêtes par IP robots listé 19 > 0,01% Requêtes par IP Users Agents listé ,49% Requêtes non satisfaites ,22% Requêtes aux images et fichiers multimédias ,66% Requêtes dont la méthode est différente de GET ,21% Total I ,28% Requêtes dossier /Templates ,04% Pub ,42% Requêtes «application.php» ,51% Requêtes dossier /archive 490 0,05% Requêtes autres extensions ,70% Requêtes /captcha ,15% Total II ,16% Requêtes conservées % 16

18 V. DETERMINATION DES SESSIONS ET DES VISITES La suite de notre analyse nécessite l identification des utilisateurs et de leurs différentes visites. IDENTIFICATIONS DES SESSIONS D UTILISATEURS Sessions d utilisateurs: Une session d utilisations est définie comme étant l ensemble des pages consultées par un même utilisateur. Celle-ci n est pas évidente à identifier en raison des adresses IP qui ne sont pas toujours fixes sur un même ordinateur, du lieu de connexions (bibliothèque, connexion wifi libre,...) ou utilisation d un serveur proxy qui fera les requêtes à la place de plusieurs utilisateurs. Il existe trois méthodes pour identifier les utilisateurs : Identification des utilisateurs par leur login et mot de passe Identification des utilisateurs par l utilisation de cookies (fichier d identification écrit dans la mémoire cache du navigateur), elle nécessite l acceptation de l utilisateur. Identification par le couple adresse IP et User Agent. La première méthode n est pas applicable à nos données car le champ de notre fichier log réservé au login et mot de passe n est pas rempli. Nous ne pouvons pas non plus utiliser la deuxième méthode puisque nous ne disposons pas des cookies. Cependant, nous allons recourir au couple adresse IP et User Agent pour identifier les sessions d utilisateurs. Ainsi, nous considérerons que toutes requêtes provenant d une même adresse IP et d un même User Agent correspondent à une même session. Mise en œuvre de l identification : Pour mettre en œuvre cette identification, nous avons créé un nouveau tableau reprenant l intégralité du premier, mais en y ajoutant une colonne «session» qui est la concaténation des colonnes «IP» et «UsersAgents». Nous obtenons dans cette colonne une chaine de caractères pouvant servir d identifiant pour les sessions. Code SAS utilisé pour créer la nouvelle variable : proc sql; create table donnees2 as select ip '' usersagents as session, * from donnees; select count(distinct session) from donnees2; quit; Ceci étant fait, nous avons utilisé la «proc sort» pour réorganiser le tableau d abord selon la variable session nouvellement créée, puis selon la variable «sectt» qui représente l heure à laquelle a été effectuée la requête convertie en secondes. C est une étape préalable à la numérotation des sessions. 17

19 En effet, pour un souci de lisibilité et surtout de compatibilité avec le logiciel R pour la suite, nous avons décidé d attribuer un numéro pour chacune des sessions. Pour ce faire, nous créons une variable compteur «cnt» à l aide de l instruction «retain». Nous faisons une mise à jour de la table en incrémentant la variable «cnt» à chaque nouvelle chaîne de caractères de la variable «session». Code SAS : data donnees2; retain cnt 0; set donnees2; by session ; if first.session then cnt=cnt+1; 18

20 IDENTIFICATION DES VISITES Définition d une visite : Les sessions étant définies, nous allons maintenant identifier les visites effectuées à l intérieur de chacune des sessions. D après les critères empiriques de Kimball, une visite est un ensemble de requêtes appartenant à une même session et n étant pas espacées les unes des autres de plus de 30 minutes. Mise en œuvre de l identification Nous devons donc, au préalable, déterminer la durée de consultation des pages. Nous considérons que cette durée est le temps séparant deux requêtes qui se suivent. Si cette durée est supérieure à 30 minutes, alors la requête suivante est considérée comme appartenant à une nouvelle visite. Pour déterminer cette durée, nous allons utiliser les variables «cnt» et «sectt». Nous présentons ci-dessous deux codes utilisables pour les logiciels SAS et R. Code SAS N=nrow(mat); bool=repeat(0,n,1); durees=repeat(0,n,1); visites=repeat(0,n,1); Code R N=25339 duree=rep(0,n) bool=rep(0,n) visites=rep(0,n) do i=1 to N-1; if mat[i,1]=mat[i+1,1] then do; durees[i]=mat[i+1,2]-mat[i,2]; bool[i]=1; end; else bool[i]=0; end; for (i in 1:N-1){ if (tab[i,1]==tab[i+1,1]){ duree[i]=(tab[i+1,2]-tab[i,2]) bool[i]=1 } else{ bool[i]=0 } } Cet algorithme calcule la durée i en fonction du temps écoulé entre la requête i et i+1 à partir de la variable «sectt». Lorsque l algorithme arrive en fin de session, aucune durée n est calculée mais elle sera estimée par la suite. Nous avons inclus une variable «bool» qui prend la valeur 0 si la requête est la dernière de la session sinon elle prend la valeur 1. Cette variable sert d indicateur de fin de session. Sous SAS il faut au préalable charger les colonnes de la table dans une matrice sur la quel nous allons travailler. proc iml; use donnees2; idvar={'cnt' 'sectt'}; read all var idvar into mat; close; 19

21 Nous sommes, à présent, en mesure de déterminer les visites. visites[1]=1; do i=1 to N-1; if durees[i]>1800 bool[i]=0 then visites[i+1]=visites[i]+1; else visites[i+1]=visites[i]; end; quit; visites[1]=1 for(i in 1:N){ if(duree[i]>1800 bool[i]==0) visites[i+1]=visites[i]+1 else visites[i+1]=visites[i] } Nous initialisons la première valeur du vecteur «visite» à 1. Nous l incrémentons de 1 à chaque fois que la durée est supérieure à 1800 secondes (30 minutes) ou que la i ème valeur du vecteur «bool» est égale à 0. Si aucune de ces deux conditions n est vérifiée alors la i ème +1 composante du vecteur visite prend la même valeur que la composante i. Une fois les variables durée et visite obtenues, nous pouvons estimer le temps de consultation de la dernière page de chaque visite. Elle sera déterminée par la moyenne de durées des pages constituant la même visite. Nous revenons sous SAS avec un tableau incluant les nouvelles colonnes «visites», «durees» et «bool». Nous mettons d abord à jour la variable «bool» pour qu elle nous indique les fins de visites et non plus les fins de sessions. proc sql; update donnees2 set bool=0 where durees>1800; quit; Nous créons une nouvelle colonne dans laquelle se trouve la moyenne des durées par visite ne prenant en compte que les requêtes dont la variable «bool» est égale à 1. proc sql; drop table donnees3; create table donnees3 as select *, avg(durees) as moyenne from donnees2 group by visites, bool; quit; Nous réorganisons les données d abord en fonction de la variable session, puis de la variable visite et enfin en fonction de la variable heure. proc sort data=donnees3; by sessions visites sectt; Puis avec Excel nous remplaçons les durées de fin de visites par les moyennes avec la formule DUREE[i] = SI (BOOL[i] = 1; DUREE[i]; SI (VISITES[i] = VISITES[i-1] ; MOYENNE[i]; 0)) 20

22 Remarque : Certaines visites peuvent totaliser plus de 100 requêtes. Elles peuvent correspondre à des robots. Nous en avons détecté 14, nous décidons de les supprimer (cf annexe 25) Certaines visites ne sont constituées que d une seule requête, par conséquent la durée est égale à zéro et donc la durée moyenne de la visite est aussi égale à zéro. Leur durée reste donc indéterminée. Nous prenons l exemple de la visite n 1. Elle débute à 7h12 et prend fin à 7h41. Elle correspond au visiteur ayant pour adresse IP « » et pour user agent «Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)». Nous pouvons lire dans l user agent qu il est sous Windows 7(Windows NT 6.1) et que son navigateur est Internet Explorer 9.0 (MSIE 9.0). Il est arrivé sur le site par le moteur de recherche «Bing» en tapant les mots clefs «part+en+thailande+guide+voyage». TABLEAU 2: VISITE N 1 paged pagep h m s /guidevoyage/thailande/geographie. html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/quevoir.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html /guide-voyage/thailande/surplace.html ge&src=ie9tr /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/geographie.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html /guide-voyage/thailande/que-voir.html

23 VI. STATISTIQUES GENERALES DU SITE Le tableau suivant nous donne un récapitulatif des statistiques générales du site. TABLEAU 3 : STATISTIQUES GENERALES Nombre de sessions 5469 Nombre de visites 7071 Nombre moyen de visites par session 1 à 2 Nombre moyen de pages consultées par visites 4 durée moyenne d'une visite (seconde) 215 Nous créons maintenant un tableau listant les différentes URL restantes et incluant les nouvelles variables associées à chaque URL donnant le nombre de fois où celle-ci a été demandée, son pourcentage par rapport au nombre de requêtes total et la durée moyenne de consultations. Nous obtenons ainsi nos premières statistiques sur la fréquentation des pages durant la journée du 1 er février TABLEAU 4 : LES 15 PAGES LES PLUS FREQUENTEES Obs. Nombre de consultation s Part de fréquentation (%) durée moyenne (s) / URL /forum-voyage/ /forum.html /livre_or.html /en/guestbook.html /recits.html /guide-voyage/dossiers/grands_dossiers/merde-glace-en-france-103.html /guide-voyage/guatemala/ /preparer-voyage/le-triangle-culturel-du-srilanka-billets-et-visites-343.html /guide-voyage/sante/senegal/ /forum-voyage/europe/hertz-location-devoiture-toulon html /forum-voyage/europe/hertz-location-devoitures html /forum-voyage/europe/location-voituremarseille html /projet/ /guide-voyage/sante/togo/ Ces 15 pages représentent 28,19% de la fréquentation. 22

24 Pour l ensemble des graphiques qui suivent, nous avons utilisées la «proc gchart» ou la «proc gplot». 23

25 Sur le graphique ci-dessus, nous pouvons voir que les pages ayant la plus longue durée de consultation sont parmi les moins visitées. Nous voyons également 5 points se dégager. En effet, ce sont des pages qui souvent ont été consultées mais très brièvement. Cela reflète un comportement d internautes n ayant pas trouvés ce qu ils recherchaient sur la page. 24

26 Le graphique suivant nous donne la part de fréquentation pour chaque horaire. Nous pouvons voir que le pic de fréquentation est atteint à 16h avec 1371 page consultées, soit 6.55% de la fréquentation de la journée. Nous voyons également que plus de la moitié de la fréquentation est faite avant 15h. 25

27 Pour tracer le diagramme qui suit nous créons une variable booléenne «retour» qui prend la valeur «Visite unique» si elle ne totalise qu une seule visite sinon elle prend la valeur «Retour sur site». Puis nous utilisons la «proc gchart» sur cette variable. data temp3; set temp3; if nbr=1 then retour='visite unique' ; else retour='retour sur site'; 26

Montrer encore