Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining



Documents pareils
Améliorer les performances du site par l'utilisation de techniques de Web Mining

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

webmestre : conception de sites et administration de serveurs web 42 crédits Certificat professionnel CP09

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

BIRT (Business Intelligence and Reporting Tools)

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

Outils de traitements de logs Apache

INTRODUCTION AU CMS MODX

Graphes de trafic et Statistiques utilisant MRTG

Introduction à la B.I. Avec SQL Server 2008

Introduction au datamining

WEB & DÉVELOPPEMENT LES BASES DU WEB LE LANGAGE HTML FEUILLES DE STYLES CSS HISTORIQUE D INTERNET ET DU WEB LES DIFFÉRENTS LANGAGES

Formation. Module WEB 4.1. Support de cours

SOMMAIRE 1 UNE INTRODUCTION : QU EST-CE QUE GOOGLE ANALYTICS? 3 2 LES PRE-REQUIS AVANT UTILISATION 3 3 ACCEDER A VOS STATISTIQUES 3

Module d introduction Comment réaliser vos propres cartes avec ArcGIS Online

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Glossaire. ( themanualpage.org) soumises à la licence GNU FDL.

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Application de K-means à la définition du nombre de VM optimal dans un cloud

FileMaker Server 14. Guide de démarrage

Service de certificat

iil est désormais courant de trouver sur Internet un document

Mes documents Sauvegardés

NAS 321 Héberger plusieurs sites web avec un hôte virtuel

BES WEBDEVELOPER ACTIVITÉ RÔLE

Accéder à ZeCoffre via FTP

RÉALISATION D UN SITE DE RENCONTRE

FileMaker Server 14. Aide FileMaker Server

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Petite définition : Présentation :

SQL Data Export for PS/PSS

Conception d un CD interactif : simulation d une sortie en écologie végétale

ELEMENTS DE BUREAUTIQUE

SUPPORT DE COURS / PHP PARTIE 3

données en connaissance et en actions?

Spétechs Mobile. Octobre 2013

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

M1 IFPRU Cahier des Charges du projet de TER. Vidéo Surveillance sur IP Le système Rapace. Membres du groupe : Encadrés par :

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

CRÉER SON SITE INTERNET. Créer son site Internet. Méd de Roanne. FG 16/09/08

: seul le dossier dossier sera cherché, tous les sousdomaines

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

NetCrunch 6. Superviser

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

EP60.92 Projet d application pluridisciplinaire La chasse aux trésors

Business Intelligence avec SQL Server 2012

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker

Groupe Eyrolles, 2003, ISBN : X

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Atelier E-TOURISME Optimiser la visibilité de son site sur les moteurs de recherche. ecotourismepro.jimdo.com

Service On Line : Gestion des Incidents

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement

Notes pour l utilisation d Expression Web

Sécurité des sites Web Pas un cours un recueil du net. INF340 Jean-François Berdjugin

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

L accès à distance du serveur

Installation d un serveur HTTP (Hypertext Transfer Protocol) sous Débian 6

Les outils de création de sites web

Spétechs Mobile. D e r n i è r e m i s e à j o u r : a o û t 2014

Manuel Utilisateur de l'installation du connecteur Pronote à l'ent

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Le service FTP. M.BOUABID, Page 1 sur 5

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

INGENIERIE DES SYSTEMES INFORMATIQUES - PARCOURS : MOBILITE ET CLOUD COMPUTING

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Le Langage SQL version Oracle

Devenez un véritable développeur web en 3 mois!

WINDOWS SHAREPOINT SERVICES 2007

IBM System i. DB2 Web Query for System i : le successeur de Query/400? Oui, mais bien plus!!!

Business Intelligence avec Excel, Power BI et Office 365

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

Module BD et sites WEB

CREG : versailles.fr/spip.php?article803

Sommaire. -1-Computer en bref. Web en bref. Le web 3.0,...la mobilité. Evolution du Web web1.0, web2.0, web2.b, web3.0...

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Agenda mutualisé en ligne - services A.S.V. Informatique.

GUIDE D UTILISATION CRÉER SON SITE WEB - PROJET RESCOL

Les sites Internet dynamiques. contact : Patrick VINCENT pvincent@erasme.org

MANUEL D INSTALLATION D UN PROXY

TAGREROUT Seyf Allah TMRIM

Administration du site (Back Office)

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

TP Protocoles SMTP et POP3 avec Pratiquer l algorithmique

Big Data et Graphes : Quelques pistes de recherche

Etude d Algorithmes Parallèles de Data Mining

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

CELCAT est un leader mondial de la gestion d emploi du temps et du suivi de l assiduité des étudiants dans l enseignement supérieur.

Département Génie Informatique

Master Informatique Aix-Marseille Université

Créer et partager des fichiers

SAP Lumira Version du document : Guide de l'utilisateur de SAP Lumira

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Vous pouvez désormais consulter les textes signés par la DILA, le rechargement du code Applet se fera automatiquement.

L3 informatique TP n o 2 : Les applications réseau

INF6304 Interfaces Intelligentes

Transcription:

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences Ben M Sik, Laboratoire TIM (Technologies de l information et Modélisation), Casablanca, Maroc m_hanoune@yahoo.fr, hgfbenabbou@menara.ma. Résumé : Le but dans ce travail consiste à concevoir et réaliser un Outil, en se basant sur l ECD (Extraction de la Connaissance a partir de bases de données), en utilisant les concepts du Web Usage Mining, pour offrir aux web masters l ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les bonnes décisions. Il s agit en faite, d extraire de l information à partir du fichier log du serveur Web, hébergeant le site Web, et prendre les décisions pour découvrir les habitudes des internautes, et de répondre a leurs besoins en adaptant le contenu, la forme et l agencement des pages web et du contenu d une façon générale, avec les attentes des internautes. Mots-clés : Webmining, web usage mining, extraction de connaissances, Intelligence Artificielle, Algorithmes, Théorie de décision, Méthode APRIORI 1. Introduction : L activité sur le Web et les données résultantes, ont connu une croissance très rapide, vu la croissance exponentielle du nombre des documents mis en ligne. D après des statiques sur des sites spécialisés,, le nombre des utilisateurs d Internet dans le monde a dépassé le milliard (1,022,863,307), au mois de mars 20061, et le nombre de sites Web a atteint 74.4 millions au mois d Octobre 20052. Ces données, en particulier celles relatives à l usage du Web, sont traitées dans le Web Usage Mining (WUM). Dans cet article, nous nous intéressons à l analyse des fichiers Logs afin de comprendre le comportement des internautes sur un site Web (Site de l université Hassan II- Mohammedia www.univh2m.ac.ma). L'apport de ce travail réside principalement dans les points : 1-Connaissances sur les visiteurs : Le pourcentage des visiteurs par semaine par mois et par ans Avoir une visibilité international : d où provient nos visiteurs? 2-Connaissances sur les pages : Les pages les plus et les moins consultées (pages populaire et pages impopulaire) Les combinaisons des pages consultées Savoir quels sont les liens qui nos référencent le plus mieux 3-Connaissances sur les navigateurs et les Os Le pourcentage des navigateurs les plus utilisés Le pourcentage des systèmes d exploitations les plus utilisés 1 http://www.internetworldstats.com/stats.htm 2 http://www.netcraft.com RNTI - 1

Hanoune et al. Le présent article est subdivisé en trois sections distinctes. La première section présente la conception, par la méthode UML, de la solution mise en place. La deuxième section : on y trouve les différentes étapes du prétraitement et Nettoyage du fichiers Logs. La dernière est consacrée à l exploration et l Analyse de fichier Log 2. Analyse du problème et conception de la solution : Méthode UML 2.1 Diagramme de Cas d utilisation : RNTI - 2

Extraction de connaissance à partir de fichier Log 2.2 Diagramme de classe : NB : le cercle en rouge signifie que c est une fonction 2.3 Diagramme d Etat de transition : 2.3.1 DET de Traitement de Fichier LOG : 2.3.2 DET Extraction Connaissance 3

Hanoune et al. 2.4 Diagramme de séquence : 3. Prétraitement et Nettoyage du fichier Logs RNTI - 4

Extraction de connaissance à partir de fichier Log 3.1 Chargement du fichier Log et transformation en une Table D une BDD Le fichier LOG est un fichier Texte appelé aussi journal des connexions, qui conserve les traces des requêtes et des opérations traitées par le serveur. Généralement il est de la forme suivante: Les différent champs de ce fichier vont être, importé dans une base données déterminée comme suit : Le fichier log se transforme en une table composée de plusieurs colonnes, chaque colonne correspond à un champ spécifié du fichier LOG : 5

Hanoune et al. La colonne «hote_client» correspond aux adresses IP des visiteurs La colonne «login_client» correspond au Nom du serveur utilisé par le visiteur La colonne «utilisateur_client» correspond au Nom de l'utilisateur (en cas d'accès par mot de passe). La colonne «date_et_heure» correspond à la date d accès La colonne «methode» correspond à la méthode utilisée (GET/POST) La colonne «url_des_pages» correspond au URL demandé La colonne «protocole» correspond au protocole utilisé La colonne «code_de_retour» La colonne «taille_chargé» correspond à la taille chargée 3.2 Nettoyage des données 3.2.1 Nettoyage des graphiques, image ou script : Les données concernant les pages possédant des graphiques, Images ou des scripts, n apporteront rien à l analyse. Elles seront donc filtrées : Pour cela on est amené à supprimer de notre base de données les URLs suivants : les urls correspondant aux images d extension «.gif» par la requête ("delete from LOGUNIV where url_des_pages like '%.gif%'") Les urls correspondant aux images d extension «.jpg» par la requête ("delete from LOGUNIV where url_des_pages like '%.jpg%'") les urls correspondant aux images d extension «.ico» par la requête ("delete from LOGUNIV where url_des_pages like '%.ico'") les urls correspondant aux feuilles de styles d extension «.css» par la requête ("delete from LOGUNIV where url_des_pages like '%.css'") les urls correspondant aux images d extension «.png» par la requête ("delete from LOGUNIV where url_des_pages like '%.png'") 3.2.2 Résolution des pages unique interprété différemment par l interpréteur du serveur: Pour les pages d extension «.php», il fallait résoudre le problème de la page unique mais interprété différemment par l interpréteur du serveur Alors l idée était de modifier la colonne «url_des_pages»de telle sorte de supprimer pour une même page la partie de sa url qui commence par? jusqu'à la fin de l url RNTI - 6

Extraction de connaissance à partir de fichier Log Par exemple couper la partie de l url suivant à partir de? jusqu à la fin de la ligne et ensuite le supprimer /forum/read.php?f=3&i=940&t=625 L algorithme utilisé pour cette modification est : ch est une chaîne m est un entier y est un entier POUR m=1 A Table2..Occurrence ch est une chaîne ch est un entier ch=table2.pages[m] y=position(ch,"?",depuisdébut) SI y<>0 ALORS ch=extraitchaîne(ch,1,"?") Table2.Pages[m]=ch FIN 3.2.3 Résolution du Problème du Format Date et Heure : On avait aussi le problème du format de la date et heure Le format, que le fichier LOG utilise pour garder la trace de l instant d entrée de l internaute est incompatible avec celle utilisée dans la base de données On doit forcément rendre la colonne «date_et_heure» de type date et heure L algorithme utilisé pour rendre la date et l heure du fichier LOG reconnaissable par la colonne «date_et_heure» du SGBD est comme suit : Premièrement on doit repérer la position courante de la colonne «date_et_heure» dans la liste de catégorie du fichier LOG parce qu elle représente son emplacement sur le fichier LOG Algorithme : BOUCLE Ch est chaine ch=flitligne(id) SI ch = EOT ALORS SORTIR ch1 est une chaîne="" ch11 est une chaîne="" ch12 est une chaîne ch13 est une chaîne h est un entier 7

Hanoune et al. h=azer+1 //azer est l indice de la colonne date_et_heure dans la liste POUR i=1 A nbre ch11=extraitchaîne(ch,azer,sep) ch12=extraitchaîne(ch11,1,":") ch12=droite(ch12,10) ch13=droite(ch11,7) ch13=ch12+" "+ch13 SI i<>azer ET i<>h ALORS ch1=ch1+"'"+extraitchaîne(ch,i,sep)+"'," FIN SI i=azer ALORS ch1=ch1+"'"+ch13+"'," FIN FIN ch1=ch1+"'"+extraitchaîne(ch,nbre,"sep")+"'" SQLExec("insert into LOGUNIV values("+ch1+")", "REQ1") FIN SQLExec("alter table LOGUNIV ALTER COLUMN date_et_heure DATETIME", "REQ1") Après ces quatre grande étapes de prétraitement et nettoyage, le fichier Log est près pour l exploration et l analyse. 4. Exploration et Analyse du fichier Log Pour l exploration et l analyse du fichier Log, un outil logiciel a été conçu et réalisé : LOG ANALYZER: dans l interface est comme suit : 4.1 Les combinaisons fréquentes des pages Pour la combinaison des pages les plus utilisées on a utilisé la méthode A PRIORI. Mais avant, on doit définir quelques notions utilisées dans cette méthode : RNTI - 8

Extraction de connaissance à partir de fichier Log Nombre de pages : nombre totale des pages dans le fichier log (dans la base de données) Une session : soit une adresse IP soit une demi heure si l adresse IP se répète pour une durée supérieur a une demi heure. Support d une page : la somme d une page dans toutes les sessions divisée par le nombre totale des session. Support minimum : seuil de support. Page fréquente : page dont le support est supérieur au support minimum Les combinaisons des pages : elles est calculées en utilisant l algorithme a priori : L algorithme A priori - 2 Fk : ensemble des itemsets fréquents de taille k Ck : ensemble des itemsets candidats de taille k K 1 C1 items Tant que Ck Ø faire Fk candidats de Ck dont le support >=σ Ck+1 candidats sont générés à partir de Fk K k + 1 Fin UFk Pour chaque X є UkFk Pour chaque Y С X Tester la confiance de la règle X\Y Y Dans cette fenêtre, on signale la page principale d entrée et les combinaisons les plus utilisées par les internautes lors de leurs consultations du site web. 4.2 Les pages fréquemments consultées 9

Hanoune et al. On doit spécifié la période pour la qu elle on aimerait faire la consultation.. 4.3 Pages Populaires et Impopulaire On doit choisir la période pour laquelle on voudrait consulter. Un tableau de statistiques sur les pages populaires et impopulaires selon la période spécifiée sera affiché : Ici l idée est de donner au web master toutes les pages populaires et impopulaires selon son degré de popularité en se basant sur le nombre de fois qu une page a été visitée dans une période spécifiée. 4.4 Information sur les Internautes Cette rubrique enseigne le web master sur la fidélité de ses visiteurs. NB : chaque adresse IP est équivalente à un utilisateur ou Internaute. RNTI - 10

Extraction de connaissance à partir de fichier Log 4.5 Catégorie du Site : On se basera sur les différentes méthodes sur le site (GET OU POST). Ici notre but est définir si notre site joue toujours son rôle (Consultatif ou de Téléchargement) Par fois on a un site consultatif avec quelques fichiers à télécharger mais on constate que les utilisateurs ne consultent ce site que pour télécharger ces fichiers donc le site se transforme d un site consultatif à un site de téléchargement et par conséquent ne satisfais pas ses utilisateurs comme son web master a prévu. 4.6 Types de Navigateurs (Browsers): Si vous cliquer sur «statistiques sur les browsers» vous êtes face à une page qui vous demande de choisir la période pour la quelle vous affiche un diagramme résumant les pourcentages d utilisation des browsers pour accéder a votre site : NB : seuls les célèbres browsers sont prises en compte 11

Hanoune et al. Références Charrad, M. (2005) Techniques d extraction des connaissances appliquées aux données du Web. Mémoire de Mastère présenté en vue de l obtention du diplôme de Mastère en Informatique, Ecole Nationale des Sciences de l Informatique de Tunis, Laboratoire RIADI. Charrad, M., M. Ben Ahmed et Y. Lechevallier (2005). Web Usage Mining: WWW pages classification from log files. In Proceeding of International Conference on Machine Intelligence, Tozeur, Tunisia, 5-7 Novembre. Cooley, R., B. Mobasher, et J. Srivastava (1999). Data Preparation for Mining World Wide Web Browsing Patterns. Journal of Knowledge and Information Systems. Malika Charrad, Mohamed Ben Ahmed, Yves Lechevallier (2005), Extraction des connaissances à partir des fichiers Logs,Actes de l'atelier Fouille du Web des 6èmes journées francophones «Extraction et Gestion des Connaissances». Mobasher, B., H. Dai, T. Lou, et M. Nakagawa (2002). Discovery and evaluation of aggregate usage profiles for web personalization. Data Mining and Knowledge Discovery, 6: 61-82. Pierrakos, D., G. Paliouras, C. Papatheodorou, et C.D. Spyropoulos (2003). Web Usage Mining as a tool for personalization: A survey. User Modeling and User-Adapted Interaction, 13:311-372. Srivastava, J., R. Cooley, M. Deshpande et P.-N. Tan (2000). Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data. SIGKKD Explorations. Tanasa, D. et B. Trousse (2003), Le prétraitement des fichiers Logs Web dans le Web Usage Mining Multi-sites. In Journées Francophones de la Toile. Hanene Azzag, Christiane Guinot Gilles Venturini (2005), Classification hiérarchique et visualisation de pages Web, Actes de l'atelier Fouille du Web des 6èmes journées francophones «Extraction et Gestion des Connaissances». Khalid Benabdeslem, Younès Bennani (2005),Classification et visualisation des données d usages d Internet, Actes de l'atelier Fouille du Web des 6èmes journées francophones «Extraction et Gestion des Connaissances». Thomas Guyet, Catherine Garbay, Michel Dojat, (2006), Algorithme d apprentissage de scénarios à partir de séries symboliques temporelles, Fouille de données temporelles, Atelier à EGC 2006, 17 janvier 2006 RNTI - 12