Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing



Documents pareils
La classification automatique de données quantitatives

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Analyse des données évolutives : application aux données d usage du Web

Introduction au datamining

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Agenda de la présentation

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

THOT - Extraction de données et de schémas d un SGBD

AGROBASE : un système de gestion de données expérimentales

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Analyse de grandes bases de données en santé

Introduction au Data-Mining

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Vers une Optimisation de l Algorithme AntTreeStoch

Classification non supervisée

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

CarrotAge, un logiciel pour la fouille de données agricoles

23. Interprétation clinique des mesures de l effet traitement

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

RETRANSCRIPTION CONFÉRENCE

Pourquoi l apprentissage?

Logiciel XLSTAT version rue Damrémont PARIS

Online Intelligence Solutions! AUDIENCE ANALYTICS

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Manuel d utilisation du prototype d étiquetage et première expérimentation (fin 2008)

FOIRE AUX QUESTIONS PAIEMENT PAR INTERNET. Nom de fichier : Monetico_Paiement_Foire_aux_Questions_v1.7 Numéro de version : 1.7 Date :

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Est-il possible de réduire les coûts des logiciels pour mainframe en limitant les risques?

Travailler avec les télécommunications

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Notice d utilisation

MÉTHODOLOGIE DE L ASSESSMENT CENTRE L INSTRUMENT LE PLUS ADÉQUAT POUR : DES SÉLECTIONS DE QUALITÉ DES CONSEILS DE DÉVELOPPEMENT FONDÉS

Rapport : Base de données. Anthony Larcher 1

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Ministère de l intérieur

Extraction d informations stratégiques par Analyse en Composantes Principales

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

DEMANDE D INFORMATION RFI (Request for information)

Bien programmer. en Java ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

Evaluer l ampleur des économies d agglomération

Les algorithmes de fouille de données

L autopartage en trace directe : quelle alternative à la voiture particulière?

Laboratoire 4 Développement d un système intelligent

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Application de K-means à la définition du nombre de VM optimal dans un cloud

Agrégation des portefeuilles de contrats d assurance vie

Introduction aux SGBDR

Introduction au Data-Mining

Document d orientation sur les allégations issues d essais de non-infériorité

Plateforme d informations climatiques au Niger Présentation de l opportunité

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Table des matières: Guidelines Fonds de Pensions

données en connaissance et en actions?

Leçon N 4 : Statistiques à deux variables

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

modélisation solide et dessin technique

Décompresser, créer une archive au format «ZIP»

Pour une entreprise plus performante

Les dessous des moteurs de recommandation

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Les modes de recherche sur le Web 2.0

Big Data et Graphes : Quelques pistes de recherche

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

MODÈLE CROP DE CALIBRATION DES PANELS WEB

RAPPORT FINAL. Étude sur la littératie financière chez les jeunes POR #

Analyse en temps réel du trafic des Internautes

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Cours n 12. Technologies WAN 2nd partie

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Formula Negator, Outil de négation de formule.

MYXTRACTION La Business Intelligence en temps réel

DATA MINING - Analyses de données symboliques sur les restaurants

Bases de données Cours 1 : Généralités sur les bases de données

Analyse,, Conception des Systèmes Informatiques

À qui s adresse cet ouvrage?

Spécificités, Applications et Outils

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

SAP BusinessObjects Web Intelligence (WebI) BI 4

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

1 - PRESENTATION GENERALE...

lendrevie levy ca tor 11 e édition à l ère numérique accédez aux compléments en ligne testez vos connaissances en ligne

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

E-commerce B2B Comment l exploiter avec Magento Enterprise Edition?

Introduction à la B.I. Avec SQL Server 2008

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

TSTI 2D CH X : Exemples de lois à densité 1

Transcription:

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau, BP 105, 78153 Le Chesnay France {AlzennyrDa Silva@inriafr,YvesLechevallier@inriafr} Résumé Dans la fouille des flux des données d usage du Web, la dimension temporelle joue un rôle très important car les comportements des internautes peuvent changer au cours du temps Dans cet article, nous présentons l application d une approche de classification automatique basée sur des fenêtres sautantes pour la détection et le suivi de changements sur un jeu de données en marketing Cette approche combine les cartes auto organisatrices de Kohonen et la méthode de Ward pour la découverte automatique du nombre de clusters de comportement ainsi que deux indices de validation basés sur l extension pour la détection des changements au cours du temps Keywords : Classification automatique, données évolutives, fouille d usage du Web (Web Usage Mining, WUM) 1 Introduction La fouille de données d usage du Web (Web Usage Mining, en anglais) désigne l ensemble des techniques basées sur la fouille de données pour analyser le comportement des utilisateurs d un site Web [1, 8] Dans la conférence SLDS 2009 1, un jeu de données concernant le suivi des achats d un panel de consommateurs a été diffusé dans le cadre d un concours ouvert aux jeunes chercheurs L objectif de cet article est de décrire l analyse des résultats obtenus à partir de l application de notre approche de détection et de suivi des changements [2, 3] sur ce jeu de données 2 Description du jeu de données Le jeu de données en question concerne le suivi des achats de 10 068 clients pendant 14 mois (du 09 juillet 2007 jusqu au 08 septembre 2008) sur 2 marchés de biens de consommation Chaque marché commercialise 3 marques de produits Les données ont été fournies dans un fichier de 3 745 296 lignes contenant les champs décrits dans le tableau 2 Dans ce fichier, tous les combinaisons date x marché x marque ont été présentés, même en cas d absence d achat Pour l application de notre méthode, nous avons défini un tableau croisé client x marque ordonné selon la date et l identification client (cf tableau 3) Ce tableau contient un total de 262 215 lignes 1 Symposium Apprentissage et Science des Données 2009, wwwceremadedauphinefr/slds2009 c Revue MODULAD, 2010-148- Numéro 42

Tab 1 Champs descriptifs des données ident identification client date premier jour de la semaine de l achat marché marché concerné par les achats (marche 1, marche 2) marque marque concernée par les achats (A, B, C, D, E, F) valeur valeur des achats Tab 2 Extrait des premières lignes du tableau croisé ident A B C D E F date 2 0 0 0 0 165 0 09/07/2007 6 0 0 0 0 176 0 09/07/2007 8 77 0 0 0 0 0 09/07/2007 10 352 0 088 0 0 0 09/07/2007 11 187 0 0 0 0 0 09/07/2007 12 0 0 0 165 0 0 09/07/2007 3 Approche de classification automatique pour la détection et le suivi de changements sur des données évolutives Notre approche de classification automatique pour la détection et le suivi de changements sur des données évolutives consiste dans un premier temps à partitionner le flux de données d entrée en fenêtres sautantes de taille fixe Soit W 1 la première fenêtre du flux de données, l idée est d appliquer une méthode quelconque de classification non supervisée sur les données de W 1 Soit G = (g 1,, g c,, g k ) l ensemble de prototypes des clusters découverts par cette classification Ensuite, on repère la fenêtre suivante dans le temps, nommée W 2 Cette fenêtre ne se chevauche pas avec la première Le pas suivant consiste à affecter les données de W 2 aux prototypes de G, ce qui nous fournit une première partition P 1 Par la suite, on applique la même méthode de classification non supervisée sur les données de W 2, ce qui définit une nouvelle partition P 2 La détection des changements entre les deux fenêtres sera mesurée par la comparaison des deux partitions P 1 et P 2 à l aide de deux critères d évaluation L idée principale derrière cette approche consite à ce que la partition P 1 reflète la segmentation des individus de la fenêtre courante selon la structure classificatoire obtenue à partir des données de la fenêtre précédente La partition P 1 contiendra l information d organisation selon un passé récent De l autre côté, la partition P 2 n est pas influencée par la classification précédente et reflète ainsi la segmentation actuelle des individus, classés indépendamment du passé Sur un jeu de données stable, les deux partitions P 1 et P 2 seront très similaires, si ceci n est pas le cas, alors une rupture entre les deux fenêtres est vérifiée Dans ce dernier cas, une analyse plus approfondie entre les clusters de ces deux partitions s avère nécessaire c Revue MODULAD, 2010-149- Numéro 42

Fig 1 Statistiques de base sur les données analysées Fig 2 Nombre de clusters de comportement par fênetre de temps (semaine) afin de détecter la nature des changements vérifiés Pour cette comparaison, nous appliquons deux indices de validation basés sur l extension de la classification : la F-mesure [7] et l indice corrigé de Rand [5] Le premier indice assume des valeurs contenues dans l intervalle [0, +1] et le deuxième indice assume des valeurs dans l intervalle [ 1, +1] Dans les deux cas, les valeurs proches de 1 correspondent à des partitions très semblables, alors que les valeurs proches de 0 correspondent à des partitions dissimilaires Pour la méthode de classification, nous utilisons les cartes auto organisatrices de Kohonen [6] initialisées à partir d une ACP (Analyse en Composantes Principales) sur des données d entrée [4] La couche de compétition est initialisée avec une centaine de neurones disposés sur une grille rectangulaire Après la convergence, une CAH (Classification Ascendante Hiérarchique) utilisant le critère de Ward est appliquée sur les prototypes correspondant aux neurones de la grille La coupure du dendrogramme résultant est effectuée selon le critère du gain d inertie intra-classe Les neurones dans un même groupe sont donc fusionnés De cette manière, le nombre de clusters présents dans les données est automatiquement découvert Il est important de remarquer que notre approche est totalement indépendante de la méthode de classification non supervisée appliquée, la seule restriction est que celle-ci doit fournir un prototype pour chaque cluster découvert 4 Analyse des résultats Dans notre approche, nous avons utilisé une fenêtre de temps de taille égale à une semaine C est-à-dire, la méthode de classification non supervisée est appliquée sur l ensemble d individus ayant réalisé des achats dans une même semaine, ceci afin de segmenter les clients en fonction de leurs habitudes d achat dans le temps La figure 1 présente quelques statistiques de base, comme le nombre de visites de clients et le total d achat par marché et par semaine Comme nous pouvons remarquer, le nombre de visites est assez stable pendant toute la période analysée Ce nombre avoisine 5 mille visites par semaine De plus, la valeur totale d achats sur le marché 2 est presque toujours supérieure à celle du marché 1 pour une même période de ventes Le nombre total de clusters de préférences d achat découverts par notre méthode varie entre 2 et 8 (cf figure 2) L axe des abscisses du graphique dans la figure 2 répresente la date de début de la semaine analysée Le nombre de clusters le plus stable étant 7 pour la majorité des semaines Un cluster représente un ensemble de clients ayant des préférences d achat similaires pour une même semaine Remarquons que pendant les trois premières semaines du mois de novembre 2007, le nombre total de clusters de préférences d achat a été stabilisé et égal à 2 Ceci peut être une réponse à une stratégie de vente mise en ligne c Revue MODULAD, 2010-150- Numéro 42

Fig 3 Valeurs obtenus par la F-mesure pour chaque semaine analysée Fig 4 Valeurs obtenus par l indice de Rand corrigé pour chaque semaine analysée pendant cette période de temps Les valeurs obtenues par les deux indices de comparaison de partition cités dans la section 3 sont montrés dans les figures 3 et 4 La F-mesure effectue une analyse cluster par cluster en cherchant la meilleure représentation d un cluster dans la première partition par un cluster correspondant dans la deuxième partition La F-mesure obtient donc autant de valeurs qu il y a de clusters dans la première partition On trace une boxplot à partir de ces valeurs pour chaque semaine analysée Les périodes les plus stables sont celles qui présentent les valeurs les plus élevées de la F-mesure Sur le jeu de données analysé, ces périodes correspondent aux semaines débutées le 20 août 2007, le 17 septembre 2007, le 10 décembre 2007, le 25 février 2008 et le 02 juin 2008 (cf figure 3) Ces mêmes périodes ont été également repérées par l indice de Rand corrigé (cf figure 4) Cet deuxième index fournit une mesure globale basée sur tout l ensemble de clusters dans les deux partitions Ceci montre l accord entre ces deux indices et leur aptitude à résoudre ce type de problème Pour les autres semaines analysées, ce jeu de données reste assez instable Les clusters de comportement subissant un nombre important de changement au cours du temps Afin de réaliser un suivi des changements subis par les clusters, notre méthode implémente des fonctionnalités additionnelles capables de repérer les transformations subies par un cluster de comportement au cours du temps Ces transformations peuvent être de différentes natures, à savoir : Disparation d un cluster de comportement : repérée quand un cluster de comportement existant dans une fenêtre de temps précédente n est plus présent dans la fenêtre de temps suivante Apparition d un cluster de comportement : repérée quand un cluster de comportement inexistant dans une fenêtre de temps précédente est aperçu dans la fenêtre de temps suivante Scission d un cluster de comportement : repérée quand un certain nombre de clients appartenant à un cluster de comportement dans une fenêtre de temps migre vers d autres clusters dans la fenêtre de temps suivante Ceci peut indiquer un changement de préférence pour une nouvelle marque de produit Fusion de deux ou plusieurs clusters de comportement : repérée quand les clients appartenant à différents clusters de comportement dans une fenêtre de temps migrent vers un même cluster de comportement dans la fenêtre de temps suivante Ceci indique quand deux clients ayant des habitudes d achat distinctes passent à partager les mêmes préférences d achat Un exemple typique concerne le phénomène vérifié lors de la mise en place des promotions sur produits qui attirent différents clients autres que le public cible Pas de changement : dans ce dernier cas, le cluster de comportement est considéré comme survivant dans la fenêtre de temps suivante Il peut cependant subir des c Revue MODULAD, 2010-151- Numéro 42

Fig 5 Nombre de changements detectés sur les clusters de comportement au cours du temps changements liés au nombre d effectifs (rétrécissement ou grossissement) Ces changements peuvent indiquer le changement de popularité de certaines marques de produit Les changements vérifiés sur les données analysées sont décrits dans la figure 5 Pendant nos expérimentations, nous n avons remarqué aucune scission de clusters de comportement Toujours en cohérence avec les résultats obtenus par la F-mesure et par l indice de Rand corrigé, notre méthode a détecté le plus grand nombre de clusters survivants (cf graphique Total of survivals de la figure 5) pendant les mêmes semaines de stabilité trouvées par les deux indices de comparaison de partition Pendant ces semaines, la quasi totalité des clusters de préférences d achat a survécu En analysant le graphique Total of appearances nous remarquons, pour la majorité des semaines analysées, un grand nombre de nouveaux clusters (autour de 6) Le nombre total de clusters par fenêtre étant assez stable et égal à 7 (cf figure 2), on pourrait s attendre à un grand nombre de disparition de clusters Cependant, en analysant le graphique Total of disappearances de la figure 5, nous constatons un faible nombre de disparation de clusters au cours du temps L explication de ceci est liée au fait qu une grande partie des clusters se fondent les uns avec les autres (cf le graphique Total of absorptions de la figure 5) au cours du temps Afin de mieux connaître les profils d achat de ces clients, nous avons tracé sur la figure 6 la distribution des pourcentages d achat par marque pour les 7 clusters détectés par la méthode pendant les périodes les plus stables, ces clusters représentent les préférences d achat les plus typiques Ces profils d achat peuvent être décrits comme suit : Cluster 1 : clients ayant une préférence d achat pour la marque B en premier plan et la marque A en deuxième plan Cluster 2 : profil mixte de clients ayant des fortes préférences pour les marques A et D Cluster 3 : clients ayant une préférence d achat majoritaire pour la marque A Cluster 4 : clients ayant une préférence d achat pour la marque F en premier plan et les marques A et D en deuxième plan Cluster 5 : clients ayant une préférence d achat pour la marque C en premier plan et les marques E et A en deuxième plan Cluster 6 : clients ayant une préférence d achat majoritaire pour la marque D Cluster 7 : clients ayant une préférence d achat pour la marque E en premier plan et les marques A et D en deuxième plan La marque A a une forte préférence parmi tous les profils d achat Les autres marques sont présentes dans des profils ponctuels En consultant les résultats obtenus, il est possible d extraire la liste de clients appartenant à un cluster spécifique Pour suivre le comportement d achat d un client spécifique, il suffit de vérifier si le client en question change de cluster au cours du temps Si le client reste toujours dans un même cluster au cours du temps, celui si peut être considéré fidèle aux marques concernées par ce cluster D un autre côté, si le client change considérablement de cluster au cours du temps, celui si peut être classé tel un zappeur entre les marques de produit c Revue MODULAD, 2010-152- Numéro 42

Fig 6 Clusters de préférences d achat les plus typiques 5 Conclusion Dans cet article nous avons décrit les résultats obtenus par de notre méthode de classification non supervisée pour la détection et le suivi des clusters de comportement dans le temps appliquée sur un jeu de données en marketing Nous avons pu suivre l évolution de clusters de préférences d achat des clients sur 6 marques de produits de deux marchés différents au long de 14 mois Notre méthode a permis la traçabilité des changements subis par les clusters de préférences d achat des clients ainsi que l identification de la nature de ces changements au cours du temps (apparition/disparition des groupes de comportement, migration d individus de et vers un autre groupe de comportements) L un des enjeux majeurs dans ce genre d analyse est la nécessité de jongler avec plusieurs changements qui peuvent se passer en simultané sur différents groupes de comportement Tous les résultats obtenus par l application de notre méthode sur le jeu de données en question ont été enregistrés dans une base de données MySQL et peuvent de ce fait faire l objet a posteriori d un rapport technique Il est ainsi possible de fournir à des questions spécifiques des réponses plus détaillées Par exemple, la segmentation des clients pour une semaine spécifique peut être facilement repérée par une simple requête à la base de données Il est également possible de mesurer la popularité de certaines marques de produit en fonction du suivi des effectifs d un même groupe de comportement au cours du temps Références [1] Cooley R, Mobasher B, Srivastava J : Data Preparation for Mining World Wide Web Browsing Patterns, Journal of Knowledge and Information Systems, vol 1, no 1 (1999) 5-32 [2] Da Silva A, Lechevallier Y :Stratégies de classification non supervisée sur fenêtres superposées : application aux données d usage du Web, Actes des 8èmes journées Extraction et Gestion des Connaissances (EGC 2008), Revue des Nouvelles Technologies de l Information (RNTI), vol I, cépaduès, (2008) 219-220 [3] Da Silva A, Lechevallier Y, De Carvalho F : Simulation et détection de l évolution des données temporelles issues de l usage du Web, Hébrail G, Poncelet P, Quiniou R, Eds, Actes de l atelier fouille de données temporelles et analyse de flux de données aux 9èmes journées d Extraction et Gestion des Connaissances (EGC 2009) [4] Elemento O : Apport de l analyse en composantes principales pour l initialisation et la validation de cartes topologiques de Kohonen, Actes des 7èmes journées de la Société Francophone de Classification (SFC 1999) [5] Hubert L, Arabie P : Comparing Partitions, Journal of Classification, vol 2 (1985) p 193-218 c Revue MODULAD, 2010-153- Numéro 42

[6] Kohonen T : Self-Organizing Maps, vol 30 de Springer Series in Information Sciences, Springer, third edition, 1995, Last edition published in 2001 [7] Van Rijsbergen C J : Information Retrieval, Butterworths, London, second edition, 1979 [8] Spiliopoulou M : Data Mining for the Web, Workshop on Machine Learning in User Modelling of the ACAI99 (1999) 588-589 c Revue MODULAD, 2010-154- Numéro 42