SETIT 2005 3 RD INTERNATIONAL CONFERENCE: SCIENCES OF ELECTRONIC, TECHNOLOGIES OF INFORMATION AND TELECOMMUNICATIONS MARCH 27-3, 2005 TUNISIA Cocepto d u outl décsoel pour la gesto de la relato clet das u ste de e-commerce Nazh SELMOUNE *, Sada BOUKHEDOUMA * ad Zaa ALIMAZIGHI * * Laboratore des Systèmes Iformatques(LSI )- USTHB - ALGER selmoue@wssal.dz boukhedouma@wssal.dz almazgh@wssal.dzt Résumé Les etreprses souceuses de leur progrès tetet à satsfare cotuellemet leurs clets potetels. L utlsato du e-commerce, l essor des techologes lées à l teret fat aître de ouvelles attetes de la part des clets et des collaborateurs. Cec oblge ces etreprses à predre les décsos adéquates e vue de répodre aux exgeces de leurs clets, e examat leur comportemet sur so ste de e-commerce. L aalyse du marché pour ue etreprse doée repose sur la quatté mportate d formatos proveat de so ste web marchad. Cette aalyse peut se fare e explotat les etrepôts de doées (ED) ou data warehouse (DW) d ue part et les outls de data mg ou de foulle de doées pour ue classfcato (proflage) des clets d autre part, car l ade à la décso peut écesster de compredre plus profodémet les chffres et les fats de l etreprse. Le préset artcle décrt la cocepto, l archtecture et quelques foctoaltés d u outl d ade à la décso pour la gesto de la relato clet sur u ste de e-commerce. Mots clés E-CRM, Data warehouse, Data Mg, modèle multdmesoel, OLAP.. Itroducto De ombreuses etreprses ot bât e parte leurs succès grâce à ue poltque de costate ovato techologque et ot su utlser les ouvelles techologes, depus logtemps, pour acquérr de ouveaux marchés et vser de ouveaux clets. De plus e plus sesblsés au web, ls veulet accéder drectemet de faço persoalsée et sécursée, au servce de l etreprse et de ses parteares. Partat de ce fat, les etreprses ot set le beso et la écessté de predre certaes décsos pour répodre aux attetes de ce ouveau type de clets qu se mafeste va ce ouveau caal d teractos. La coassace de l evroemet décsoel est u élémet vtal das la prse de décso. Par exemple la coassace de clets et de leur comportemet d achat costtue u élémet décsoel pour le lacemet d u produt. L aayse du marché pour ue etreprse doée aura comme référece les doées qu découlet de so ste web marchad. Les etreprses possèdet doc, d mportats volumes de doées aux formats gééralemet hétérogèes, ce qu écesste l utlsato d u outl permettat l explotato effcace et performate de ces doées pour ader l etreprse à la prse de décso, d où la assace des etrepôts de doées (ED) ou data warehouse (DW) (Imo, 996b), (Kmball & al, 2000). Cette approche vse à extrare des doées de bases de producto, à les assembler, par sujet, à les orgaser, à les trasformer et à les résumer pour l ade à la décso. L etrepôt dot pouvor mémorser l hstore de l etreprse. Pour meux coaître sa cletèle, ue etreprse peut décder d effectuer ue classfcato basée sur le comportemet des clets. Cec mplque la écessté de mettre e place des outls de data mg ou foulle de doées. Ces outls reposet e gééral sur des techques basées sur les
SETIT2005 2 statstques, la classfcato ou l extracto de règles assocatves (Gardar, 2000). Le traval préseté das cet artcle cosste e la cocepto et la mse e œuvre d u outl d ade à la décso basé sur les techques de DW et de data mg, susceptble d assster les etreprses de vetes sur teret, das la prse de leurs décsos. La sute du documet est orgasée comme sut : La secto 2 présete les cocepts de base du décsoel, à savor les etrepôts de doées (ED) et le data mg. La secto 3 présete le cocept d ade à la décso das la gesto de la relato clet. La secto 4 décrt la cocepto de l outl réalsé pour l ade à la décso. E effet, elle présete les vues statque et dyamque du système e utlsat quelques dagrammes d UML, le modèle multdmesoel selo deux axes vetes et vstes. Ue descrpto d u algorthme de groupage est auss doée das cette secto. Ef, quelques fgures motrat les prcpales foctoaltés de l outl sot doées das la secto 5. 2. Cocepts de base des systèmes d ade à la décso : Nous présetos das ce qu sut quelques cocepts de base, cocerat les systèmes d ade à la décso et otammet, les etrepôts de doées : 2. Etrepôt de doées (data warehouwse) : U etrepôt de doées (ED) ou data warehouse (DW) se déft selo W. INMON comme état u esemble de doées tégrées, oretées sujet, o volatles, gérées das u evroemet de stockage partculer, hstorsées, résumées, dspobles pour l terrogato et l aalyse et orgasées pour le support d u processus d ade à la décso (Bret & al, 200). Les doées d u ED possèdet les caractérstques suvates (Teste, 2000), (Raval & al, 200) : Chaque décdeur d ue etreprse dot dsposer d ue vue sur les formatos qu lu sot pertetes, et qu peuvet fluer das ses décsos pour ue melleure explotato de ces doées. No volatles Tout se coserve, re e se perd : cette caractérstque est prmordale das les ED. E effet, et cotraremet aux bases de doées classques, u ED est accessble e ajout ou e cosultato uquemet. Les modfcatos e sot autorsées que pour des cas partculers (correcto d erreurs etc.). Hstorsées La coservato de l évoluto des doées das le temps, costtue ue caractérstque majeure des ED. Elle cosste à s appuyer sur les résultats passés pour la prse de décso et fare des prédctos ; autremet dt, la coservato des doées af de meux appréheder le préset et d atcper le futur. Résumées Les formatos ssues des sources de doées dovet être agrégées et réorgasées af de faclter le processus de prse de décso. Dspobles pour l terrogato et l aalyse Les utlsateurs dovet pouvor cosulter les doées e focto de leurs drots d accès. L ED dot comporter u module de tratemet des requêtes, exprmées das u lagage, doté d opérateurs pussats, pour l explotato de la rchesse du modèle. 2.2 Archtecture d u etrepôt de doées : L archtecture d u ED, représetée das la fgure, s artcule autour de tros phases : l tégrato, la restructurato, et l explotato (Imo, 996b). Itégrées Les doées de l etrepôt proveet de dfféretes sources évetuellemet hétérogèes. L tégrato cosste à résoudre les problèmes d hétérogéété des systèmes de stockage, des modèles de doées, de sématque de doées. Oretées sujet Après leur tégrato das ue sorte de source globale, les doées sot réorgasées autour de thèmes tels que : clet, vedeur, produt etc. Fgure. : Archtecture d u etrepôt de doées
SETIT2005 3 Itégrato : Cette premère étape, est assez délcate, car elle cosste à extrare et regrouper les doées, proveat de sources multples, et hétérogèes. U certa ombre de problèmes est à résoudre à ce veau : les doées dovet être fltrées, trées, homogéésées et ettoyées. Structurato : Cette étape cosste à réorgaser les doées, das des magass af de supporter effcacemet les processus d aalyse et d terrogato, et d offrr aux dfférets utlsateurs, des vues approprées à leurs besos. Iterrogato et Aalyse : L explotato de l etrepôt, pour l ade à la décso peut se fare de dfféretes faços, dot : l terrogato à travers u lagage de requêtes, La coexo à des composats de report, pour des représetatos graphques et tabulares, L utlsato des techques OLAP (OLe Aalytcal Process ), L utlsato des techques de foulle de doées (Data Mg). 2.3 Modèle Multdmesoel (Bret & al, 200): Les modèles basés sur le cocept multdmesoel, sot les plus approprés, à capturer les caractérstques des DW. Ils permettet e effet, de doer ue vso smple, et faclemet terprétable par des o formatces, et de vsualser les doées selo dfféretes dmesos. Le modèle multdmesoel cotet deux types d attrbuts : les dmesos et les mesures. Les dmesos sot les valeurs umérques que l o compare, les dmesos sot les pots de vue depus lesquels les mesures peuvet être observées. La modélsato multdmesoelle est llustrée par des cubes de doées ou des hypercubes. mesure Fgure 2. : Exemple d u cube de doées Les doées représetées sur l hypercube peuvet être sujettes à ue aalyse OLAP. Le terme OLAP (OLe Aalytcal Process) désge commuémet, u esemble de foctoaltés qu servet à faclter l aalyse multdmesoelle, opératos réalsables sur l hypercube, parm lesquelles ous ctos : la rotato, la coupe, le plage et le déplage (Codd, 993 ), (Chaudru,997). 2.4 La foulle de doées (Data mg) Le data mg fat référece à u esemble de techques d explorato et d aalyse, par des moyes automatques ou sem-automatques, d ue masse mportate de doées das le but de découvrr des tedaces cachées ou des règles sgfcatves (o trvales, mplctes et potetellemet utles) (Gardar, 2000), (Imo, 996a). Les outls de data mg reposet e gééral, sur des techques basées sur les statstques, la classfcato ou l extracto de règles assocatves. Objectfs du data mg Les objectfs du Data Mg peuvet être regroupés das tros axes mportats :. Prédcto (What-f) : cosste à prédre les coséqueces d u évéemet (ou d ue décso), se basat sur le passé. 2. Découverte de règles cachées : découvrr des règles assocatves, etre dfférets évéemets (Exemple : corrélato etre les vetes de deux produts). 3. Cofrmato d hypothèses : cofrmer des hypothèses proposées par les aalystes et décdeurs, et les doter d u degré de coface. 3. Ade à la décso das le CRM CRM est u acroyme pour Customer Relatoshp Maagemet - GRC ou Gesto de la Relato Clet e fraças -. 3. Défto CRM : C est u terme de l dustre des systèmes d formato eglobat des méthodologes, du software et habtuellemet des capactés Iteret qu adet ue etreprse à gérer les relatos avec ses clets d ue maère structurée. 3.2 E-CRM : L'e-crm est u processus cotu d'amélorato de la relato clet sur Iteret. C est u domae e plee expaso au vu de l mpact d Iteret sur le e-commerce. Voc quelques chffres justfat l térêt porté à ce domae (Source: META Group, Busess Week, Forrester Research, Jupter Commucato):
SETIT2005 4 66% des acheteurs potetels abadoet le processus d'achat e cours 59% des terautes acheteurs se dset satsfats du servce clet de leur ste d'achat Mos de 5% des vsteurs uques deveet clets E 2004, chaque foyer recevra e moyee 9 e-mals par jour, 6 vsat à fdélser et 3 à créer de ouveaux clets L'utlsato d'outls de gesto de campages d'e-mal permet de multpler par quatre le taux d'achat egedré Les campages par e-mal coûtet 80% mos cher que le publpostage drect classque 4.2 Dagrammes de séquece: Das cette phase, et après detfcato des cas d utlsato, et des scéaros assocés à chaque cas, ous les représetos à l ade des dagrammes de séquece : 4. Cocepto de l outl d ade à la décso OAD Das ce qu sut, ous présetos la cocepto de otre outl d ade à la décso, assocé, à u ste de e-commerce. Deux volets costtuet otre soluto, le premer est cosacré à l aalyse multdmesoelle, et le secod, à l utlsato d ue techque de foulle de doées basée sur u algorthme de groupage. Nous utlseros des dagrammes UML, pour llustrer les aspects statques, dyamques et foctoels de otre cocepto. 4. Dagrammes de cas d utlsato : Le commerçat, état l acteur prcpal. Les cas d utlsato de base qu vot être ms e évdece pour l assster das la prse de décso serot : Fgure 4.2 : Dagramme de séquece «Vsualser les cubes de doées» Accéder à l OAD. Vsualser les doées e cube (chosr u magas de doées). Applquer les opératos OLAP sur le cube de doées. Applquer les techques du data mg. Fgure 4. : Dagramme des use case de l OAD Fgure 4.3 : Dagramme de séquece «Applquer les opérateurs OLAP»
SETIT2005 5 Fgure 4.5 : Dagramme de séquece «Applquer algorthme de data mg» 4.2 Dagrammes de classes partcpates (DCP) : La phase suvate, cosste à detfer l esemble des dagramme de classes partcpates : Fgure 4.7 : DCP du cas d'utlsato «Applquer opérateur OLAP» Classe d terface Classe de cotrôle Fgure 4.8 : DCP du cas d'utlsato «Applquer u algorthme de data mg» Fgure 4.6 : DCP du cas d'utlsato «vsualser les doées e cube»
SETIT2005 6 4.4 Modèle multdmesoel : Le premer module de l OAD, est cosacré à l aalyse multdmesoelle des doées ssues d u ste de e-commerce. Les magass de doées choss, depus lesquels le décdeur vsualse les cubes de doées sot les magass vetes et vstes. Les tables de fats et de dmesos des deux magass sot structurés selo les deux schémas e étole présetés c-dessous : Fgure 4.0 : schéma e étole du magas de doées des vetes Fgure 4. : Schéma e étole du magas de doées des vstes 4.5 Module de Data Mg Le deuxème module de l OAD, est basé sur u algorthme de groupage (Gardar, 2000), permettat de costrure des groupes de clets e focto de crtères de smlarté. Avat de détaller le foctoemet de l algorthme de groupage, l faut éclarcr certas pots et rappeler quelques déftos de base utlsées das les étapes de calcul des groupes d dvdus. Représetato des clets Les clets sot représetés par des vecteurs de R, où et le ombre de varables (dmesos) selo lesquelles o perçot le clet. O assoce à chaque clet, u vecteur. j j ( x.. x ) t j x =. O cosdère que chaque dvdu est mu d u pods p avec p > 0 et =. p Nuage d dvdus Das l espace des dvdus, l esemble N = { x / R, p > 0 et = } est appelé x uage d dvdus. Cetre de gravté Le cetre de gravté g d u uage N ou ecore le «Barycetre» des pots X (ou X et le ème dvdu du uage N) affectés aux pods p est doé par la formule suvate : Où x j = = p g = p * x qu s écrt : g = p = = j x x.. * =.... p p x x p * x est la moyee de la j ème varable. Ierte du uage L erte d u uage d dvdus N par rapport à u pot (dvdu) X R est la quatté otée par : I x 2 ( N) = p * d ( x, x) Où d 2 ( x, x) est = la dstace etre X et X. I x (N) mesure la dsperso du uage autour de x. Remarques Le pods p das otre cas est detque pour tous les dvdus et est égal à. N Pour l algorthme de groupage ous avos utlsé la dstace eucldee qu est doée par la formule suvate : d( x, y) = ( x y ) Avec x et y deux = vecteurs de R
SETIT2005 7 S x = g cetre de gravté du uage N alors I x (N ) = I g ( N ) est appelée erte du uage. L erte est mmale au pot g. Algorthme de groupage Début Chosr le ombre k de groupes Chosr k dvdus comme cetres taux des k groupes Pour chaque dvdu fare Prcpe gééral : L algorthme cosste à grouper les clets selo u crtère be détermé par exemple : par catégore d achats (.e le vecteur x représetat la quatté achetée de chaque produt). L etrée de l algorthme est le ombre k de groupes (représetat les catégores de clets). Ue fos le ombre de groupes sas, l algorthme chost arbtraremet k clets comme cetres «taux» des k groupes. L étape suvate cosste à calculer la dstace etre chaque dvdu (clet) et les k cetres ; la plus pette dstace est reteue pour clure cet dvdu das le groupe ayat le cetre le plus proche. Ue fos tous les dvdus groupés, o aura k sous-uages dsjots du uage total. Pour chaque groupe (sous-uage), l algorthme calcule le ouveau cetre de gravté. L algorthme s arrête lorsque les groupes costruts deveet stables. := 2 ; d := dstace etre l dvdu et le er l dvdu au er groupe ; No <= k cetre 5. Implémetato et mse e œuvre : 5. Archtecture du système : L archtecture motre l esemble des composats, outls et matérels tercoectés permettat d obter ue archtecture smple et évolutve. Comme llustré das la fgure 5., l archtecture est composée de partes dfféretes. := + ; tmp:= dstace etre l dvdu et le k ème cetre ; tmp < d No Ou L dvdu au k ème groupe ; F Les groupes sot stables No No Tous les dvdus sot groupés Nombre d térato > No Recalculer les cetres des dfférets groupes ; Fgure 4.2 : Orgagramme de l algorthme de groupage Fgure 5. : Archtecture du système La premère parte costtue l terface du ste web marchad de l etreprse. Les clets qu se coectet au ste et ayat déjà effectué ue detfcato pourraet effectuer dfféretes actos durat leurs vstes telles que le passage d ue commade, la cosultato et/ou la modfcato de leurs paers, etc. Ces actos vot se tradure par ue géérato des doées sous format xml. Le commerçat, au veau de so etreprse se coecte au ste pour télécharger ces fchers xml qu serot récupérés par l outl d ade à la décso (lvré au commerçat lors de géérato de so ste), pour être ef stockés
SETIT2005 8 das l etrepôt de doées après coverso au format relatoel. Fgure 5.2 : Téléchargemet des doées XML à partr du ste marchad Fgure 5.4 : Chox des dmesos 5.2 Aalyse multdmesoelle : L aalyse multdmesoelle, cosste das u premer temps à chosr u magas de doées parm ceux proposés, as que les dmesos et les mesures à predre e compte. Fgure 5.3: Chox du magas de doées Fgure 5.6 : Représetato multdmesoelle
SETIT2005 9 Il est alors possble d applquer les dfféretes opératos OLAP, telles que : plage, déplage, rotato etc. Fgure 5.9 : Rapport du résultat du groupage Fgure 5.7 : Applcato d ue opérato OLAP 5.3 Module de data mg : L'objet de cette aalyse est de regrouper les dvdus e focto de leurs actos et de resegemets propres aux persoes. L'térêt est de former des groupes de persoes ayat des comportemets smlares. Das u premer temps, à des fs d'aalyse (qu sot mes vsteurs? quelles sot les pages les plus vstés? les produts les plus vstés?) et das u secod temps à des fs d'atcpato (proposer le produt le plus adapté à u dvdu). Cocluso Le traval préseté das cet artcle cosste e la cocepto et la réalsato d u outl d ade à la décso das la gesto de la relato clet sur teret. L térêt prcpal d u tel outl est d offrr aux décdeurs ue melleure vso de leurs clets leur permettat as, ue melleure gesto de leurs etreprses. Comme perspectve à ce traval, ous proposos u erchssemet du module data mg e tégrat d autres techques de classfcato telles que les réseaux de euroes. Remercemets : ous teos à remercer Mrs K. ALLOUN & O. CHOUIB pour leur cotrbuto das la réalsato de l outl. Fgure 5.8 : Applcato de la techque de groupage Le décdeur va doc doer e etrée le ombre k de groupes, pour valder esute so chox, le résultat de cette opérato est affché sous forme de rapports mprmables à la demade du décdeur. Référeces (Bret & al, 200) : Groupe EVOLUTION. F. Bret. T. Cruaees. I. Guessara. E. Metas. M-C. Rousset. S. Schwer. O. Teste. G. Zurfluh, Igéere des systèmes d formato, édto HERMES, 200 (Chaudru,997) : S. Chaudhur, Data Warehousg ad OLAP for Decso Support (Mcrosoft Research, Redmot), SIGMOD AZ, USA, 997. (Codd, 993) : E. F. Codd, Provdg OLAP to useraalysts: a IT madate, Techcal Report, E. F. Codd ad assocates, 993. (Gardar, 2000) : Georges Gardar, Iteret,Itraet et bases de doées, Edto DUNOD, 2000. (Imo,996a) : W. H. Imo, The Data Warehouse ad Data Mg, commucato of the ACM,, Vol. 39, N, Novembre 996 (Imo,996b) :W. Imo. Buldg the Data Warehouse. QED Techcal Publshg Group, Wellesley, Massachusetts, U.S.A., 996
SETIT2005 0 (Jarke & al,2000) : Matthas Jarke, Thomas Lst, Jörg Köller, The Challege of Process Data Warehousg, 26th Iteratoal Coferece o Very Large Databases, Care, Egypt, 2000 (Kmball & al, 2000) : R. Kmball, L. Reeves, M. Ross, W. Thorthwate, Cocevor et déployer u data warehouse, Edtos Eyrolles, 2000 (Ravat & al, 200) : Frak Ravat, Olver Teste, Glles Zurfluh : Modélsato et extracto de doées pour u etrepôt objet, Uversté Paul Sabater (Toulouse III), IRIT (Isttut de Recherche e formatque de Toulouse), équpe SIG, Toulouse, Frace 200 (Teste, 2000) : Olver Teste, Modélsato et Mapulato d Etrepôts de Doées Complexes et Hstorsés, Thèse de Doctorat de l uversté Paul Sabater, Décembre 2000.