Examen de Fouille de Données Master 1 Informatique 1 ere session Tout document autorisé - Durée 2 heures Exercice 1 Modélisation décisionnelle d un Entrepôt de Données pour le suivi des cybernautes d un site marchand Un site marchand sur Internet souhaiterait mieux connaître sa clientèle afin de mieux cibler les offres promotionnelles en fonction du profil du client (visiteur) qui apparaissent dans les bannières des pages que consultent les clients. Un des buts ultimes de cette connaissance est le JIT (Just In Time) ECR (Efficient Customer Response) : c est à dire l adaptation temps réel du contenu des pages retournées au visiteur pour maximiser la terminaison d une visite par un achat. «Suivi de lien sur un site Web» après un mailing personnalisé. Pour cela, la société qui gère le site marchand souhaite mettre en place un entrepôt de données et sa réalisation vous est confiée. L entrepôt est alimenté (en information) à partir des journaux du serveur Web et du système de prise de commande. Les journaux contiennent la liste des requêtes HTTP. Chaque entrée contient : La et heure de la requête de la requête L Adresse IP du visiteur Le cookie ID identifiant une session d un visiteur La page, le document ou le script demandé Le type de la requête (GET ou POST) L URL de la page à partir de laquelle le visiteur est entré sur le site (par exemple depuis la page de résultat de recherche d un moteur de recherche comme Google, d une newsletter, ) Le navigateur (agent) utilisé (usuellement Firefox ou Internet Explorer). Ces informations sont trop brutes pour être utilisées : elles sont complétées par les informations trouvées dans le système de prise de commande (information sur le client et sur le produit). Q1 : Construire l entrepôt, vous justifierez les dimensions. Q2 : Donnez le nombre de faits présents dans la table de fait. Quelques éléments indicatifs : Nombre de visiteurs par jour : 200 000 Nombre de requêtes par visite : 10 Ratio de visiteurs ayant déjà fréquenté le site : 0,3 Ratio d achats par visite : 0,1 Nombre de jours : 1200 Nombre de tranches horaires : 8 Donnez la taille d un enregistrement de la table de fait. Donnez la taille (en Octets) de stockage de la table de fait.
Q3 : A partir des résultats du benchmark TPC/H (http://www.tpc.org/tpch/) donné en annexe, choisissez la configuration matérielle et logicielle (complète) qui est la plus adaptée à votre infocentre pour une performance minimale de 25000 QphH? Quels sont vos critères de choix? Vous négligerez la taille des dimensions. Exerice 2 : Datamining On considère le tableau de données suivant issues de l entrepôt pour le suivi des cybernautes d un site marchand : Visite Nb-Page Nb-Click Produit Durée Action S1 10 2 O 2 A S2 9 M N S3 12 3 M 3 C S 5 F 10 N S5 3 10 M 13 N S6 3 O 10 C Ce tableau donne la description des visites utilisateurs par : le nombre de pages visitées (Nb Page), le nombre de clicks par page (Nb Click), le produit consulté (Produit) de type O pour ouvrage, M pour musique ou F pour film, on admet qu il n y a qu un seul produit consulté par visite, la durée moyenne de navigation par page en minutes (durée), et l action commerciale de type A pour achat, C pour commande ou N pour annulation. Q1. On se positionne dans l espace tri-dimensionnel défini par les attributs «NbPage», «NbClick» et «Produit». Lesquelles des visites parmi S1, S2 et S3 sont les plus similaires. Donner la description, dans ce même espace, du nuplet S123 centre de S1, S2 et S3. Quel est le problème rencontré?. Comment y remédier? Q2. On se positionne dans l espace défini par les dimensions «Nb Click» et «Durée». On souhaite partitionner l ensemble des visites en trois groupes, chacun caractérisant le profil de navigation au sein du site marchand. Utiliser la méthode appropriée afin de répondre à cet objectif. Q3. Afin d augmenter la rentabilité du site marchand, on souhaite pouvoir prédire avec une probabilité p (à préciser) l action d achat, de commande ou d annulation en fonction du nombre de clicks, du type de produit consulté et de la durée moyenne de navigation par page. Utiliser la méthode appropriée afin de répondre à cet objectif.
ANNEXE 100 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating Submitted Cluster 1 CPI Phoenix IQ- 201 209,298 1.25 USD NR 01/1/08 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 01/1/08 Y 2 SunFire X100 98,85 2.65 USD NR 10/29/0 ParAccel Analytic Red Hat Linux. 10/29/0 Y 3 Sun Fire X20 53,501 1.1 USD NR 12/0/09 Sybase IQ Single Application Server v.15.1 ESD #1 Sun Solaris 10 12/0/09 N DL380 G6 51,22 1.0 USD NR 09/1/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 08/2/09 N 5 DL380 G6 51,085 1.09 USD NR 10/05/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 09/0/09 N 6 DL380 G6 50,38 1.9 USD NR 10/0/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 10/0/09 N Kickfire Appliance 2300 9,228.0 USD NR 10/1/08 MySQL 5.1 w/ Kickfire database Kickfire CentOS 5.0 0/1/08 N 8 DL580 G5 3,989 3.9 USD NR 0/0/08 2005 x6 Enterprise Edt SP2 2003 Enterprise x6 Ent. R2 0/0/08 N 9 SureServer R630 G 33,18 50.0 CNY NR 01/31/08 2005 Enterprise Edt SP2 2003 Enterprise Edt. R2 02/0/08 N 10 PowerEdge T610 28,2 1.6 USD NR 06/02/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP1 06/02/09 N 300 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating 1 CPI Phoenix IQ-201 5,205 1.05 USD NR 0/02/08 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 0/02/08 Y
ParAccel Analytic 2 SunFire X100 198,58 3.15 USD NR 10/29/0 Red Hat Linux. 10/29/0 Y 3 HP Proliant DL85 G6 91,558 1.9 USD NR 10/30/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP1 0/31/09 N HP Proliant DL85 5,68 3.2 USD NR 11/1/08 2008 Enterprise x6 2008 Enterprise x6 11/1/08 N 5 Sun Fire X600 M2 55,15 2.80 USD NR 0/06/09 6 Kickfire Appliance 200 5,895.89 USD NR 10/1/08 IBM x3950 M2 6,03 5.0 USD NR 03/0/08 2008 Enterprise x6 Edt SP1 MySQL 5.1 w/ Kickfire database 2005 Enterprise Edt (x6) 2008 Enterprise x6 0/06/09 N Kickfire CentOS 5.0 05/05/08 N 2003 Enterprise x6 Ent. R2 11/28/0 N 8 HP Blade ProLiant BL80c Cluster 16P DC 0,11 18.6 USD NR 12/18/06 Oracle 10g release2 Enterprise Edt 12/18/06 Y 9 HP Blade ProLiant BL60c IB Cluster 16P DC 39,613 12.5 USD NR 09/15/0 Oracle DB 10g Enterprise Ent. RAC Partitioning 08/09/0 Y 10 HP Blade ProLiant BL80c Cluster 8P QC 30,65 22.90 USD NR 03/09/0 Oracle 10g release2 Enterprise Edt 03/09/0 Y 1,000 GB Results Rank Company QphH Price/QphH Watts/KqphH 1 VMware ESXi platform, HP DL380, ParAccel Analytic 1,316,882.0 USD NR 06/30/10 ParAccel Analytic 2.5 Operating ParAccel Standard Linux 0/11/10 Y 2 HP Blade c- Class 128P RAC 1,166,96 5.2 USD NR 09/01/09 Oracle 11g Oracle Enterprise Release 2 Enterprise Edt. Linux 06/03/09 Y 3 PRIMERGY RX300 S 1,018,321 1.18 USD NR 08/01/08 EXASOL EXASolution 2.1 EXASOL EXACluster OS 2.1 06/02/08 Y
PRIMERGY RX300 S3 580,29 1.2 USD NR 12/10/0 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 12/10/0 Y 5 SunFire X100 315,82.5 USD NR 10/29/0 ParAccel Analytic Red Hat Linux. Enterprise Server 10/29/0 Y 6 HP Integrity Superdome 2 10,181 12.15 USD NR 10/20/10 Oracle 11g HP-UX 11i v3 0/26/10 N Release 2 Enterprise Edt. HP Integrity Superdome-Dual-Core Itanium 123,323 20.5 USD NR 0/29/09 Oracle 11g HP-UX 11.i v3 6 bit 0/29/09 N 8 Sun SPARC Enterprise M9000 server 118,53 2.12 USD NR 09/10/08 Oracle 11g Sun Solaris 10 05/02/08 N 9 HP Proliant DL85 G6 102,35 3.63 USD NR 02/01/10 10 HP Proliant DL85 G6 81,51 2.90 USD NR 11/09/09 Sybase IQ Single Application Server v.15.1 ESD #1 2008 Red Hat Enterprise Linux 5.3 Server 2008 R2 02/01/10 N 11/09/09 N 3,000 GB Results Rank Company QphH Price/QphH Watts/KqphH 1 PRIMERGY RX300 S 1,608,920 1.36 USD NR 08/01/08 EXASOL EXASolution 2.1 2 3 5 Sun SPARC Enterprise M9000 IBM Power 595 Model 9119-FHA Sun Fire[TM] E25K server HP Blade ProLiant BL25p cluster 6p DC 188,229 20.19 USD NR 0/10/10 156,53 20.60 USD NR 11/2/09 11,13 36.68 USD NR 0/09/0 110,56 3.80 USD NR 06/08/06 Oracle 11g Release 2 Enterprise Edt. Sybase IQ Single Application Server v.15.1 ESD #1.2 Oracle 10g R2 Enterprise Edt Oracle 10g R2 Enterprise Edt Operating EXASOL EXACluster OS 2.1 06/02/08 Y Oracle Solaris 10 0/10/10 N AIX Version 6.1 11/2/09 N Sun Solaris 10 0/09/0 N ES 06/08/06 Y
6 Sun Fire[TM] E25K server Unisys ES000 Model 600R Enterprise Server(16s) 105,30 5.8 USD NR 01/2/06 102,8 21.05 USD NR 05/06/10 Oracle 10g R2 Enterprise Edt 2008 R2 Datacenter Sun Solaris 10 01/2/06 N Server 2008 R2 Datacenter 11/02/09 N 8 IBM eserver p5 595 100,512 53.00 USD NR 03/01/06 Oracle 10g Enterprise Ed R2 w/ Partitioning IBM AIX 5L V5.3 09/19/05 N 9 HP Integrity Superdome 60,359 32.60 USD NR 05/21/0 2005 Enterprise Edt Itanium SP2 Server 2003 Datacenter Ed.(6-bit)SP1 05/21/0 N 10 Sun Fire(TM) E25K Server 59,35 100.66 USD NR 0/2/05 Oracle 10g Sun Solaris 10 01/2/05 N 10,000 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating 1 IBM p 50 33,551 32.89 USD NR 0/15/08 IBM DB2 Warehouse 9.5 IBM AIX 5L V5.3 10/15/0 Y 2 HP Integrity Superdome/Dual- Core Itanium/1.6 GHz 208,5 2.9 USD NR 09/10/08 Oracle 11g HP-UX 11.i v3 6 bit 03/10/08 N 3 IBM p5 55 with DB2 UDB 8.2 180,108.00 USD NR 08/30/06 IBM DB2 UDB 8.2 IBM AIX 5L V5.3 0/1/06 Y HP Integrity Superdome-DC Itanium2/1.6GHz/6p/128c 11,380 32.91 USD NR 0/01/0 Oracle 10g R2 Enterprise Edt HP-UX 11i v3 6 bit 11/30/06 N 5 Sun Fire[TM] E25K server 108,099 53.80 USD NR 01/23/06 Oracle 10g Enterprise Ed R2 w/ Partitioning Sun Solaris 10 11/29/05 N 6 HP Integrity Superdome - Itanium2/1.5 GHz-128p/128 86,282 161.2 USD NR 0/06/05 Oracle 10g HP UX 11.i V2 6 bit 10/0/0 Y Unisys ES000 Model 600R Enterprise Server(16s) 80,12 18.95 USD NR 02/1/09 2008 Enterprise x6 Server 2008 Datacenter x6 02/1/09 N
8 HP Integrity Superdome 63,650 38.5 USD NR 08/30/08 2008 Enterprise Server 2008 Intanium based s 02/2/08 N 9 HP Integrity Superdome - Itanium2/1.5 GHz-6p/6c 9,10 118.13 USD NR 03/25/0 Oracle 10g HP UX 11.i, 6-bit Base OS 01/05/0 N 30,000 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating Submitted Cluster 1 HP Integrity Superdome - Itanium2/1.6 GHz/18MB il3 150,960 6.69 USD NR 06/18/0 Oracle 10g release2 Enterprise Edt HP-UX 11i v3 6 bit 06/18/0 N