Examen de Fouille de Données Master 1 Informatique 1 ere session Tout document autorisé - Durée 2 heures



Documents pareils
Le Pôle ORACLE d ITS-Overlap. Platinum Partner

Configuration système requise

IBM SPSS Modeler Text Analytics Server for Windows. Instructions d installation

IBM Tivoli Monitoring, version 6.1

Automation Engine. System Requirements. Version: Date: Automic Software GmbH

Automation Engine 10. Plates-formes prises en charge

Webinar ORACLE LE LICENSING ORACLE Quel type de licensing choisir?

Master Exploration Informatique des données DataWareHouse

guide hp care pack Serveurs, stockage, réseaux, logiciels, formation. Ayez l esprit Pack!

Cartographie du SI pour alimenter la CMDB

La migration des solutions SAP vers Linux? Trois étapes pour réussir

PROFIL EXPERIENCE ARCHITECTE LINUX, OPEN SOURCE, COORDINATEUR SÉCURITÉ EMEA

Synerway Guide de Compatibilité. Version 4.0

Virtualisation des ressources serveur. Exemple : Systèmes partitionnés sous HP-UX et Oracle

Notre Catalogue des Formations IT / 2015

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

NatRcs Ce document présente la liste des nouvelles fonctionnalités de la 7.00, disponible à partir de Mars 2011.

Solutions avancées pour la protection des données et la continuité d activité

NatStar V8.00. Ce document présente la liste des nouvelles fonctionnalités de la 8.00, disponible à partir de septembre 2013.

1 Configuration requise pour le serveur primaire

TERRA CLOUD. Online Backup

Oracle Database SQL Developer Guide D'Installation Release 4.0 E

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Engineered for Business: Oracle Hardware for Oracle Database

PACKS DE VIRTUALISATION HP

PRESENTATION Groupe D.FI

Forward! 3.0. Antony Vo, Architecte Infrastructure SI, Unisys

IBM Content Manager OnDemand V 7.1

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Online Backup. & Recovery Service

Exigences système Edition & Imprimeries de labeur

Présentation technique. Architecture et Intégration. Organisation des équipes mobiles. Planification des interventions. Optimisation des plannings

TeamQuest - Solution de gestion de la capacité

Jean-Philippe VIOLET Solutions Architect

EDITORIAL: Revente des produits U2 à Rocket Software

IBM Tivoli Compliance Insight Manager

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Plan de cette matinée

Mon orientation client, mon goût du défi et le maintient de mon niveau d expertise sont autant d éléments qui me caractérisent.

Il est titulaire d'un baccalauréat en informatique de l'université de Montréal. Décembre 2014 à aujourd hui

AdBackup Entreprise. Solution de sauvegarde pour Moyennes et Grandes Entreprises. Société Oodrive

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication AVANTAGES CLÉ S INCONVÉ NIENTS DE LA SAUVEGARDE ET DE LA RESTAURATION TRADITIONNELLES

Présentation du module Base de données spatio-temporelles

Solution d inventaire automatisé d un parc informatique et de télédistribution OCS INVENTORY NG. EHRHARD Eric - Gestionnaire Parc Informatique

Demande d'assistance : ecentral.graphics.kodak.com

La Latecion protection anti-intrusion Web Web Le concept «Zero effort Security» La protection des applications Extranet

Serveurs HP Integrity. Guide de la gamme

<Insert Picture Here> Solaris pour la base de donnés Oracle

Guide d utilisation de Secure Web Access

Les SGBDs Décisionnels

Rationalisation et évolution des assets, licences et contrats informatiques. Philippe ASTIER Software Technical Professionals

HÉBERGEMENT CLOUD & SERVICES MANAGÉS

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Guide de Tarification. Introduction Licence FD Entreprise Forfaits clé en main SaaS SaaS Dédié SaaS Partagé. Page 2 Page 3 Page 4 Page 5 Page 8

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Présentation de SunGard et de son offre. Janvier 2009

OmniVista 2700 Application complémentaires pour l OmniVista 2500 Network Management

SPÉCIFICATIONS TECHNIQUES

Audio & Web Conferencing Cisco WebEx Orange Business Services

SFR utilise la version JBoss EAP de Red Hat

VMware : De la Virtualisation. au Cloud Computing

ORACLE PAAS CLOUD MANAGEMENT

9 rue Lucien Roullier Goussainville / INGÉNIEUR SYSTÈME LINUX

ZABBIX est distribué sous licence GNU General Public License Version 2 (GPL v.2).

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

IBM Cognos TM1. Les points clés. Logiciels IBM Business Analytics

EVault Software. Solution globale de protection des données sur disque. Pierre Aguerreberry Directeur Alliances Europe, Moyen-Orient, Afrique

Demande d assistance : ecentral.graphics.kodak.com. Variable Data Print est désormais une option sous licence de InSite Storefront 6.0.

Gestion de clusters de calcul avec Rocks

Système de Sauvegarde et d Archivage Backup Smart Way TM

Industrialisation du déploiement d'applications et de socles techniques

Symantec Endpoint Protection Fiche technique

Communication et connectivité

Clusters de PCs Linux

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

DEMANDE D INFORMATION RFI (Request for information)

EMC NetWorker Version 7.4 Version multiplate-forme

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Clients et agents Symantec NetBackup 7

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

CURRICULUM VITAE. Martin Harnois. Consultant depuis 23 ans Spécialiste en Business Intelligence / entrepôt de données depuis 11 ans.

La mémorisation des mots de passe dans les navigateurs web modernes

LES SOLUTIONS OPEN SOURCE RED HAT

emuseum PUBLIEZ VOS COLLECTIONS SUR INTERNET Pourquoi choisir emuseum? Intégration facile avec TMS Puissante fonction de recherche

Red Hat Enterprise Virtualization 3.0 Instructions d'installation et informations importantes

Certification technique HP: 3H0-002 (Administration du systeme HP-UX) Certification trainer Unix HP

HP Output Server. Rationalisez vos flux de documents avec le logiciel HP Output Server. Diffusion fiable des informations. Flux de gestion efficace

Sécurisation et résilience des services DNS/DHCP Gestion de l adressage IP automatisée

MAP Services. Infrastructures & Solutions

Bénéficiez d'un large choix d'applications novatrices et éprouvées basées sur les systèmes d'exploitation i5/os, Linux, AIX 5L et Microsoft Windows.

Guide d installation BiBOARD

Evidian IAM Suite 8.0 Identity Management

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

CHARTE DE GESTION DES COOKIES

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

bbc Préparation à l installation de LiveCycle ES2 sur une grappe de serveurs Adobe LiveCycle ES2 Mai 2010 Version 9

Transcription:

Examen de Fouille de Données Master 1 Informatique 1 ere session Tout document autorisé - Durée 2 heures Exercice 1 Modélisation décisionnelle d un Entrepôt de Données pour le suivi des cybernautes d un site marchand Un site marchand sur Internet souhaiterait mieux connaître sa clientèle afin de mieux cibler les offres promotionnelles en fonction du profil du client (visiteur) qui apparaissent dans les bannières des pages que consultent les clients. Un des buts ultimes de cette connaissance est le JIT (Just In Time) ECR (Efficient Customer Response) : c est à dire l adaptation temps réel du contenu des pages retournées au visiteur pour maximiser la terminaison d une visite par un achat. «Suivi de lien sur un site Web» après un mailing personnalisé. Pour cela, la société qui gère le site marchand souhaite mettre en place un entrepôt de données et sa réalisation vous est confiée. L entrepôt est alimenté (en information) à partir des journaux du serveur Web et du système de prise de commande. Les journaux contiennent la liste des requêtes HTTP. Chaque entrée contient : La et heure de la requête de la requête L Adresse IP du visiteur Le cookie ID identifiant une session d un visiteur La page, le document ou le script demandé Le type de la requête (GET ou POST) L URL de la page à partir de laquelle le visiteur est entré sur le site (par exemple depuis la page de résultat de recherche d un moteur de recherche comme Google, d une newsletter, ) Le navigateur (agent) utilisé (usuellement Firefox ou Internet Explorer). Ces informations sont trop brutes pour être utilisées : elles sont complétées par les informations trouvées dans le système de prise de commande (information sur le client et sur le produit). Q1 : Construire l entrepôt, vous justifierez les dimensions. Q2 : Donnez le nombre de faits présents dans la table de fait. Quelques éléments indicatifs : Nombre de visiteurs par jour : 200 000 Nombre de requêtes par visite : 10 Ratio de visiteurs ayant déjà fréquenté le site : 0,3 Ratio d achats par visite : 0,1 Nombre de jours : 1200 Nombre de tranches horaires : 8 Donnez la taille d un enregistrement de la table de fait. Donnez la taille (en Octets) de stockage de la table de fait.

Q3 : A partir des résultats du benchmark TPC/H (http://www.tpc.org/tpch/) donné en annexe, choisissez la configuration matérielle et logicielle (complète) qui est la plus adaptée à votre infocentre pour une performance minimale de 25000 QphH? Quels sont vos critères de choix? Vous négligerez la taille des dimensions. Exerice 2 : Datamining On considère le tableau de données suivant issues de l entrepôt pour le suivi des cybernautes d un site marchand : Visite Nb-Page Nb-Click Produit Durée Action S1 10 2 O 2 A S2 9 M N S3 12 3 M 3 C S 5 F 10 N S5 3 10 M 13 N S6 3 O 10 C Ce tableau donne la description des visites utilisateurs par : le nombre de pages visitées (Nb Page), le nombre de clicks par page (Nb Click), le produit consulté (Produit) de type O pour ouvrage, M pour musique ou F pour film, on admet qu il n y a qu un seul produit consulté par visite, la durée moyenne de navigation par page en minutes (durée), et l action commerciale de type A pour achat, C pour commande ou N pour annulation. Q1. On se positionne dans l espace tri-dimensionnel défini par les attributs «NbPage», «NbClick» et «Produit». Lesquelles des visites parmi S1, S2 et S3 sont les plus similaires. Donner la description, dans ce même espace, du nuplet S123 centre de S1, S2 et S3. Quel est le problème rencontré?. Comment y remédier? Q2. On se positionne dans l espace défini par les dimensions «Nb Click» et «Durée». On souhaite partitionner l ensemble des visites en trois groupes, chacun caractérisant le profil de navigation au sein du site marchand. Utiliser la méthode appropriée afin de répondre à cet objectif. Q3. Afin d augmenter la rentabilité du site marchand, on souhaite pouvoir prédire avec une probabilité p (à préciser) l action d achat, de commande ou d annulation en fonction du nombre de clicks, du type de produit consulté et de la durée moyenne de navigation par page. Utiliser la méthode appropriée afin de répondre à cet objectif.

ANNEXE 100 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating Submitted Cluster 1 CPI Phoenix IQ- 201 209,298 1.25 USD NR 01/1/08 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 01/1/08 Y 2 SunFire X100 98,85 2.65 USD NR 10/29/0 ParAccel Analytic Red Hat Linux. 10/29/0 Y 3 Sun Fire X20 53,501 1.1 USD NR 12/0/09 Sybase IQ Single Application Server v.15.1 ESD #1 Sun Solaris 10 12/0/09 N DL380 G6 51,22 1.0 USD NR 09/1/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 08/2/09 N 5 DL380 G6 51,085 1.09 USD NR 10/05/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 09/0/09 N 6 DL380 G6 50,38 1.9 USD NR 10/0/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP2 10/0/09 N Kickfire Appliance 2300 9,228.0 USD NR 10/1/08 MySQL 5.1 w/ Kickfire database Kickfire CentOS 5.0 0/1/08 N 8 DL580 G5 3,989 3.9 USD NR 0/0/08 2005 x6 Enterprise Edt SP2 2003 Enterprise x6 Ent. R2 0/0/08 N 9 SureServer R630 G 33,18 50.0 CNY NR 01/31/08 2005 Enterprise Edt SP2 2003 Enterprise Edt. R2 02/0/08 N 10 PowerEdge T610 28,2 1.6 USD NR 06/02/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP1 06/02/09 N 300 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating 1 CPI Phoenix IQ-201 5,205 1.05 USD NR 0/02/08 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 0/02/08 Y

ParAccel Analytic 2 SunFire X100 198,58 3.15 USD NR 10/29/0 Red Hat Linux. 10/29/0 Y 3 HP Proliant DL85 G6 91,558 1.9 USD NR 10/30/09 2008 Enterprise x6 Edt SP1 2008 Enterprise x6 Edt SP1 0/31/09 N HP Proliant DL85 5,68 3.2 USD NR 11/1/08 2008 Enterprise x6 2008 Enterprise x6 11/1/08 N 5 Sun Fire X600 M2 55,15 2.80 USD NR 0/06/09 6 Kickfire Appliance 200 5,895.89 USD NR 10/1/08 IBM x3950 M2 6,03 5.0 USD NR 03/0/08 2008 Enterprise x6 Edt SP1 MySQL 5.1 w/ Kickfire database 2005 Enterprise Edt (x6) 2008 Enterprise x6 0/06/09 N Kickfire CentOS 5.0 05/05/08 N 2003 Enterprise x6 Ent. R2 11/28/0 N 8 HP Blade ProLiant BL80c Cluster 16P DC 0,11 18.6 USD NR 12/18/06 Oracle 10g release2 Enterprise Edt 12/18/06 Y 9 HP Blade ProLiant BL60c IB Cluster 16P DC 39,613 12.5 USD NR 09/15/0 Oracle DB 10g Enterprise Ent. RAC Partitioning 08/09/0 Y 10 HP Blade ProLiant BL80c Cluster 8P QC 30,65 22.90 USD NR 03/09/0 Oracle 10g release2 Enterprise Edt 03/09/0 Y 1,000 GB Results Rank Company QphH Price/QphH Watts/KqphH 1 VMware ESXi platform, HP DL380, ParAccel Analytic 1,316,882.0 USD NR 06/30/10 ParAccel Analytic 2.5 Operating ParAccel Standard Linux 0/11/10 Y 2 HP Blade c- Class 128P RAC 1,166,96 5.2 USD NR 09/01/09 Oracle 11g Oracle Enterprise Release 2 Enterprise Edt. Linux 06/03/09 Y 3 PRIMERGY RX300 S 1,018,321 1.18 USD NR 08/01/08 EXASOL EXASolution 2.1 EXASOL EXACluster OS 2.1 06/02/08 Y

PRIMERGY RX300 S3 580,29 1.2 USD NR 12/10/0 EXASOL EXASolution 2.0 EXASOL EXACluster OS 1.3 12/10/0 Y 5 SunFire X100 315,82.5 USD NR 10/29/0 ParAccel Analytic Red Hat Linux. Enterprise Server 10/29/0 Y 6 HP Integrity Superdome 2 10,181 12.15 USD NR 10/20/10 Oracle 11g HP-UX 11i v3 0/26/10 N Release 2 Enterprise Edt. HP Integrity Superdome-Dual-Core Itanium 123,323 20.5 USD NR 0/29/09 Oracle 11g HP-UX 11.i v3 6 bit 0/29/09 N 8 Sun SPARC Enterprise M9000 server 118,53 2.12 USD NR 09/10/08 Oracle 11g Sun Solaris 10 05/02/08 N 9 HP Proliant DL85 G6 102,35 3.63 USD NR 02/01/10 10 HP Proliant DL85 G6 81,51 2.90 USD NR 11/09/09 Sybase IQ Single Application Server v.15.1 ESD #1 2008 Red Hat Enterprise Linux 5.3 Server 2008 R2 02/01/10 N 11/09/09 N 3,000 GB Results Rank Company QphH Price/QphH Watts/KqphH 1 PRIMERGY RX300 S 1,608,920 1.36 USD NR 08/01/08 EXASOL EXASolution 2.1 2 3 5 Sun SPARC Enterprise M9000 IBM Power 595 Model 9119-FHA Sun Fire[TM] E25K server HP Blade ProLiant BL25p cluster 6p DC 188,229 20.19 USD NR 0/10/10 156,53 20.60 USD NR 11/2/09 11,13 36.68 USD NR 0/09/0 110,56 3.80 USD NR 06/08/06 Oracle 11g Release 2 Enterprise Edt. Sybase IQ Single Application Server v.15.1 ESD #1.2 Oracle 10g R2 Enterprise Edt Oracle 10g R2 Enterprise Edt Operating EXASOL EXACluster OS 2.1 06/02/08 Y Oracle Solaris 10 0/10/10 N AIX Version 6.1 11/2/09 N Sun Solaris 10 0/09/0 N ES 06/08/06 Y

6 Sun Fire[TM] E25K server Unisys ES000 Model 600R Enterprise Server(16s) 105,30 5.8 USD NR 01/2/06 102,8 21.05 USD NR 05/06/10 Oracle 10g R2 Enterprise Edt 2008 R2 Datacenter Sun Solaris 10 01/2/06 N Server 2008 R2 Datacenter 11/02/09 N 8 IBM eserver p5 595 100,512 53.00 USD NR 03/01/06 Oracle 10g Enterprise Ed R2 w/ Partitioning IBM AIX 5L V5.3 09/19/05 N 9 HP Integrity Superdome 60,359 32.60 USD NR 05/21/0 2005 Enterprise Edt Itanium SP2 Server 2003 Datacenter Ed.(6-bit)SP1 05/21/0 N 10 Sun Fire(TM) E25K Server 59,35 100.66 USD NR 0/2/05 Oracle 10g Sun Solaris 10 01/2/05 N 10,000 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating 1 IBM p 50 33,551 32.89 USD NR 0/15/08 IBM DB2 Warehouse 9.5 IBM AIX 5L V5.3 10/15/0 Y 2 HP Integrity Superdome/Dual- Core Itanium/1.6 GHz 208,5 2.9 USD NR 09/10/08 Oracle 11g HP-UX 11.i v3 6 bit 03/10/08 N 3 IBM p5 55 with DB2 UDB 8.2 180,108.00 USD NR 08/30/06 IBM DB2 UDB 8.2 IBM AIX 5L V5.3 0/1/06 Y HP Integrity Superdome-DC Itanium2/1.6GHz/6p/128c 11,380 32.91 USD NR 0/01/0 Oracle 10g R2 Enterprise Edt HP-UX 11i v3 6 bit 11/30/06 N 5 Sun Fire[TM] E25K server 108,099 53.80 USD NR 01/23/06 Oracle 10g Enterprise Ed R2 w/ Partitioning Sun Solaris 10 11/29/05 N 6 HP Integrity Superdome - Itanium2/1.5 GHz-128p/128 86,282 161.2 USD NR 0/06/05 Oracle 10g HP UX 11.i V2 6 bit 10/0/0 Y Unisys ES000 Model 600R Enterprise Server(16s) 80,12 18.95 USD NR 02/1/09 2008 Enterprise x6 Server 2008 Datacenter x6 02/1/09 N

8 HP Integrity Superdome 63,650 38.5 USD NR 08/30/08 2008 Enterprise Server 2008 Intanium based s 02/2/08 N 9 HP Integrity Superdome - Itanium2/1.5 GHz-6p/6c 9,10 118.13 USD NR 03/25/0 Oracle 10g HP UX 11.i, 6-bit Base OS 01/05/0 N 30,000 GB Results Rank Company QphH Price/QphH Watts/KqphH Operating Submitted Cluster 1 HP Integrity Superdome - Itanium2/1.6 GHz/18MB il3 150,960 6.69 USD NR 06/18/0 Oracle 10g release2 Enterprise Edt HP-UX 11i v3 6 bit 06/18/0 N