Data Mining & Data Warehousing



Documents pareils
L'intelligence d'affaires: la statistique dans nos vies de consommateurs

INTRODUCTION AU DATA MINING

Application du data mining pour l évaluation de risque en assurance automobile

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Cours de Master Recherche

L exclusion mutuelle distribuée

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

La classification automatique de données quantitatives

Rapport de stage Nom de l entreprise. Date du stage. Rapport de stage Nom de l entreprise. Date du stage. Nom du professeur principal

Passage du marketing par à l automatisation du marketing

Équations non linéaires

LES DIFFERENTS TYPES DE MESURE

Comparer l intérêt simple et l intérêt composé

données en connaissance et en actions?

Résolution d équations non linéaires

d évaluation Objectifs Processus d élaboration

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Systèmes d information et bases de données (niveau 1)

... /5. Bases de Données I (J. Wijsen) 23 janvier 2009 NOM + PRENOM : Orientation + Année : Cet examen contient 11 questions.

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Travailler avec les télécommunications

Agrégation des portefeuilles de contrats d assurance vie

Métriques de performance pour les algorithmes et programmes parallèles

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

«La pomme qui voulait voyager»

LES OUTILS NUMÉRIQUES AU SERVICE DE L'INNOVATION MANAGÉRIALE

Vers une Optimisation de l Algorithme AntTreeStoch

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Les algorithmes de fouille de données

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Introduction au Data-Mining

Arbres binaires de décision

Introduction au Data-Mining

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Recommandation prédictive

LE MODELE CONCEPTUEL DE DONNEES

Raisonnement probabiliste

Résolution de systèmes linéaires par des méthodes directes

Bouzerda Feriel- Hadjira Louati Mortadha Maâtallah Amine

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Brève introduction à la fouille de grandes bases de données océaniques

L apprentissage automatique

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

1 von :59. Vie numérique Dimanche5 mai 2013

Laboratoire 4 Développement d un système intelligent

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Le logiciel : un outil de gestion des données, une aide pour le choix des techniques et un outil de communication pour le personnel de terrain

.../5. Gestion de Bases de Données (J. Wijsen) 27 janvier 2011 NOM + PRENOM : Orientation + Année : Cet examen contient 8 questions. Durée : 2 heures.

Organiser le disque dur Dossiers Fichiers

Application de K-means à la définition du nombre de VM optimal dans un cloud

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Programmation Linéaire - Cours 1

1 Modélisation d être mauvais payeur

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Installer Joomla Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring

BD/MSPS. Guide de création de la base de données

Analyse,, Conception des Systèmes Informatiques

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Algorithme. Table des matières

L ARBORESCENCE. Qu est-ce qu un dossier? L arborescence?

Agenda de la présentation

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Cisco CCVP. Gestion des comptes d utilisateurs

Data Mining. Master 1 Informatique - Mathématiques UAG

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

SQL Server 2012 et SQL Server 2014

Création de comptes espace Client et direct Déclaration

4.2 Unités d enseignement du M1

Que fait SAS Enterprise Miner?

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Utiliser Access ou Excel pour gérer vos données

LA MAIN A LA PATE L électricité Cycle 3 L électricité.

Bases de données Cours 1 : Généralités sur les bases de données

ENSEMBLE REVITALISONS NOS ORGANISATIONS. Par nos relations, nos perceptions, nos actions

L analyse documentaire : Comment faire des recherches, évaluer, synthétiser et présenter les preuves

Chp. 4. Minimisation d une fonction d une variable

Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.

Enjeux mathématiques et Statistiques du Big Data

Un exemple de régression logistique sous

ESIEA PARIS

Processus d Informatisation

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

D 155 Annex 16, page 1. Projet : D155 Sous-classe : B42D Office européen des brevets, Direction de la Classification

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction à la B.I. Avec SQL Server 2008

D 155 Annex 20, page 1. Projet : D155 Sous-classe : B42D Office européen des brevets, Direction de la Classification

Transcription:

Data Mining & Data Warehousing Jef Wijsen juin 2006 Nom + Prénom: Orientation + Année: Instructions Examen à cahier ouvert. Durée: 2 heures et 30 minutes. Répondez dans les cadres prévus. 2 Questions Question Tous les algorithmes de classification qui se trouvent en Weka exigent que les données se trouvent dans un fichier plat où chaque ligne correspond à une instance/un individu. Cependant, les données se trouvent souvent dans des bases de données relationnelles avec plusieurs tables reliées par des clés étrangères-primaires. Il n est pas clair si et comment les algorithmes conçus pour des fichiers plats peuvent fonctionner sur des données relationnelles. Par exemple, supposons la base de données ci-dessous où l on souhaite prédire le status d une personne. Une règle telle que tous les Hennuyers avec carte VISA sont bons porte sur trois tables et n est donc pas à la portée des algorithmes classiques. Une solution à ce problème pourrait être de modeler les données relationnelles dans un fichier plat. Cette transformation tables relationnelles fichier plat est-elle toujours facile à réaliser? Si oui, expliquez la procédure de transformation. Si non, discutez les difficultés qui se présentent. Personne Nom Age Sexe Ville Nationalité Status J. Dupont 35 M Charleroi F Bon A. Dufour 32 F Mons B Bon J. James 33 F Hasselt B Mauvais... Province Ville Province Chareleroi Hainaut Mons Hainaut Hasselt Limbourg... Aime Nom CarteBancaire J. Dupont CB J. Dupont American Express A. Dufour CB A. Dufour Visa...

2 QUESTIONS 2... /4

2 QUESTIONS 3 Question 2 Expliquez comment l algorithme ID3 détermine-t-il la racine de l arbre de décision pour les données suivantes. A B C D single dark one healthy single light two healthy double light one healthy single dark two virulent double dark one virulent double light two virulent... /2

2 QUESTIONS 4 Question 3. En général, plus l ensemble d apprentissage est large, plus la qualité d un modèle de classification est bonne. Supposons un ensemble d apprentissage avec n instances. Si l on dupliquait chaque instance d fois, tel que l ensemble d apprentissage contienne désormais d n instances (mais toujours seulement n instances distinctes), est-ce que cela améliorerait la performance d un arbre de décision construit par ID3? Pourquoi? 2. Supposons qu au lieu d ID3, on applique k-nn (k-nearest-neighbor) à l ensemble dupliqué. Estce que la valeur optimale de k sera plus grande, plus petite, ou égale à la valeur optimale pour l ensemble non dupliqué? Pourquoi?... /2

2 QUESTIONS 5 Question 4 L algorithme de clustering basée sur Farthest first traversal partitionne N points dans k groupes. Répondez aux questions suivantes :. Pour un k fixé (par exemple, k = 3), quel est le temps d exécution de cet algorithme en fonction du nombre de points dans le fichier d entrée? Est-ce en temps constant, linéaire, quadratique, exponentiel,...? 2. Montrez à l aide d un exemple simple (pas celui de l article) que l exécution de cet algorithme pour différentes valeurs de k (k = 2, 3, 4,...) ne donne pas nécessairement des clusters hiérarchiques, même si l on fixe le point de départ (le point numéroté ).... /2

2 QUESTIONS 6 Question 5 Expliquer comment l algorithme de S. Dasgupta and Ph.M. Long s applique sur a configuration des cinq points montrée dans la figure A, en utilisant la distance Manahattan et en prenant β = 2. Le point a déjà été fixé: c est le point qui se trouve dans le coin droit en bas. Indiquer sur les figures A,B,..., I les différentes étapes de l algorithme. Expliquer les étapes à la page suivante en faisant référence aux figures. Finalement, compléter les phrases suivantes: Le -clustering contient le groupe : {, 2, 3, 4, 5}. Le 2-clustering contient les groupes :... Le 3-clustering contient les groupes :... Le 4-clustering contient les groupes :... Le 5-clustering contient les groupes : {}, {2}, {3}, {4}, {5}.... /8 A B C D E F G H I

2 QUESTIONS 7... /4