Data Mining & Data Warehousing

Data Mining & Data Warehousing Jef Wijsen juin 2006 Nom + Prénom: Orientation + Année: Instructions Examen à cahier ouvert. Durée: 2 heures et 30 minutes. Répondez dans les cadres prévus. 2 Questions Question Tous les algorithmes de classification qui se trouvent en Weka exigent que les données se trouvent dans un fichier plat où chaque ligne correspond à une instance/un individu. Cependant, les données se trouvent souvent dans des bases de données relationnelles avec plusieurs tables reliées par des clés étrangères-primaires. Il n est pas clair si et comment les algorithmes conçus pour des fichiers plats peuvent fonctionner sur des données relationnelles. Par exemple, supposons la base de données ci-dessous où l on souhaite prédire le status d une personne. Une règle telle que tous les Hennuyers avec carte VISA sont bons porte sur trois tables et n est donc pas à la portée des algorithmes classiques. Une solution à ce problème pourrait être de modeler les données relationnelles dans un fichier plat. Cette transformation tables relationnelles fichier plat est-elle toujours facile à réaliser? Si oui, expliquez la procédure de transformation. Si non, discutez les difficultés qui se présentent. Personne Nom Age Sexe Ville Nationalité Status J. Dupont 35 M Charleroi F Bon A. Dufour 32 F Mons B Bon J. James 33 F Hasselt B Mauvais... Province Ville Province Chareleroi Hainaut Mons Hainaut Hasselt Limbourg... Aime Nom CarteBancaire J. Dupont CB J. Dupont American Express A. Dufour CB A. Dufour Visa...

2 QUESTIONS 2... /4

2 QUESTIONS 3 Question 2 Expliquez comment l algorithme ID3 détermine-t-il la racine de l arbre de décision pour les données suivantes. A B C D single dark one healthy single light two healthy double light one healthy single dark two virulent double dark one virulent double light two virulent... /2

2 QUESTIONS 4 Question 3. En général, plus l ensemble d apprentissage est large, plus la qualité d un modèle de classification est bonne. Supposons un ensemble d apprentissage avec n instances. Si l on dupliquait chaque instance d fois, tel que l ensemble d apprentissage contienne désormais d n instances (mais toujours seulement n instances distinctes), est-ce que cela améliorerait la performance d un arbre de décision construit par ID3? Pourquoi? 2. Supposons qu au lieu d ID3, on applique k-nn (k-nearest-neighbor) à l ensemble dupliqué. Estce que la valeur optimale de k sera plus grande, plus petite, ou égale à la valeur optimale pour l ensemble non dupliqué? Pourquoi?... /2

2 QUESTIONS 5 Question 4 L algorithme de clustering basée sur Farthest first traversal partitionne N points dans k groupes. Répondez aux questions suivantes :. Pour un k fixé (par exemple, k = 3), quel est le temps d exécution de cet algorithme en fonction du nombre de points dans le fichier d entrée? Est-ce en temps constant, linéaire, quadratique, exponentiel,...? 2. Montrez à l aide d un exemple simple (pas celui de l article) que l exécution de cet algorithme pour différentes valeurs de k (k = 2, 3, 4,...) ne donne pas nécessairement des clusters hiérarchiques, même si l on fixe le point de départ (le point numéroté ).... /2

2 QUESTIONS 6 Question 5 Expliquer comment l algorithme de S. Dasgupta and Ph.M. Long s applique sur a configuration des cinq points montrée dans la figure A, en utilisant la distance Manahattan et en prenant β = 2. Le point a déjà été fixé: c est le point qui se trouve dans le coin droit en bas. Indiquer sur les figures A,B,..., I les différentes étapes de l algorithme. Expliquer les étapes à la page suivante en faisant référence aux figures. Finalement, compléter les phrases suivantes: Le -clustering contient le groupe : {, 2, 3, 4, 5}. Le 2-clustering contient les groupes :... Le 3-clustering contient les groupes :... Le 4-clustering contient les groupes :... Le 5-clustering contient les groupes : {}, {2}, {3}, {4}, {5}.... /8 A B C D E F G H I

2 QUESTIONS 7... /4