Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR
1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base... 3 3.2 Ses attributs et leurs caractéristiques... 3 3.3 Exploration des données... 4 4 Classification... 6 4.1 Arbres de décision... 6 4.1.1 Avec le package Party... 6 4.1.2 Avec le package Rpart... 6 4.2 Naïve-Bayes... 8 5 Cluster... 9 5.1 K-means... 9 6 Conclusion... 10 1
2 Introduction Le rapport suivant a pour but d exposer les résultats du travail d évaluation du cours de Data Mining dispensé à l UTFPR par le professeur Celso Kaestner dans le cadre du programme de Post-Graduation en Informatique appliquée. Ce travail d évaluation a pour objectif de solliciter et de mettre en œuvre les concepts abordés en cours en utilisant une base de données comme support d études. Tout au long de ce rapport, le langage de programmation employé est le langage R et sera utilisé dans son environnement de développement dédié : R Studio. 2
3 La base de données utilisée Pour ce travail, j utilise la base «Wine recognition data». Cette base a déjà été utilisée pour des travaux visant à comparer plusieurs classificateurs. 3.1 Origine de la base Ces données sont les résultats d analyses chimiques de vins qui ont vieillis dans la même région en Italie mais issus de 3 vignobles différents. Les analyses déterminent les quantités de 13 composants trouvés dans chacun de ces 3 types de vins. 3.2 Ses attributs et leurs caractéristiques La base de données est composée de 13 attributs représentant les 13 composants trouvés dans les vins. Tous ces attributs sont continus. Elle possède également un attribut qui représente l identifiant de classe, c est-à-dire, de quel vignoble est issu le vin concerné. 3
3.3 Exploration des données Le langage R permet d explorer les données du Dataset, de façon individuelle ou multidimensionnelle. On peut, par exemple connaitre la distribution des types de vin dans l ensemble de données et recourir à une représentation graphique de ces résultats. La fonction hist() permet d avoir une représentation graphique de la distribution d un attribut dans l intervalle de ses valeurs. Il existe de nombreuses façons de représenter les données, en voici quelques exemples. Le Boxplot est une représentation graphique de données statistiques. Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. On ajoute alors des segments aux extrémités menant jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles. Quartile : En statistique descriptive, un quartile est chacune des 3 valeurs qui divisent les données triées en 4 parts égales, de sorte que chaque partie représente 1/4 de l'échantillon de population. le 1er quartile sépare les 25 % inférieurs des données ; le 2e quartile est la médiane de la série ; le 3e quartile sépare les 25 % supérieurs des données. Décile : En statistique descriptive, un décile est chacune des 9 valeurs qui divisent un jeu de données, triées selon une relation d'ordre, en 10 parts égales, de sorte que chaque partie représente 1/10 de l'échantillon de population. le seuil du 1er décile sépare le jeu de données entre les 10 % inférieurs et le reste des données ; le seuil du 9e décile sépare les 90 % inférieurs des données des 10 % supérieurs. 4
Prenons l exemple de la représentation en Boxplot des valeurs du taux d alcool en fonction du type de vin : Le scatter plot permet également d avoir une représentation graphique des données en utilisant 2 attributs. Les symboles et couleurs mettent ici en évidence les types de vins. Une représentation graphique des données en utilisant 3 attributs est également possible. Nous avons alors une représentation en 3D des données. 5
4 Classification 4.1 Arbres de décision 4.1.1 Avec le package Party Le but des arbres de décisions et de pouvoir prédire les nouvelles données. Pour cela, j ai d abord utilisé le package Party qui fournit les fonctions ctree() pour construire l arbre de décision et predict() qui prédit les nouvelles données. J utilise l ensemble de base pour avoir un ensemble training et un ensemble test. Je construis ensuite mon arbre avec pour variable cible, Classe qui correspond au type de vin. 4.1.2 Avec le package Rpart Ici, on utilise la fonction rpart() pour construire un arbre, l arbre avec le minimum d erreurs de prédiction est sélectionné. 6
On utilise ensuite cet arbre pour faire des prédictions et les comparer aux données actuelles. 7
4.2 Naïve-Bayes Pour construire un classificateur Naive-Bayes, on a besoin du package e1071. Le classificateur génère trois gaussiennes représentant chaque valeur de l attribut Classe. 8
5 Cluster 5.1 K-means Pour le k-means clustering, j ai commencé par mettre de côté la colonne de l attribut Classe. J ai ensuite appliqué la fonction kmeans() sur mes données pour 3 clusters. J ai ensuite comparé ces clusters à l attribut Classe. On peut voir que le cluster 3 représente assez bien le vin du vignoble 2. 9
6 Conclusion Ce travail m a permis de mettre en œuvre des concepts vus en cours, même si je n ai pas réussi à tout faire, j ai eu l opportunité d acquérir des connaissances sur un domaine pointu de l informatique. 10