Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP partagés Juan-Manuel Torres / LIA Université d Avignon juan-manuel.torres@univ-avignon.fr Francois Lentin / Autoroutes du Sud de la France francois.lentin@asf.fr Peter Peinl / Université de Fulda (Allemagne) Data Mining 3 séances théorie Total.. 4.5h 5 séances de TP s Total.. 7.5h 1 Examen... 1h30 Total.. 14h Information du cours Cours : 16 Octobre (IMOD) 18 Octobre (TAIM) Cours : 23 Octobre (IMOD) 19 Octobre (TAIM) Cours : 24 Octobre (IMOD 8 Novembre (TAIM) EXAMEN : 28 Novembre TP1 Introduction a WEKA 26 Octobre (TAIM) 29 Nov (IMOD) TP2 Arbres de décision I 28 Nov (TAIM) 6 Dec (IMOD) TP3 Arbres de décision II 7 Dec (TAIM) 11 Dec (IMOD) TP4 Clusterisation 13 Dec (TAIM) TP5 Prédiction 14 Dec (TAIM) 13 Dec (IMOD) 20 Dec (IMOD) EVALUATION DU COURS Examen Torres... 18% TP s Torres (binôme).. 15% 3 % chaque TP x 5 1 Examen Lentin.. 33% décembre (à confirmer) Examen + TP Peinl... 33 % Data mining (fouille de données) Introduction
Datawarehouse Datawarehouse Lieu de stockage intermédiaire des différentes données en vue de la constitution du système d'information décisionnel est appelé entrepôt de données (datawarehouse). Lieu unique de consolidation de l'ensemble des données de l'entreprises 2004.09 - Transp 7 2004.09 - Transp 8 DataWareHouse (Bill Inmon) «Collection de données thématiques, intégrées, non volatiles et historisées pour la prise de décisions» Caractéristiques : Orienté sujets. Les données collectées sont être orientées «métier» : triées par thème Données intégrées. "Nettoyage" préalable des données est nécessaire : rationnalisation et de normalisation Données non volatiles. Une donnée entrée n'a pas vocation a être supprimée Les données historisées : datées OLAP On-Line Analytical Processing Concept à mi-chemin entre le système d'information pur et les utilisateurs, permettant de faire des simulations OLTP On-Line Transactional Processing Permettre une analyse multidimensionnelle sur des bases de données volumineuses afin de mettre en évidence une analyse particulière des données (il est l'objet d'un questionnement particulier) 2004.09 - Transp 9 Informatique décisionnelle "Business intelligence" Les outils décisionnels (parfois appelé "le décisionnel") Exploitation des données de l'entreprise dans le but de faciliter la prise de décision par les décideurs Compréhension du fonctionnement actuel et l'anticipation des action pour un pilotage éclairé de l'entreprise Basés sur l'exploitation d'un système d'information décisionnel alimenté grâce à l'extraction de données diverses à partir des données de production, d'informations concernant l'entreprise ou son entourage et de données économiques ETL (Extract, Transform and Load) est chargé d'extraire les données dans différentes source, de les nettoyer et de les charger dans un entrepôt de données Des outils d'analyse décisionnelle permettent de modéliser des représentations à base de requêtes afin de constituer des tableaux de bord : reporting 2004.09 - Transp 11 2004.09 - Transp 12
Le multidimensionnel Le n-cube des dimensions 2004.09 - Transp 13 2004.09 - Transp 14 La granularité des dimensions Navigation multidimensionnelle 2004.09 - Transp 15 2004.09 - Transp 16 Les vues d un n-cube 2004.09 - Transp 17 2004.09 - Transp 18
Bilan multidimensionnel DATA MINING (1) Le Datamining ("fouille de données") contrairement à l'analyse multidimensionnelle a pour but de mettre en évidence des corrélations éventuelles dans un volume important de données dégager des tendances 2004.09 - Transp 19 DATA MINING (2) Le datamining s'appuie sur des techniques d'intelligence artificielle afin de mettre en évidence des liens cachés entre les données Apprentissage de Machine Arbres de décision Réseaux de neurones Support Vector Machines (SVM) Méthodes de regroupement et clusterisation 2004.09 - Transp 21 2004.09 - Transp 22 Domaines d utilisation Mécanismes de base 2004.09 - Transp 23 2004.09 - Transp 24
Exemple : analyse linéaire Méthodes 2004.09 - Transp 25 2004.09 - Transp 26 Classification Reglès associatives 2004.09 - Transp 27 2004.09 - Transp 28 Lexique SEMMA (SAS) 2004.09 - Transp 29 2004.09 - Transp 30