Des entrepôts à la fouille de données

Documents pareils
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Big Data et Graphes : Quelques pistes de recherche

Présentation du module Base de données spatio-temporelles

Jean-François Boulicaut & Mohand-Saïd Hacid

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Big Data et Graphes : Quelques pistes de recherche

Introduction à la B.I. Avec SQL Server 2008

Data Mining. Master 1 Informatique - Mathématiques UAG

Didier MOUNIEN Samantha MOINEAUX

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Les Entrepôts de Données

Bases de Données Avancées

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Introduction au Data-Mining

Etude d Algorithmes Parallèles de Data Mining

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

et les Systèmes Multidimensionnels

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Application de K-means à la définition du nombre de VM optimal dans un cloud

Entrepôt de données 1. Introduction

Introduction au datamining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les Entrepôts de Données. (Data Warehouses)

CESI Bases de données

République Algérienne Démocratique et Populaire

ETL Extract - Transform - Load

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Hervé Couturier EVP, SAP Technology Development

Évaluation et implémentation des langages

La problématique. La philosophie ' ) * )

Introduction à la Fouille de Données (Data Mining) (8)

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

2.4 Représentation graphique, tableau de Karnaugh

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Agenda de la présentation

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Table des matières. Avant-propos

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Introduction au Data-Mining

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Chapitre 9 : Informatique décisionnelle

TRAVAUX DE RECHERCHE DANS LE

Bases de données Cours 1 : Généralités sur les bases de données

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Datawarehouse and OLAP

Business Intelligence : Informatique Décisionnelle

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Bases de Données. Plan

Les entrepôts de données

Utilisation des tableaux sémantiques dans les logiques de description

Présentations personnelles. filière IL

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Intelligence Economique - Business Intelligence

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Cours Bases de données

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Skills Technology Software PARTENAIRE TECHNOLOGIQUE DE VOTRE DÉVELOPPEMENT

2 Serveurs OLAP et introduction au Data Mining

BI = Business Intelligence Master Data-Science

Chapitre 1 : Introduction aux bases de données

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Introduction aux Bases de Données

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Du 10 Fév. au 14 Mars 2014

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Bases de données avancées Introduction

Objectif et contexte business : piliers du traitement efficace des données -l exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Master Informatique Aix-Marseille Université

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Intégration de données hétérogènes et réparties. Anne Doucet

Les bases de données Page 1 / 8

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

SQL Serveur Programme de formation. France Belgique Suisse - Canada. Formez vos salariés pour optimiser la productivité de votre entreprise

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

IFT1215 Introduction aux systèmes informatiques

BI2 : Un profil UML pour les Indicateurs Décisionnels

Business Intelligence avec Excel, Power BI et Office 365

Bases de données cours 1

La classification automatique de données quantitatives

Limitations of the Playstation 3 for High Performance Cluster Computing

Extraction des Connaissances à partir des Données (ECD)

Plan. Ce qu est le datawarehouse? Un modèle multidimensionnel. Architecture d un datawarehouse. Implémentation d un datawarehouse

IBM Tivoli Monitoring, version 6.1

Langage SQL : créer et interroger une base

Les bases de données

Programmes des classes préparatoires aux Grandes Ecoles

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Transcription:

UMR 5205 Plan du cours Des entrepôts à la fouille de données Jean-Marc Petit INSA de Lyon jmpetit@liris.cnrs.fr Fouille de données : une vision d ensemble Un petit focus sur le passage à l échelle Problèmes d énumération des motifs intéressants! Cadre formel! Exemples! Algorithmes d énumération Conclusions Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon Université Claude Bernard Lyon 1, bâtiment Nautibus 43, boulevard du 11 novembre 1918 F-69621 Villeurbanne cedex http://liris.cnrs.fr/ Ecole d été COSI 2007 Oran Algérie / mardi 11 septembre 2007 Ecole d été COSI 2007 Oran, Algérie 2 Ce que ce cours est/n est pas Bibliographie Est :!Positionnement de la fouille de données!un aperçu des enjeux et des techniques N est pas :!Un descriptif de méthodes/algorithmes!un aperçu du fonctionnement des systèmes de fouille de données Principale référence! «Data Mining: Concepts and Techniques» par Jiawei Han et Micheline Kamber, Morgan Kaufmann Publishers, 550 pages, 2004 Conférences scientifiques! ACM KDD, IEEE ICDM, SIAM DM! + conférence DB et Apprentissage Sites web dédiés à la fouille de données! www.kddnuggets.com Ecole d été COSI 2007 Oran, Algérie 3 Ecole d été COSI 2007 Oran, Algérie 4

Introduction à la fouille de données «Nécessité est mère d invention» Constat : déluge de données!dans des entrepôts de données (ou data warehouses (DW) ou data marts)!dans des bases de données (BD)!dans des fichiers Pénurie de connaissances sur ces données Les techniques de fouille de données peuvent être une solution Fouille de données : au delà des ED Exemples : Téléphone AT&T : BD d appel téléphonique 20TB, suivi des appels sans fil Grande consommation Wal-Mart: BD 70TB WEB crawl : 200M de pages et 2000M liens, 7 millards de clics par jour Ecole d été COSI 2007 Oran, Algérie 5 Ecole d été COSI 2007 Oran, Algérie 6 Extension des requêtes SQL BD vs entrepôt et fouille Suite logique des bases de données! requêtes SQL classiques! idée simple : accéder efficacement aux données pour faire des analyses! requêtes OLAP (OnLine Analytical Processing)! Idée simple : améliorer l analyse des données par agrégations «complexes»! Fouille de données (data mining)! aller au-delà : construction de modèles d apprentissage pour la classification, regroupement de données en classes, construit différemment des BD (en général)!intégration de sources de données (multiples, hétérogènes, BD relationnelles, fichiers)!nécessite de nettoyer et d'intégrer ces données (normaliser, conventions de nommage, mesures utilisées, conversion des données) construit pour faciliter l'aide à la décision!exclu des données jugées non pertinentes par rapport à ces objectifs Technologie utilisé?!souvent basée sur les SGBDR! Ecole d été COSI 2007 Oran, Algérie 7 Ecole d été COSI 2007 Oran, Algérie 8

Qu est ce que la fouille de données? Mauvais noms, analogie avec la recherche d or Définition informelle : Extraction of interesting (nontrivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases Synonymes :!Data mining, KDD pour knowledge discovery in databases, business intelligence, etc. Ce que n est pas la fouille de données?!systèmes experts!petits programmes statistiques/d apprentissage!bases de données déductives Sélection Bases de Données, fichiers, images Fouille de données Préparation Données cibles Data Mining Données préparées Interprétation 5 0 4 0 3 0 2 0 10 0 Information extraites Connaissances Ecole d été COSI 2007 Oran, Algérie 9 Ecole d été COSI 2007 Oran, Algérie 10 Les principales techniques de data mining Le DM : un domaine pluridisciplinaire Les techniques "classiques"!association!corrélation et causalité!classification et prédiction supervisée!arbre de décision,!réseaux bayésiens,!réseaux de neurones,!régression logistique, linéaire, non linéaire!segmentation (Clustering) non supervisée!analyse des cas particuliers (outliers) Et beaucoup d autres Analyse de données, Statistiques, Mathématiques Bases de données!accès à des données volumineuses, entrepôts de données!algorithmique en mémoire externe Intelligence Artificielle!Techniques d'apprentissage "Machine learning" Autres domaines :!Recherche opérationnelle, optimisation combinatoire!imagerie!visualisation Nouveau domaine à part entière? Ecole d été COSI 2007 Oran, Algérie 11 Ecole d été COSI 2007 Oran, Algérie 12

Principales applications Exemples du monde réel A qui sert le data mining?!à l'homme, e.g. pour faciliter la prise de décision!à des systèmes, e.g. pour s'adapter automatiquement en fonction des données collectées (e.g. systèmes d'exploitation, bases de données). Exemples pour l'aide à la décision!analyse de marchés!cible marketing,!gestion clientèle,!analyse du panier de la ménagère,!segmentation de marché! Analyse de risques!prévision, contrôle qualité,!détection de fraudes,... Domaines d'application : commerce, bio-informatique, WWW... Les transactions dans les grandes surfaces!comment mieux disposer les articles dans les rayons pour favoriser les ventes?!comment concevoir un catalogue? une page Web? Les achats sur Amazon.com Les transactions aux péages autoroutes!quels sont les motifs «fréquents» d utilisation du réseau autoroutier? Ecole d été COSI 2007 Oran, Algérie 13 Ecole d été COSI 2007 Oran, Algérie 14 Préparation des données Utilité de la connaissance extraite? Nettoyage des données!valeurs manquantes,!valeurs aberrantes,!inconsistances Intégration des données!fichiers, BD, entrepôts Transformation des données!normalisation!agrégation!réduction des données!représentation plus "petites" des données sans altérer la qualité des résultats analytiques!discrétisation des données Etape critique et laborieuse qui conditionne la suite du processus Problème du volume de la connaissance extraite!par ex, plusieurs millions de règles d'association Mesure d'intérêt de la connaissance extraite!mesure objective!basé sur des statistiques support, confiance d'une règle!mesure subjective basé sur l'utilisateur Quand est ce que la connaissance est intéressante?!quand elle est inattendue!quand elle sert à résoudre le problème de l'analyste Problème majeur en pratique, pas de solutions à priori Ecole d été COSI 2007 Oran, Algérie 15 Ecole d été COSI 2007 Oran, Algérie 16

Les systèmes DM (SDM) Les systèmes supportant le Data Mining!Analogie avec les SGBD Industrie!Côté statistiques!sas : Entreprise Miner!SPSS avec Clementine!Côté bases de données!microsoft : OLE DB for DM!IBM : Intelligent Miner!Oracle : package ad-hoc, SQL-like data mining Académie!DMQL (J. Han, USA)!Logiciel libre WEKA (Nouvelle Zélande) Interaction des SDM avec les SGBD pas de couplage!déchargement d'une partie de la BD dans un fichier couplage faible!récupérer les données ligne à ligne avec SQL et curseurs via un LP couplage semi-fort!quelques primitives de DM intégrés dans un SGBD couplage fort!intégration totale des techniques de DM dans un SGBD Positionnement des outils dans ce canevas? Ecole d été COSI 2007 Oran, Algérie 17 Ecole d été COSI 2007 Oran, Algérie 18 Plan du cours Fouille de données : une vision d ensemble Un petit focus sur le passage à l échelle Problèmes d énumération des motifs intéressants! un cadre formel! Exemples! Algorithmes d énumération! Structure de données pour la gestion d ensemble d ensemble Conclusions Passage à l échelle Fouille de données : activité qui permet de découvrir des connaissances dans les données volumineuses Verrous?! passage à l échelle des techniques développées en analyse de données, machine learning, statistiques, optimisation combinatoire, Passage à l échelle? Quel verrou technologique sous jacent? Ecole d été COSI 2007 Oran, Algérie 19 Ecole d été COSI 2007 Oran, Algérie 20

Modèle de mémoire RAM Mémoire hiérarchique Modèle théorique standard de M calcul!très simple!mémoire virtuelle infini!coût d accès en temps constant Modèle crutial pour le succès de l informatique R A L 1 L 2 Machines modernes!plusieurs niveaux de mémoire Niveaux loin du processeur : plus grands et plus lents Mouvement des données entre les niveaux!utilisation de bloc ou page!de plus en plus grand R A M Ecole d été COSI 2007 Oran, Algérie 21 Ecole d été COSI 2007 Oran, Algérie 22 E/S lente track magnetic surface read/write head read/write arm Accès disque ~ 10 6 plus lent que accès RAM The difference in speed between modern CPU and disk technologies is analogous to the difference in speed in sharpening a pencil using a sharpener on one s desk or by taking an airplane to the other side of the world and using a sharpener on someone else s desk. (D. Comer) Important de stocker et d accéder aux données de façon à tirer profit des blocs (contiguité) Ecole d été COSI 2007 Oran, Algérie 23 Problème de passage à l échelle Programmes développés dans le modèle RAM Fonctionne sur des grands jeux de données OS déplace les blocs pour nous entre les niveaux!! OS récents utilise des stratégies de pagination et de prefetching sophistiquées!inefficace si le programme fait des accès aléatoires problèmes de passage à l échelle (scalability) running time data size Ecole d été COSI 2007 Oran, Algérie 24

Retour sur le data mining Plan du cours Définition personnelle du contour des techniques de data mining «Toutes les propositions qui adressent le problème du passage à l échelle pour leur technique» Fouille de données : une vision d ensemble Un petit focus sur le passage à l échelle Problèmes d énumération des motifs intéressants! Cadre formel! Exemples! Algorithmes d énumération Conclusions Ecole d été COSI 2007 Oran, Algérie 25 Ecole d été COSI 2007 Oran, Algérie 26 Théme large Objectifs Motifs fréquents pour les règles d association!apriori [Sigmod 94] et ses innombrables améliorations!souvent au niveau «structure de données»!nombreuses applications!requiert une discrétisation dans {0,1} des données Arbres fréquents dans des forêts!! données semi structurées Sous-séquences fréquentes dans une séquence Contraintes dans les bases de données!clés via les dépendances fonctionnelles!clés étrangères via les dépendances d inclusion Identifier une ou des classes de problèmes que l on pourra résoudre efficacement Tentative de définir un cadre commun!à partir des travaux de Mannila et Toivonen [DMKD 97, ACM TODS 05] La plupart des solutions proposées pour ces problèmes sont spécifiques Ecole d été COSI 2007 Oran, Algérie 27 Ecole d été COSI 2007 Oran, Algérie 28

Cadre théorique Exemple de jeux de données Focus sur les problèmes d énumération de motifs intéressants dans les grandes bases de données Définition des principaux termes! Bases de données d! Motifs! Motifs intéressants dans d : notion de prédicat! Relation d ordre entre motifs Propriété du prédicat Cadre ensembliste BD relationnelle Relation binaire ou BD de transactions Fichiers textes, documents structurés Données semi-structurés Pas vraiment d hypothèses fortes, doit décrire les données et les moyens pour y accéder Ecole d été COSI 2007 Oran, Algérie 29 Ecole d été COSI 2007 Oran, Algérie 30 Exemples de motifs / langages Exemples de prédicats Sous ensembles d un ensemble Séquences Arbres Graphes Dépendances fonctionnelles Dépendance d inclusion Forme des motifs qui nous intéressent, notion syntaxique X est fréquent dans une BDT X->Y est satisfaite dans une relation Le sous arbre X apparait plus de n fois dans la collection d arbres Formule mathématique Permet de définir formellement la notion de «motif intéressant» Sens des motifs qui nous intéressent, notion sémantique Ecole d été COSI 2007 Oran, Algérie 31 Ecole d été COSI 2007 Oran, Algérie 32

Contexte du travail : Notations Un modèle pour la découverte de connaissance![mannila & Toivonen, DMKD, 1997]!Cadre théorique, nombreuses applications!motifs fréquents, séquentiels, DF, DI, Cadre :!Etant donnés!une base de données d!un langage fini L (ou un ensemble de motifs)!un prédicat Q définit sur d et un motif X de L!Trouver Th ( L, d, Q) = X! L Q( X, d) = VRAI { } Relation d ordre entre motifs Permet de structurer l espace de recherche! si les motifs sont des ensembles, on retrouve l inclusion ensembliste!sinon, cela dépend des motifs Permet aussi de rechercher si le problème a de bonnes propriétés, typiquement la monotonie Permet d éviter l énumération «brute force» de tous les motifs intéressants Ecole d été COSI 2007 Oran, Algérie 33 Ecole d été COSI 2007 Oran, Algérie 34 Notations (suite) Si de plus on suppose :!Un ordre partiel " entre les motifs (relation de spécialisation/généralisation)!q (anti-)monotone par rapport à " : # X,Y $ L tq X " Y, Q(Y,d) vrai " Q(X,d) vrai Alors le problème peut se ramener à la recherche de : { X # Th( L, d, Q) $/ Y # Th( L, d, Q), X " Y Y X} MTh ( L, d, Q) =,! Problèmes «représentables par des ensembles» Etude de plongement dans un treillis booléen Idées de base :!Faire correspondre à chaque motif un certain sous ensemble d un ensemble!préserver l ordre partiel Définit ainsi toute une classe de problèmes, qui d un point de vue théorique, sont «équivalents» à un isomorphisme près. Opportunité pour faire de l optimisation de requêtes! Ecole d été COSI 2007 Oran, Algérie 35 Ecole d été COSI 2007 Oran, Algérie 36

Notations (fin) Si de plus on suppose :!L est «représentable» par un ensemble si il existe un ensemble E et une fonction f : L%2 E tel que!f soit bijective!x " Y & f(x) ' f(y) Alors, le problème initial peut se ramener à : + { X # Th( L, d, Q) " Y! X, Q( Y, d) FAUX} Bd ( I) = = $ { X # Th( L, d, Q) " Y! X, Q( Y, d) VRAI} Bd ( I) = = Notions de bordures Soit I un ensemble de motifs intéressants de E La bordure positive de I (les motifs les plus spécifiques de I), noté Bd + (I), est : + { X $ I # Y " X, Y I} Bd ( I) =! La bordure négative de I (les motifs les plus généraux qui ne sont pas dans I), noté Bd - (I), est : Bd $ ( I) = E { X!(2 \ I) # Y " X, Y! I} Il existe un lien fort entre les bordures positive et négative! Transformation de l un à l autre et vice et vers ça Objet combinatoire connu :! transversaux minimaux d un hypergraphe Ecole d été COSI 2007 Oran, Algérie 37 Ecole d été COSI 2007 Oran, Algérie 38 Déclaration des problèmes Grande unité de définition des problèmes! Même si une grande partie de la difficulté réside dans cette formulation! un problème bien posé est à moitié résolu! Trois formes #$Enumération des éléments I de E %$Enumération des éléments de Bd - (I) &$Enumération des éléments de Bd + (I) Sur ces problèmes «ensemblistes» A la base d algorithmes de parcours de l espace de recherche Structure de données pour manipuler de grandes collections d ensembles d ensemble. Cadre restrictif néanmoins Possibilité d appliquer des techniques d optimisation de requêtes en BD Ecole d été COSI 2007 Oran, Algérie 39 Ecole d été COSI 2007 Oran, Algérie 40

Application aux motifs fréquents Exemple parcours par niveaux (Apriori) Ensemble de propriétés P Une ligne t est un sous-ensemble de P, i.e. t 'P bd : multi-ensemble de lignes Q(X,bd,() : «être fréquent» par rapport à un seuil (, i.e. {t t$bd et X't} ) (!Si Q(X,bd,() = VRAI alors X est un motif fréquent Propriété :!Q est anti-monotone par rapport à ' Fonction f : fonction identité BD ====== 1 A C D 2 B C E 3 A B C E 4 B E 5 A B C E 6 B C E ( = 2 ABCDE Bd+ ABCE2 ABCD ABDE ACDE BCDE ABC2 ABE2 ACE2 BCE4 ABD ACD BCD ADE BDE CDE AB2 AC 3 AE 2 BE 5 BC 4 CE 4 AD CD BD DE A 3 B5 C 5 E 5 D 1 Ø Bd- Ecole d été COSI 2007 Oran, Algérie 41 Ecole d été COSI 2007 Oran, Algérie 42 Algorithmes d énumération Par niveau: connu en fouille de données sous le nom d Apriori (Agrawal et al 1993, ACM Sigmod) Par dualisation (transversaux minimaux)! moins connu mais très élégant!idée : passer d une bordure à l autre en évitant l explosion combinatoire des approches par niveaux quand de grands éléments existent Exemple pour bd+ Bd + (I) Level k NI=Bd - (I1 u u I k ) Ecole d été COSI 2007 Oran, Algérie 43 Ecole d été COSI 2007 Oran, Algérie 44

La solution est peut etre là Intuition Bordure positive optimiste = plus grands éléments pas disqualifiés par NI On a donc : + Bd opt (I) = MinTr( NI )) Bd + opt (NI) Bd + (I) Notion de saut dans l espace de recherche NI Level k Ecole d été COSI 2007 Oran, Algérie 45 Ecole d été COSI 2007 Oran, Algérie 46 Estimation de l erreur Stratégies adaptatives 1/2 Bd + opt (I) Bd + (I) Bd + opt (I) Bd + (I) New iteration Level k Level k New element of Bd - (I) Ecole d été COSI 2007 Oran, Algérie 47 Ecole d été COSI 2007 Oran, Algérie 48

Stratégies adaptatives 2/2 Structure de données Bd + opt (I) Top down Bd + (I) Level k Quelles structures de données pour gérer des ensembles d ensemble très volumineux? Dépend des opérations à faire sur ces structures Pour des algorithmes type Apriori!Développement de structure de «trie» développée en recherche d information (information retrieval)!arbre de préfixe ou dictionnaire!recherche d un élément en temps constant!et variantes Patricia trees, Beaucoup de travaux dans la littérature Ecole d été COSI 2007 Oran, Algérie 49 Ecole d été COSI 2007 Oran, Algérie 50 Conclusion et perspectives Fouille de données :! guidée par les applications! à la croisée de nombreuses branches de l informatique! Constitue ses forces et ses faiblesses Beaucoup de business, réel besoin des entreprises Difficulté de la validation avec des experts A terme : nécessité d intégration et de rapprochement avec les SGBD => passage à l échelle Ecole d été COSI 2007 Oran, Algérie 51