De la veille à. économique. l intelligence. le Data Mining et le Text Mining. Bernard DOUSSET. dousset@irit.fr http://atlas.irit.



Documents pareils
Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Extraction d informations stratégiques par Analyse en Composantes Principales

La classification automatique de données quantitatives

TRAVAUX DE RECHERCHE DANS LE

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

INTRODUCTION AU DATA MINING

INF6304 Interfaces Intelligentes

La visualisation de données relationnelles au service de la recherche d informations

Introduction au datamining

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La Veille Scientifique

Marc SALLIERES CEO ALTIC

THOT - Extraction de données et de schémas d un SGBD

Big Data et Graphes : Quelques pistes de recherche

Apprentissage Automatique

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

et les Systèmes Multidimensionnels

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Concevoir et déployer un data warehouse

Introduction à la B.I. Avec SQL Server 2008

données en connaissance et en actions?

Big Data et Graphes : Quelques pistes de recherche

Introduction au Data-Mining

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Business & High Technology

Cycle de formation certifiante Sphinx

BUSINESS INTELLIGENCE

Introduction au Data-Mining

Recherche bibliographique

Agrégation des portefeuilles de contrats d assurance vie

En vue de l'obtention du. Présentée et soutenue par Eloïse LOUBIER Le 09 Octobre 2009

Logiciel XLSTAT version rue Damrémont PARIS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Chapitre 9 : Informatique décisionnelle

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

2 Serveurs OLAP et introduction au Data Mining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Scénario: Données bancaires et segmentation de clientèle

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

L information et la technologie de l informationl

Journée : Apport de l'intelligence Economique pour la gouvernance stratégique de l'entreprise

Compte-rendu re union Campus AAR 3 mars 2015

Business Intelligence

Spécificités, Applications et Outils

Localisation des fonctions

Agenda de la présentation

Rappels sur les suites - Algorithme

De la production collaborative à la capitalisation des connaissances Le rôle des documentalistes

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Intégration de données hétérogènes et réparties. Anne Doucet

TEXT MINING Tour d Horizon

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

1 - PRESENTATION GENERALE...

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

MABioVis. Bio-informatique et la

Entrepôt de données 1. Introduction

Intelligence économique : proposition d un outil dédié à l analyse relationnelle

Modélisation multi-agents - Agents réactifs

X2BIRT : Mettez de l interactivité dans vos archives

Les Entrepôts de Données

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Classification non supervisée

SAP BusinessObjects Web Intelligence (WebI) BI 4

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Software Application Portfolio Management

Introduction : présentation de la Business Intelligence

Datawarehouse and OLAP

QU EST-CE QUE LE DECISIONNEL?

Masses de données et calcul : à l IRIT. 8 octobre 2013

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Business Intelligence avec Excel, Power BI et Office 365

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

FazaANGEL supervision pro-active

Identification de nouveaux membres dans des familles d'interleukines

Ici, le titre de la. Tableaux de bords de conférence

Initiation à LabView : Les exemples d applications :

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

3 Approximation de solutions d équations

BI = Business Intelligence Master Data-Science

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Complet Intuitif Efficace. Références

EXCEL & XLCubed 10 raisons d en faire l assise de votre Managed Self-Service BI

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le CRM en BFI : une approche du pilotage stratégique

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

CONFIGURATION DE BASE. 6, Rue de l'industrie BP130 SOULTZ GUEBWILLER Cedex. Fax.: Tel.:

Cognit Ive Cas d utilisation

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

SQL SERVER 2008, BUSINESS INTELLIGENCE

Les algorithmes de base du graphisme

Transcription:

De la veille à l intelligence économique : le Data Mining et le Text Mining Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d Information d Généralis G ralisés s (SIG) Université Paul Sabatier (Toulouse III)

Plan de la présentation Historique Définitions et buts La veille stratégique Le multidimensionnel Les classifications Architecture Interactivité Travail en équipe Principe général Contribution en analyse textuelle en analyse exploratoire en géostratégie en dessin de graphes bilan perspectives 09/02/2009 TETRALOGIE 2

Historique Architecture Contribution Historique Définitions et buts mémoriser & organiser Veille stratégique Informations élaborées analyser & interpréter Informations utiles diffuser l information endogène valider et diffuser l information exogène Scénarios Secteurs d activit d activité Stratégie Connaissance Connaissance diffusion restreinte élaborer choisir synthétiser Décideur évaluer & collecter Sources identifier & sélectionner déterminer & hiérarchiser Cibles Cycle de l intelligence économique 09/02/2009 TETRALOGIE 3

Historique Architecture Contribution Historique Définitions et buts Etudier l environnement l et l é l évolution Des marchés Des coopérations Des alliances Des fusions Des acquisitions Des participations Des implantations De l'innovation Des ruptures Des transferts de technologie Des dépôts d de brevets Des équipes de recherche De la terminologie Des sources d information d Des publications De la mode De la publicité Des appels d'offres 09/02/2009 TETRALOGIE 4

Historique Architecture Contribution Historique Définitions et buts Depuis toutes les sources d information d électronique Bases bibliographiques Web of science (SCI) Pascal, Francis (CNRS) Chemical abstract, Biosis Current Contents, Inspec, Cnki, Cqvip (Chine), Serveurs spécialis cialisés Dialog, Stn Questel, Derwent, Presse Factiva, Journaux électroniques Afp, Reuters, Internet Brevets : Uspto, Esp@cenet Bio: Pubmed, Biospace Pages web, sites web Blogs, news-groups Flux RSS, Intranet SI propriétaire/sgbd Data warehouse Indexations Web-logs Mails, Streams, 09/02/2009 TETRALOGIE 5

Historique Architecture Contribution Historique Définitions et buts Information explicite Information implicite 09/02/2009 TETRALOGIE 6

Historique Architecture Contribution Historique Définitions et buts l information explicite (exogène) l information implicite (endogène) Maturité de l information L information consciente collective (CC) L information consciente individuelle (CI) L information inconsciente collective (IC) L information inconsciente individuelle (II) La terminologie émergente Les concepts émergents cohérence, simultanéité, consensus 09/02/2009 TETRALOGIE 7

Historique Architecture Contribution Historique La veille stratégique Le processus de veille stratégique comporte 5 phases : la sélection s des données utiles : terminologie, dates, acteurs (auteurs, organismes, pays ) la préparation paration des données : pré-traitements : nettoyages [Zipf49], synonymies [Porter80] transformations : modèle de représentation des données [Salton89] l analyse des données: classifications, règles r d'associations, séquences, s... l interpr interprétation tation et l é l évaluation : basées en grande partie sur les visualisations l exploitation et donc la prise de décision d 09/02/2009 TETRALOGIE 8

Historique Architecture Contribution Historique Le multidimensionnel Les analyses multidimensionnelles Fondements : Spearman & Pearson dès d s 1904 Analyse canonique et ACP : [Hotteling35] Analyse des correspondances : [Hirschfeld35] et [Guttman41] Analyse procustéennes : [Schonemann65] En France Analyse Factorielle des Correspondances : [Benzécri73] Analyse de deux tableaux : [Lafosse85] Compléments ments en analyse procustéenne : [Fichet87] 09/02/2009 TETRALOGIE 9

Historique Architecture Contribution Historique Les classifications Classifications Taxonomie par CAH [Sokal63] Centres mobiles [Forgy65] Nuées dynamiques [Diday71] Partitionnements Itératifs : Minimisation de la coupure [KL70], [FM82] Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91] Multi-niveaux : regroupement + itératif KMETIS [Karypis98] Stochastiques : Markov CLustering [Van Dongen00] 09/02/2009 TETRALOGIE 10

Historique Architecture Etat de l art Contribution Interactivité Pourquoi un système interactif? En Amont de l analyse l l interactivit l interactivité sert à : choisir les sources d information d mettre au point les équations de recherche évaluer les corpus (volume, pertinence, bruit) choisir et valider le format optimal de sortie superviser la collecte du corpus contrôler les dictionnaires (forme et volume) choisir les filtres (+ et -,, thématiques, granularité,,...) valider les synonymies et l indexation l (Multi-termes) termes) 09/02/2009 TETRALOGIE 11

Historique Architecture Etat de l art Contribution Interactivité Pourquoi un système interactif? Pendant l analyse l elle permet de sélectionner et contrôler les matrices de croisement choisir les méthodes m à déployer piloter ces méthodes m (localement ou à distance) extraire les connaissances via les visualisations choisir les vues à conserver consulter les experts via le réseau r restituer l analyse l au décideur 09/02/2009 TETRALOGIE 12

Historique Architecture Etat de l art Contribution Documentaliste Travail en équipe Connexions entre acteurs de la veille Décideur BD CD Serveur Web Expert Analyste 09/02/2009 TETRALOGIE 13

Historique Architecture Etat de l art Contribution Principe général BD 1' Corpus 1 Dico 1 Cooc CD Web Corpus 2 Corpus 3 Corpus 4 Métadonnées Métadonnées Métadonnées Métadonnées Métadonnées Métadonnées Méta 2 Niv. Dico Dico 09/02/2009 TETRALOGIE 14 2 3 3 D X

Historique Architecture Contribution Dictionnaire + ou - en analyse textuelle Extraction des dictionnaires Courbe de charge Dictionnaire de synonymes 09/02/2009 TETRALOGIE 15

Historique Architecture Contribution en analyse textuelle Détection des multi-termes termes Dictionnaire de mots vides Dictionnaire de multi-termes Dictionnaire de synonymes Seuil de détection statistique Traitement syntaxique Traitement morphologique Traitement statistique 09/02/2009 TETRALOGIE 16

Historique Architecture Contribution en analyse textuelle Croisements 2D Filtre positif ou négatif Dictionnaire de synonymes Matrice carrée Courbe de charge Matrice asymétrique 09/02/2009 TETRALOGIE 17

Historique Architecture Contribution en analyse exploratoire pour le traitement des matrices proposition de plusieurs algorithmes de tris génération supervisée e de matrices de croisement tableur 3D adapté aux matrices de grande taille (zooms 2 et 3D) pour les analyses multidimensionnelles visualisations interactives en 3D et 4 D synchronisation de cartes locales ou distantes visualisation de trajectoires et rotations procust visualisation de trajectoires et rotations procustéennes (AFCM) pour les classifications arbres hi arbres hiérarchiques interactifs avec exportation des classes partitionnement de graphes, graphes de classes segmentation pour les cartes géographiques g 09/02/2009 TETRALOGIE 18

Historique Architecture Contribution en analyse exploratoire Algorithmes de tris de matrices Tri par classes de connexité Tri par blocs diagonaux 09/02/2009 TETRALOGIE 19

Historique Architecture Contribution en analyse exploratoire Analyse en composantes principales (ACP) s applique aux données quantitative comme les tableaux individus x variables comme les tableaux individus x variables elle utilise un espace réduit r de 2 à 4 D Cartes deux des cartes coordonnées en sont en déduites d duites 4D celle des coordonnées des individus cercle de corrélation des variables Synchronisation Cercle des corrélations 09/02/2009 TETRALOGIE 20

Historique Architecture Contribution en analyse exploratoire Analyse factorielle des correspondances multiple (AFCM) nous l la 3 nous l appliquons aux matrices de cooccurrences 3D la 3 variable est le plus souvent le temps L AFC peut être appliquée à un des tableaux (les autres sont projetés) à tous les tableaux empilés à la somme des tableaux ( ( cas statique) Chaque ligne est représent sentée e par une série s de points On peut tracer des trajectoires 09/02/2009 TETRALOGIE 21

Historique Architecture Contribution Analyse procustéenne en analyse exploratoire Evolution non standard G2 G3 G1 Enlever: la translation moyenne la rotation moyenne l homoth homothétie tie moyenne G4 09/02/2009 TETRALOGIE 22

d Historique Architecture Contribution d = d M ( AB, ) = { d e ( xk, yl ) Max } e ( xk, yl ) k l méthode non supervisée d µ( AB, ) = kl, A B on a le choix de la distance (euclidienne, max, sigma, ) on a le choix du mode d agr d agrégation gation (centre, inf, sup, moyenne) elle part des éléments disjoints et agrège ge les plus proches elle construit des classes imbriquées la hiérarchie peut être représent sentée e par un dendogramme e AB, ) = d e ( gh, ) = ( g i h = ( i)² d m ( AB, ) { e ( k, l ) Min d x y } i 1, n kl, en analyse exploratoire Classification ascendante hiérarchique (CAH) plusieurs niveaux de coupure sont possibles on peut exporter la classification Niveau de coupure à 8 classes Niveau de coupure à 4 classes 09/02/2009 TETRALOGIE 23

Historique Architecture Contribution en analyse exploratoire Classification par partition CPP (Centres mobiles) supervisée k classes 1 représentant choix en 3D coloration icônes 4 classes 6 classes 09/02/2009 TETRALOGIE 24

Historique Architecture Contribution en visualisation Pondération par des données externes Carte en valeurs absolues Carte pondérée par la population Choix de la pondération Carte pondérée par le PNB Carte pondérée par la superficie 09/02/2009 TETRALOGIE 25

Historique Architecture Contribution en visualisation Segmentation et importation de classes Pays non présents dans la dernière période Pays en récession Pays en forte croissance Carte en mode relatif : étude de tendances Exportation d une classification Effectifs des classes Niveau de coupure 09/02/2009 TETRALOGIE 26.

Historique Architecture Contribution en visualisation Convergence Placement Placement rapide circulaire initial du placement en aléatoire fonction des d un sommets tri Algorithme de [Fruchterman91] Attraction : f a ( v v ) i, j Répulsion : = a ij d k fr ( vi, v j) = α ij d k ² r ij α a 09/02/2009 IRIT/SIG 27.

Historique Architecture Contribution en visualisation Graphe de clusters 09/02/2009 IRIT/SIG 28

Historique Architecture Contribution en visualisation Graphe partitionné 09/02/2009 IRIT/SIG 29

Historique Architecture Contribution en visualisation Graphe évolutif 09/02/2009 IRIT/SIG 30

Historique Architecture Contribution Bilan Philosophie de notre plate-forme c est un ensemble cohérent de prototypes inter-op opérants, qui utilise un standard unique pour le format des données, son interface graphique est homogène, elle permet de partager ressources et méthodes m via le réseau r seau. Son utilisation en recherche support d vaste base d support d é évaluation de méthodes, m d outils d et de produits d IE, d vaste base d exemples, à l échelle chelle,, déjà d analysés. s. Domaine d application d : la veille stratégique veille scientifique veille technologique veille scientifique (scientométrie, trie, indicateurs, évaluation) technologique (propriété industrielle, produits, procédés) veille économique (marchés, concurrents, substituts, ) 09/02/2009 TETRALOGIE 31

Historique Architecture Contribution Perspectives Dans le cadre de l Intelligence l économique conomique, cette approche doit permettre le recueil, le suivi, le traitement, la diffusion ciblée e et la protection de l information l stratégique l acc accès s systématique à l information implicite l é émulation des compétences via les réseaux r une culture collective interne (partage et émulation) une culture collective externe (logique de réseau r d acteurs) d éventuellement, une culture proactive (influence, lobbying, contre-information/rumeurs, extraction des signaux faibles, décryptage des réseaux, r seaux, ) 09/02/2009 TETRALOGIE 32