De la veille à l intelligence économique : le Data Mining et le Text Mining Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d Information d Généralis G ralisés s (SIG) Université Paul Sabatier (Toulouse III)
Plan de la présentation Historique Définitions et buts La veille stratégique Le multidimensionnel Les classifications Architecture Interactivité Travail en équipe Principe général Contribution en analyse textuelle en analyse exploratoire en géostratégie en dessin de graphes bilan perspectives 09/02/2009 TETRALOGIE 2
Historique Architecture Contribution Historique Définitions et buts mémoriser & organiser Veille stratégique Informations élaborées analyser & interpréter Informations utiles diffuser l information endogène valider et diffuser l information exogène Scénarios Secteurs d activit d activité Stratégie Connaissance Connaissance diffusion restreinte élaborer choisir synthétiser Décideur évaluer & collecter Sources identifier & sélectionner déterminer & hiérarchiser Cibles Cycle de l intelligence économique 09/02/2009 TETRALOGIE 3
Historique Architecture Contribution Historique Définitions et buts Etudier l environnement l et l é l évolution Des marchés Des coopérations Des alliances Des fusions Des acquisitions Des participations Des implantations De l'innovation Des ruptures Des transferts de technologie Des dépôts d de brevets Des équipes de recherche De la terminologie Des sources d information d Des publications De la mode De la publicité Des appels d'offres 09/02/2009 TETRALOGIE 4
Historique Architecture Contribution Historique Définitions et buts Depuis toutes les sources d information d électronique Bases bibliographiques Web of science (SCI) Pascal, Francis (CNRS) Chemical abstract, Biosis Current Contents, Inspec, Cnki, Cqvip (Chine), Serveurs spécialis cialisés Dialog, Stn Questel, Derwent, Presse Factiva, Journaux électroniques Afp, Reuters, Internet Brevets : Uspto, Esp@cenet Bio: Pubmed, Biospace Pages web, sites web Blogs, news-groups Flux RSS, Intranet SI propriétaire/sgbd Data warehouse Indexations Web-logs Mails, Streams, 09/02/2009 TETRALOGIE 5
Historique Architecture Contribution Historique Définitions et buts Information explicite Information implicite 09/02/2009 TETRALOGIE 6
Historique Architecture Contribution Historique Définitions et buts l information explicite (exogène) l information implicite (endogène) Maturité de l information L information consciente collective (CC) L information consciente individuelle (CI) L information inconsciente collective (IC) L information inconsciente individuelle (II) La terminologie émergente Les concepts émergents cohérence, simultanéité, consensus 09/02/2009 TETRALOGIE 7
Historique Architecture Contribution Historique La veille stratégique Le processus de veille stratégique comporte 5 phases : la sélection s des données utiles : terminologie, dates, acteurs (auteurs, organismes, pays ) la préparation paration des données : pré-traitements : nettoyages [Zipf49], synonymies [Porter80] transformations : modèle de représentation des données [Salton89] l analyse des données: classifications, règles r d'associations, séquences, s... l interpr interprétation tation et l é l évaluation : basées en grande partie sur les visualisations l exploitation et donc la prise de décision d 09/02/2009 TETRALOGIE 8
Historique Architecture Contribution Historique Le multidimensionnel Les analyses multidimensionnelles Fondements : Spearman & Pearson dès d s 1904 Analyse canonique et ACP : [Hotteling35] Analyse des correspondances : [Hirschfeld35] et [Guttman41] Analyse procustéennes : [Schonemann65] En France Analyse Factorielle des Correspondances : [Benzécri73] Analyse de deux tableaux : [Lafosse85] Compléments ments en analyse procustéenne : [Fichet87] 09/02/2009 TETRALOGIE 9
Historique Architecture Contribution Historique Les classifications Classifications Taxonomie par CAH [Sokal63] Centres mobiles [Forgy65] Nuées dynamiques [Diday71] Partitionnements Itératifs : Minimisation de la coupure [KL70], [FM82] Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91] Multi-niveaux : regroupement + itératif KMETIS [Karypis98] Stochastiques : Markov CLustering [Van Dongen00] 09/02/2009 TETRALOGIE 10
Historique Architecture Etat de l art Contribution Interactivité Pourquoi un système interactif? En Amont de l analyse l l interactivit l interactivité sert à : choisir les sources d information d mettre au point les équations de recherche évaluer les corpus (volume, pertinence, bruit) choisir et valider le format optimal de sortie superviser la collecte du corpus contrôler les dictionnaires (forme et volume) choisir les filtres (+ et -,, thématiques, granularité,,...) valider les synonymies et l indexation l (Multi-termes) termes) 09/02/2009 TETRALOGIE 11
Historique Architecture Etat de l art Contribution Interactivité Pourquoi un système interactif? Pendant l analyse l elle permet de sélectionner et contrôler les matrices de croisement choisir les méthodes m à déployer piloter ces méthodes m (localement ou à distance) extraire les connaissances via les visualisations choisir les vues à conserver consulter les experts via le réseau r restituer l analyse l au décideur 09/02/2009 TETRALOGIE 12
Historique Architecture Etat de l art Contribution Documentaliste Travail en équipe Connexions entre acteurs de la veille Décideur BD CD Serveur Web Expert Analyste 09/02/2009 TETRALOGIE 13
Historique Architecture Etat de l art Contribution Principe général BD 1' Corpus 1 Dico 1 Cooc CD Web Corpus 2 Corpus 3 Corpus 4 Métadonnées Métadonnées Métadonnées Métadonnées Métadonnées Métadonnées Méta 2 Niv. Dico Dico 09/02/2009 TETRALOGIE 14 2 3 3 D X
Historique Architecture Contribution Dictionnaire + ou - en analyse textuelle Extraction des dictionnaires Courbe de charge Dictionnaire de synonymes 09/02/2009 TETRALOGIE 15
Historique Architecture Contribution en analyse textuelle Détection des multi-termes termes Dictionnaire de mots vides Dictionnaire de multi-termes Dictionnaire de synonymes Seuil de détection statistique Traitement syntaxique Traitement morphologique Traitement statistique 09/02/2009 TETRALOGIE 16
Historique Architecture Contribution en analyse textuelle Croisements 2D Filtre positif ou négatif Dictionnaire de synonymes Matrice carrée Courbe de charge Matrice asymétrique 09/02/2009 TETRALOGIE 17
Historique Architecture Contribution en analyse exploratoire pour le traitement des matrices proposition de plusieurs algorithmes de tris génération supervisée e de matrices de croisement tableur 3D adapté aux matrices de grande taille (zooms 2 et 3D) pour les analyses multidimensionnelles visualisations interactives en 3D et 4 D synchronisation de cartes locales ou distantes visualisation de trajectoires et rotations procust visualisation de trajectoires et rotations procustéennes (AFCM) pour les classifications arbres hi arbres hiérarchiques interactifs avec exportation des classes partitionnement de graphes, graphes de classes segmentation pour les cartes géographiques g 09/02/2009 TETRALOGIE 18
Historique Architecture Contribution en analyse exploratoire Algorithmes de tris de matrices Tri par classes de connexité Tri par blocs diagonaux 09/02/2009 TETRALOGIE 19
Historique Architecture Contribution en analyse exploratoire Analyse en composantes principales (ACP) s applique aux données quantitative comme les tableaux individus x variables comme les tableaux individus x variables elle utilise un espace réduit r de 2 à 4 D Cartes deux des cartes coordonnées en sont en déduites d duites 4D celle des coordonnées des individus cercle de corrélation des variables Synchronisation Cercle des corrélations 09/02/2009 TETRALOGIE 20
Historique Architecture Contribution en analyse exploratoire Analyse factorielle des correspondances multiple (AFCM) nous l la 3 nous l appliquons aux matrices de cooccurrences 3D la 3 variable est le plus souvent le temps L AFC peut être appliquée à un des tableaux (les autres sont projetés) à tous les tableaux empilés à la somme des tableaux ( ( cas statique) Chaque ligne est représent sentée e par une série s de points On peut tracer des trajectoires 09/02/2009 TETRALOGIE 21
Historique Architecture Contribution Analyse procustéenne en analyse exploratoire Evolution non standard G2 G3 G1 Enlever: la translation moyenne la rotation moyenne l homoth homothétie tie moyenne G4 09/02/2009 TETRALOGIE 22
d Historique Architecture Contribution d = d M ( AB, ) = { d e ( xk, yl ) Max } e ( xk, yl ) k l méthode non supervisée d µ( AB, ) = kl, A B on a le choix de la distance (euclidienne, max, sigma, ) on a le choix du mode d agr d agrégation gation (centre, inf, sup, moyenne) elle part des éléments disjoints et agrège ge les plus proches elle construit des classes imbriquées la hiérarchie peut être représent sentée e par un dendogramme e AB, ) = d e ( gh, ) = ( g i h = ( i)² d m ( AB, ) { e ( k, l ) Min d x y } i 1, n kl, en analyse exploratoire Classification ascendante hiérarchique (CAH) plusieurs niveaux de coupure sont possibles on peut exporter la classification Niveau de coupure à 8 classes Niveau de coupure à 4 classes 09/02/2009 TETRALOGIE 23
Historique Architecture Contribution en analyse exploratoire Classification par partition CPP (Centres mobiles) supervisée k classes 1 représentant choix en 3D coloration icônes 4 classes 6 classes 09/02/2009 TETRALOGIE 24
Historique Architecture Contribution en visualisation Pondération par des données externes Carte en valeurs absolues Carte pondérée par la population Choix de la pondération Carte pondérée par le PNB Carte pondérée par la superficie 09/02/2009 TETRALOGIE 25
Historique Architecture Contribution en visualisation Segmentation et importation de classes Pays non présents dans la dernière période Pays en récession Pays en forte croissance Carte en mode relatif : étude de tendances Exportation d une classification Effectifs des classes Niveau de coupure 09/02/2009 TETRALOGIE 26.
Historique Architecture Contribution en visualisation Convergence Placement Placement rapide circulaire initial du placement en aléatoire fonction des d un sommets tri Algorithme de [Fruchterman91] Attraction : f a ( v v ) i, j Répulsion : = a ij d k fr ( vi, v j) = α ij d k ² r ij α a 09/02/2009 IRIT/SIG 27.
Historique Architecture Contribution en visualisation Graphe de clusters 09/02/2009 IRIT/SIG 28
Historique Architecture Contribution en visualisation Graphe partitionné 09/02/2009 IRIT/SIG 29
Historique Architecture Contribution en visualisation Graphe évolutif 09/02/2009 IRIT/SIG 30
Historique Architecture Contribution Bilan Philosophie de notre plate-forme c est un ensemble cohérent de prototypes inter-op opérants, qui utilise un standard unique pour le format des données, son interface graphique est homogène, elle permet de partager ressources et méthodes m via le réseau r seau. Son utilisation en recherche support d vaste base d support d é évaluation de méthodes, m d outils d et de produits d IE, d vaste base d exemples, à l échelle chelle,, déjà d analysés. s. Domaine d application d : la veille stratégique veille scientifique veille technologique veille scientifique (scientométrie, trie, indicateurs, évaluation) technologique (propriété industrielle, produits, procédés) veille économique (marchés, concurrents, substituts, ) 09/02/2009 TETRALOGIE 31
Historique Architecture Contribution Perspectives Dans le cadre de l Intelligence l économique conomique, cette approche doit permettre le recueil, le suivi, le traitement, la diffusion ciblée e et la protection de l information l stratégique l acc accès s systématique à l information implicite l é émulation des compétences via les réseaux r une culture collective interne (partage et émulation) une culture collective externe (logique de réseau r d acteurs) d éventuellement, une culture proactive (influence, lobbying, contre-information/rumeurs, extraction des signaux faibles, décryptage des réseaux, r seaux, ) 09/02/2009 TETRALOGIE 32