Analyse de données textuelles Panorama des fonctions, des méthodes et des usages



Documents pareils
Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Entrepôt de données 1. Introduction

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Analyse de grandes bases de données en santé

TRAVAUX DE RECHERCHE DANS LE

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Le géomarketing - Page 1 sur 7

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Le cinquième chapitre

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Introduction à la B.I. Avec SQL Server 2008

Big Data et Graphes : Quelques pistes de recherche

Agenda de la présentation

QU EST-CE QUE LE DECISIONNEL?

La problématique. La philosophie ' ) * )

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

IAFACTORY. sommaire MATERIALIZE YOUR NEXT SUCCESS. offres en architecture de l information cartographie. principes. objectifs.

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Didier MOUNIEN Samantha MOINEAUX

THOT - Extraction de données et de schémas d un SGBD

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) mai 2008

ISTEX, vers des services innovants d accès à la connaissance

Business & High Technology

Introduction au datamining

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Business Intelligence : Informatique Décisionnelle

Big Data et Marketing : les competences attendues

RÉSUMÉ DESCRIPTIF DE LA CERTIFICATION (FICHE RÉPERTOIRE)

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

DEMANDE DE SOUTIEN - RAVIV. Fonds de Soutien à l Initiative et à la Recherche

ANALYSE DU BESOIN. L ANALYSE FONCTIONNELLE par Jean-Marie VIRELY & all (ENS Cachan) Cette présentation décrit l outil «Analyse du Besoin».

Big Data et Graphes : Quelques pistes de recherche

DOSSIER DE CANDIDATURE

Une Démarche pour la sélection d outils de cartographie des processus métiers

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Guide de référence pour l achat de Business Analytics

Extraction des Connaissances à partir des Données (ECD)

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Apprentissage Automatique

Customer Intelligence

BLANC LIVRE. Data Discovery L alternative à la BI?

Travailler avec les télécommunications

LIVRE BLANC Décembre 2014

Introduction à la Fouille de Données (Data Mining) (8)

Présentation des CMS au CIFOM-EAA

Spécificités, Applications et Outils

IAFACTORY. sommaire MATERIALIZE YOUR NEXT SUCCESS. étude marketing, expérience utilisateur, ergonomie étude concurrentielle. principes.

Le concept de veille. Définitions. Définition de l AFNOR

Guide de référence pour l achat de Business Analytics

White Paper ADVANTYS. Workflow et Gestion de la Performance

BI = Business Intelligence Master Data-Science

Présentation de la majeure ISN. ESILV - 18 avril 2013

DEMANDE D INFORMATION RFI (Request for information)

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)


Une plateforme de recherche et d expérimentation pour l édition ouverte

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Dell Software International Limited City Gate Park Mahon Cork Ireland

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Référentiels de représentation des contenus

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

La classification automatique de données quantitatives

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Gestion collaborative de documents

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

données en connaissance et en actions?

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Personnalisation et recommandation * ENEIDE

Présentations personnelles. filière IL

MONIWEB Analyse de l image sur le Web 2.0

Marc SALLIERES CEO ALTIC

Les Entrepôts de Données

Intelligence Economique - Business Intelligence

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Extraction d informations stratégiques par Analyse en Composantes Principales

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Université Libre de Tunis

LICENCE : INFORMATIQUE GENERALE

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Transcription:

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Sylvie Dalbin Assistance & Techniques Documentaires DocForum, Le 17 Novembre 2005

Déroulé de l'intervention (1) 1. Définition et historique 2. Des usages qui se multiplient 3. Fonctions et techniques de traitement 4. Compétences et perspectives Sylvie Dalbin - ATD DocForum 2005 2

Analyse de données textuelles (ADT) De quoi parle-t-on? Démarches, méthodes et techniques offrant une vision globale d un corpus textuel, et mettant en exergue des relations entre les données, relations jusque-là non repérées et potentiellement utiles Produire de la connaissance à partir de données brutes Sylvie Dalbin - ATD DocForum 2005 3

Ancrage historique 1. Les bases - Avant - 1969-1970 Avant l informatique 1960-1969 : Sociologie des sciences 1970: Mathématiques Traitement automatique des langues 2. Développements «localisés» Avant - 1970-1990 1970 : Informatique décisionnelle > Data mining 1979-1990 : Sociologie des sciences > Text mining 3. Déploiements - Arrivée du Web Depuis 1990 Datamining and knowledge discovery Composants logiciels Sylvie Dalbin - ATD DocForum 2005 4

Evolution terminologique Extraction, découverte de connaissances dans des bases de données (KDD) IA et apprentissage automatique Incorporer les connaissances du domaine Data mining Statisticiens, analystes de données Exploitation d algorithmes Analyse statistique exploratoire des données multidimensionnelles, numériques, qualitatives et textuelles Text mining Sylvie Dalbin - ATD DocForum 2005 5

Constats Les informations (masse, flux) sont sousexploitées et difficiles à traiter L accès à l information «à l unité» est insuffisant - analyse inter-documents Les activités fortement liées à l information sont complexes et «mangeuses de temps» Des outils d aide Des produits d information synthétiques Sylvie Dalbin - ATD DocForum 2005 6

Déroulé de l'intervention (2) 1. Définition et historique 2. Des usages qui se multiplient 3. Fonctions et techniques de traitement 4. Compétences et perspectives Sylvie Dalbin - ATD DocForum 2005 7

Usages Finalités d actions variées Evaluation et analyse prospective Spécificité des indicateurs à étudier et des ressources à exploiter Des usages différenciés - tout secteur IA, Stratégie, Gestion des connaissances, Qualité (dans son travail), Aide à la recherche d information Sylvie Dalbin - ATD DocForum 2005 8

Déroulé de l'intervention (3) 1. Définition et historique 2. Des usages qui se multiplient 3. Fonctions et techniques de traitement 4. Compétences et perspectives Sylvie Dalbin - ATD DocForum 2005 9

Analyse de données textuelles 3 fonctions clés Fonctions-clés Modéliser Traitements Normaliser et nettoyer Traitements linguistiques Etablissement d une représentation modélisée Faire émerger du sens activer le processus de fouille Fouille, extraction, traitements. A plat, dans le temps Visualiser et interpréter Graphes et cartographies Sylvie Dalbin - ATD DocForum 2005 10

Technologies mises en oeuvre 1. Traitements linguistiques et sémantiques Passer des chaînes de caractères - mots aux notions Prendre en compte des usages et des contextes (ressources terminologiques) 2. Analyse de données, statistiques Mettre en relief les structures pertinentes d'un ensemble de données Sylvie Dalbin - ATD DocForum 2005 11

Technologies mises en oeuvre 3. Technique de classification automatique Organiser des masses de documents Explorer et mettre en valeur des contenus 4. Techniques de schématisation - cartographie Produire une représentation visuelle, synthétique > aide à l'analyse et à la compréhension de phénomènes 5. Approche «modélisation» de situation Prise en compte d un contexte précis Sylvie Dalbin - ATD DocForum 2005 12

Evolution des modes de représentation Mots clés Indicateur de contenu d un document Classes Indicateurs de thèmes ou centres d intérêts Cartes Indicateurs de relations Positionnement dans l'espace (noeuds et liens) :Avec ou Sans signification Valeur d'un noeud : un document, regroupement de documents, regroupement d'information Sylvie Dalbin - ATD DocForum 2005 13

Apports de ces méthodes et techniques En amont, structurer sa pensée Identifier les éléments à traiter, choisir les modes de représentation Support de réflexion et de questionnement Explorer, faire émerger et rendre visible Mais fouiller n est pas trouver En aval, support d idées, de présentation outil de communication Un dessin plutôt qu un rapport Mais une carte n est pas le territoire Sylvie Dalbin - ATD DocForum 2005 14

Limites et biais Constitution des corpus Traitements amont Techniques d'analyse Infographie ; lecture "erronée" de graphiques Sylvie Dalbin - ATD DocForum 2005 15

Déroulé de l'intervention (4) 1. Définition et historique 2. Des usages qui se multiplient 3. Fonctions et techniques de traitement 4. Compétences et perspectives Sylvie Dalbin - ATD DocForum 2005 16

Des compétences nécessaires Intégrer les principes sous-jacents Interpréter les résultats Comprendre l ensemble des techniques mathématiques mises en œuvre S approprier, faire sien les résultats Sylvie Dalbin - ATD DocForum 2005 17

Perspectives Consolider les techniques existantes Prendre en charge toutes les ressources utiles Etendre les usages Sylvie Dalbin - ATD DocForum 2005 18