JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire



Documents pareils
Extraction d informations stratégiques par Analyse en Composantes Principales

SUGARCRM MODULE RAPPORTS

«La pomme qui voulait voyager»

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Créer son blog pas à pas

IDEOGRAPHIX, BUREAU De lecture

Lucile Cognard. S identifier à son symptôme

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Apprentissage Automatique

FEN FICHE EMPLOIS NUISANCES

Guide de réalisation d une campagne marketing

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var - E mail : bij@agasc.fr / Tel : CONSIGNE N 1 :

Tune Sweeper Manuel de l'utilisateur

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h)

Travaux pratiques avec RapidMiner

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

N SIMON Anne-Catherine

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Introduction à Business Objects. J. Akoka I. Wattiau

Créer un tableau avec LibreOffice / Calc

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

BIRT (Business Intelligence and Reporting Tools)

GUIDE D UTILISATION DU BACKOFFICE

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Guide de démarrage rapide. (pour la version 5.0.)

Ressources lexicales au service de recherche et d indexation des images

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Formation tableur niveau 1 (Excel 2013)

Les Enseignants de l Ere Technologique - Tunisie. Niveau 1

LIVRE BLANC Décembre 2014

Définir la gestion de projets 11. Exploiter les techniques de gestion de projets 11. Planifier un projet 12. Lister les tâches et les jalons 13

Emmanuel CROMBEZ 30 mai 2015

SweetyPix, mode d'emploi

Formation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

ou clic objet. R rouge B bleu : 65 Le fond votre travail en P :. d étoiles dupliquer. Esbly Page 1 / 5

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

ANALYSE TEXTUELLE DE TRAVAUX DE JEAN-PIERRE BARTHÉLEMY. Marc LE POULIQUEN 1,2

SOMMAIRE AIDE À LA CRÉATION D UN INDEX SOUS WORD. Service général des publications Université Lumière Lyon 2 Janvier 2007

Outils permettant la diffusion de l information. Un point sur le droit numérique

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Once the installation is complete, you can delete the temporary Zip files..

Fête de la science Initiation au traitement des images

Académie de Créteil. Projet présenté autour de l album «Trois souris peintres» d Ellen Stoll Walsh

Customer Intelligence

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

TD d économétrie appliquée : Introduction à STATA

Analyser le texte des enquêtes

La place de SAS dans l'informatique décisionnelle

TEXT MINING Tour d Horizon

Guide de l'utilisateur : Surveillance MédiaSource Analytique

Inspiration 7.5. Brève description d Inspiration. Avantages d Inspiration. Inconvénients d Inspiration

ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE

Troisième projet Scribus

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Guide de démarrage Tradedoubler. Manuel éditeur / affilié

79140 CERIZAY. Collège G. CLEMENCEAU. Page 1 sur 18

Créer un panorama animé à 360

Extraction de caractéristiques visuelles d'images médicales pour la recherche par similitude et l'aide au diagnostic

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

Séquence 9. Étudiez le chapitre 11 de physique des «Notions fondamentales» : Physique : Dispersion de la lumière

Référencement Vendredi 4 Juillet Ile Degaby

Découvrir OpenOffice Comment optimiser et formater votre ebook avec OpenOffice

Planifier et contrôler un projet avec Microsoft Project

I. COMMENT SOUMETTRE VOTRE CANDIDATURE

Initiation au logiciel imovie HD

Gestion de projet. GanttProject Didacticiel V novembre Gérard Gervois Frédéric Giamarchi

VÉRIFICATEUR ORTHOGRAPHIQUE POUR LE BAMBARA PRÉSENTATION & MODE D'EMPLOI

GESTION REGIONS MANUEL.

CATALOGUE Parcours de Formations E-Learning BILAN FORMATION STAGE. e-learning

Créer des documents interactifs

1. Visualiser la «carte» de mon réseau social

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Plateforme de capture et d analyse de sites Web AspirWeb

MODULES 3D TAG CLOUD. Par GENIUS AOM

Méthodologie du dossier. Epreuve d histoire de l art

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Décompresser, créer une archive au format «ZIP»

Solutions en ligne Guide de l utilisateur

Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA (d'après A.-M. Hugues) màj 17/04/2007

Guide du maître MODULE TICE. Recherche sur Internet. Mise en forme d exposé et insertion d image. Envoi de fichiers joints

GUIDE Excel (version débutante) Version 2013

Excel 2007 Niveau 3 Page 1

Transcription:

JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université Montpellier 2 / CNRS)

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Nuage arboré, une information double hiérarchie des mots occurrences hiérarchie des concepts cooccurrences construit avec SplitsTree : Huson 1998, Huson & Bryant 2006 TreeCloud en Python, license GPL disponible sur http://www.treecloud.fr

Nuages de tags Construits depuis un ensemble de tags Taille de police liée à la fréquence Ce qui est habituellement cité comme le premier nuage de tags, dans Microserfs de D. Coupland, HarperCollins, Toronto, 1995

Nuages de mots Construits depuis l'ensemble des mots d'un texte Taille de police liée à la fréquence Se sont popularisés avec Wordle Donnent un bon aperçu d'un texte Nuages Wordle des mots les plus utilisés début 2009 dans les blogs des Top 100 politique et high-tech de Wikio http://aixtal.blogspot.com/2009/04/web-de-quoi-parlent-les-blogs.html Extrait d'un nuage des mots des titres des 800 articles présentés à ce jour aux conférences JADT http://www.ledonline.it/ledonline/jadt-2010.html

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex)

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Brunet, Les séquences (suite), JADT'08

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Mayaffre, Quand travail, famille, et patrie cooccurrent dans le discours de Nicolas Sarkozy, JADT'08

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Peyrat-Guillard, Analyse du discours syndical sur l entreprise, JADT'08

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Leblanc, Martinez L'analyse contrastive des réseaux de cooccurrence JADT 2006.

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Désambiguïsation du mot barrage. Véronis, HyperLex: Lexical Cartography for Information Retrieval, 2004

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Visualisation PhraseNet de paroles des Beatles créé avec Many Eyes (IBM) http://many-eyes.com http://visualthinkmap.ning.com/photo/phrasenet_beatles-many-eyes

Extraire l'information sémantique d'un texte analyse arborée graphe de coocurrence graphe sémantique lexicogramme récursif désambiguïsation lexicale réseau Phrasenet projection géodésique Brunet (Hyperbase) Brunet (Hyperbase) Grimmer (Wordmapper) Martinez (Coocs) Véronis (Hyperlex) Viegas et al. (IBM Many Eyes) Viprey (Astartex) Barry, Viprey, Approche comparative des résultats d'exploration textuelle des discours de deux leaders africains Keita et Touré, JADT'08

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale Nuage arboré des mots apparaissant 5 fois ou plus dans cet article JADT, distance Liddell, fenêtre de 20 mots, coloration Yahoo

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale Nuage arboré des mots apparaissant 5 fois ou plus dans cet article JADT, distance Liddell, fenêtre de 20 mots, coloration chronologique rouge : début de l'article bleu : fin de l'article

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale Nuage arboré des mots apparaissant 5 fois ou plus dans cet article JADT, distance Liddell, fenêtre de 20 mots, coloration dispersion rouge : peu dispersé bleu : dispersé

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale Nuage arboré des mots apparaissant 5 fois ou plus dans cet article JADT, distance Liddell, fenêtre de 20 mots, coloration ciblée sur le mot cooccurrence rouge : cooccurrents de cooccurrence

Des couleurs pour guider la lecture coloration selon les fréquences coloration chronologique coloration de la dispersion coloration ciblée sur un mot coloration grammaticale Nuage arboré des mots apparaissant 5 fois ou plus dans cet article JADT, distance Liddell, fenêtre de 20 mots, coloration personnalisée, à partir d'un étiquetage TreeTagger noms adjectifs verbes noms propres

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Processus de construction Import/export Concordance d'un mot, lemmatisation ou remplacements divers... Texte Suppression des mots vides Sélection des mots Recherche des cooccurrences Calcul des cooccurrences Construction de l'arbre Tailles des mots Couleurs des mots Dessin du nuage arboré

Processus de construction Import/export Proposé dans TreeCloud Concordance d'un mot, lemmatisation ou remplacements divers... Texte Suppression des mots vides Mots significatifs Liste de mots et occurrences Matrice CSV Méthodes UPGMA, NJ Sélection des mots Recherche des cooccurrences Calcul des cooccurrences Construction de l'arbre n mots les plus fréquents, mots apparaissant plus de n fois, ou liste personnalisée Fenêtre de cooccurrence paramétrée par taille et pas de glissement, ou caractère séparateur 12 formules de cooccurrence Appel transparent à SplitsTree Tailles des mots Fréquences ou valeurs personnalisées Couleurs des mots Fréquences, chronologie, dispersion, ciblées sur la cooccurrence d'un mot, ou valeurs personnalisées Dessin du nuage arboré Appel à SplitsTree ou Dendroscope Mots significatifs Export à divers formats antidico anglais, français

Construction les cooccurrences De nombreuses formules de distance sémantique utilisent la cooccurrence. Texte fenêtre glissante S Pas de glissement s largeur w matrices de cooccurrence O11, O12, O21, O22 matrice de dissimilarité sémantique chi squared, mutual information, liddel, dice, jaccard, gmean, hyperlex, minimum sensitivity, odds ratio, zscore, log likelihood, poisson-stirling... Evert, Statistics of words cooccurrences, thèse, 2005 Gambette, User manual for TreeCloud, 2009

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Implémentations Logiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java) www.treecloud.org www.splitstree.org

Implémentations Logiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)

Interface web www.treecloud.org Interface basée sur le logiciel libre NuageArboré de JeanCharles Bontemps, en C, CGI/Python, et JavaScript. http://sourceforge.net/projects/ nuagearbor/

Interface web www.treecloud.org

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Emplois du nuage arboré susciter, formaliser et étayer des hypothèses de travail comparer des textes selon leur représentation arborée hiérarchiser l'utilisation d'autres outils textométriques représenter les résultats de l'analyse

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Spécificités d'emploi de «Rome», «liberté» et «empire» chez les différents personnages de Cinna dans Lexico3.

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuage arboré des 50 mots les plus fréquents des paroles d'auguste dans Cinna

Illustration sur Cinna et Othon Nuage arboré des 50 mots les plus fréquents des paroles d'auguste dans Cinna

Illustration sur Cinna et Othon Carte des sections Lexico3 et contextes de «amis» dans les paroles d'auguste dans Cinna. 1. Voilà, mes chers amis, ce qui me met en peine. 2. Quoi! mes plus chers amis! quoi! Cinna! quoi! Maxime! 3. Reprenez le pouvoir que vous m'avez commis, Si donnant des sujets il ôte les amis 4. Soyons amis, Cinna, c'est moi qui t'en convie 5. Il nous a trahis tous ; mais ce qu'il a commis Vous conserve innocents, et me rend mes amis.

Illustration sur Cinna et Othon Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)

Illustration sur Cinna et Othon Nuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche par rapport aux cooccurrences avec «Othon», à droite par rapport à celles avec «Galba»

Illustration sur Cinna et Othon Nuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche par rapport aux cooccurrences avec «Othon», à droite par rapport à celles avec «Galba»

Illustration sur Cinna et Othon Nuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche par rapport aux cooccurrences avec «Othon», à droite par rapport à celles avec «Galba»

Illustration sur Cinna et Othon Nuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et colorés d'après leur spécificité calculée dans Lexico3.

Illustration sur Cinna et Othon mots spécifiques de Cinna et Othon d'après Lexico3 Cinna Othon Lieu du pouvoir et objet de la confrontation entre les personnages Rome («liberté») Empire («trône») Souverain en place tyran Empereur Membres du corps politique amis maîtres / seigneurs Moyens au service de la cause politique gloire amour matrimonial («amour», «hymen», «choix») Caractérisation de la pièce Pièce de FONDATION Pièce de SUCCESSION DYNASTIQUE

Illustration sur Cinna et Othon mots spécifiques de Cinna et Othon d'après Lexico3 Cinna Othon Lieu du pouvoir et objet de la confrontation entre les personnages Rome («liberté») Empire («trône») Souverain en place tyran Empereur Membres du corps politique amis maîtres / seigneurs Moyens au service de la cause politique gloire amour matrimonial («amour», «hymen», «choix») Caractérisation de la pièce Pièce de FONDATION Pièce de SUCCESSION DYNASTIQUE

Illustration sur Cinna et Othon mots spécifiques de Cinna et Othon d'après Lexico3 Cinna Othon Lieu du pouvoir et objet de la confrontation entre les personnages Rome («liberté») Empire («trône») Souverain en place tyran Empereur Membres du corps politique amis maîtres / seigneurs Moyens au service de la cause politique gloire amour matrimonial («amour», «hymen», «choix») Caractérisation de la pièce Pièce de FONDATION Pièce de SUCCESSION DYNASTIQUE

Plan Le nuage arboré : occurrence + cooccurrence Des couleurs pour guider la lecture Processus de construction Implémentations Emplois du nuage arboré Illustration sur Cinna et Othon Perspectives

Perspectives intégration de la visualisation en nuages arborés dans les outils de textométrie existants par des interfaces d'import/export adaptées pour faciliter le retour au texte amélioration des méthodes de construction transformée de Farris pour le calcul des distances algorithme de Luong pour le calcul de l'arbre http://www.treecloud.org

Question Limites sur la taille du corpus pour utiliser TreeCloud? 30 secondes pour la construction du nuage arboré de l'ensemble des discours de campagne de Barack Obama (>300 000 mots)