Détection, visualisation et validation d évènements médiatiques. INA/LaBRI - Benjamin Renoust EGC 20/06/11

Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Extraction d informations stratégiques par Analyse en Composantes Principales

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Big Data et Graphes : Quelques pistes de recherche

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Travaux pratiques avec RapidMiner

Analyse des réseaux : Une introduction à Pajek

ISTEX, vers des services innovants d accès à la connaissance

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Apprentissage Automatique

L'entreprise face aux réseaux sociaux

mission. Le premier poste du programme de travail du DREV vise la qualification, la quantification et le suivi

FaceBook aime les Maths!

Utiliser un tableau de données

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Transmission d informations sur le réseau électrique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Gestion collaborative de documents

Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

BIG Data et R: opportunités et perspectives

Big Data for Media Analysis Analyser les médias à partir de larges corpus de données numériques

L'analyse des données à l usage des non mathématiciens

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

3 propos illustrant la transformation numérique de PagesJaunes Groupe

µrv : Realité Virtuelle

Voisinage et intrication dans les réseaux multiplexes

TRAVAUX DE RECHERCHE DANS LE

Introduction : présentation de la Business Intelligence

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Enjeux mathématiques et Statistiques du Big Data

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

CarrotAge, un logiciel pour la fouille de données agricoles

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Entrepôt de données 1. Introduction

Système de gestion de contenu

LES FICHES Domaines. Domaine D1. Travailler dans un environnement numérique

Communications immersives : Enjeux et perspectives

Mesure agnostique de la qualité des images.

SERVEUR NAS «Comprendre l'utilité d'un NAS c'est l'adopter!»

TP SIN Traitement d image

Présentation des CMS au CIFOM-EAA

Manuel d utilisation du site web de l ONRN

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

ACQUISITION ANALYSE PRÉSENTATION

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Concevoir sa stratégie de recherche d information

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

GEWISS FRANCE S.A.S. CODE D ETHIQUE INFORMATIQUE

La recherche en train de se faire: les cahiers de recherche en ligne. Aboubekeur ZINEDDINE

Analyse de performance, monitoring

Observatoire Orange Terrafemina

Dispositif sur budget fédéral

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Tablettes dans l éducation. Retours d expérimentation et éléments d industrialisation

Projet de Portail des thèses. SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Quels apprentissages info-documentaires au collège?

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

Politique de sécurité de l information et des technologies. Direction des systèmes et technologies de l information

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

Introduction au Data-Mining

Big Graph Data Forum Teratec 2013

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Enseignement secondaire technique. Technologies de l'information et de la communication

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

David Guez.

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

Communiquez différemment

Protégez-vous du vol de données en renforçant la sécurité de vos procédures d identification lors des connexions distantes

Développement d outils de navigation hypermédia (images) pour dispositifs mobiles (Android)

BREVE PRESENTATION DU SERVICE «EDITEURS ACADEMIQUES ENLIGNE» ELISABETH DE PABLO (MSH- ESCOM, 1997)

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

données en connaissance et en actions?

MEDIAplus elearning. version 6.6

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Comment enregistrer simplement toute musique restituée par votre PC

TEXT MINING von 7

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Clustering pour l optimisation de la durée de vie des réseaux de capteurs sans fil.

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Transcription:

Interface d'exploration et de manipulation pour la détection d'évènements médiatiques Contrainte : Mettre l'utilisateur au centre du système Objectifs : Produire des cartes visuelles Retour sur la qualité des évènements proposés par le système Validation ou invalidation des résultats Corrélation avec des vues complémentaires Manipulation des critères de visualisation Possibilité de filtrage et de raffinement 2

Cadre du projet Observatoire TransMedia (OTMedia[1]) (projet ANR) Objectif du projet : Analyse de la propagation des évènements médiatiques sur la TV, la radio, la presse, le web et twitter Tâches : capture, analyse linguistique, analyse audio, analyse d'image, moteur de recherche et indexation, fouille de données, visualisation, analyse en sciences sociales Sources : + de 300 acteurs nationaux dépêches AFP, 15 chaînes TV, 10 en radio, 15 journaux, 250 blogs et sites web (sites institutionnels, politiques, commentateurs ) et ~20000 fils twitter Partenaires : AFP, CIM-Paris 3, Ina, INRIA, LIA, Syllabs [1] http://www.otmedia.fr 3

Visualisation Objectifs : apporter des visualisations interactives à différents niveaux pour faciliter l'analyse SHS du paysage informationnel Besoins : agrégation de sujets d information pour identification et quantification des évènements médiatiques et de leurs caractéristiques (sources impliquées, sémantique, répartition temporelle, dynamique de diffusion ) modélisation du problème par un graphe de similarité entre documents (multicouches car plusieurs types de liens sont possibles, descripteurs visuels, descripteurs textuels, liens de reprises...) construction du graphe via les KNN extraits d une similarité cosinus entre les vecteurs de description des documents Caractéristiques : petit monde, scale free, grande taille (suivant l'échantillon) 4

Données Étude des JT de M6, sur 6 mois (V~1600 E~27000) chaque JT est divisé en sujets (1 sujet = 1 document, ~10 sujets/jt ) chaque sujet est annoté par une liste de descripteurs textuels (2 à 10 mots clefs définis par les documentalistes Ina, ou mots saillants extraits par TAL) 1 nœud = 1 document + descripteurs 1 lien = liste de descripteurs partagés par 2 documents des documents «proches» dans le modèle sont «sémantiquement proches» car partagent des descripteurs sémantiques 5

Événements médiatiques Selon les SHS [2] : un événement est un fait survenu dans la réalité un sujet médiatique propose un «cadrage narratif» d un évènement un évènement médiatique génère une densité forte de sujets médiatiques se rapportant à un même évènement Hypothèse 1 : deux sujets parlant d un même évènement sont proches sémantiquement Hypothèse 2 : un agrégat de documents implique peut être l'existence d'un événement médiatique Notre objectif est d éliminer les densités ne correspondant pas à des évènements: Certains regroupements ne sont que thématiques Polysémie et mots valises introduisent du bruit Une description trop fine ou large peut agréger ou isoler un document [2] L'écriture de l'actualité: pour une sociologie du discours médiatique, Jean-Pierre Esquenazi 2002 6

Visualisation des documents Besoins : Clustering des documents pour en extraire les évènements Rendu visuel de la carte médiatique des documents Layout à base de forces et clustering (diminue les distances intra-cluster et augmente les distances inter-clusters) : Edge Linlog layout d'andreas Noack[3] qui se rapproche d'un Modularity clustering[4] Paramètres par défaut : Répulsion logarithmique Attraction linéraire [3] Energy Models for Graph Clustering, Andreas Noack, 2007 [4] Modularity Clustering is Force-Directed Layout, Andreas Noack, 2008 7

Détection des évènements Après calcul du layout, filtrage de l'histogramme des longueurs d'arêtes par sélection du 1er % des valeurs de longueurs Détection des composantes connexes qui correspondent à des clusters 80% des documents appartiennent à un cluster Ajout des arêtes précédemment filtrées, internes aux clusters 40% des arêtes sont sélectionnées 8

Validation des évènements Certains clusters fédèrent le bruit Certains documents hors sujet sont ajoutés à un cluster Certains descripteurs rassemblent plusieurs évènements Objectif : retour utilisateur sur la qualité des évènements calculés On veut mesurer la «cohérence» d'un cluster Hypothèse : taux d'intrication des descripteurs dans un cluster est lié à sa cohérence 9

Mesure d'intrication Burt et Schott [5] s intéressent aux réseaux sociaux multiples. Ils cherchent à caractériser les groupes de personnes et la nature de leur relations : Ambiguïté des types de relation dans un réseau social Fréquence de co-occurrence de ces types entre deux individus dans le réseau Plus des types de relations apparaissent ensemble sur les liens du réseau, plus ces types sont considérés comme ambigus Dans notre contexte : Ambiguïté des relations = Intrication des descripteurs Types de relation = descripteurs Plus des descripteurs apparaissent ensemble dans un cluster, plus le cluster a de chances d'être cohérent /!\ mesure relative au cluster observé (Corrèze en politique et Corrèze en géographie) [4] Relation Contents in Multiple Networks, Ronald Burt et Thomas Schott, 1985 10

Mesure d'intrication intra cluster Construction de la matrice de fréquence des co-occurrences: C= cii cij avec cii = ni/n, ni nombre d'occurrences du type i cji...... N nombre de liens total cij = nij/ni, nij nombre d'occurrences du type i sachant le type j Évaluation de la mesure globale d'intrication λ (celle du type le plus intriqué) : λ = max(eigenval(c)) Le vecteur propre v associé à λ décrit la participation de chaque type dans son intrication avec λ Utilisation de v pour l'étiquetage du cluster 11

Mesure d'intrication intra cluster Caractérisation de la mesure d'intrication : Positive et maximisée à N, nombre de types (Théorème de PerronFrobenius [6]) Croissante sur l'augmentation du nombre d'intrications (par ajout de liens intriqués supplémentaires, par ajout de dimensions = types, et par permutations des liens) Lambda = f(dim(d)) Lambda = f(e(b,c),perm(b,c)) [6] http://en.wikipedia.org/wiki/perron%e2%80%93frobenius_theorem 12

Graphe dual Cas de C diagonale par bloc cluster multiple C= A0 Traitement de A et B séparé 0B C peut être considérée comme définissant le graphe d interaction des types avec nœuds : types de liens arêtes : 2 types partagent un lien dans le graphe initial Peut avoir plusieurs composantes connexes cluster multiple Filtrage des types hors sujet ou générant le bruit Proposition de raffinement du clustering 13

Visualisation et Interfaces Clustering par layout de force Taux d'intrication du plus clair au plus foncé Echelles de Brewer pour les Clusters : orange/rouge pour les clusters Simples vert/bleu pour les clusters multiples 14

Visualisation et Interfaces Cluster simple étiqueté «fête religieuse, voyage, religion, catholicisme» concernant le voyage du pape Benoit XVI En rose, sélection synchronisée entre les descripteurs voyage, pape et Benoît XVI et les documents liés à ces descripteurs 15

Visualisation et Interfaces Le cluster multiple «Michael Jackson» et son dual non connexe 16

Visualisation et Interfaces Cluster «Mickael Jackson» : sélection des descripteurs isolés (salle de spectacle et Autriche) et leur répartition dans le graphe initial pour filtrage 17

Visualisation et Interfaces Cluster «Mickael Jackson» : sélection des nœuds liés au descripteur «Mickael Jackson» et leur répartition dans le temps pour validation 18

Visualisation et Interfaces Cluster «Mickael Jackson» : En haut : avant filtrage, intrication = 0.109 En bas : après filtrage, intrication = 0.328 19

Résultats et Limitations les clusters larges ont tendance à avoir un faible taux d'intrication et à amasser le bruit raffinage nécessaire lien temporel non pris en compte dans la notion d'évènement à la création du graphe et dans le layout appartenance d'un nœud à plusieurs clusters cas isolés, à la discrétion de l'utilisateur 20

Travaux en cours et futurs Validation de la mesure : amélioration de l'interface pour proposer des recherches par clusters avec un second tour de génération de clusters après inclusion ou exclusion de documents gestion des classes d'équivalence de types dans un graphe ajout de nouvelles sources d'information pour augmenter la redondance création d'une vérité-terrain pour contrôler les résultats Améliorations : gestion de la dimension temporelle, pondération du layout par le temps, détection de clusters dynamiques (T. Aynaud et JL. Guillaume 2010 [7]) passage à l'échelle Autres applications : identification des sources et des reprises pour le traçage de l'information application aux similarités d'images avec les regroupements de zones d'images issues de descripteurs SIFT [7] Détection de communautés à long terme dans les graphes dynamiques, Thomas Aynaud et Jean-Loup Guillaume, 2010 21

Références Réalisations faites en C++ et python en utilisant le framework Tulip[8] [1] http://www.otmedia.fr [2]L'écriture de l'actualité: pour une sociologie du discours médiatique, Jean-Pierre Esquenazi 2002 [3] Energy Models for Graph Clustering, Andreas Noack, 2007 [4] Modularity Clustering is Force-Directed Layout, Andreas Noack, 2008 [5] Relation Contents in Multiple Networks, Ronald Burt et Thomas Schott, 1985 [6] http://en.wikipedia.org/wiki/perron%e2%80%93frobenius_theorem [7] Détection de communautés à long terme dans les graphes Dynamiques, Thomas Aynaud et Jean-Loup Guillaume, 2010 [8] http://tulip.labri.fr 22