Sequential Topic Models for Mining Recurrent Activities and their Relationships: Application to long term video recordings



Documents pareils
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

Exemple PLS avec SAS

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Photoactivatable Probes for Protein Labeling

Software integration in mobile robotics, a science to scale up machine intelligence

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Cette Leçon va remplir ces attentes spécifiques du curriculum :

WEB page builder and server for SCADA applications usable from a WEB navigator

Forthcoming Database

Application Form/ Formulaire de demande

Editing and managing Systems engineering processes at Snecma

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Instructions Mozilla Thunderbird Page 1

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

FOUNDATIONS OF SYSTEMS AND PROPERTIES: METHODOLOGICAL SUPPORT FOR MODELING PROPERTIES OF SOFTWARE-INTENSIVE SYSTEMS

Planning a Science Fair

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Design and Implementation of an Efficient Data Stream Processing System

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Macro-to-Microchannel Transition in Two-Phase Flow and Evaporation

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

Design and Realization of Fiber. Monitoring Applications

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Monitoring elderly People by Means of Cameras

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Face Recognition Performance: Man vs. Machine

A GLOBAL VISION OF INFORMATION SYSTEM

Cell-Based Deformation Monitoring via 3D Point Clouds

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

Ingénierie et gestion des connaissances

UML : Unified Modeling Language

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Bigdata et Web sémantique. les données + l intelligence= la solution

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

Visualizing Start-up Firm Trajectories on Kohonen Maps

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

BNP Paribas Personal Finance

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

Exercices sur SQL server 2000

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Data issues in species monitoring: where are the traps?

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

AUDIT COMMITTEE: TERMS OF REFERENCE

Afin de valider votre inscription merci de bien veiller à :

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

BUILDING TRUST-AWARE P2P SYSTEMS: FROM TRUST AND REPUTATION MANAGEMENT TO DECENTRALIZED E-COMMERCE APPLICATIONS

Source Coding in Sensor Networks

RAPID Prenez le contrôle sur vos données

Improving the breakdown of the Central Credit Register data by category of enterprises

Institut français des sciences et technologies des transports, de l aménagement

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

BILL 203 PROJET DE LOI 203

MODERN LANGUAGES DEPARTMENT

Cedric Dumoulin (C) The Java EE 7 Tutorial

Toni Lazazzera Tmanco is expert partner from Anatole ( and distributes the solution AnatoleTEM

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

EU- Luxemburg- WHO Universal Health Coverage Partnership:

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

APPENDIX 6 BONUS RING FORMAT

Les Ontariens rejettent catégoriquement le projet de création d une école afrocentriste

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

ANGULAR JS AVEC GDE GOOGLE

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Notice Technique / Technical Manual

BELAC 1-04 Rev

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Monitoring des classes de neige des calottes polaires par Envisat

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

Provide supervision and mentorship, on an ongoing basis, to staff and student interns.

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Optimized Protocol Stack for Virtualized Converged Enhanced Ethernet

Practice Direction. Class Proceedings

Eléments de statistique

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Working Group on Implementation of UNGCP Meeting

Frequently Asked Questions

Performance Management Systems

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Railway Operating Certificate Regulations. Règlement sur les certificats d exploitation de chemin de fer CODIFICATION CONSOLIDATION

Paxton. ins Net2 desktop reader USB

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Spécial Catégorie 6 Patch Cords

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Transcription:

Sequential Topic Models for Mining Recurrent Activities and their Relationships: Application to long term video recordings THÈSE N O 5469 (2012) PRÉSENTÉE le 30 août 2012 À LA FACULTÉ DES SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DE L'IDIAP PROGRAMME DOCTORAL EN GÉNIE ÉLECTRIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES PAR Jagannadan Varadarajan acceptée sur proposition du jury: Prof. P. Fua, président du jury Dr J.-M. Odobez, directeur de thèse Prof. P. Frossard, rapporteur Prof. S. Gong, rapporteur Prof. B. Schiele, rapporteur Suisse 2012

i Abstract In this thesis, we address the analysis of activities from long term data logs with an emphasis on video recordings. Starting from simple words from video, we progressively build methods to infer higher level scene semantics. The main strategies used to achieve this are: the use of simple lowlevel visual features that can be readily extracted, and of probabilistic topic models that come with powerful learning and inference tools. In the initial part of the thesis, we investigate the use of a simple topic model called Probabilistic Latent Semantic Analysis (PLSA) for video scene analysis. By quantizing location, optical flow direction and foreground blob size into words, and considering short video clips as documents, we discover topics from PLSA that represent recurrent activities in the scene. We then demonstrate how the topics can be used to analyze the scene activities, segment the scene into homogeneous activity regions and detect abnormalities. The topics from PLSA have no temporal structure and hence do not represent activities well. To address this issue, we develop a novel sequential topic model called Probabilistic Latent Sequential Motifs (PLSM) which automatically discovers sequential patterns called motifs that include temporal information from videos. To address the problem of observations caused by multiple activities in the scene, the PLSM formulation uses explicit random variables to represent time at different levels: at a higher level to determine when a motif starts in the video, and at a lower level to know the order of words within the motif. Using a sparsity constraint on the event start times, and MAP priors on the temporal axis of the motifs, we designed an inference algorithm. When applied to surveillance videos, the model captures motifs that resemble trajectories. The model provides more information than PLSA, giving clues about when and where an activity starts, when it ends and how it is executed. As in many unsupervised topic models, deciding the most appropriate number of topics is a difficult problem. To address this, we reformulate PLSM using principles of Bayesian non-parametrics. The new method called Hierarchical Dirichlet Latent Sequential Motifs (HDLSM) uses Dirichlet processes at multiple levels to select a suitable number of motifs and identify their occurrences in the data. The final objective is to analyze how events in a scene are organized. At a global level, a scene can be thought of as undergoing a sequence of phases, each with distinct characteristics. At a more local level, the individual activities can exhibit dependencies that are possibly causal in nature. Following this, we propose a new graphical model called Mixed Event Relationship (MER) model, that incorporates the learning of both local rules and global states simultaneously from a binary event matrix. Learning these scene semantics is achieved using an iterative Gibbs sampling procedure. While the global scene states recover traffic cycles, the local rules provide information about single and multi-object activity interactions. We validate the proposed methods with elaborate experiments on nine different challenging datasets with a wide variety of activity content. The results prove the general applicability of the different methods proposed in this thesis. We believe that they can have wider applications on data coming from sensor logs of other modalities too.

ii Keywords: video, activity, scene segmentation, abnormality, event detection, event relationships, multi-camera, sequential, motifs, pattern recognition, data mining, unsupervised, probabilistic topics models, gibbs sampling PLSA, LDA, PLSM, DP, HDP, HDLSM, MER.

iii Résumé Dans ce manuscrit, nous nous intéressons à l analyse d activités à partir de longs enregistrements avec un intérêt particulier pour les données vidéo. Partant de simples mots extraits de vidéos, nous proposons des méthodes pour obtenir une compréhension de plus haut niveau de la sémantique de la scène observée. Les principales stratégies utilisées pour cela sont : l utilisation de descripteurs visuels de bas niveau et la proposition de modèles probabilistes avec les outils d apprentissage et d inférence associés. Dans la première partie de cette thèse, nous abordons l utilisation d un topic model simple appelé Probabilistic Latent Semantic Analysis (PLSA) pour l analyse de scène vidéo. En quantifiant la localisation, la direction du flux optique et la taille de l objet de premier plan pour en faire des mots, et en considérant de courts clips vidéos comme des documents, nous découvrons des topics à l aide de PLSA qui représentent les activités récurrentes dans la scène. Nous montrons ensuite comment les topics extraits peuvent être utilisés pour analyser les activités présentes dans la scène, segmenter la scène en régions d activité homogènes et détecter des anomalies. Les topics extraits par PLSA n ont pas de structure temporelle et ne représentent donc pas efficacement les activités. Pour traiter ce problème, nous développons un nouveau topic model séquentiel appelé Probabilistic Latent Sequential Motifs (PLSM) qui permet de découvrir de manière automatique des topics séquentiels appelés motifs qui capturent l information temporelle des vidéos. Pour faire face au problème du mélange des observations issues d objets différents de la scène, la formulation du modèle PLSM fait appel à des variables aléatoires explicites pour représenter le temps à plusieurs échelles : à un haut niveau pour déterminer le début d un motif et à un niveau plus bas pour expliciter l ordre d apparition des observations dans le motif. En utilisant une contrainte d éparsité sur les instants de début des événements et des a priori sur la dimension temporelle des motifs, nous proposons un algorithme d inférence. Appliqué à des scènes vidéos, le modèle capture des motifs assimilables à des trajectoires. Le modèle fournit plus d information que PLSA, donnant une information sur le début et la fin des activités et sur la façon dont elles sont exécutées. Comme pour de nombreux topic models non supervisés, il est difficile de décider du nombre approprié de motifs à retenir. Pour cela, nous reformulons le modèle PLSM en utilisant les principes bayésiens non paramétriques. La nouvelle méthode appelée Hierarchical Dirichlet Latent Sequential Motifs (HDLSM) utilise des processus de Dirichlet à plusieurs niveaux pour sélectionner le nombre adéquat de motifs et identifier leurs occurrences dans les données. Notre objectif final est d analyser comment les événements sont organisés dans une scène. À un niveau global, une scène peut être vue comme une séquence de phases, chaque phase ayant des caractéristiques propres. Â un niveau plus local, les activités individuelles peuvent exhiber des dépendances qui peuvent łtre de nature causale. En conséquence, nous proposons un nouveau modèle graphique appelé Mixed Event Relationship (MER) qui comprend l apprentissage simultané de règles locales et d états globaux à partir d une matrice binaire d événements. L apprentissage de la sémantique de la scène se fait à l aide d une procédure d échantillonnage de Gibbs itérative. Alors que les états globaux correspondent aux cycles de traffic, les règles locales fournissent de

iv l information à propos d interactions entre activités impliquant possiblement plusieurs objets. Nous validons les méthodes proposées par des expériences sur neuf jeux de données complexes contenant une grande variété d activités. Les résultats prouvent l applicabilité générale des différentes méthodes proposées dans ce manuscrit. Nous pensons qu elles peuvent avoir des champs d applications plus larges sur des données issues d enregistrements de capteurs d autres modalités. Mots-clés : vidéo, activité, segmentation de scène, anomalies, détection d événement, relations entre événements, multi-caméras, séquentiel, motifs, reconnaissance de motifs, fouille de données, non supervisée, topic models probabilistes, échantillonnage de Gibbs, PLSA, LDA, PLSM, DP, HDP, HDLSM, MER.

Contents 1 Introduction 7 1.1 Motivation............................................ 8 1.2 Challenges............................................ 10 1.3 Terminology........................................... 11 1.4 Objectives and Approach.................................... 12 1.5 Contributions and Thesis Organization........................... 13 2 Literature review 17 2.1 Video representation...................................... 17 2.1.1 Background subtraction................................ 18 2.1.2 Optical flow and motion detection........................... 19 2.1.3 Spatio-temporal features................................ 20 2.1.4 Object trajectories.................................... 21 2.1.5 Tracklets......................................... 23 2.1.6 Vocabulary design.................................... 23 2.2 Learning Methods in activity modeling............................ 24 2.2.1 Supervised activity modeling............................. 24 2.2.2 Unsupervised activity modeling............................ 25 2.2.3 Probabilistic Topic Models............................... 26 2.2.4 Temporal modeling with PTMs............................ 27 2.2.5 Model Selection..................................... 28 2.3 Inferring scene semantics................................... 30 2.4 Performance Evaluation.................................... 31 2.5 Summary............................................. 32 3 Datasets and Features 33 3.1 Datasets............................................. 33 3.1.1 Outdoor traffic scenes.................................. 33 3.1.2 Metro indoor scenes................................... 35 3.1.3 Data from micro-phone arrays............................. 37 1

2 CONTENTS 3.2 Feature extraction........................................ 38 3.3 Summary............................................. 39 4 Activity Analysis Using PLSA 41 4.1 Introducing PLSA........................................ 41 4.1.1 Geometric Interpretation and relation to other models.............. 43 4.1.2 PLSA Inference..................................... 45 4.2 Activity patterns and scene segmentation.......................... 46 4.2.1 Activity patterns.................................... 47 4.2.2 Scene segmentation................................... 50 4.3 Abnormality detection..................................... 52 4.3.1 Abnormality measures................................. 52 4.3.2 Results and discussion................................. 54 4.4 Summary............................................. 57 5 Probabilistic Latent Sequential Motifs 59 5.1 Probabilistic Latent Sequential Motif Model........................ 60 5.1.1 Notation and model overview............................. 60 5.1.2 Generative Process................................... 62 5.2 Model inference......................................... 63 5.2.1 Likelihood optimization with sparsity constraint.................. 63 5.2.2 Maximum a-posterior Estimation (MAP)...................... 66 5.2.3 Model Selection..................................... 67 5.3 Experiments on synthetic data................................ 68 5.3.1 Data and experimental protocol............................ 68 5.3.2 Results.......................................... 70 5.4 Application to video scene activity analysis......................... 73 5.4.1 Activity word and temporal document construction................ 73 5.4.2 Motif representation.................................. 75 5.5 Video Scene Analysis Results................................. 77 5.5.1 Experimental details.................................. 77 5.5.2 PLSM motifs and activities.............................. 77 5.5.3 Event detection..................................... 86 5.5.4 Activity prediction................................... 87 5.6 Audio Scene Analysis with Microphone array........................ 90 5.7 Conclusion............................................ 91 6 Mixed Event Relationship Model 93 6.1 Introduction........................................... 93 6.2 Model and Inference...................................... 94 6.2.1 Characteristics of activity data............................ 94

CONTENTS 3 6.2.2 Building the model................................... 95 6.2.3 Generative Process................................... 97 6.2.4 Model Inference..................................... 99 6.3 Experimental setup....................................... 101 6.4 Results.............................................. 103 6.4.1 Global rules....................................... 103 6.4.2 Local rules........................................ 104 6.4.3 Numerical evaluation on a prediction task..................... 107 6.5 Conclusion............................................ 110 7 Conclusions and Future work 113 7.1 Conclusions........................................... 113 7.2 Limitations and Future work................................. 114 Appendices 119 A Parameter estimation for PLSM 119 B Hierarchical Dirichlet Latent Sequential Motifs 123 B.1 Approach Overview....................................... 123 B.2 Proposed Model......................................... 124 B.2.1 Background on Dirichlet Processes (DP)....................... 124 B.2.2 Base of the Proposed Model.............................. 126 B.3 PLSM vs HDLSM........................................ 128 C Parameter estimation for MER model 131 D Bayesian Statistics 137 Curriculum Vitae 151