Sequential Topic Models for Mining Recurrent Activities and their Relationships: Application to long term video recordings

Sequential Topic Models for Mining Recurrent Activities and their Relationships: Application to long term video recordings THÈSE N O 5469 (2012) PRÉSENTÉE le 30 août 2012 À LA FACULTÉ DES SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DE L'IDIAP PROGRAMME DOCTORAL EN GÉNIE ÉLECTRIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES PAR Jagannadan Varadarajan acceptée sur proposition du jury: Prof. P. Fua, président du jury Dr J.-M. Odobez, directeur de thèse Prof. P. Frossard, rapporteur Prof. S. Gong, rapporteur Prof. B. Schiele, rapporteur Suisse 2012

i Abstract In this thesis, we address the analysis of activities from long term data logs with an emphasis on video recordings. Starting from simple words from video, we progressively build methods to infer higher level scene semantics. The main strategies used to achieve this are: the use of simple lowlevel visual features that can be readily extracted, and of probabilistic topic models that come with powerful learning and inference tools. In the initial part of the thesis, we investigate the use of a simple topic model called Probabilistic Latent Semantic Analysis (PLSA) for video scene analysis. By quantizing location, optical flow direction and foreground blob size into words, and considering short video clips as documents, we discover topics from PLSA that represent recurrent activities in the scene. We then demonstrate how the topics can be used to analyze the scene activities, segment the scene into homogeneous activity regions and detect abnormalities. The topics from PLSA have no temporal structure and hence do not represent activities well. To address this issue, we develop a novel sequential topic model called Probabilistic Latent Sequential Motifs (PLSM) which automatically discovers sequential patterns called motifs that include temporal information from videos. To address the problem of observations caused by multiple activities in the scene, the PLSM formulation uses explicit random variables to represent time at different levels: at a higher level to determine when a motif starts in the video, and at a lower level to know the order of words within the motif. Using a sparsity constraint on the event start times, and MAP priors on the temporal axis of the motifs, we designed an inference algorithm. When applied to surveillance videos, the model captures motifs that resemble trajectories. The model provides more information than PLSA, giving clues about when and where an activity starts, when it ends and how it is executed. As in many unsupervised topic models, deciding the most appropriate number of topics is a difficult problem. To address this, we reformulate PLSM using principles of Bayesian non-parametrics. The new method called Hierarchical Dirichlet Latent Sequential Motifs (HDLSM) uses Dirichlet processes at multiple levels to select a suitable number of motifs and identify their occurrences in the data. The final objective is to analyze how events in a scene are organized. At a global level, a scene can be thought of as undergoing a sequence of phases, each with distinct characteristics. At a more local level, the individual activities can exhibit dependencies that are possibly causal in nature. Following this, we propose a new graphical model called Mixed Event Relationship (MER) model, that incorporates the learning of both local rules and global states simultaneously from a binary event matrix. Learning these scene semantics is achieved using an iterative Gibbs sampling procedure. While the global scene states recover traffic cycles, the local rules provide information about single and multi-object activity interactions. We validate the proposed methods with elaborate experiments on nine different challenging datasets with a wide variety of activity content. The results prove the general applicability of the different methods proposed in this thesis. We believe that they can have wider applications on data coming from sensor logs of other modalities too.

ii Keywords: video, activity, scene segmentation, abnormality, event detection, event relationships, multi-camera, sequential, motifs, pattern recognition, data mining, unsupervised, probabilistic topics models, gibbs sampling PLSA, LDA, PLSM, DP, HDP, HDLSM, MER.

iii Résumé Dans ce manuscrit, nous nous intéressons à l analyse d activités à partir de longs enregistrements avec un intérêt particulier pour les données vidéo. Partant de simples mots extraits de vidéos, nous proposons des méthodes pour obtenir une compréhension de plus haut niveau de la sémantique de la scène observée. Les principales stratégies utilisées pour cela sont : l utilisation de descripteurs visuels de bas niveau et la proposition de modèles probabilistes avec les outils d apprentissage et d inférence associés. Dans la première partie de cette thèse, nous abordons l utilisation d un topic model simple appelé Probabilistic Latent Semantic Analysis (PLSA) pour l analyse de scène vidéo. En quantifiant la localisation, la direction du flux optique et la taille de l objet de premier plan pour en faire des mots, et en considérant de courts clips vidéos comme des documents, nous découvrons des topics à l aide de PLSA qui représentent les activités récurrentes dans la scène. Nous montrons ensuite comment les topics extraits peuvent être utilisés pour analyser les activités présentes dans la scène, segmenter la scène en régions d activité homogènes et détecter des anomalies. Les topics extraits par PLSA n ont pas de structure temporelle et ne représentent donc pas efficacement les activités. Pour traiter ce problème, nous développons un nouveau topic model séquentiel appelé Probabilistic Latent Sequential Motifs (PLSM) qui permet de découvrir de manière automatique des topics séquentiels appelés motifs qui capturent l information temporelle des vidéos. Pour faire face au problème du mélange des observations issues d objets différents de la scène, la formulation du modèle PLSM fait appel à des variables aléatoires explicites pour représenter le temps à plusieurs échelles : à un haut niveau pour déterminer le début d un motif et à un niveau plus bas pour expliciter l ordre d apparition des observations dans le motif. En utilisant une contrainte d éparsité sur les instants de début des événements et des a priori sur la dimension temporelle des motifs, nous proposons un algorithme d inférence. Appliqué à des scènes vidéos, le modèle capture des motifs assimilables à des trajectoires. Le modèle fournit plus d information que PLSA, donnant une information sur le début et la fin des activités et sur la façon dont elles sont exécutées. Comme pour de nombreux topic models non supervisés, il est difficile de décider du nombre approprié de motifs à retenir. Pour cela, nous reformulons le modèle PLSM en utilisant les principes bayésiens non paramétriques. La nouvelle méthode appelée Hierarchical Dirichlet Latent Sequential Motifs (HDLSM) utilise des processus de Dirichlet à plusieurs niveaux pour sélectionner le nombre adéquat de motifs et identifier leurs occurrences dans les données. Notre objectif final est d analyser comment les événements sont organisés dans une scène. À un niveau global, une scène peut être vue comme une séquence de phases, chaque phase ayant des caractéristiques propres. Â un niveau plus local, les activités individuelles peuvent exhiber des dépendances qui peuvent łtre de nature causale. En conséquence, nous proposons un nouveau modèle graphique appelé Mixed Event Relationship (MER) qui comprend l apprentissage simultané de règles locales et d états globaux à partir d une matrice binaire d événements. L apprentissage de la sémantique de la scène se fait à l aide d une procédure d échantillonnage de Gibbs itérative. Alors que les états globaux correspondent aux cycles de traffic, les règles locales fournissent de

iv l information à propos d interactions entre activités impliquant possiblement plusieurs objets. Nous validons les méthodes proposées par des expériences sur neuf jeux de données complexes contenant une grande variété d activités. Les résultats prouvent l applicabilité générale des différentes méthodes proposées dans ce manuscrit. Nous pensons qu elles peuvent avoir des champs d applications plus larges sur des données issues d enregistrements de capteurs d autres modalités. Mots-clés : vidéo, activité, segmentation de scène, anomalies, détection d événement, relations entre événements, multi-caméras, séquentiel, motifs, reconnaissance de motifs, fouille de données, non supervisée, topic models probabilistes, échantillonnage de Gibbs, PLSA, LDA, PLSM, DP, HDP, HDLSM, MER.

Contents 1 Introduction 7 1.1 Motivation............................................ 8 1.2 Challenges............................................ 10 1.3 Terminology........................................... 11 1.4 Objectives and Approach.................................... 12 1.5 Contributions and Thesis Organization........................... 13 2 Literature review 17 2.1 Video representation...................................... 17 2.1.1 Background subtraction................................ 18 2.1.2 Optical flow and motion detection........................... 19 2.1.3 Spatio-temporal features................................ 20 2.1.4 Object trajectories.................................... 21 2.1.5 Tracklets......................................... 23 2.1.6 Vocabulary design.................................... 23 2.2 Learning Methods in activity modeling............................ 24 2.2.1 Supervised activity modeling............................. 24 2.2.2 Unsupervised activity modeling............................ 25 2.2.3 Probabilistic Topic Models............................... 26 2.2.4 Temporal modeling with PTMs............................ 27 2.2.5 Model Selection..................................... 28 2.3 Inferring scene semantics................................... 30 2.4 Performance Evaluation.................................... 31 2.5 Summary............................................. 32 3 Datasets and Features 33 3.1 Datasets............................................. 33 3.1.1 Outdoor traffic scenes.................................. 33 3.1.2 Metro indoor scenes................................... 35 3.1.3 Data from micro-phone arrays............................. 37 1

2 CONTENTS 3.2 Feature extraction........................................ 38 3.3 Summary............................................. 39 4 Activity Analysis Using PLSA 41 4.1 Introducing PLSA........................................ 41 4.1.1 Geometric Interpretation and relation to other models.............. 43 4.1.2 PLSA Inference..................................... 45 4.2 Activity patterns and scene segmentation.......................... 46 4.2.1 Activity patterns.................................... 47 4.2.2 Scene segmentation................................... 50 4.3 Abnormality detection..................................... 52 4.3.1 Abnormality measures................................. 52 4.3.2 Results and discussion................................. 54 4.4 Summary............................................. 57 5 Probabilistic Latent Sequential Motifs 59 5.1 Probabilistic Latent Sequential Motif Model........................ 60 5.1.1 Notation and model overview............................. 60 5.1.2 Generative Process................................... 62 5.2 Model inference......................................... 63 5.2.1 Likelihood optimization with sparsity constraint.................. 63 5.2.2 Maximum a-posterior Estimation (MAP)...................... 66 5.2.3 Model Selection..................................... 67 5.3 Experiments on synthetic data................................ 68 5.3.1 Data and experimental protocol............................ 68 5.3.2 Results.......................................... 70 5.4 Application to video scene activity analysis......................... 73 5.4.1 Activity word and temporal document construction................ 73 5.4.2 Motif representation.................................. 75 5.5 Video Scene Analysis Results................................. 77 5.5.1 Experimental details.................................. 77 5.5.2 PLSM motifs and activities.............................. 77 5.5.3 Event detection..................................... 86 5.5.4 Activity prediction................................... 87 5.6 Audio Scene Analysis with Microphone array........................ 90 5.7 Conclusion............................................ 91 6 Mixed Event Relationship Model 93 6.1 Introduction........................................... 93 6.2 Model and Inference...................................... 94 6.2.1 Characteristics of activity data............................ 94

CONTENTS 3 6.2.2 Building the model................................... 95 6.2.3 Generative Process................................... 97 6.2.4 Model Inference..................................... 99 6.3 Experimental setup....................................... 101 6.4 Results.............................................. 103 6.4.1 Global rules....................................... 103 6.4.2 Local rules........................................ 104 6.4.3 Numerical evaluation on a prediction task..................... 107 6.5 Conclusion............................................ 110 7 Conclusions and Future work 113 7.1 Conclusions........................................... 113 7.2 Limitations and Future work................................. 114 Appendices 119 A Parameter estimation for PLSM 119 B Hierarchical Dirichlet Latent Sequential Motifs 123 B.1 Approach Overview....................................... 123 B.2 Proposed Model......................................... 124 B.2.1 Background on Dirichlet Processes (DP)....................... 124 B.2.2 Base of the Proposed Model.............................. 126 B.3 PLSM vs HDLSM........................................ 128 C Parameter estimation for MER model 131 D Bayesian Statistics 137 Curriculum Vitae 151