DÉTECTION AUTOMATIQUE DE MOTIFS SONORES

DÉTECTION AUTOMATIQUE DE MOTIFS SONORES DANS LES TRANSPORTS Projet GRAYSHIM le 16 février 2007 1/25

Introduction Audio surveillance appliquée au transport public (Train et autobus Bus) Objectif : compléter la video surveillance mise en difficulté dans un contexte de mobilité Problème similaire à un problème de classification audio Environnement trés bruité Evaluation de la robustesse des méthodes actuelles de classification audio Projet GRAYSHIM le 16 février 2007 2/25

Plan de la présentation 1 Description de la méthode 2 Application de la méthode 3 Résultats 4 Conclusions & Perspectives Projet GRAYSHIM le 16 février 2007 3/25

Description de la méthode La méthode Classification supervisée Etape de modélisation (connaissance a priori) Etape de classificafion Outil de modélisation : GMM et SVM Projet GRAYSHIM le 16 février 2007 4/25

Description de la méthode L apprentissage La base d apprentissage Annotation d un ensemble d enregistrement sonore Projet GRAYSHIM le 16 février 2007 5/25

Description de la méthode L apprentissage L apprentissage du modèle Sur les segments de l enregistrement de même étiquette Extraction de paramètres acoustiques (étape de paramétrisation) Réduire la quantité d information Élimination des redondances existant dans la représentation temporelle du signal Création d un nouvel espace de représentation Obtention d un vecteur de paramètres SVM ensemble de vecteurs supports GMM ensemble de gaussiennes Projet GRAYSHIM le 16 février 2007 6/25

Description de la méthode L apprentissage L extraction des caractéristiques Différents type de paramètres à extraire LPC (Linear Predictive Coding) MFCC (Mel Frequency Cepstral Coefficients) PLP (Perceptual Linear Predictive coefficients) etc. (terme d énergie, taux de passage par zéro) Vecteurs de dimension n. (n-lpc, n-mfcc ou n-plp Dérivées premières et secondes des paramètres. Réduction supplémentaire (ACP, LDA, ICA...)? Projet GRAYSHIM le 16 février 2007 7/25

Description de la méthode La classification Projet GRAYSHIM le 16 février 2007 8/25

Description de la méthode La classification Pour chaque fenêtre du signal considérée : paramétrisation Calcul de la vraisemblance d appartenance du segment à chacune des classes Décision de type maximum de vraisemblance Projet GRAYSHIM le 16 février 2007 9/25

Application de la méthode Description générale Les motifs sonores à détecter Les cris Les bruit de tags avec bombe de peinture Utilisation des modèles SVM et GMM Utilisation d une étape supplémentaire de détection de zones d activité Mise en place d un arbre hiérarchique de décision Projet GRAYSHIM le 16 février 2007 10/25

Application de la méthode Détection de zones d activité Segmentation automatique Détection d activité Sélection des zones pertinentes Projet GRAYSHIM le 16 février 2007 11/25

Application de la méthode L arbre de décision Projet GRAYSHIM le 16 février 2007 12/25

Application de la méthode La modélisation et la classification Sur chaque zone d activité détectée : Extraction de coefficients cepstraux toutes les 8 ms Modélisation par GMM et GMM-UBM (Nombre variable de lois gaussiennes) Modélisation par SVM pour plusieurs noyaux GLDS (Generalized Linear discriminant Sequence) Décision sur l ensemble de la zone (Durée variable) Projet GRAYSHIM le 16 février 2007 13/25

Application de la méthode Les scénarii En environnement réel (dans un autobus ou dans un train) Scénario 1 : agression-bagarre Scénario 2 : agression-bagarre Scénario 3 : vol avec ± de violence Scénario 4 : vol à l arrachée - téléphone portable Scénario 5 : tag avec aérosol de peinture Projet GRAYSHIM le 16 février 2007 14/25

Résultats Les méthodes d évaluation Leave all in : utilise tous le corpus pour lâăźapprentissage et en même temps pour le test assure un bon apprentissage mais il produit une vue optimiste des performances de lâăźalgorithme. La validation croisée (Leave one out) : utilise tous les données sauf une pour lâăźapprentissage. permet dâăźutiliser un maximum de données pour lâăźapprentissage et il est très utilisé lorsque les corpus sont de taille insufïňasante. Ré-échantillonnage : divise le corpus en une partie dâăźapprentissage et de test aléatoirement. Cette procédure donne des corpus de taille arbitraire. Projet GRAYSHIM le 16 février 2007 15/25

Résultats Résultats détection de cris Modélisation GMM Résultat NonCris Cris Attendu NonCris 98.3% 1.6% (2402 s.) (2363 s) (39 s) Cris 25.6% 74.3% (138 s) (35 s) (103 s) 74.3% de bonnes classifications -> faible. Faible taux de fausses détections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 16/25

Résultats Résultats détection de cris Modélisation par SVM Résultat NonCris Cris Attendu NonCris 98.5% 1.5% (2402 s) (2366 s) (36 s) Cris 33.2% 66.8% (138 s) (46 s) (92 s) 66.8% de bonnes classifications -> faible. Faible taux de fausses dãl tections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 17/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 18/25

Résultats Résultats en détection de spray de peinture Modélisation par GMM (4 gaussiennes) Résultat NonBombe Bombe Attendu NonBombe 67.7% 32.3% (26.6 s) (18 s) (8.6 s) Bombe 25.4% 74.6% (34.6 s) (8.8 s) (25.8 s) 74% de bonnes classifications -> faible. Trop de fausses et de nons détections. Projet GRAYSHIM le 16 février 2007 23/25

Résultats Résultats en détection de spray de peinture Modélisation par SVM Résultat NonBombe Bombe Attendu NonBombe 98.3% 1.7% (26.6 s) (26.1 s) (0.5 s) Bombe 19.7% 80.3% (34.6 s) (6.8 s) (27.8 s) 74% de bonnes classifications -> faible. Meilleurs taux de fausses détections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 24/25

Conclusions & Perspectives Perspectives & Future Work Combinaison méthode supervisée et non supervisée? Déterminer le nombre de classe? Affiner les modèles en ligne?... Projet GRAYSHIM le 16 février 2007 25/25