DÉTECTION AUTOMATIQUE DE MOTIFS SONORES

Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Apprentissage Automatique

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Accélérer l agilité de votre site de e-commerce. Cas client

Traitement bas-niveau

CT-DECT GateCom 3W avec Fonction CT-ASR CT-DECT Bluetooth / tablette tactile et téléphones GSM Geschäftsbericht 09/10 I 1

Rapport de certification ANSSI-CSPN-2010/07. KeePass Version 2.10 Portable

NORMES DE LIVRAISON DES MESSAGES PUBLICITAIRES ET MESSAGES D INTÉRÊT PUBLIC COMMERCIAUX APTN

Enregistrement et transformation du son. S. Natkin Novembre 2001

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

FORMATION MULTIMÉDIA LVE

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Ferhat ABBAS Sétif UFAS - Algérie THESE

Initiation au logiciel imovie HD

Reconnaissance du locuteur

Internet et Multimédia Exercices: flux multimédia

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Qu est-ce que l analyse des données qualitatives? TAMS Analyzer n est: Projets collaboratifs. TAMS Analyzer permet:

Extraction de descripteurs musicaux: une approche évolutionniste

alarme incendie (feu non maîtrisable)

Guide de l enseignant Se former à Moodle

Comparatif entre Matrox RT.X2 et Adobe Premiere Pro CS3 (logiciel seul)

FICHE METIER. «Assistant son» Assistant son APPELLATION(S) DU METIER DEFINITION DU METIER

Introduction au Data-Mining

Analyse des bruits de clavier d ordinateur

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

FORMATION MULTIMÉDIA LVE

D-ViewCam V3.0 Video Management System

Hélène Lœvenbruck, Christophe Savariaux, Dorothée Lefebvre

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Business Intelligence

Vérification audiovisuelle de l identité

Technique de codage des formes d'ondes

MANUEL DES POLITIQUES, PROCÉDURES ET RÈGLEMENTS ADMINISTRATIFS

Because it s your business, Hybird 120a Gigaset Edition

Outils informatiques de manipulation de la vidéo et du son : une introduction

INTRODUCTION AUX SYSTEMES D EXPLOITATION. TD2 Exclusion mutuelle / Sémaphores

Comment configurer X-Lite 4 pour se connecter au serveur Voip de Kavkom?

CELCAT est un leader mondial de la gestion d emploi du temps et du suivi de l assiduité des étudiants dans l enseignement supérieur.

Intervenant : Séverin Poutrel, BURGEAP

Thèse. Mathieu RAMONA

Poste 4 le montage. Le montage

LIVRET SALLES TANNEURS

Indexation de documents audio : Cas des grands volumes de données

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

LE PROJOPHONE de Fresnel

Identification de nouveaux membres dans des familles d'interleukines

Créer une application de livre interactif pour tablette avec Indesign CS6 et Adobe Digital Publishing Suite

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration


LimeSurvey Editeur de Questionnaire

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

TOP 1 ARI ET INVESTIGATION. ARI et investigation

MISE EN SERVICE D UN RESEAU DE CAMERA DE VIDEOSURVEILLANCE

Business Intelligence avec Excel, Power BI et Office 365

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Responsabilité civile et assurances internationales. 28 mars 2014 Romain Vanolli

Cours IV Mise en orbite

Document rédigé par Alexis Michaud (en janvier 2005), réactualisé par Angélique Amelot (septembre 2009)

ISO/CEI NORME INTERNATIONALE

La mobilisation face une menace terroriste. Philippe François, Direction de la Sûreté Cambrai, le 18 novembre 2004

Etude et conception d un serveur vocal :

Initiation à la bureautique

Mode d emploi. Bienvenue sur notrehistoire.ch et merci de votre inscription. Introduction

Vous souhaitez vos documents de manière à pouvoir y accéder pour, ou non, et ce, depuis le lieu et l ordinateur de votre choix.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Manual de l utilisateur

Les Réseaux sans fils : IEEE F. Nolot

Stage : "Développer les compétences de la 5ème à la Terminale"

MODE D EMPLOI DU LOGICIEL LIGNES DE TEMPS A partir du film La Mort aux trousses d Alfred Hitchcock

Introduction aux systèmes temps réel

Introduction au Massive Data

TABLE DES MATIÈRES 1. DÉMARRER ISIS 2 2. SAISIE D UN SCHÉMA 3 & ' " ( ) '*+ ", ##) # " -. /0 " 1 2 " 3. SIMULATION 7 " - 4.

POLITIQUE EN MATIÈRE DE SURVEILLANCE VIDÉO (adoptée le 15 janvier 2010)

Comment utiliser le lecteur MP3?

GUIDE UTILISATEUR WEBCONFERENCE. Utilisation depuis un PC Windows

Coffret Distributeur de DJ10: Distributeur de jetons (Avec PC embarqué Siemens et suite logicielle)

Types de REA produites dans le cadre de la séquence pédagogique

ROC. ROBUST Bouche circulaire de soufflage et de reprise

Progitek Extraire Web s version 4.0 (Prix public 19 NET ) DESCRIPTION

outil RÉFÉRENCE GLOSSAIRE Agrégateur (n. m.) : logiciel qui permet de recevoir tous les fils RSS auxquels on est abonné.

INF6304 Interfaces Intelligentes

William Pezet

Tutoriel Papier sur le logiciel DVD Shrink

I/ CONSEILS PRATIQUES

Une solution complète, ergonomique et flexible Baissez vos coûts d acquisition et de traitement de données client Augmentez votre réactivité

Fonctions d Audio Conférence

One Page Checkout / Alias Gateway

L industrie pharmaceutique et la grippe aviaire

ENQUÊTE SUR LA PRÉVENTION DES RISQUES PROFESSIONNELS

Renaissance Nancy 2013

L'Engrenage FICHE TECHNIQUE

Internet Marketing 2015

Transcription:

DÉTECTION AUTOMATIQUE DE MOTIFS SONORES DANS LES TRANSPORTS Projet GRAYSHIM le 16 février 2007 1/25

Introduction Audio surveillance appliquée au transport public (Train et autobus Bus) Objectif : compléter la video surveillance mise en difficulté dans un contexte de mobilité Problème similaire à un problème de classification audio Environnement trés bruité Evaluation de la robustesse des méthodes actuelles de classification audio Projet GRAYSHIM le 16 février 2007 2/25

Plan de la présentation 1 Description de la méthode 2 Application de la méthode 3 Résultats 4 Conclusions & Perspectives Projet GRAYSHIM le 16 février 2007 3/25

Description de la méthode La méthode Classification supervisée Etape de modélisation (connaissance a priori) Etape de classificafion Outil de modélisation : GMM et SVM Projet GRAYSHIM le 16 février 2007 4/25

Description de la méthode L apprentissage La base d apprentissage Annotation d un ensemble d enregistrement sonore Projet GRAYSHIM le 16 février 2007 5/25

Description de la méthode L apprentissage L apprentissage du modèle Sur les segments de l enregistrement de même étiquette Extraction de paramètres acoustiques (étape de paramétrisation) Réduire la quantité d information Élimination des redondances existant dans la représentation temporelle du signal Création d un nouvel espace de représentation Obtention d un vecteur de paramètres SVM ensemble de vecteurs supports GMM ensemble de gaussiennes Projet GRAYSHIM le 16 février 2007 6/25

Description de la méthode L apprentissage L extraction des caractéristiques Différents type de paramètres à extraire LPC (Linear Predictive Coding) MFCC (Mel Frequency Cepstral Coefficients) PLP (Perceptual Linear Predictive coefficients) etc. (terme d énergie, taux de passage par zéro) Vecteurs de dimension n. (n-lpc, n-mfcc ou n-plp Dérivées premières et secondes des paramètres. Réduction supplémentaire (ACP, LDA, ICA...)? Projet GRAYSHIM le 16 février 2007 7/25

Description de la méthode La classification Projet GRAYSHIM le 16 février 2007 8/25

Description de la méthode La classification Pour chaque fenêtre du signal considérée : paramétrisation Calcul de la vraisemblance d appartenance du segment à chacune des classes Décision de type maximum de vraisemblance Projet GRAYSHIM le 16 février 2007 9/25

Application de la méthode Description générale Les motifs sonores à détecter Les cris Les bruit de tags avec bombe de peinture Utilisation des modèles SVM et GMM Utilisation d une étape supplémentaire de détection de zones d activité Mise en place d un arbre hiérarchique de décision Projet GRAYSHIM le 16 février 2007 10/25

Application de la méthode Détection de zones d activité Segmentation automatique Détection d activité Sélection des zones pertinentes Projet GRAYSHIM le 16 février 2007 11/25

Application de la méthode Détection de zones d activité Segmentation automatique Détection d activité Sélection des zones pertinentes Projet GRAYSHIM le 16 février 2007 11/25

Application de la méthode Détection de zones d activité Segmentation automatique Détection d activité Sélection des zones pertinentes Projet GRAYSHIM le 16 février 2007 11/25

Application de la méthode L arbre de décision Projet GRAYSHIM le 16 février 2007 12/25

Application de la méthode L arbre de décision Projet GRAYSHIM le 16 février 2007 12/25

Application de la méthode L arbre de décision Projet GRAYSHIM le 16 février 2007 12/25

Application de la méthode La modélisation et la classification Sur chaque zone d activité détectée : Extraction de coefficients cepstraux toutes les 8 ms Modélisation par GMM et GMM-UBM (Nombre variable de lois gaussiennes) Modélisation par SVM pour plusieurs noyaux GLDS (Generalized Linear discriminant Sequence) Décision sur l ensemble de la zone (Durée variable) Projet GRAYSHIM le 16 février 2007 13/25

Application de la méthode Les scénarii En environnement réel (dans un autobus ou dans un train) Scénario 1 : agression-bagarre Scénario 2 : agression-bagarre Scénario 3 : vol avec ± de violence Scénario 4 : vol à l arrachée - téléphone portable Scénario 5 : tag avec aérosol de peinture Projet GRAYSHIM le 16 février 2007 14/25

Résultats Les méthodes d évaluation Leave all in : utilise tous le corpus pour lâăźapprentissage et en même temps pour le test assure un bon apprentissage mais il produit une vue optimiste des performances de lâăźalgorithme. La validation croisée (Leave one out) : utilise tous les données sauf une pour lâăźapprentissage. permet dâăźutiliser un maximum de données pour lâăźapprentissage et il est très utilisé lorsque les corpus sont de taille insufïňasante. Ré-échantillonnage : divise le corpus en une partie dâăźapprentissage et de test aléatoirement. Cette procédure donne des corpus de taille arbitraire. Projet GRAYSHIM le 16 février 2007 15/25

Résultats Les méthodes d évaluation Leave all in : utilise tous le corpus pour lâăźapprentissage et en même temps pour le test assure un bon apprentissage mais il produit une vue optimiste des performances de lâăźalgorithme. La validation croisée (Leave one out) : utilise tous les données sauf une pour lâăźapprentissage. permet dâăźutiliser un maximum de données pour lâăźapprentissage et il est très utilisé lorsque les corpus sont de taille insufïňasante. Ré-échantillonnage : divise le corpus en une partie dâăźapprentissage et de test aléatoirement. Cette procédure donne des corpus de taille arbitraire. Projet GRAYSHIM le 16 février 2007 15/25

Résultats Résultats détection de cris Modélisation GMM Résultat NonCris Cris Attendu NonCris 98.3% 1.6% (2402 s.) (2363 s) (39 s) Cris 25.6% 74.3% (138 s) (35 s) (103 s) 74.3% de bonnes classifications -> faible. Faible taux de fausses détections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 16/25

Résultats Résultats détection de cris Modélisation par SVM Résultat NonCris Cris Attendu NonCris 98.5% 1.5% (2402 s) (2366 s) (36 s) Cris 33.2% 66.8% (138 s) (46 s) (92 s) 66.8% de bonnes classifications -> faible. Faible taux de fausses dãl tections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 17/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 18/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 19/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 20/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 21/25

Résultats Cross Validation Projet GRAYSHIM le 16 février 2007 22/25

Résultats Résultats en détection de spray de peinture Modélisation par GMM (4 gaussiennes) Résultat NonBombe Bombe Attendu NonBombe 67.7% 32.3% (26.6 s) (18 s) (8.6 s) Bombe 25.4% 74.6% (34.6 s) (8.8 s) (25.8 s) 74% de bonnes classifications -> faible. Trop de fausses et de nons détections. Projet GRAYSHIM le 16 février 2007 23/25

Résultats Résultats en détection de spray de peinture Modélisation par SVM Résultat NonBombe Bombe Attendu NonBombe 98.3% 1.7% (26.6 s) (26.1 s) (0.5 s) Bombe 19.7% 80.3% (34.6 s) (6.8 s) (27.8 s) 74% de bonnes classifications -> faible. Meilleurs taux de fausses détections. Taux de non détection élevé. Projet GRAYSHIM le 16 février 2007 24/25

Conclusions & Perspectives Perspectives & Future Work Combinaison méthode supervisée et non supervisée? Déterminer le nombre de classe? Affiner les modèles en ligne?... Projet GRAYSHIM le 16 février 2007 25/25