Descripteurs audio:! de la simple représentation! aux modèles de connaissances! Geoffroy.Peeters@ircam.fr UMR SMTS IRCAM CNRS UPMC



Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

REPRÉSENTATIONS ANALYTIQUES AVANCÉES AVEC EANALYSIS

Extraction de descripteurs musicaux: une approche évolutionniste

V corr Jacques Ferber. LIRMM - Université Montpellier II 161 rue Ada Montpellier Cedex 5

P2: Perception auditive

Navigation dans les bases de données musicales

Apprentissage Automatique

Enregistrement et transformation du son. S. Natkin Novembre 2001

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

Mesure agnostique de la qualité des images.

REFERENTIELS DE COMPETENCE

Chapitre 2 Les ondes progressives périodiques

Musique imprimée & PCDM4 (version février 2008) 1.3 AUT 1.3 AUT 04 3 COM 05M 2 AUT 11/1R 6.11 AUT

Caractéristiques des ondes

Compétences souhaitées à la fin des trois cycles de l enseignement spécialisé (musique)

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Capacité étendue d utilisation en réseau

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

Intérêt du découpage en sous-bandes pour l analyse spectrale

Classification automatique des signaux audio-fréquences : reconnaissance des instruments de musique

10ème Congrès Français d'acoustique Lyon, Avril 2010

Vérification audiovisuelle de l identité

Introduction au Data-Mining

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

CARACTÉRISTIQUES TECHNIQUES THE ARTIST CINE-CONCERT LIVE

: seul le dossier dossier sera cherché, tous les sousdomaines

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

Initiative H «DEUS EX MACHINA»


White Paper - Livre Blanc

QUELQUES PROPOSITIONS POUR EVALUER LES PRATIQUES MUSICALES AU CYCLE 3. Didier Louchet CPEM

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Projet de Traitement du Signal Segmentation d images SAR

AMELIORATION DE LA FIABILITE D UN MOTEUR GRÂCE AU TEST STATIQUE ET DYNAMIQUE

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Exemple d acquisition automatique de mesures sur une maquette de contrôle actif de vibrations

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Projet audio. Analyse des Signaux ELE2700

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Devenez un véritable développeur web en 3 mois!

Application en classe de la progression des apprentissages en musique 1 er cycle du secondaire

Bandes Critiques et Masquage

I n s c r i p t i o n S E M A I N E D E S T A G E H A T T E M E R - A V R I L

Introduction au Data-Mining

N SIMON Anne-Catherine

Spider IV 15 Manuel de pilotage

Une empreinte audio à base d ALISP appliquée à l identification audio dans un flux radiophonique

Formats 3D Critères d utilisation dans les échanges Frédéric CHAMBOLLE PSA Peugeot Citroën Direction des Systèmes d Information

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

SI350 Indexation Audio

Présentation du programme. de physique-chimie. de Terminale S. applicable en septembre 2012

Une fréquence peut-elle être instantanée?

Les musiciens : Frédérique REZZE Clarinette. Véronique SOUBRE-LANABERE Violon et chant. Pascale PAULY Accordéon, piano et chant

TP Modulation Démodulation BPSK

Etude de la détectabilité du Véhicule Electrique en milieu urbain

Comportements (The Observer XT) : activité générale du conducteur : (entre autres) mouvements des mains, position, verbalisations.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au datamining

Guitar FX Plug-in Suite

Pierre Couprie. «Analyser la musique électroacoustique avec le logiciel ianalyse» EMS08

TRAVAUX DE RECHERCHE DANS LE

Air Transat. Contexte. Buts. Défis. Solution. Industry Travelling, Transport

5. Apprentissage pour le filtrage collaboratif

Règlement d études et d examens concernant la formation de musiciens et musiciennes d Eglise non professionnels

Tableaux de bord de gestion du risque Rapport d audit permanent

1 Complément sur la projection du nuage des individus

Scarlett Plug-in Suite

En UEL uniquement. Jour/ horaire. Programme. Découverte du langage musical autour du piano. Musique à l école. Création sonore et radiophonique

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Le technicien porte un regard de spécialiste sur l instrument. De par sa formation et, à l inverse du musicien son approche n est pas subjective.

Pour l examen pédagogique de la SSPM en vue de l obtention du diplôme de professeur de flûte à bec

Catalogue des formations Edition 2015

Hélène Lœvenbruck, Christophe Savariaux, Dorothée Lefebvre

Annexe 3. Le concept : exemple d une situation d apprentissage.

Traitement du signal avec Scilab : transmission numérique en bande de base

Traitement bas-niveau

UN CONCEPT INNOVANT POUR APPRENDRE LA MUSIQUE

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

TD1 Signaux, énergie et puissance, signaux aléatoires

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Repères historiques MUSIQUE ET VARIATION. Objectifs. Léonard de Vinci W.A.Mozart G.Bizet

le diplôme d Etat de professeur de musique, le diplôme d Etat de professeur de danse.

TubeOhm. ALPHA-RAY synthétiseur virtuel analogique. Manuel de l utilisateur V 1.0

Mettez les évolutions technologiques au service de vos objectifs métier

Network musical jammin

Communications immersives : Enjeux et perspectives

ISTEX, vers des services innovants d accès à la connaissance

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Gestion obligataire passive

EIP 2012 Projet Livepad. Documentation technique 1.5

BUSINESS INTELLIGENCE

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Business Talk IP Centrex. guide. web utilisateur. pour. les services standards

Transcription:

Descripteurs audio:! de la simple représentation! aux modèles de connaissances! Geoffroy.Peeters@ircam.fr UMR SMTS IRCAM CNRS UPMC

Introduction L analyse musicale à l heure des outils multimédia Coordination : Jean-Marc Chouvel Pertinence, usage et interprétation des descripteurs pour l analyse Coordination de la séance : Alain Bonardi et Pierre Couprie Sous la dénomination de «descripteurs audio», un nombre considérable d outils ont été développes ces dernières années qui proposent de mettre en évidence des aspects spécifiques du signal audio. Bien que la plupart aient été développes dans un contexte, celui de la recherche d information musicale(m.i.r), assez éloigné des préoccupations de l analyse, on peut toutefois interroger la pertinence de ces «descripteurs» pour la compréhension du phénomène musical. Quelles sont les catégories mises en évidence? Quel est le potentiel de leur combinaison? Quels aspects du message musical mettent-ils en avant? et quels aspects leur restent inaccessibles? Leur démultiplication est-il un gage d adéquation ou une impuissance à délivrer une synthèse?

Traitement du signal Extraction d une représentation du signal permettant sa manipulation Fréquence fondamentale? Est-ce un descripteur? MPEG-7 Audio Lancaster, Descripteur/ Features/ Attributs Acoustique Collection de descripteurs de différents domaines timbretoolbox Développement de descripteurs ircamdescriptor Abstraction progressive Ircam{descriptor,beat,chord,keymode,structure} Question fréquente: «quel descripteur utiliser pour faire ceci?» Descripteurs génériques (applicable à tout type de signaux) descripteurs spécifiques (suppose un son isolé, modèle harmonique,! musique composée temporellement)

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Le spectre est un descripteur (multidimensionnel)

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Matrice d auto-similarité (aide à comprendre l organisation temporelle), Est-ce un descripteur? Ou une visualisation?

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Egalement une matrice d auto-similarité mais cette fois de la variation temporelle du timbre (paramétrisation des descripteurs)

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl D une visualisation de l organisation temporelle à son interprétation automatique en en terme de structure, A,B,C,D,E, Exemple annotations en XML

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl MFCC: visualisation non interprétable Tous les descripteurs ne peuvent pas être visualisés Chroma

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Tous les descripteurs ne peuvent pas être visualisés. Pour Audiosculpt -> choix d un sous-ensemble d ircamdescriptor

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Descripteur «sémantique» local Les battements/ premiers temps modèle de connaissance

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Descripteur «sémantique» global Profils temporelles de son Classe d instrument Instrument T1 Non Sustained Sustained Strings Woodwinds T2 Struck Strings Plucked Strings Pizz Strings Bowed Strings Brass Single Double Reeds Air Reeds T3 Piano Guitar Harp Violin Viola Cello Double Violin Viola Cello Double Trumpet Cornet Trombone French Horn Tuba Single Reeds Clarinet Tenor sax Alto sax Sop sax Accordeon Double Reeds Oboe Bassoon English horn Flute Piccolo Recorder

Représentation visuelle/ numérique Stravinsky The Rite of Spring Dances of the Young Girl Descripteurs «sémantiques» locaux et globaux, modèle de connaissance et apprentissage machine descripteurs locaux (musicologie) descripteurs globaux (indexation base de données)

Différentes catégorisations possibles des Descripteurs de bas/ de haut-niveau (cnfr MPEG-7 Audio: D: Descriptor, DS: Descriptor Scheme) Niveau de complexité? Niveau d abstraction? Centroid Spectral -> Fréquence Fondamentale/ Pitch? -> Accord? -> Genre/ Humeur? Descripteurs pour qui? Musicologue Chercheurs Amateurs de musique Industriels Descripteurs pour quoi? Décrire un morceau de musique Musicologie (descripteurs locaux en temps, compréhensibles) Décrire une collection de morceau de musique Gestion de base de données, moteurs de recherche (apprentissage machine) Décrire des flux de signaux audio inconnus descripteurs Contenu Concepts Transformation Accès Description pour la Synthèse (Analyse) Sinusoides, Formants, GCI, LPC Super-VP, Audiosculpt,... Audio Descripteurs Bas-niveaux Centroid spectral, étendue spectrale, xcorr, mfcc Synthèse par desc., Apprentissage Recherche (Timbre), CATART Descripteurs Haut-Niveaux Instrument musique SoundFX Musique Intrument-name, mode de jeu, notes? Moteur de recherche (SOL, SoundPalette) Qualité (rugueux,...), Matériel,...? Sample Orchestrator Tempo, Battements, Accords, Tonalité, Genre EchoNest Creative API Moteur de recherche (Orange, Exalead) Navigation visuelle dans une base de données Synthèse/ manipulation Descripteurs sur quels types de sons? Descripteurs génériques Descripteurs spécifiques (hypothèse d harmonicité, d unicité)

Différentes catégorisations possibles des descripteurs Audio Description pour la Synthèse (Analyse) Descripteurs Bas-niveaux Descripteurs Haut-Niveaux Contenu Instrument musique SoundFX Musique Concepts Sinusoides, Formants, GCI, LPC Centroid spectral, étendue spectrale, xcorr, mfcc Intrument-name, mode de jeu, notes Qualité (rugueux,...), Matériel,... Tempo, Battements, Accords, Tonalité, Genre Transformation Super-VP, Audiosculpt,... Synthèse par desc., Apprentissage?? EchoNest Creative API Accès Recherche (Timbre), CATART Moteur de recherche (SOL, SoundPalette) Sample Orchestrator Moteur de recherche (Orange, Exalead)

Différentes catégorisations possibles des descripteurs Beaucoup de variations sur un même concept Fréquence Temps Trame Audio Temporal Energy Envelope STFTmag, STFTpower ERBfft, ERBgammatone Harmonic Model Attack Decay Release Log-Attack-Time Attack Slope Decrease Slope Temporal Centroid Effective Duration Freq. (energy modul.) Amp. (energy modul.) Autocorrelation Zero Crossing Rate Spectral Centroid Spectral Spread Spectral Skewness Spectral Kurtosis Spectral Slope Spectral Decrease Spectral Rolloff Spectral variation Frame Energy Spectral Flatness Harmonic Energy Noise Energy Noisiness Fundamental Freq. Inharmonicity Tristimulus Harmo. Spec. Dev. Odd to Even Ratio Spectral Crest mais également des dénomination communes (flux spectral, variation harmonique) pour des mesures très différentes

Différentes catégorisations possibles des descripteurs Exemple de descripteurs spécifiques Descripteurs intonatifs [Régnier] Descripteurs stéréo [Tardieu]

Descripteurs et modèle de connaissance Différents types de descripteurs 1) Série d opérateurs mathématiques Centroid spectral: Signal -> spectre -> barycentre Chroma/ Pitch-Class-Profile: Signal -> spectre -> banc de filtres de chroma Mel Frequency Cepstral Coefficient: Signal -> spectre -> bancs de filtres Mel -> DCT 2) Estimateur (prise de décision, erreurs possibles) Fréquence fondamentale (introduction de connaissance, série harmonique des pics du spectre) Détection d onset (maxima local, seuil) 3) Modèle de connaissance Connaissance acquise par un humain Connaissance acquise par une machine Accord Tempo/Métrique/Premier-temps Profils temporels, classe de rythme, genre, style, humeur ATTENTION: les 2) et 3) peuvent se tromper! Il est important de bien comprendre les descripteurs!

Descripteurs et modèle de connaissance ircambeat Détection de tempo/ métrique -> Patterns de métrique Détection de tempo/ métrique -> Patterns d énergie -> variation harmonique, balance spectrale

Descripteurs et modèle de connaissance ircamchord x(t) Chromas DFT Chromas CQT Multi- Pitch t Gabarits d accords Analyse Beat-Synchrone position, durée, tatum, tactus Observations Probabilités d'émission - corrélation avec gabarits d'accords - modèle gaussien (théorie musicale, appris) Probabilités de transitions - proximité dans le cercle des quintes - corrélation profils cognitifs de Krumhansl - entrainement Dm GM CM CM 1 CM 2 CM 3 CM 4 Règles de transition entre accords Position de changement harmoniques

Descripteurs et modèle de connaissance ircamstructure Complexité (perplexity) harmoniques décroit en fin de section / structure

Comment créer des descripteurs? 1) A la main En perception, en parole, en image, pour mettre en évidence des propriétés spécifiques Développer un descripteur à la main: recherche de généralisation d un phénomène spectro-temporel observé localement à un corpus plus large Modélisation de l évolution temporelle (moyenne/ vairnace à court-terme, modèle d évolaution) Pour un esemble de descripteurs, lequel utiliser? Sélection manuelle ou sélection automatique de descripteurs

Comment créer des descripteurs? 2) Automatiquement de manière supervisée Extractor Discovery System (EDS) [Zils, Pachet] Genetic Programming MEAN (MAX (FTT (SPLIT (HPFILER (Signal, 1000Hz), 10ms)))

Comment créer des descripteurs? 3) Automatiquement de manière non supervisée Deep Believe Network [Humphrey, Battenberg, ] Layering restricted Boltzmann machines

Logiciels d extraction de descripteurs Il en existe beaucoup Marsyas Yaafe MIR Toolbox Zsa.Descriptors Vamp plug-in TimbreToolBox Ircamdescriptor, ircambeat, ircamkeymode, ircamchord, Optimisation de l extraction >< Flexibilité ircamdescriptor) Démultiplication des descripteurs? Beaucoup de variations autour d un même thème Beaucoup d implémentations différentes (C++, Matlab, Python, JavaScript) des besoins différents Faut-il normaliser les descripteurs? Cnfr MPEG-7 Audio Standard SDIF [Burred]

Roadmap for Music Information Research Merci Questions?