Bases mathématiques et notion nécessaires en traitement du signal (3h). Analyse automatique des signaux audio et de parole (9h): Le signal de parole

Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

UE11 Phonétique appliquée

Chapitre 18 : Transmettre et stocker de l information

Ministère des Affaires étrangères et européennes

Le modèle standard, SPE (1/8)

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Rapport : Base de données. Anthony Larcher 1

Google Apps for Business

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Ordonnance du DFJP sur les instruments de mesure audiométriques

Enregistrement et transformation du son. S. Natkin Novembre 2001

Outils permettant la diffusion de l information. Un point sur le droit numérique

Le codage informatique

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Analyse des bruits de clavier d ordinateur

CT-DECT GateCom 3W avec Fonction CT-ASR CT-DECT Bluetooth / tablette tactile et téléphones GSM Geschäftsbericht 09/10 I 1

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Notions d acoustique contexte réglementaire et solutions de prévention

Cours / Formation pour débutant en informatique, bureautique, Internet etc... (pour débutants)

Portail Vocal d Entreprise

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Chapitre 2 Les ondes progressives périodiques

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

Etude et conception d un serveur vocal :

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

ACCROÎTRE SON AUTONOMIE AVEC UNE TABLETTE. Regards croisés d'usagers et de professionnels en surdité

Chaine de transmission

Sommaire. Introduction à la 11 e édition... Chapitre 1 Le rôle du marketing est de créer de la valeur Première partie Étudier les marchés...

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Apprentissage Automatique

Le fonctionnement d un service d archives en entreprise. Le Service national des archives

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

NORMES DE LIVRAISON DES MESSAGES PUBLICITAIRES ET MESSAGES D INTÉRÊT PUBLIC COMMERCIAUX APTN

I/ CONSEILS PRATIQUES

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

User guide Conference phone Konftel 100

Référentiel d'activités professionnelles et référentiel de certification Diplôme d'état de professeur de musique

N SIMON Anne-Catherine

1. Qu est-ce que la conscience phonologique?

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

ALFA INSTALLATION LECTEUR MESSAGES SMS SERVICE

Chapitre 5 Émetteurs et récepteurs sonores

Europresse : Découvrir la recherche avancée

Traitement numérique de l'image. Raphaël Isdant

LES REFERENTIELS DES TROIS BACCALAUREATS PROFESSIONNELS DU TERTIAIRE COMMERCIAL VENTE COMMERCE SERVICES

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

LES INTERFACES HOMME-MACHINE

RELEASE NOTES. Les nouveautés Desktop Manager 2.8

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Bosch DCN Next Generation Applications

SITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES

«Tous les sons sont-ils audibles»

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

ACADÉMIE D ORLÉANS-TOURS NOTE D INFORMATION n 50

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Chapitre 13 Numérisation de l information

bureaux 0/1/2/3/4/5/6

Scénario n 24 : QUOI FAIRE AVEC MON BAC PRO TRANSPORT /LOGISTIQUE?

Les textos Slt koman sa C pa C?

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Ergonomie et Prévention des risques professionnels

DEFICIENTS AUDITIFS : QUELLES AIDES FINANCIERES?

Le guide pinta de l acoustique

Projet de Master en Informatique: Web WriteIt!

MATHÉMATIQUES ET SCIENCES HUMAINES

Dragon Naturally Speaking 13

IMMED Monitoring vidéo porté

Speexx Basic Anglais, Français, Allemand, Italien, Espagnol,

Les techniques de multiplexage

Formations Web. Catalogue 2014 Internet Référencement Newsletter Réseaux sociaux Smartphone

L évolution des techniques d information

SONS. Dossier pédagogique. Enseignants Niveau lycée

Conférence EDIFICAS. Le document électronique et sa valeur probante

Cours Informatique 1. Monsieur SADOUNI Salheddine

ESSOURCES PÉDAGOGIQUES

Partenaires: w w w. c o g m a s t e r. n e t

Vérification audiovisuelle de l identité

mode d emploi des services de votre ligne fixe

Danseur / Danseuse. Les métiers du spectacle vivant

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

[FORMAT AGRANDI DE LA POLITIQUE D ACCESSIBILITÉ POUR LES PERSONNES HANDICAPÉES]

Roger pour la maison et la vie sociale. Combler le manque de compréhension

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

La Solution Télématique Innovante pour la voiture basée sur Windows Mobile

METHODE IDENTIFIER LA NATURE D UN DOCUMENT

Cliquez sur une image pour l'agrandir

LES METIERS DU NUMERIQUE COMMUNICATION ET MARKETING

CallRecorder. Octo Quarto

RELEVÉ DES RÉVISIONS

Quels sont les indices observés chez les enfants présentant un trouble de traitement auditif?

NOMENCLATURE ECONOMIE SOCIALE SOLIDAIRE (ESS)

L ESSENTIEL DU PLAN MARKETING OPÉRATIONNEL

Les tablettes numériques, véritable outil d'apprentissage? Exemples d'activités pour la classe

Document d aide au suivi scolaire

Transcription:

Bases mathématiques et notion nécessaires en traitement du signal (3h). Analyse automatique des signaux audio et de parole (9h): Le signal de parole : analyse, unités pertinentes et variabilité, Modélisation stochastique d'objets sonores, La reconnaissance automatique de la parole, La transcription enrichie de documents. Analyse d'images (6h): Descripteurs : couleurs, textures, formes, points d'intérêts, Indexation par concepts, Analyse de vidéos (6h), Séquences d'images : mouvement, segmentation, suivi Fusion multimodale : indexation sémantique à partir de l'image, de l'audio et du texte.

Laurent Besacier 1.5h

La parole se distingue des autres sons par ses caractéristiques acoustiques Les sons de parole sont produits par deux processus différents Vibration des cordes vocales Source de voisement Turbulence crée par l air s écoulant rapidement dans une constriction du conduit vocal lors de relâchement d une occlusion du conduit vocal c est une Source de bruit

La fonction principale des sons dans une langue est d établir des distinctions entre les unités de signification Les phonèmes sont les élément sonores les plus brefs qui permettent de distinguer différent mots Exemples [p] [b] pas / bas paie / baie pot / beau

La première caractéristique d un signal de parole est sa variabilité une personne ne prononce jamais deux fois le même son de la même façon deux personnes ne prononcent pas le même son de la même façon pourtant, ce son est parfaitement reconnu et compris par un auditeur humain!!

!" Pour étudier et comprendre les phénomènes physiques mis en jeux être un peu moins ignorants... comprendre aussi les dysfonctionnements (handicapés du langage) être capable d utiliser ces connaissances pour l apprentissage des langues étrangères Pour reproduire la parole sous forme artificielle synthèse de la parole (synthèse à formants) modélisation de l appareil de production Pour déterminer des mesures de caractérisation pouvant être utilisées pour le codage ou par les moteurs de reconnaissance de parole caractéristiques spectrales (LPC, MFCC, fréquence fondamentale, etc )

#

$% $ $& $' Fréquences de résonance du conduit vocal Triangle vocalique des voyelles

$(!

$(!!)

* %

+,* &

Hauteur de la voix (pitch ou fréquence fondamentale) Intensité de la voix (énérgie) Durées successives des segments syllabiques

$! Résulte de la vibration des cordes vocales Se traduit par l évolution de la fréquence laryngienne réalisée à partir du signal de parole Dépend essentiellement de l âge et du sexe du locuteur 100 à 150 Hz pour l homme adulte 140 à 240 Hz pour la femme adulte peut présenter des variations considérables chez un même locuteur selon le type de phrase prononcée selon l état émotif et l attitude du locuteur

-! CALLIOPE La parole et son traitement automatique 1989, Masson, CENT, ENST FANT G. Acoustic theory of speech production Mouton, The Hague (1960) R. BOITE, H. BOURLARD, T. DUTOIT, J. HANCQ, H. LEICH Traitement de la parole Presses Polytechniques et Universitaires Romandes - Collection Electricité (2000) J.P. HATON & al., «La parole : du signal à son interprétation", Dunod, 2006.

.! http://www-clips.imag.fr/geod/user/laurent.besacier/new-tps/tp-parole/tp1.html

/0.1/! +!,.123*! +00!,

.!111 Ce qui est prononcé par le locuteur.

)3 +%, Nombre de locuteurs : systèmes mono locuteurs jusqu à multi locuteurs Nombre de mots du dictionnaire : systèmes petit vocabulaire jusqu à grand vocabulaire Canaux de transmission : «en direct», via le téléphone, réseaux mobiles...

)3 +&, Environnement acoustique : calme (utopique), normal (bureau, pièce isolée), bruité (hall de gare, rue), extrême (cockpit d avion ) Style de parole : digits, mots isolés, mots enchaînés, parole continue (lue, spontanée) Une seule personne à la fois ou conversation («cocktail party»)

+%, Services télécom (ou serveurs vocaux) : renseignements par commande vocale via le téléphone (séances cinéma, annuaires, renseignements) Commerce électronique (E-commerce) Services Web : remplissage de formulaires par la voix Bornes vocales (sur site) : renseignements touristiques, achat tickets transport (SNCF)

+&, Bureautique : logiciels de dictée vocale, pilotage de l environnement, dictée de messages électroniques Enseignement des langues : évaluation de la prononciation Transports : commande vocale pour l aide au pilotage

+', Aide aux handicapés : saisie de données à la voix, commandes vocales (ouverture porte, contrôle des équipements au domicile) Archivage & recherche d informations : transcription automatique de documents radio ou télédiffusés, recherche d informations dans des BD audiovisuelles

+4, *5+06, *)+06, *3+ 06,

7!3 IBM Via Voice Dragon Naturally Speaking Phillips Lernhout & Hauspie ATT Boites à outils : HTK

/! Les meilleurs systèmes obtiennent* ~10-12% de taux d erreur de mots pour l anglais sur des documents de journaux télévisés ou des enregistrements du parlement européen ~20% de taux d erreur de mots pour l anglais sur des conversations téléphoniques Progrès réguliers Voir évaluations DARPA & NIST *sources: projets TCSTAR & GALE

/!

.!!111 Identité du locuteur Langue parlée (c est quand même une info linguistique, mais bon.) Etat physiologique et psychologique du locuteur (stress, maladie )

8! /+8/, Caractéristiques biométriques Empreinte digitale Empreinte génétique Visage Voix (serrure vocale, transactions à distance...) Signature Ecriture

5 Identification du locuteur : par quel locuteur de la base de donnée le signal de parole a-t-il été prononcé? (réponse 1 parmi N, matching) Vérification du locuteur : le locuteur est il bien celui qu il prétend être? (réponse binaire, acceptation ou rejet)

)3 Dépendance au texte : systèmes dépendants du texte, systèmes à textes «promptés», systèmes indépendants du texte Canaux de transmission et environnement (cf RAP) Variabilité...

variabilité due au locuteur émotion, fatigue, stress conditions d enregistrement variables microphone, bruit ambiant conditions de transmission variables canal téléphonique nouveaux problèmes Mobiles : codage, bruit évoluant au cours du temps

Applications sur site : serrures vocales, cabines bancaires en libre service Applications liées aux télécommunications : accès à un service de transactions bancaires, ou à des données confidentielles Applications judiciaires («forensic») : recherche de suspects, expertises vocales Indexation multimédia : indexation / loc.

8! / Prise en compte de l aspect multilingue des serveurs vocaux Diriger un appel prononcé dans une langue quelconque vers l'opérateur ou le service automatique correspondant Proche de la RAL car identification d un groupe de locuteurs qui parlent la même langue

13! Etat psychologique du locuteur : stress (boîtes noires d avions), émotion Etat pathologique du locuteur : pathologies vocales, fatigue (intéressant à détecter pour les métiers «à risque» mais il existe de bien meilleurs capteurs!!) "##!$%%%

. 3+9, Quelques chiffres 45 ans d archives télé. 300 000 h de signal 60 ans d archives radio 400 000 h de signal Problèmes stockage des informations accessibilité aux données

3 Mots (word spotting) recherche de documents dans lesquels un mot clé est prononcé Thème (topic detection) archivage (ou recherche) de documents par thèmes Locuteur (speaker segmentation / indexation) Savoir qui parle et quand L identité des locuteurs peut être inconnue au départ

23 3 Archivage automatique de programmes radiodiffusés par thème Trouver tous les discours prononcés par telle personnalité politique (calcul du temps de parole lors d une campagne électorale) Recherche des messages par locuteur (ou par thème) sur un répondeur télephonique Transcription automatique de documents audio.