Reconnaissance d écriture et de la parole

Documents pareils
Apprentissage Automatique

N SIMON Anne-Catherine

Observatoire des ressources numériques adaptées

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Reproductibilité des expériences de l article "Analyse et réduction du chemin critique dans l exécution d une application"

MÉDICLICK! STUDIO 3 GESTION DES IMAGES ET PIÈCES JOINTES SOMMAIRE

PROGRAMME PROVISOIRE. Degré 9 (1CO)

JPEG, PNG, PDF, CMJN, HTML, Préparez-vous à communiquer!

Formats d images. 1 Introduction

Chapitre 22 Optimisation pour diffusion à l'écran, pour le web

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Créer une présentation avec

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Évaluation et implémentation des langages

FORMATION MULTIMÉDIA LVE

Projet Gestion des Formats de Fichier

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

Les apports de l informatique. Aux autres disciplines

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

BES WEBDEVELOPER ACTIVITÉ RÔLE

Programmes des classes préparatoires aux Grandes Ecoles

White Paper - Livre Blanc

INFO 2 : Traitement des images

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

MASTER LPL : LANGUE ET INFORMATIQUE (P)

UE11 Phonétique appliquée

Document d aide au suivi scolaire

Spétechs Mobile. D e r n i è r e m i s e à j o u r : s e p t e m b r e

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Outils permettant la diffusion de l information. Un point sur le droit numérique

Page 1 de 7 Tel BR2460F Rev Fax

Spétechs Mobile. D e r n i è r e m i s e à j o u r : a o û t 2014

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

PRESENTATION DE CLIC AND CASH

LA VIDÉO HAUTE DEFINITION, PARTOUT, POUR TOUS

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Logiciel libre, OpenMeetings permet de créer ou simplement de participer à des conférences en ligne.

Livret personnel de compétences

Projets Professionnels - Master IdL

Tableau des contenus

Vers une architecture générique de système de dialogue oral homme-machine

1. Qu est-ce que la conscience phonologique?

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

Portail Vocal d Entreprise

Indications pour une progression au CM1 et au CM2

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Gestion collaborative de documents

Projet de Traitement du Signal Segmentation d images SAR

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

Proposition année universitaire-informatique ( )

Cours Microfer Chartres

Qu est-ce qu un projet de création numérique?

TP SIN Traitement d image

Programmation parallèle et distribuée

MAGICFAX. Spécificités techniques LA MANIÈRE RAPIDE ET FACILE DE FAX PAR INTERNET

Catégories de format d'optimisation

Programme Pédagogique National du DUT «Gestion administrative et commerciale» Présentation de la formation

LIVRE BLANC «LA GESTION, CONVERSION, IMPRESSION, PUBLICATION ET DISTRIBUTION DOCUMENTAIRE SAP» SAP DMS SAP PLM

ACQUISITION. Traitement de l image. Classement. Préparation. Ouverture. Performance

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Catalogue Formations informatiques

4.2 Unités d enseignement du M1

Dans la série Les tutoriels libres présentés par le site FRAMASOFT. <Handbrake> <Utilisation d'handbrake pour les débutants> Par <OLIVIER LECLERCQ>

données en connaissance et en actions?

Maintenir un service de traitement de son ou d image d ordinateur

IPHONE BANNIÈRE CLASSIQUE DIMENSIONS. Standard : 320 x 53 (portrait) 20Ko Jpeg/Gif/Png. HD : 640 x 106 (portrait) 20Ko Jpeg/Gif/Png DESCRIPTION

Manuel. Nero MediaHome. Nero AG

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Les technologies du Big Data

Banque d images SVT. Créer et utiliser une banque d images avec Picasa 2. Version anglaise -Windows 98. Banque photo en SVT : page 1 /14

La série L est revalorisée

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

Programme de la 1ère année

TD : Codage des images

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Logiciels ou outils pouvant aider des élèves atteints de dyslexie, dysorthographie,

ISO/CEI NORME INTERNATIONALE

1/24. I passer d un problème exprimé en français à la réalisation d un. I expressions arithmétiques. I structures de contrôle (tests, boucles)

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

Encryptions, compression et partitionnement des données

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Intelligence Artificielle et Robotique

MANUEL D UTILISATION D-522. D-522 Page 1/50

Formation Excel, Niveau initiation, module 1 DUREE DE LA FORMATION OBJECTIFS DE LA FORMATION

Projet audio. Analyse des Signaux ELE2700

Géométrie discrète Chapitre V

Épreuve collaborative

Spécifications techniques

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Traitement numérique de l'image. Raphaël Isdant

QCM Corrigé. Damien Palacio 1/5

RESPONSIVE WEB DESIGN

1 Description générale de VISFIELD

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Windows Live Movie Maker

Transcription:

Reconnaissance d écriture et de la parole Damien Nouvel Damien Nouvel (Inalco) Reconnaissances 1 / 17

Supports, numérisation, reconnaissance Plan 1. Supports, numérisation, reconnaissance 2. Reconnaissance de l écriture 3. Reconnaissance de la parole 4. Discussions Damien Nouvel (Inalco) Reconnaissances 2 / 17

Supports, numérisation, reconnaissance Génération / compréhension Langue (écrite, orale) Compréhension Génération / Synthèse Représentation (informatique, numérique) Damien Nouvel (Inalco) Reconnaissances 3 / 17

Supports, numérisation, reconnaissance Langues et supports Supports traditionnels (avant l informatique) Écrit : papier Oral : disques (vynil, CD, cassettes) Numérisation du support Écrit : images (JPG, PNG, GIF ) Oral : format audio (MP3, AAC, WMA, MPEG ) ñ Objectif : transformer la donnée numérique en langage ñ Appel à des méthodes TAL (entre autres) Damien Nouvel (Inalco) Reconnaissances 4 / 17

Supports, numérisation, reconnaissance Processus Processus général Acquisition des données Analyse du format en entrée Utilisation de descripteurs adéquats Exploration de l espace solutions plausibles Décision selon la vraisemblance (modèles de langue) Sollicite plusieurs disciplines, en particulier Mathématiques (traitement du signal, probabilités) Informatique (formats de données, algorithmes) Linguistique (plausibilité des reconnaissances) ñ Données Ñ hypothèses Ñ solutions ñ Utilisation de méthodes plus ou moins supervisées ñ Paradigme : inférence de modèles à partir de données Damien Nouvel (Inalco) Reconnaissances 5 / 17

Reconnaissance de l écriture Plan 1. Supports, numérisation, reconnaissance 2. Reconnaissance de l écriture 3. Reconnaissance de la parole 4. Discussions Damien Nouvel (Inalco) Reconnaissances 6 / 17

Reconnaissance de l écriture Acquisition des données Modalités d écriture Manuscrite (cursive) Imprimée (fontes / polices) Présence de lettrines / enluminures ñ Complexités selon la langue Types de documents à traiter Format : courriers, ouvrages, journaux Thématiques spécifiques (vocabulaire / lexique) Plus ou moins anciens (dégradations, diachronie) Autres éléments para-langagiers (formules, schémas, images ) Encodage : scan, pages composée de pixels Damien Nouvel (Inalco) Reconnaissances 7 / 17

Reconnaissance de l écriture Traitements Traitement du signal Ajustement des couleurs (suppression) et du contraste Détection de blocs (colonnes, paragraphes, figures, tableaux ) Localisation des glyphes (segmentation en caractères) Construction d hypothèses Définition de descripteurs (caractéristiques / features) Recensement des glyphes possibles pour un alphabet ñ Écriture (>100 langues écrites, 135 scripts Unicode en 2016) Approche par similarités ñ Hypothèses de reconnaissance (graphe) Désambiguisation Vérification de la vraisemblance par modèles de langue ñ Modèles markoviens, n-grammes Damien Nouvel (Inalco) Reconnaissances 8 / 17

Reconnaissance de l écriture Applications Technologies assez matures Tri postal Traitement de chèques Scans de lettres (courriers) Numérisation de livres (Google Livres) Captcha (apprentissage de modèles) Damien Nouvel (Inalco) Reconnaissances 9 / 17

Reconnaissance de l écriture TP OCR Exercice Prendre une photo d un document avec son smartphone S envoyer la photo par email Enregistrer la photo, éventuellement convertir son format : convert doc.jpg doc.tif Installer Tesseract sur Ubuntu sudo apt-get install tesseract-ocr Installer une langue lng (parmi plus de 100) sudo apt-get install tesseract-ocr-lng Exécuter l OCR pour la langue tesseract doc.tif doc -l lng ñ Consulter le résultat du fichier doc.txt ñ Calculer le pourcentage de mots erronés ñ Discuter les possibles causes d erreurs Damien Nouvel (Inalco) Reconnaissances 10 / 17

Reconnaissance de la parole Plan 1. Supports, numérisation, reconnaissance 2. Reconnaissance de l écriture 3. Reconnaissance de la parole 4. Discussions Damien Nouvel (Inalco) Reconnaissances 11 / 17

Reconnaissance de la parole Acquisition des données Parole humaine (langue, accent ) ñ Peu de variation de formats : audio Documents à traiter Plus ou moins bruités Discours vs conversations Présence d intentions (requêtes) Encodage audio : son compressé Damien Nouvel (Inalco) Reconnaissances 12 / 17

Reconnaissance de la parole Traitements Traitement du signal Acoustique (débruitage) Transformée de Fourier Extraction des formants Construction d hypothèses Délimitation des syllabes (segmentations possibles) Définition de descripteurs (caractéristiques / features) Recensement des prononciations possibles ñ Dialectes ( 5000 langues orales vivantes) Approche par similarités ñ Hypothèses de reconnaissance (graphe / saucisse) Désambiguisation Vérification de la vraisemblance par modèles de langue ñ Modèles markoviens, n-grammes Damien Nouvel (Inalco) Reconnaissances 13 / 17

Reconnaissance de la parole Applications Technologie encore en développement (WER ą 10%) Serveurs vocaux Robotique (interaction vocale) Dactylographie Renseignement Damien Nouvel (Inalco) Reconnaissances 14 / 17

Discussions Plan 1. Supports, numérisation, reconnaissance 2. Reconnaissance de l écriture 3. Reconnaissance de la parole 4. Discussions Damien Nouvel (Inalco) Reconnaissances 15 / 17

Discussions Des données et du langage Applications très gourmandes en données Processus d apprentissage artificiel Réseaux de neurones Utilisation de l entropie Itérations d apprentissage ñ Lien avec l apprentissage humain? ñ Intelligence artificielle Exploitation de descripteurs Processus de discrétisation (numérisation) Pas nécessairement universels (langues) Nombreux par combinatoire des données Damien Nouvel (Inalco) Reconnaissances 16 / 17

Discussions Niveaux d analyse TAL Modules généralement implémentés en TAL Signal : audio / image Morphologie : phonèmes / caractères Syntaxe : dépendances entre mots, énoncés Sémantique : sens et représentation Pragmatique : cohérence discursive ñ Interdépendance entre toutes les strates ñ Idéalement, travaillent de concert (traitements joints) ñ En pratique, séquentiels (pipeline, chaîne de traitement) Damien Nouvel (Inalco) Reconnaissances 17 / 17