LLLDL 487 Linguistique informatique et linguistique de corpus. Partie 3 : corpus oraux Anne Lacheret Séance 1



Documents pareils
N SIMON Anne-Catherine

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

UE11 Phonétique appliquée

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Le modèle standard, SPE (1/8)

1. Qu est-ce que la conscience phonologique?

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Tutoriel Prosogram. 1. Installation. Tutoriel prosogram

Avant-propos Le problème de la spécificité du texte dramatique... 7 Genres du dramatique et descriptions linguistiques Conclusion...

Apprentissage Automatique

PLAN D ÉTUDES. école fondamentale

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION

Document d aide au suivi scolaire

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Master Diapason. Mention linguistique générale et appliquée, spécialité fonctionnements linguistiques et dysfonctionnements langagier

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Portail Vocal d Entreprise

Présentation Cette bi-licence combine les exigences et les objectifs des deux licences disciplinaires :

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Convention de transcription CIEL-F

Projet de programme pour le cycle 3

Projets Professionnels - Master IdL

PHONOTACTIQUE PREDICTIVE ET ALIGNEMENT AUTOMATIQUE : APPLICATION AU CORPUS MARSEC ET PERSPECTIVES. Cyril Auran, Caroline Bouzon

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

P R E S E N T A T I O N E T E V A L U A T I O N P R O G R A M M E D E P R E V E N T I O N «P A R L E R»

Livret personnel de compétences

Interférences lexicales entre deux langues étrangères: anglais et français

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

«Information et Communication» «Ingénierie de la langue pour la Gestion Intelligente de l Information»

De la tâche à sa réalisation à l aide d un document plus qu authentique. Cristina Nagle CEL UNICAMP cnagle@unicamp.br

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

La perspective actionnelle: Didactique et pédagogie par l action en Interlangue. 1. Paola Bagnoli, Eduardo Dotti, Rosina Praderi et Véronique Ruel

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

L ORAL OBJET OU MOYEN D APPRENTISSAGE?

PACK NUMERIQUE EDUCATION GUIDE UTILISATEUR

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Phonologie, Master LFA Professeur : André THIBAULT

La Conscience phonologique

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

FORMATIONS LINGUISTIQUES : DIPLOMES & TEST D ESPAGNOL

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

Tableau mettant en relation les niveaux du CECRL et les programmes IFALPES par compétences.

Thèmes et situations : Achat-Vente. Fiche pédagogique

Le Cadre Européen Commun de Références pour les Langues

questions/réponses sur les DYS

guide pédagogique Fabienne Gallon

1. Productions orales en continu après travail individuel

INTERVENTION AU COLLOQUE DE LIRE ET ECRIRE «Des causes de l illettrisme»

Le livre blanc de la traduction

Contribution à la réalisation d un synthétiseur de la parole pour la langue Arabe

SMPMKPOO=aKbKbKpK=qÉÅÜåáèìÉë=kìã êáèìéë=éí= jìäíáã Çá~=J=abbpqkj

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

RESSOURCES POUR FAIRE LA CLASSE. le langage À

L ACCOMPAGNEMENT PERSONNALISE AU LYCEE PICASSO DE PERPIGNAN (Document de travail)

DIPLÔME APPROFONDI DE LANGUE FRANÇAISE

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Master Etudes françaises et francophones

Thèmes et situations : Personnel et législation sociale dans l entreprise. Fiche pédagogique

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

LIVRET PERSONNEL DE COMPÉTENCES

Uniboard: optimiser votre enseignement à l'aide du tableau noir électronique

Commerce International. à référentiel commun européen

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

S'intégrer à l'école maternelle: indicateurs affectifs et linguistiques pour des enfants allophones en classe ordinaire

Atelier rédactionnel

Comment assurer la présence d une langue dans le cyberespace?

Ecrire avant de savoir lire : l écriture tâtonnée permet-elle de mieux préparer les élèves de maternelle à l apprentissage de la lecture?

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

Projet BI powered de la société «BI experts»

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Manuel d Administration

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

mémo santé du bâtiment Chef d entreprise artisanales Le bruit est un son désagréable et gênant.

Diplôme de Docteur en chirurgie dentaire ORGANISATION DES ENSEIGNEMENTS

Les différents troubles d apprentissage

LES INTERFACES HOMME-MACHINE

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

LLCE ALLEMAND LICENCE

AVERTISSEMENT. D'autre part, toute contrefaçon, plagiat, reproduction encourt une poursuite pénale. LIENS

LFRA12 RECHERCHE DOCUMENTAIRE APPLIQUEE A LA TRADUCTION

Catalogue DIF. Formations linguistiques

TPS 4 Objectifs du programme aide à la lecture et à l'écriture Les fonctions principales lecture à haute voix

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Guide pédagogique. Annie Berthet Corina Brillant Emmanuelle Daill Catherine Hugot Véronique M. Kizirian Monique Waendendries

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

Application du logiciel ELAN à l'annotation linguistique

Organisation de la fin d année du Master 2 de stratégie de communication globale

FORMATIONS LINGUISTIQUES DIPLOMES, TESTS & EXAMENS D ESPAGNOL COCEF

PRÉPONDÉRANCE DU CONTEXTE EXTRALINGUISTIQUE DANS LA CONSTRUCTION DU SENS : L EXEMPLE DES COMMUNICATIONS DE TRAVAIL DANS LA NAVIGATION AÉRIENNE

Transcription:

LLLDL 487 Linguistique informatique et linguistique de corpus Partie 3 : corpus oraux Anne Lacheret Séance 1

Rappel objectifs cours La numérisation des données langagières écrites et sonores a profondément bouleversé les méthodes de traitement et d'analyse en linguistique, en donnant notamment accès à des gros volumes de données, que l'on désigne sous le terme de corpus (écart écrit oral). De nouvelles méthodes d observation des faits langagiers en sciences du langage ont ainsi vu le jour ces quinze dernières années et ont donné lieu à la pratique active de la linguistique de corpus. Ces méthodes nécessitent la constitution de ressources, i.e. données langagières et outils pour les traiter, tant à l oral qu à l écrit (lexiques spécialisés, dictionnaires informatisés, grammaires locales, annotation syntaxique et sémantique, outils de segmentation automatique et d annotation prosodique de la parole etc). Elles exigent la mise en place de procédures rigoureuses afin de contrôler au mieux les résultats obtenus. Le cours présentera un panorama (survol/échantillons) des outils et des méthodes actuellement utilisées en linguistique de corpus dans un premier temps sur des textes écrits, ensuite sur des données sonores. L objectif : fournir aux étudiants les connaissances de base en linguistique de corpus, indispensables à une formation en sciences du langage aujourd hui quelle que soit l orientation professionnelle envisagée (enseignement, recherche, ingénierie linguistique, etc).

Planning Introduction aux corpus de la langue parlée : pourquoi? Comment? Où? Annoter phonétiquement des corpus oraux Outils logiciels pour l annotation et principe de ces outils (Praat) Comment lire un signal de parole: connaissances phonétiques élémentaires pour l annotation Lecture de spectrogramme TP d annotation : segmentation + transcription Prise en main de Praat Annotation manuelle Annotation automatique nettoyée

Organisation des séances 7 mai 14 mai 21 mai 28 mai Pentecôte samedi 2 juin? Lundi 4 juin : Partiel

Bibliographie et matériel de travail (1/2) Document sur clé Utilitaire PRAAT Sons de parole à travailler et texte correspondant Documents pdf sur site http://www.lacheret.com/, onglet enseignement,. Licence 2, Linguistique de corpus Transparents cours avant chaque séance Tutorial Praat Tutorial easy-align Alphabet Sampa Lecture de spectrogramme : Indices spectro Indices spectro-voyelles Indices spectro-consonnes

Bibliographie & matériel de travail (2/2) Sites PFC-Phonologie du français contemporain http://www.projetpfc.net/ Corpus de français parlé parisien des années 2000, discours sur la ville Rhapsodie : corpus prosodique de référence en français parlé http://rhapsodie.risc.cnrs.fr/fr/presentation.html Installation Praat : http://www.fon.hum.uva.nl/praat/ Installation easy align http://latlntic.unige.ch/phonetique/easyalign.php Ouvrages Blanche-Benveniste (1997), Approches de la langue parlée en français, Paris, Ophrys. Fuchs C., Danlos L., Lacheret A., Luzzati D., Victorri B. (1993), Linguistique et traitements automatiques des langues, Paris, Hachette. Première partie : les niveaux de traitement de la langue, section 1. Phonétique et phonologie, pp40-64.

Séance du 7 mai 2010 Pourquoi des corpus annotés phonétiquement Présentation rapide des sites mentionnés dans la bibliographie Introduction à la lecture de spectrogramme Problèmes de transcription Mots orthographiques vs mots phonologiques Principes de la segmentation en phonèmes Manuelle Automatique, l exemple de Michaux, Un ciel parce qu il n y a plus nulle part où poser la tête

Objectifs séances corpus oraux : pourquoi des corpus annotés phonétiquement? Développer savoir-faire dans l annotation phonétique de corpus (uniquement le niveau segmental) Pourquoi des corpus annotés phonétiquement? Linguistique théorique Syntaxe de l oral Sociolinguistique Phonétique & phonologie Linguistique des genres oraux à l interface de sémantique, syntaxe, phonétique, etc Traitement automatique des langues Reconnaissance de la parole et dialogue homme-machine Synthèse de la parole par ordinateurs Linguistique cognitive et linguistique clinique Parole pathologique

Les pré-requis : savoir lire un spectrogramme Support d annotation : entrée pour l annotation

Les pré-requis : savoir lire un spectrogramme (2/2) Sortie fournie par l annotateur

Résumé chaîne de traitement Son de parole continue Transcription orthographique Transcription phonétique Ordinateur Logiciel Praat + Easy-align intégré + fichier audio (matériel clé) Segmentation en syllabes

Son (casque) + acoustique : spectre de parole

Caractéristiques du signal : observations générales (1/2) +- présence du signal, +- zones de silence (arrêt de la phononation), +- zones voisées, etc

Caractéristiques du signal : observations générales (2/2)

Introduction à la lecture de spectrogramme Complexité du signal acoustique 3 types de source Source d impulsion périodique Source de bruit Source impulsionnelle Cavités de résonance et formants Conséquences Un signal régulier caractéristique des voyelles Un signal aléatoire bruité caractéristique des sons /s/ et / / Variations brutales associées à bruits d explosion correspondant et à silence à ouverture/aperture du conduit buccal lors de la production des occlusives

Signal régulier Signal aléatoire Silence

Les indices De façon générale Voyelles consonnes

Exercice : segmenter et annoter les segments voy (dont semi-voyelles)/cons, silence (_)