LLLDL 487 Linguistique informatique et linguistique de corpus Partie 3 : corpus oraux Anne Lacheret Séance 1
Rappel objectifs cours La numérisation des données langagières écrites et sonores a profondément bouleversé les méthodes de traitement et d'analyse en linguistique, en donnant notamment accès à des gros volumes de données, que l'on désigne sous le terme de corpus (écart écrit oral). De nouvelles méthodes d observation des faits langagiers en sciences du langage ont ainsi vu le jour ces quinze dernières années et ont donné lieu à la pratique active de la linguistique de corpus. Ces méthodes nécessitent la constitution de ressources, i.e. données langagières et outils pour les traiter, tant à l oral qu à l écrit (lexiques spécialisés, dictionnaires informatisés, grammaires locales, annotation syntaxique et sémantique, outils de segmentation automatique et d annotation prosodique de la parole etc). Elles exigent la mise en place de procédures rigoureuses afin de contrôler au mieux les résultats obtenus. Le cours présentera un panorama (survol/échantillons) des outils et des méthodes actuellement utilisées en linguistique de corpus dans un premier temps sur des textes écrits, ensuite sur des données sonores. L objectif : fournir aux étudiants les connaissances de base en linguistique de corpus, indispensables à une formation en sciences du langage aujourd hui quelle que soit l orientation professionnelle envisagée (enseignement, recherche, ingénierie linguistique, etc).
Planning Introduction aux corpus de la langue parlée : pourquoi? Comment? Où? Annoter phonétiquement des corpus oraux Outils logiciels pour l annotation et principe de ces outils (Praat) Comment lire un signal de parole: connaissances phonétiques élémentaires pour l annotation Lecture de spectrogramme TP d annotation : segmentation + transcription Prise en main de Praat Annotation manuelle Annotation automatique nettoyée
Organisation des séances 7 mai 14 mai 21 mai 28 mai Pentecôte samedi 2 juin? Lundi 4 juin : Partiel
Bibliographie et matériel de travail (1/2) Document sur clé Utilitaire PRAAT Sons de parole à travailler et texte correspondant Documents pdf sur site http://www.lacheret.com/, onglet enseignement,. Licence 2, Linguistique de corpus Transparents cours avant chaque séance Tutorial Praat Tutorial easy-align Alphabet Sampa Lecture de spectrogramme : Indices spectro Indices spectro-voyelles Indices spectro-consonnes
Bibliographie & matériel de travail (2/2) Sites PFC-Phonologie du français contemporain http://www.projetpfc.net/ Corpus de français parlé parisien des années 2000, discours sur la ville Rhapsodie : corpus prosodique de référence en français parlé http://rhapsodie.risc.cnrs.fr/fr/presentation.html Installation Praat : http://www.fon.hum.uva.nl/praat/ Installation easy align http://latlntic.unige.ch/phonetique/easyalign.php Ouvrages Blanche-Benveniste (1997), Approches de la langue parlée en français, Paris, Ophrys. Fuchs C., Danlos L., Lacheret A., Luzzati D., Victorri B. (1993), Linguistique et traitements automatiques des langues, Paris, Hachette. Première partie : les niveaux de traitement de la langue, section 1. Phonétique et phonologie, pp40-64.
Séance du 7 mai 2010 Pourquoi des corpus annotés phonétiquement Présentation rapide des sites mentionnés dans la bibliographie Introduction à la lecture de spectrogramme Problèmes de transcription Mots orthographiques vs mots phonologiques Principes de la segmentation en phonèmes Manuelle Automatique, l exemple de Michaux, Un ciel parce qu il n y a plus nulle part où poser la tête
Objectifs séances corpus oraux : pourquoi des corpus annotés phonétiquement? Développer savoir-faire dans l annotation phonétique de corpus (uniquement le niveau segmental) Pourquoi des corpus annotés phonétiquement? Linguistique théorique Syntaxe de l oral Sociolinguistique Phonétique & phonologie Linguistique des genres oraux à l interface de sémantique, syntaxe, phonétique, etc Traitement automatique des langues Reconnaissance de la parole et dialogue homme-machine Synthèse de la parole par ordinateurs Linguistique cognitive et linguistique clinique Parole pathologique
Les pré-requis : savoir lire un spectrogramme Support d annotation : entrée pour l annotation
Les pré-requis : savoir lire un spectrogramme (2/2) Sortie fournie par l annotateur
Résumé chaîne de traitement Son de parole continue Transcription orthographique Transcription phonétique Ordinateur Logiciel Praat + Easy-align intégré + fichier audio (matériel clé) Segmentation en syllabes
Son (casque) + acoustique : spectre de parole
Caractéristiques du signal : observations générales (1/2) +- présence du signal, +- zones de silence (arrêt de la phononation), +- zones voisées, etc
Caractéristiques du signal : observations générales (2/2)
Introduction à la lecture de spectrogramme Complexité du signal acoustique 3 types de source Source d impulsion périodique Source de bruit Source impulsionnelle Cavités de résonance et formants Conséquences Un signal régulier caractéristique des voyelles Un signal aléatoire bruité caractéristique des sons /s/ et / / Variations brutales associées à bruits d explosion correspondant et à silence à ouverture/aperture du conduit buccal lors de la production des occlusives
Signal régulier Signal aléatoire Silence
Les indices De façon générale Voyelles consonnes
Exercice : segmenter et annoter les segments voy (dont semi-voyelles)/cons, silence (_)