Séminaire CARTEL. Analyse de commentaires sportifs en direct. Gilles Boyé, Anna Kupść, Catherine Mathon. 2 Novembre 2015

Documents pareils
N SIMON Anne-Catherine

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Livret personnel de compétences

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Thèmes et situations : Achat-Vente. Fiche pédagogique

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Projet de programme pour le cycle 3

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Convention de transcription CIEL-F

Apprentissage Automatique

Commerce International. à référentiel commun européen

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Formation Pédagogique 3h

PLAN D ÉTUDES. école fondamentale

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Atelier rédactionnel

RÉSUMÉ DES NORMES ET MODALITÉS D ÉVALUATION AU SECONDAIRE

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

DIPLÔME APPROFONDI DE LANGUE FRANÇAISE

Pour écrire un texte sans fautes

Thèmes et situations : Personnel et législation sociale dans l entreprise. Fiche pédagogique

Thèmes et situations : Achat-Vente. Fiche pédagogique

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

Document d aide au suivi scolaire

Pearson - Fle 2013 Collection Tendances

CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

BRÉSIL. Frais techniques: e 140,- par couleur/position. techniques: 350,- Frais. 27x12cm EGALEMENT POSSIBLE. 21x10cm

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

1. Qu est-ce que la conscience phonologique?

1. Productions orales en continu après travail individuel

ÉTUDE DES MARQUEURS DISCURSIFS

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Tutoriel Prosogram. 1. Installation. Tutoriel prosogram

John Benjamins Publishing Company

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

Projets Professionnels - Master IdL

Polémique autour des droits de retransmission de la CAN

Céline Nicolas Cantagrel CPC EPS Grande Section /CP Gérer et faciliter la continuité des apprentissages

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

La scénographie des environnements d apprentissage électroniques. Une étude de cas en FLE

Tableau mettant en relation les niveaux du CECRL et les programmes IFALPES par compétences.

ACTIVITÉ DE PRODUCTION ORALE. Niveau A1. Qui est-ce?

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Ecouter. Parler Lire. Ecouter. Lire. Ecouter. Parler. Ecouter. Lire parler

Portail Vocal d Entreprise

Activité pour développer le concept de phrase et de mot

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Pour tout renseignement complémentaire : contact@ifadem.org

Fiche n 15 : Envoi d , alarme visuelle et synchronisation Outlook

Catalogue DIF. Formations linguistiques

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

guide pédagogique Fabienne Gallon

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Avant-propos Le problème de la spécificité du texte dramatique... 7 Genres du dramatique et descriptions linguistiques Conclusion...

Outils informatiques de manipulation de la vidéo et du son : une introduction

Application du logiciel ELAN à l'annotation linguistique

I/ CONSEILS PRATIQUES

MICROSTAGE COM602 Département des lettres et communications. Automne 2015 (10 juin 2015)

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

L ORAL OBJET OU MOYEN D APPRENTISSAGE?

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Stratégies favorisant ma réussite au cégep

Fiche de préparation. Intitulé de séquence : le portrait

Formation Word/Excel. Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007

PROGRAMMES EN EPS A L ECOLE PRIMAIRE

Dragon Naturally Speaking 13

UE11 Phonétique appliquée

Deux exemples de paragraphes, donnés en contre-point l un de l autre :

Fiche de synthèse sur la PNL (Programmation Neurolinguistique)

Ministère des Affaires étrangères et européennes

Thomas Dutronc : Demain

Mineure Architectures Orientées Services SOA Business Process Modeling (BPM) Mineure SOA. Business Process Modeling (BPM)

«L Été Oh! Parc» pédagogique. Fiche. Bonjour de France Fiches pédagogiques 1. Auteur : Delphine WODA.

Plan. Traitement de texte et PAO 4/10/06. Initiation à Word

LES TROUBLES DU GRAPHISME LA RÉÉDUCATION: QUAND ET COMMENT PASSER PAR L ORDINATEUR?

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

Et avant, c était comment?

MASTER LPL : LANGUE ET INFORMATIQUE (P)

UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...

! Text Encoding Initiative

SOUTENIR LES ÉLÈVES AYANT DES PROBLÈMES DE MÉMOIRE DE TRAVAIL

COURS DE MS EXCEL 2010

Unité de formation No 1 : la description d un processus de travail accompli par l apprenti au sein de l entreprise d apprentissage

Programme de la formation. Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Circonscription de. Valence d Agen

TiLT : plate-forme pour le traitement automatique des langues naturelles

Aide du Grand dictionnaire terminologique

(TALN) . Traitement Automatique du Langage Naturel. Outils d analyse de données textuelles. Laurent Audibert (LIPN - UMR CNRS 7030) 4 novembre 2010

Niveau linguistique Berlitz 1 Niveau A1 du CECRL

ESPACE MEDIA LANGUES

Transcription:

Séminaire CARTEL Analyse de commentaires sportifs en direct Gilles Boyé, Anna Kupść, Catherine Mathon Université Bordeaux Montaigne CLLE-ERSSàB 2 Novembre 2015 Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 1

Sommaire 1 Problématique Analyse du commentaire sportif 2 Traitements manuels Annotations du discours Annotations du sport Annotations syntaxiques 3 Analyse des données Tableaux comparatifs 4 Traitements automatiques Problèmes liés à l oral Étiquetage syntaxique Autres étiquetages 5 Perspectives Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 2

Motivation Problématique Analyse du commentaire sportif Interactions entre contexte et production linguistique commentaire sportif contenu imposé aspect visuel synchronisation contenu vidéo Interactions entre participants qui dit quoi quand comment? et pourquoi? Beaucoup d annotations nécessaires contenu du match/vidéo et commentaire analyse morphologique, syntaxique, prosodique Un match entièrement annoté à la main comment automatiser les annotations pour obtenir d autres données? Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 3

Problématique Discours sous contraintes Analyse du commentaire sportif Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 4

Corpus Problématique Analyse du commentaire sportif Match de rugby France-Argentine, coupe du monde 2007 commentaire sportif télévisé document : audio et vidéo, 1h48 3 locuteurs: Thierry Gilardi, journaliste (39%) Thierry Lacroix, spécialiste (24%) Fabrice Landreau, terrain (1.8%) Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 5

Traitements manuels Annotations du discours Annotations : vue globale Gilles Boyé, Anna Kups c, Catherine Mathon Séminaire CARTEL 6

Traitements manuels Annotations liées au discours Annotations du discours Transcription orthographique Identification des locuteurs: spk1: journaliste spk2: spécialiste spk3: sur le terrain Types de commentaire: play-by-play : description synchrone des actions color-commentary : informations complémentaires Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 7

Traitements manuels Découpage du discours Annotations du discours Manuellement avec Transcriber découpage en tours de parole (groupe de souffle) transcription orthographique avec les disfluences sans ponctuation Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 8

Traitements manuels Annotations liées au sport Annotations du sport Annotation des actions du match sur la vidéo sous-titres : Aegisub Actions: une liste prédéfinie Appariement actions/commentaires avec alignement sur la vidéo: décalage actions/commentaires durée/nombre des commentaires vs. actions Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 9

Traitements manuels Annotations liées à la syntaxe Annotations syntaxiques Annotation manuelle de chaque tour Au niveau global, le type de la structure syntaxique distinction tour principal/subordonné tours principaux : PS (phrase simple), PC (phrase complexe) X (nom propre), XQui (nom propre+relative),... PrepX, PrepXQui,... GN, GNQui, GNGPrep,... tours subordonnés : ÉtiquettePrincipale+bis Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 10

Analyse des données Analyse des données Actions et rythme du jeu: qui parle quand? distribution de commentaires par action rythme du jeu vs. commentaires: plage 1 rythme lent: 1 à 3 actions/5 sec plage 2 rythme moyen: 4 à 6 actions/5sec plage 3 rythme rapide: 7 à 10 actions/5sec Texte: qui parle comment quand? nombre de mots par tours/locuteur/action distributions de catégories: noms et verbes distribution des structures syntaxiques Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 11

Analyse des données Tableaux comparatifs Commentaires vs. Actions: Qui parle quand? Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 12

Analyse des données Tableaux comparatifs Rythme du jeu vs. Commentaires: Qui parle quand? Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 13

Analyse des données Tableaux comparatifs Syntaxe vs. Type de commentaire: Comment commenter quand? play-by-play color-commentary Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 14

Syntaxe vs. Rythme Analyse des données Tableaux comparatifs Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 15

Syntaxe vs. Actions Analyse des données Tableaux comparatifs Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 16

Traitements automatiques Comment élargir le corpus? Analyse du sport annotation par les étudiants de STAPS actions correspondances actions/commentaires Analyse linguistique : analyse syntaxique de l oral problèmes avec les disfluences problèmes avec l identification des phrases/énoncés analyse prosodique repérage des variations de F0 repérage des syllabes correspondances variations de F0/syllabes analyse lexicale repérage des entités nommées (et termes référents) Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 17

Traitements automatiques Analyse syntaxique de l oral Problèmes liés à l oral Fillers: allez de suite dans le camp euh argentin Inachèvements: Cédric Heymans en couverture il va devoir XXX Auto-corrections: sur le le la le la la cheville de de Heymans et le déséquilibre Des problèmes pour l analyse syntaxique automatique qui se situe généralement au niveau phrase (p.e. Talismane) Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 18

Traitements automatiques Identification des phrases Problèmes liés à l oral Phrases sur plusieurs tours Pieter de Villiers accusé d avoir tenu le ballon au sol Tour avec plusieurs phrases et là, il doit lâcher la balle. regardez, il le garde auprès du corps, pourquoi? y a trois argentins dessus, ils ont beaucoup ils sont beaucoup plus rapides que nous Comment retrouver le niveau phrase au sein des tours? Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 19

Traitements automatiques Problèmes liés à l oral Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 19

Traitements automatiques Problèmes liés à l oral Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 20

Ponctuation & Oral Traitements automatiques Problèmes liés à l oral L oral ne se réduit pas au texte prosodie rythme La ponctuation de l écrit donne des indications sur les groupes syntaxiques oriente les interprétations mais il faut un système linguistiquement motivé ( écrit normé) Ponctuation de l oral Hidden, Kupść & Mathon, en préparation durée des pauses ne donne pas un indicateur fiable pour ce corpus frontières syntaxiques fortes Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 20

Traitements automatiques Annotations syntaxiques Étiquetage syntaxique Des annotations syntaxiques pour : caractériser les structures linguistiques pas particulièrement au niveau phrase mais une analyse robuste Solution envisagée : identification des entités nommées (listes) chunking (TreeTagger) apprentissage supervisé des annotations syntaxiques Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 21

Traitements automatiques Étiquetage syntaxique Apprentissage des annotations à partir des chunks Annotations principalement basées sur des chunks plusieurs niveaux d étiquetage apprentissage supervisé déploiement sur corpus que faire avec la notion de tours subordonnés? annotation manuelle Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 22

Traitements automatiques Étiquetage syntaxique Apprentissage des annotations à partir des chunks Annotations principalement basées sur des chunks plusieurs niveaux d étiquetage apprentissage supervisé déploiement sur corpus que faire avec la notion de tours subordonnés? annotation manuelle Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 22

Traitements automatiques Annotations prosodiques Autres étiquetages Découpage en syllabe avec les variations de F0 exportation des F0 avec WinPitch découpage des syllabes potentielles signal (apprentissage supervisé) transcription (lexique phonétisé) alignement semi-automatique syllabes/transcription Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 23

Traitements automatiques Annotations prosodiques Autres étiquetages Découpage en syllabe avec les variations de F0 exportation des F0 avec WinPitch découpage des syllabes potentielles signal (apprentissage supervisé) transcription (lexique phonétisé) alignement semi-automatique syllabes/transcription Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 23

Traitements automatiques Annotations prosodiques Autres étiquetages Découpage en syllabe avec les variations de F0 exportation des F0 avec WinPitch découpage des syllabes potentielles signal (apprentissage supervisé) transcription (lexique phonétisé) alignement semi-automatique syllabes/transcription Analyse des contours prosodiques groupes syntaxiques ponctuation orale émotions Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 23

Traitements automatiques Analyse des référents Autres étiquetages Repérage des entités nommées poursuivre le travail de Augendre & Mathon (2012) Variation lexicale des référents David Skrela vs Skrela (Harinordoquy vs *Imanol Harinordoquy) l équipe de France vs les bleus Chaînes de références dans le discours Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 24

Perspectives Perspectives Agrandir le corpus pour être représentatif en taille (1 match échantillons de sports variés) en niveaux d annotation (sport, syntaxe, lexique, prosodie, rythme) Analyser la syntaxe de l oral analyse des structures textuelles intégration des données prosodiques (disfluence, intonation, rythme) Automatiser pour formaliser la macro-syntaxe, par exemple, donne des structures textuelles le niveau d explicitation n est pas suffisant pour entraîner un tagger Gilles Boyé, Anna Kupść, Catherine Mathon Séminaire CARTEL 25