Conjuguer des approches quantitatives et linguistiques pour l analyse d un corpus footballistique

Dimension: px
Commencer à balayer dès la page:

Download "Conjuguer des approches quantitatives et linguistiques pour l analyse d un corpus footballistique"

Transcription

1 Conjuguer des approches quantitatives et linguistiques pour l analyse d un corpus footballistique Ann Bertels & Nathalie Gasiglia KU Leuven & Université Lille 3

2 Plan de la présentation 1. Introduction et objectifs de recherche 2. Constitution des corpus 3. Méthodologie d analyse 4. Discussion des résultats 5. Conclusion 2

3 1. Introduction et objectifs de recherche Travaux de recherche menés dans le cadre d une collaboration scientifique (2012) : KU Leuven Lille 3 une approche quantitative et statistique une approche linguistique et terminologique => pour analyser les particularités d un corpus de commentaires de matchs de football Plusieurs études en linguistique de corpus : domaine du football (Nemrava et al., 2007 ; Schmidt, 2008 ; Gasiglia, 2008a et 2008b ; Fort et Claveau, 2012) 3

4 1. Introduction et objectifs de recherche Match de football = nombre limité d événements récurrents Commentaires = rédigés selon des procédures strictes décrivent des actions qui s enchaînent dans le temps recourent souvent à des distinctions sémantiques et des variations stylistiques subtiles Corpus spécialisé : contient relativement peu de jargon (p.ex. corner, hors-jeu) plusieurs mots de la langue courante : employés dans un autre contexte (sortie, but) et endossent un autre sens => analyse sémantique des unités lexicales spécifiques du corpus 4

5 1. Introduction et objectifs de recherche But : Ecuele Manga tente de marquer son premier but en Ligue 1 d' une tête placée, qui file malgré tout au-dessus du but adverse... Paris a bouclé sa préparation invaincu, malgré une défaite aux tirs au but lors du Trophée des champions face à l' OM. Ils abandonnent le ballon aux Lensois dans le but de le récupérer pour ensuite placer les contres. Sortir : Alors que le ballon sort de la surface Clément, obligé de sortir du terrain pour des chaussettes non réglementaires, Le Sénégalais sort vainqueur de son duel. 5

6 1. Introduction et objectifs de recherche Ballon : Le ballon voyage d'un but à l'autre. Long ballon à destination de Tabanou, côté gauche. Le ballon sort des limites du jeu. Ballon balle cuir : Les Lyonnais essayent de faire tourner le ballon sans grande conviction. Monaco gagne un peu de temps en faisant tourner la balle. L'ex-Parisien catapulte le cuir de la tête dans le petit filet droit! 6

7 1. Introduction et objectifs de recherche Objectifs de recherche : 1. Effectuer une double analyse quantitative : Unités lexicales simples spécifiques du corpus footballistique Calculer leur degré de monosémie à partir d une mesure de monosémie quantitative BUT : étudier corrélation entre spécificité et monosémie BUT : formuler des conclusions linguistiques sur des observations quantitatives et statistiques 7

8 1. Introduction et objectifs de recherche Objectifs de recherche : 2. Explorer les unités polylexicales : Cooccurrents pertinents d un point de vue statistique Constituants identifiés par une chaîne de traitement linguistique au moyen d annotations morphosyntaxiques BUT : (dis)similarités => établir un profil combinatoire BUT : premier pas vers l analyse des unités polylexicales, importantes dans un corpus de commentaires de matchs de football 8

9 Plan de la présentation 1. Introduction et objectifs de recherche 2. Constitution des corpus 3. Méthodologie d analyse 4. Discussion des résultats 5. Conclusion 9

10 2. Constitution des corpus Corpus d analyse : commentaires de matchs de football français de Ligue 1 publiés au fil des matchs sur le site de lequipe.fr entre août 2010 et décembre 2011 extraits et compilés en un corpus xmlisé par H. Paulussen (KU Leuven - KULAK) et N. Gasiglia = 1,1 million d occurrences (EQ_foot) 10

11 2. Constitution des corpus Corpus de référence : articles Le Monde en rapport avec le football (transferts, équipes) = 1,7 million (LM_foot) articles Le Monde portant sur des sujets très divers = 1,6 million (LM_gén) Lemmatisation et étiquetage : Cordial Analyseur 8.13 nettoyage : corrections et regroupements 11

12 EQ_foot LM_foot LM_gen adj ,02% adj ,49% adj ,55% adv 433 4,14% adv 807 2,00% adv 922 2,21% func 542 5,18% func ,30% func ,77% nom ,11% nom ,07% nom ,35% npr ,04% npr ,57% npr ,87% ponc 13 0,12% ponc 15 0,04% ponc 19 0,05% poss 5 0,05% poss 9 0,02% poss 10 0,02% prep 25 0,24% prep 32 0,08% prep 36 0,09% verbe ,09% verbe ,43% verbe ,09%

13 Plan de la présentation 1. Introduction et objectifs de recherche 2. Constitution des corpus 3. Méthodologie d analyse 4. Discussion des résultats 5. Conclusion 13

14 3. Méthodologie d analyse 1. Analyse sémantique des unités lexicales spécifiques 3 listes de fréquence des lemmes : scripts en Python corpus d analyse EQ_foot corpus de référence LM_foot corpus de référence LM_gén 2 listes de mots-clés (keywords) : AV Frequency List Tool => mots spécifiques dans le corpus EQ_foot par rapport au corpus de référence LM_foot par rapport au corpus de référence LM_gén 14

15 3. Méthodologie d analyse Déterminer le degré de monosémie des mots spécifiques dans les deux listes de mots-clés <= mesure de monosémie monosémie = «homogénéité sémantique» degré de monosémie = cooccurrents de 2 e ordre des mots-clés degré de recoupement des Caractère monosémique ou polysémique d une unité lexicale : lié aux contextes sémantiquement homogènes ou non Accès à la sémantique de ces cooccurrences (c) : lié aux cooccurrences de 2 e ordre (cc) : degré de recoupement plus élevé => homogénéité sémantique des cooccurrences plus faible => hétérogénéité sémantique des cooccurrences 15

16 3. Méthodologie d analyse Scripts en Python : base de données des cooccurrences mesure statistique du Log-Likelihood Ratio (LLR) seuil de significativité très sévère (valeur p 0,0001) => cooccurrents sémantiquement pertinents Résultats de cette double analyse quantitative : étudier la corrélation et déterminer l impact du degré de spécificité sur le degré de monosémie analyse statistique de régression simple dans le logiciel R 16

17 3. Méthodologie d analyse 2. Exploration des unités polylexicales BUT : mieux comprendre le comportement sémantique des unités lexicales simples spécifiques du corpus footballistique Sélection de mots-clés très spécifiques (frappe, ballon, surface, centre, sur, frapper, dégager) Différents outils : scripts en Python : approche quantitative et statistique chaîne de traitement Macaon : approche linguistique morphosyntaxique Lexico3, Hyperbase, : exploitation des segments répétés 17

18 3. Méthodologie d analyse Scripts en Python base de données des cooccurrences extraction des cooccurrents les plus pertinents statistiquement la mesure d association du log de vraisemblance (Log-Likelihood Ratio) Macaon : extraction des constituants ou des chunks postposés balisés frères et oncles une indication de co-fréquence avec le mot-pôle 18

19 Plan de la présentation 1. Introduction et objectifs de recherche 2. Constitution des corpus 3. Méthodologie d analyse 4. Discussion des résultats 5. Conclusion 19

20 4. Discussion des résultats 1. Analyse sémantique des unités lexicales spécifiques Analyse statistique de régression simple Corrélation négative pour les deux listes de mots-clés : EQ_foot vs LM_foot : 1402 mots-clés -0,6341 (R² 40,17%) EQ_foot vs LM_gén : 1639 mots-clés -0,6745 (R² 45,46%) Les mots-clés les plus spécifiques ne sont pas les plus monosémiques : ils sont sémantiquement les plus hétérogènes Toutefois : la corrélation négative est peu convaincante Problème statistique d'hétéroscédasticité => facteur caché 20

21 21

22 22

23 4. Discussion des résultats Analyse qualitative des 50 mots-clés les plus spécifiques : Beaucoup de verbes (frapper, tenter, dégager, centrer, remplacer) et noms déverbaux (frappe, défense) : surtout par rapport à LM_foot Mots grammaticaux spécifiques : sur, mais, pour : dans les 2 listes Gauche : plus spécifique que droit et droite Jaune : plus spécifique que rouge 23

24 24

25 4. Discussion des résultats Analyse qualitative des 50 mots-clés les plus spécifiques : Beaucoup de verbes (frapper, tenter, dégager, centrer, remplacer) et noms déverbaux (frappe, défense) : surtout par rapport à LM_foot Mots grammaticaux spécifiques : sur, mais, pour : dans les 2 listes Gauche : plus spécifique que droit et droite Jaune : plus spécifique que rouge Par rapport LM_foot : plusieurs adjectifs / noms qui renvoient à des équipes ou des villes (parisien, lillois, rennais) Par rapport à LM_gén : plus de mots-clés thématiques (but, match, jeu, minute, attaquant, arbitre, rencontre, tir) => importance de l influence du corpus de référence 25

26 26

27 4. Discussion des résultats 2. Exploration des unités polylexicales (UPL ci-après) Cooccurrents statistiquement très pertinents : Identifiés à partir d une nouvelle base de données (5 mots à droite) Formes fléchies Seuil de significativité très sévère (p 0,000001) Avec indication de la valeur de LLR (degré d association) et valeur p Chunks de Macaon : Chunks frères postposés et chunks oncles postposés Fréquence (= co-fréquence avec le mot-clé) Parfois : plusieurs mots => difficiles à apparier aux formes des cooccurrents 27

28 4. Discussion des résultats Chunks frères et oncles (Macaon) avec indication des prépositions et articles : informations plus précises pour l identification des UPL informations plus intéressantes du point de vue linguistique une frappe à ras de terre, une frappe en pivot Informations statistiques de cooccurrence : indications de significativité => indispensables pour la distinction entre une unité polylexicale une frappe croisée, une frappe enroulée et la simple cooccurrence récurrente : subst. et adj. qualificatif une frappe soudaine, une frappe violente 28

29 4. Discussion des résultats Pas de bonne corrélation entre le classement des cooccurrents les plus pertinents et le classement des chunks frères et oncles les plus fréquents Soit les uns soit les autres sont plus intéressants et utiles : les cooccurrents des substantifs => trouver des formes verbales ballon : revient, circule, les chunks oncles sont plus intéressants pour les constructions avec prépositions et articles ballon : passe largement au-dessus les chunks oncles fournissent des informations plus précises et plus pertinentes pour les verbes frapper : en puissance, en pivot, à ras de terre 29

30 Plan de la présentation 1. Introduction et objectifs de recherche 2. Constitution des corpus 3. Méthodologie d analyse 4. Discussion des résultats 5. Conclusion 30

31 5. Conclusion Analyser les particularités d un corpus de commentaires de matchs de football Analyse des unités lexicales spécifiques du corpus Analyse sémantique quantitative Analyse qualitative et retour sur corpus Exploration des unités polylexicales Approche statistique des cooccurrents pertinents Approche linguistique des constituants morphosyntaxiques Approches et compétences complémentaires => mise en perspective et échanges fructueux 31

32 Pour plus d informations : ann.bertels@ilt.kuleuven.be nathalie.gasiglia@univ-lille3.fr