Une approche statistique des corpus de SMS : outils et défis Thomas François 1, 2 (1) Aspirant F.N.R.S. (2) CENTAL, IL&C (Université Catholique de Louvain) Séminaire sud4science 29 Septembre 2011 1/43
Plan 1 Introduction 2 L approche quantitative 3 Exemples de résultats 4 Conclusion 2/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 3/43
Introduction L envoi de SMS constitue aujourd hui une activité sociale largement répandue dans nos sociétés. D après le rapport 2010 : U.S Digital, Year in review, malgré l arrivée massive des smartphones, l activité principale des utilisateurs sur leur téléphone mobile reste l envoi de SMS (68%), suvi par la prise de photo (52,4%). 4/43
Introduction L esms [Cougnon and Ledegen, 2010] présente une caractéristique intéressante : Avec les autres formes de DEM [Panckhurst, 2009], il représente un discours écrit qui peut échapper aux contraintes institutionnelles pesant sur la plupart des autres écrits traditionnels. Par conséquent, on peut penser que la notion de variation s y exprime davantage... [Cougnon and François, 2010] concluent d ailleurs : «Au travers de cette analyse, se dessine plutôt l existence de sous-groupes présentant chacun leurs particularismes». [Panckhurst, 2009, 45] y voit «une absence quasi totale de normes et une créativité lexicale extrêment riche». 5/43
Introduction Il existe plusieurs types de variations [Moreau, 1997, 284] : Variation diachronique : les études sur les corpus de SMS sont assez récentes (milieu des années 90) et il n y a pas encore d étude diachronique basée sur des données conséquentes ; Variation diatopique : représentée grâce aux différents corpus récoltés (belgicisme, québécisme, etc.), mais aussi au sein d un même corpus (parler de Liège, de Bruxelles, etc.) ; Variation diastratique : axe moins aisé à explorer, car il requiert la constitution de profils d informateurs (profession, niveau d étude, etc.). D autres aspects socio-démographique du scripteur peuvent encore influencer son emploi de la langue : âge, sexe, ethnie, religion, langue maternelle, etc. Variation diaphasique : pour un même usager, observer les différences en fonction du type de destinataire (n est généralement pas connu, mais peut parfois se deviner). 6/43
Introduction Dans ce contexte, l emploi de méthodes quantitatives d analyse des données peut aider le chercheur à décrire la variation. En effet, l exploration systématique de corpus permet : de relever des phénomènes qui auraient échappé à une approche qualitative ; surtout, à estimer plus précisément leur importance, laquelle pourrait être mal évaluée sur la base de quelques exemples seulement. Cette présentation discute les techniques à disposition du chercheur pour ce faire et souligne quelques problèmes, au travers d exemples issus du corpus de sms4science. 7/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 8/43
Quant Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 9/43
Quant La démarche quantitative Comme pour la démarche qualitative, le chercheur part généralement d une hypothèse de recherche : Exemple Est-ce que les femmes sont plus bavardes dans les SMS que les hommes? Trois étapes subséquentes : 1 Transformer le phénomène en une variable et le mesurer sur les données collectées (étriser) ; 2 Adapter l hypothèse afin qu elle puisse être validée au moyen d un test statistique ; 3 Analyser plus finement les résultats du test, à l aide d autre outils statistiques ou d une démarche qualitative. 10/43
Quant La démarche quantitative : exemple Aspect loquace peut être mesuré : à l aide du nombre de caractères moyen par message ; [Cougnon and François, 2010] constatent sur le corpus belge : 109 caractères/mess. pour les messages écrits par des femmes contre 99 pour ceux écrits par des hommes. à l aide du nombre moyen de mots par message. [Ling, 2005] montrait déjà que le nombre moyen de mots par message est de 5,54 pour les informateurs masculins (X 1 ) et de 6,95 pour les femmes (X 2 ). Ces constats doivent rester au niveau des données! 11/43
Quant La démarche quantitative : exemple Question suivante : peut-on généraliser les résultats à l ensemble de la population? (inférence) Transformation de l hypothèse de recherche sous la forme d une hypothèse statistique H0 : X 1 = X 2 H1 : X 1 X 2 Divers tests statistiques permettent d évaluer cette hypothèse, en fonction de la nature des données : [Ling, 2005] effectue une ANOVA : p = 0, 0001 ; Les messages écrits par les femmes norvégiennes seraient donc bien plus longs en moyenne que ceux des hommes. 12/43
Quant Les différents problèmes Vu comme cela, l approche quantitative semble simple, mais de nombreux problèmes se posent en réalité... La étrisation est notamment confrontée au manque de systématisation dans l annotation des corpus ; Le choix du test statistique à employer doit être bien réfléchi ; L inférence statistique est menacée par l existence de biais dans les corpus. Nous allons détailler ces trois aspects au travers d exemples : La question du taux d abréviation dans les SMS ; La présence d emprunts ; Les types de salutations employées. 13/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 14/43
La étrisation : introduction La étrisation : Elle consiste à définir une variable d intérêt, qualitative ou quantitative, comportant un certain nombre de valeurs au sein desquelles sont classées les différentes formes du phénomène analysé. Par ex. : elo, hello, helo, lo, heyo, hlo, l.o, llo, hilo, l=o, hell0, yello, ll, hèlo sont regroupés sous la forme hello. Dans le contexte de corpus de SMS, elle présente plusieurs difficultés : Problèmes liées à la représentation et la manipulation des données ; Incohérences dans les annotations ou les transcriptions des corpus ; Difficultées liées au traitement automatisée des SMS (de Neef et Véronis, 2004) ; Niveau d analyse. 15/43
Représentations des données Données de sms4science sont stockées dans des bases de données MySQL : il convient de les exporter dans un format plus manipulable par le linguiste. Tentation : utiliser Excel Pratique pour visualiser et manipuler les données... MAIS... limite des 255 caractères par case entraîne des pertes de données!! Notre approche Les données sont exportées sous format.csv et manipulées à l aide de scripts python. pas de perte de données et plus souple qu Excel, mais moins accessible. 16/43
Problème de cohérence La préparation des corpus (anonymisation, transcription, etc.) requiert des interventions manuelles, qui manquent parfois de systématisme. Balises d anonymisation : exemples tirés du corpus de La Réunion : {NOM} ou {nom} ou {{NOM} ou {NOM1} ; {n } ou {tél} ou {TEL} ; {NOM.com} ou {site}, etc. Le problème se retrouve entre les différents corpus : Belgique : ADR ; Réunion : adresse. Une normalisation des balises a été entreprise au CENTAL. 17/43
Incohérence dans les transcriptions En calculant le taux d abbréviation (Réunion), nous avons obtenus des valeurs aberrantes, qui s expliquent : exemple Manque 1 sms ; 129 messages n avaient pas de transcription! ratio trop large! 5 SMS ont été dédoublés ; Quelques rares traductions sont erronées : Salut oui sava et toi?? Ben pour samedi jpe pas comme je révise pour le brevet. Bon ben sera à une prochaine ptete Traduit : Salut, oui prends bien soin de toi. Ces données ont été supprimées pour le traitement statistique. On voit l intérêt d une approche systématique! 18/43
Difficulté du traitement automatique Plusieurs problèmes se posent pour le TAL des SMS : Segmentation des unités linguistiques : mots, phrases, alors que les espaces peuvent manquer, les mots avoir été concaténés (ex. Kcé kompliké l amour!... Jcompren plu rien!) ou la ponctuation, manquer ; Régionalismes ou emprunts, qui ne sont pas repris dans les resources et ne sont pas reconnus : oufti que tout à est compliqué... ; De manière générale, la créativité linguistique, très présente dans l esms est difficile à traiter par le TAL. Nous avons opté pour une approche semi-automatique. 19/43
Niveau des observations Un dernier problème se pose : quelle population choisir? Dans les exemples précédents, nous nous sommes intéressés à la population des scripteurs ; «Est-ce que les femmes écrivent des messages plus longs que les hommes?» Toutefois, [Ling, 2005] et [Cougnon and François, 2010] travaillent au niveau des messages : «Est-ce les messages écrits par des femmes sont plus longs que ceux écrits par des hommes?» Un troisième niveau est possible : celui de la forme linguistique : «Est-ce que les régionalismes sont plus utilisés par des femmes que des hommes? Travailler au niveau des scripteurs demande de fusionner les sms en une seule observation et nie le fait que certains utilisateurs sont nettement plus actifs que d autres. 20/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 21/43
Choix des tests statistiques Le choix du bon test statistique peut être un problème pour le néophyte, mais répond à des critères précis. Variable qualitative : Test du Chi-carré. Variable continue étrique (test de Shapiro-Wilk) : Comparaison de deux échantillons : Test T de student ; Plus de deux échantillons : ANOVA Variable continue non étrique : Comparaison de deux échantillons : Test de Mann-Whitney ; Plus de deux échantillons : Test de Kruskal-Wallis ; 22/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 23/43
Notion d inférence : rappel L inférence Il s agit d un processus par lequel on induit les caractéristiques inconnues d une population à partir de celles d un échantillon issu de cette population, avec une certaine marge d erreur. C est ce que [Ling, 2005] fait lorsqu il affirme, sur la base d un échantillon de SMS : Les messages écrits par des femmes norvégiennes sont plus longs que ceux des hommes Pour que la procédure d inférence soit valide, il faut que l échantillon soit représentatif. 24/43
Représentativité des corpus sms4science Parmi les différentes techniques d échantillonnage, seules certaines sont probabilistes et engendrent un échantillon i.i.d : échantillonnage aléatoire simple : on dresse une liste des individus et on les sélectionne au hasard ; échantillonnage systématique : on sélectionne les individus à intervalles fixes ; échantillonnage stratifié : respect de la proportion des sous-groupes. Sont théoriquement optimales, mais difficiles à mettre en place (voir [Ling, 2005]). 25/43
Représentativité des corpus sms4science Corpus sms4science sont obtenus via échantillonnage par volontaires (publicité via les médias et stimulation via des lots) représentativité discutable! Échantillon i.i.d. = identiquement distribués : p(x 1 ) = p(x 2 ) =... = p(x n) Dans ce cas, les lots risquent d attirer davantage certains types de personnes. indépendants : p(x 1 x 2... x n) = n i=1 p(x i) La publicité se fait par proximité (amis, médias, etc.). Problème On peut se demander dans quelle mesure les corpus sms4science sont bien représentatifs. 26/43
Représentativité des corpus sms4science Étude de [Cougnon and François, 2010] sur la question : population ciblée : utilisateurs de SMS belges francophones (approximée via la pop. belge francophone) ; Test de représentativité : chi-carré d ajustement pour chaque dimension (âge, sexe, etc.). Résultats : Sexe : 57,2% de femmes contre 42,7% d hommes ne correspond pas au 51,6% contre 48,4% au niveau de la population (χ 2 (1) = 21, 2 ; p <.0001) Âge : même constat. 27/43
Représentativité des corpus sms4science Données pour l âge : Classes -15 ans 15-19 20-24 25-34 35-44 +45 ans prop. corpus 10,9 29,8 32,5 15,4 6,2 5,1 prop. pop. 18,2 6,10 6,3 13,9 14,9 40,5 La différence entre les deux distributions est très largement significative : χ 2 (1) = 3941, 5 ; p <.0001. 28/43
Interprétation de ces résultats Normalement, de tels résultats doivent être interprétés comme la preuve d un biais : l échantillon ne serait pas représentatif de la population... MAIS... dans ce cas, il est possible aussi que la population des utilisateurs de SMS soit nettement différente de celle de la Belgique francophone. [Ling, 2006, 4] : 70% des sujets de 16 à 19 ans utilisent quotidiennement les SMS ; 60% des 20-24 ans et seulement 10 % des plus de 67 ans. [Chabert, 2010, 8] : 97% des 12-24 ans utilisent «au moins de temps en temps», contre 93% des 25-39 ans et 59% des 40 et plus. Il est donc probable que le corpus sms4science belge ne soit pas si biaisé que cela. 29/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 30/43
Quelques études sur les corpus sms4science Nous allons présenter quelques résultats de nos études précédentes sur les pratiques d abréviations dans la francophonie ; Le même genre d étude a été appliquée à : Salutations (ouverture du canal) ; Présence d emprunts ou de code-switching. Détails dans [Cougnon and François, 2010, Cougnon and François, 2011] 31/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 32/43
Pourquoi abrévier? Une question importante : pourquoi le contexte de l esms est-il un lieu privilégié de l abréviation? Qui abrévie et pour quelles raisons? [Panckhurst, 2009] a proposé une classification des néographies rencontrées dans les sms, parmi lesquelles : On trouve des abréviations (ordi ; lut ; mdr ; pr ou ele) ; Mais aussi des allongements : suuuupppeeerrr!!!!!! Notre question : Est-ce que certains types de scripteurs recourrent davantage à l abréviation que d autres? [Ling, 2005, 6] : 6% des messages comportaient des abréviations, qui sont le plus utilisées par les adolescents et les jeunes gens. 33/43
L abréviation dans le corpus belge Variable (nombre de caractères dans la transcription nombre de caractères dans le SMS) nombre de caractères dans la transcription Taux de réduction moyen : 9,4%. Loin de messages tels que : Maman kèsk L sé kèsk L sépa? Eseydepa c àlamésonce WE.PAPA (45%) 19% des messages : «pas d abréviation» ; 2,4% plus longs que la transcription (allongements). 34/43
L abréviation dans le corpus belge Les tests statistiques révèlent que : Les messages écrits par des femmes sont davantages abréviés que ceux des hommes (U = 6, 55; p < 0, 0001) : 10% de réduction contre 8,4%. L âge, le niveau d éducation et le nombre de sms envoyés par semaine influencent la pratique de l abréviation, MAIS... Attention à l excès de données! le nb. de sms par semaine a un effet significatif sur le taux d abréviation (KW : χ 2 (5) = 210; p < 0, 0001) ; la corrélation entre les deux variables est très basse (r s = 0, 006; p = 0, 31) ; Privilégier les mesures de la taille de l effet aux tests de significativité : avec le nombre, tout devient significatif [Kilgarriff, 2005]. 35/43
L abréviation dans le corpus belge Au-delà des facteurs démographiques, la principale motivation à l abréviation ne serait-elle pas la limite des 160 caractères? Dans le corpus belge, 6221 messages comportent entre 151 et 160 caractères soucis d optimisation. On peut donc penser que ces messages seront plus abréviés. 36/43
L abréviation dans le corpus belge Plus les messages sont longs, plus ils sont abréviés (r = 0, 17; p < 0, 001) ; On observe aussi un effet des seuils (160 et 320) sur le taux d abréviation ; Messages de 151 à 160 carac. sont significativement plus abréviés (13,3% contre 9% pour le reste) t = 29, 32; p < 0, 001. 37/43
Autres corpus Ce constat n est pas extensible à l ensemble des régions du projet sms4science. Dans le corpus du Québec, abréviation plus importante (14,6% contre 9,5%) ; Les messages les plus courts sont les plus abréviés (r = 0, 28; p < 0, 001) ; Les messages de 151 à 160 carac. sont moins abréviés que les autres (9% contre 15,6%) t = 6, 21; p < 0, 001. 38/43
Abréviation : conclusions Les belges semblent plus économes! On retrouve ce pic à 160 caractères dans le corpus suisse. La longueur et le taux d abréviation des messages à la Réunion et au Québec laissent envisager une utilisation différente (à vérifier)! Autre effet possible encore : la loi de Zipf. Rapport entre la fréquence des mots et leur taux d abréviation? 39/43
Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 40/43
Conclusion générale L approche quantitative s avère utile pour explorer la variation, en particulier diastratique ; Son caractère systématique permet déjà de repérer quelques erreurs dans les corpus ; On obtient un tableau intéressant sur les pratiques d abréviations : messages les plus abréviés sont rédigés par des femmes, jeunes (moins de 15 ans) ; Plusieurs variables influencent cette pratique, y compris la zone géographique. De nombreuses pistes de recherches restent ouvertes! 41/43
References I Chabert, G. (2010). Sms et tal : kl 1trè*? Cougnon, L. and François, T. (2010). Quelques contributions des statistiques à l analyse sociolinguistique d un corpus de SMS. In Proceedings of 10th International Conference JADT. Cougnon, L. and François, T. (2011). Étudier l écrit sms. un objectif du projet sms4science (à paraître). Linguistik. Cougnon, L. and Ledegen, G. (2010). C est écrire comme je parle. une étude comparatiste de variétés de français dans l écrit sms. Modern French Identities, 2(94) :39 57. Kilgarriff, A. (2005). Language is never ever ever random. Corpus linguistics and linguistic theory, 1(2) :263 276. 42/43
References II Ling, R. (2005). The sociolinguistics of sms : An analysis of sms use by a random sample of norwegians. In Ling, R. and Pedersen, P., editors, Mobile Communications : Renegotiation of the social sphere, pages 335 349. Springer. Ling, R. (2006). The length of text messages and use of predictive texting : Who uses it and how much do they have to say? In Annual meeting of the Association of Internet Researchers, Chicago, IL. Moreau, M. (1997). Sociolinguistique : les concepts de base. Editions Mardaga, Sprimont. Panckhurst, R. (2009). Short message service (sms) : typologie et problématiques futures. 43/43