Une approche statistique des corpus de SMS : outils et défis

Documents pareils

Étudier l'écrit SMS Un objectif du projet sms4science

N SIMON Anne-Catherine

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Évaluations aléatoires : Comment tirer au sort?

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

d évaluation Objectifs Processus d élaboration

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

MODÈLE CROP DE CALIBRATION DES PANELS WEB

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Principe d un test statistique

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Chapitre 3 : INFERENCE

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

TABLE DES MATIERES. C Exercices complémentaires 42

Le risque Idiosyncrasique

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

données en connaissance et en actions?

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

4. L assurance maladie

Estimation et tests statistiques, TD 5. Solutions

Evaluation générale de la qualité des données par âge et sexe

Lois de probabilité. Anita Burgun

Disparités entre les cantons dans tous les domaines examinés

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Les textos Slt koman sa C pa C?

Comment réaliser votre étude de marché. Pascale GARNIER - MCP MARKETING Estelle DELABRE - SILOUET

Les défis statistiques du Big Data

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction au datamining

ISBN-13 : Dépôt légal : Bibliothèque et Archives nationales du Québec, 2009

FORMULAIRE DE STATISTIQUES

Introduction à l approche bootstrap

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

MATHÉMATIQUES. Mat-4104

Rédiger et administrer un questionnaire

Sondage Politique provinciale Campagne électorale Rapport étude quantitative. 15 mars 2014

Qui fait quoi sur internet?

Bien-être des salariés et performance des magasins entrent-ils dans le même caddie?

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

DOSSIER DE PRESSE. Services de change et de gestion des paiements internationaux

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Sondage Politique provinciale Campagne électorale Grand sondage régional. Étude quantitative. 25 mars 2014

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Un corpus de SMS est-il un corpus comme les autres?

L Enseignement religieux au Luxembourg. Sondage TNS-ILRES Juillet 08 N 11

INTRODUCTION AU DATA MINING

A.-M. Cubat PMB - Import de lecteurs - Généralités Page 1 Source :

Table des matières. I Mise à niveau 11. Préface

utiliser un Macintosh dans la classe

4. Résultats et discussion

Master Etudes françaises et francophones

Enquête publique sur les changements climatiques Compléments aux graphiques

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

BUREAU DE LA SÉCURITÉ DES TRANSPORTS DU CANADA

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

PROGRAMME (Susceptible de modifications)

SMARTPHONES ET VIE PRIVÉE

FICHE 9 TECHNIQUE DU CHANGEMENT LE PLUS SIGNIFICATIF

Présentation à l Institut canadien de la retraite et des avantages sociaux. Selon Wikipédia

Corefris RAPPORT ANNUEL Annexe 3 : La hausse des prix de l immobilier est-elle associée à une «bulle» de crédit en France?

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise

Travaux pratiques avec RapidMiner

Présentation du rapport :

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

SONDAGES RELATIFS AUX SERVICES D INFORMATION ET DE RÉFÉRENCE OFFERTS PAR LA DIRECTION GÉNÉRALE DE LA DIFFUSION DE BANQ

attitudes envers le dépistage

1. Présentation générale du volet «Recherche» du projet PASS

Evaluation des cursus «Information & Communication»

Rapport : Base de données. Anthony Larcher 1

L analyse de la gestion de la clientèle

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Concours de Twittérature «Moi, les arts et la culture»

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Evaluation du dispositif de Volontariat de Solidarité Internationale. Résumé MAEE

Plates-formes de téléformation et modèles pédagogiques

VI. Tests non paramétriques sur un échantillon

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Analyse de la variance Comparaison de plusieurs moyennes

!-.!#- $'( 1&) &) (,' &*- %,!

TSTI 2D CH X : Exemples de lois à densité 1

T de Student Khi-deux Corrélation

Item 169 : Évaluation thérapeutique et niveau de preuve

Annexe commune aux séries ES, L et S : boîtes et quantiles

Créer son Activité/Atelier/Projet

Ecrire, un défi pour l'école?

Étude «analyse, reporting et budget» Niveau d équipement et attentes des PME françaises.

Transcription:

Une approche statistique des corpus de SMS : outils et défis Thomas François 1, 2 (1) Aspirant F.N.R.S. (2) CENTAL, IL&C (Université Catholique de Louvain) Séminaire sud4science 29 Septembre 2011 1/43

Plan 1 Introduction 2 L approche quantitative 3 Exemples de résultats 4 Conclusion 2/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 3/43

Introduction L envoi de SMS constitue aujourd hui une activité sociale largement répandue dans nos sociétés. D après le rapport 2010 : U.S Digital, Year in review, malgré l arrivée massive des smartphones, l activité principale des utilisateurs sur leur téléphone mobile reste l envoi de SMS (68%), suvi par la prise de photo (52,4%). 4/43

Introduction L esms [Cougnon and Ledegen, 2010] présente une caractéristique intéressante : Avec les autres formes de DEM [Panckhurst, 2009], il représente un discours écrit qui peut échapper aux contraintes institutionnelles pesant sur la plupart des autres écrits traditionnels. Par conséquent, on peut penser que la notion de variation s y exprime davantage... [Cougnon and François, 2010] concluent d ailleurs : «Au travers de cette analyse, se dessine plutôt l existence de sous-groupes présentant chacun leurs particularismes». [Panckhurst, 2009, 45] y voit «une absence quasi totale de normes et une créativité lexicale extrêment riche». 5/43

Introduction Il existe plusieurs types de variations [Moreau, 1997, 284] : Variation diachronique : les études sur les corpus de SMS sont assez récentes (milieu des années 90) et il n y a pas encore d étude diachronique basée sur des données conséquentes ; Variation diatopique : représentée grâce aux différents corpus récoltés (belgicisme, québécisme, etc.), mais aussi au sein d un même corpus (parler de Liège, de Bruxelles, etc.) ; Variation diastratique : axe moins aisé à explorer, car il requiert la constitution de profils d informateurs (profession, niveau d étude, etc.). D autres aspects socio-démographique du scripteur peuvent encore influencer son emploi de la langue : âge, sexe, ethnie, religion, langue maternelle, etc. Variation diaphasique : pour un même usager, observer les différences en fonction du type de destinataire (n est généralement pas connu, mais peut parfois se deviner). 6/43

Introduction Dans ce contexte, l emploi de méthodes quantitatives d analyse des données peut aider le chercheur à décrire la variation. En effet, l exploration systématique de corpus permet : de relever des phénomènes qui auraient échappé à une approche qualitative ; surtout, à estimer plus précisément leur importance, laquelle pourrait être mal évaluée sur la base de quelques exemples seulement. Cette présentation discute les techniques à disposition du chercheur pour ce faire et souligne quelques problèmes, au travers d exemples issus du corpus de sms4science. 7/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 8/43

Quant Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 9/43

Quant La démarche quantitative Comme pour la démarche qualitative, le chercheur part généralement d une hypothèse de recherche : Exemple Est-ce que les femmes sont plus bavardes dans les SMS que les hommes? Trois étapes subséquentes : 1 Transformer le phénomène en une variable et le mesurer sur les données collectées (étriser) ; 2 Adapter l hypothèse afin qu elle puisse être validée au moyen d un test statistique ; 3 Analyser plus finement les résultats du test, à l aide d autre outils statistiques ou d une démarche qualitative. 10/43

Quant La démarche quantitative : exemple Aspect loquace peut être mesuré : à l aide du nombre de caractères moyen par message ; [Cougnon and François, 2010] constatent sur le corpus belge : 109 caractères/mess. pour les messages écrits par des femmes contre 99 pour ceux écrits par des hommes. à l aide du nombre moyen de mots par message. [Ling, 2005] montrait déjà que le nombre moyen de mots par message est de 5,54 pour les informateurs masculins (X 1 ) et de 6,95 pour les femmes (X 2 ). Ces constats doivent rester au niveau des données! 11/43

Quant La démarche quantitative : exemple Question suivante : peut-on généraliser les résultats à l ensemble de la population? (inférence) Transformation de l hypothèse de recherche sous la forme d une hypothèse statistique H0 : X 1 = X 2 H1 : X 1 X 2 Divers tests statistiques permettent d évaluer cette hypothèse, en fonction de la nature des données : [Ling, 2005] effectue une ANOVA : p = 0, 0001 ; Les messages écrits par les femmes norvégiennes seraient donc bien plus longs en moyenne que ceux des hommes. 12/43

Quant Les différents problèmes Vu comme cela, l approche quantitative semble simple, mais de nombreux problèmes se posent en réalité... La étrisation est notamment confrontée au manque de systématisation dans l annotation des corpus ; Le choix du test statistique à employer doit être bien réfléchi ; L inférence statistique est menacée par l existence de biais dans les corpus. Nous allons détailler ces trois aspects au travers d exemples : La question du taux d abréviation dans les SMS ; La présence d emprunts ; Les types de salutations employées. 13/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 14/43

La étrisation : introduction La étrisation : Elle consiste à définir une variable d intérêt, qualitative ou quantitative, comportant un certain nombre de valeurs au sein desquelles sont classées les différentes formes du phénomène analysé. Par ex. : elo, hello, helo, lo, heyo, hlo, l.o, llo, hilo, l=o, hell0, yello, ll, hèlo sont regroupés sous la forme hello. Dans le contexte de corpus de SMS, elle présente plusieurs difficultés : Problèmes liées à la représentation et la manipulation des données ; Incohérences dans les annotations ou les transcriptions des corpus ; Difficultées liées au traitement automatisée des SMS (de Neef et Véronis, 2004) ; Niveau d analyse. 15/43

Représentations des données Données de sms4science sont stockées dans des bases de données MySQL : il convient de les exporter dans un format plus manipulable par le linguiste. Tentation : utiliser Excel Pratique pour visualiser et manipuler les données... MAIS... limite des 255 caractères par case entraîne des pertes de données!! Notre approche Les données sont exportées sous format.csv et manipulées à l aide de scripts python. pas de perte de données et plus souple qu Excel, mais moins accessible. 16/43

Problème de cohérence La préparation des corpus (anonymisation, transcription, etc.) requiert des interventions manuelles, qui manquent parfois de systématisme. Balises d anonymisation : exemples tirés du corpus de La Réunion : {NOM} ou {nom} ou {{NOM} ou {NOM1} ; {n } ou {tél} ou {TEL} ; {NOM.com} ou {site}, etc. Le problème se retrouve entre les différents corpus : Belgique : ADR ; Réunion : adresse. Une normalisation des balises a été entreprise au CENTAL. 17/43

Incohérence dans les transcriptions En calculant le taux d abbréviation (Réunion), nous avons obtenus des valeurs aberrantes, qui s expliquent : exemple Manque 1 sms ; 129 messages n avaient pas de transcription! ratio trop large! 5 SMS ont été dédoublés ; Quelques rares traductions sont erronées : Salut oui sava et toi?? Ben pour samedi jpe pas comme je révise pour le brevet. Bon ben sera à une prochaine ptete Traduit : Salut, oui prends bien soin de toi. Ces données ont été supprimées pour le traitement statistique. On voit l intérêt d une approche systématique! 18/43

Difficulté du traitement automatique Plusieurs problèmes se posent pour le TAL des SMS : Segmentation des unités linguistiques : mots, phrases, alors que les espaces peuvent manquer, les mots avoir été concaténés (ex. Kcé kompliké l amour!... Jcompren plu rien!) ou la ponctuation, manquer ; Régionalismes ou emprunts, qui ne sont pas repris dans les resources et ne sont pas reconnus : oufti que tout à est compliqué... ; De manière générale, la créativité linguistique, très présente dans l esms est difficile à traiter par le TAL. Nous avons opté pour une approche semi-automatique. 19/43

Niveau des observations Un dernier problème se pose : quelle population choisir? Dans les exemples précédents, nous nous sommes intéressés à la population des scripteurs ; «Est-ce que les femmes écrivent des messages plus longs que les hommes?» Toutefois, [Ling, 2005] et [Cougnon and François, 2010] travaillent au niveau des messages : «Est-ce les messages écrits par des femmes sont plus longs que ceux écrits par des hommes?» Un troisième niveau est possible : celui de la forme linguistique : «Est-ce que les régionalismes sont plus utilisés par des femmes que des hommes? Travailler au niveau des scripteurs demande de fusionner les sms en une seule observation et nie le fait que certains utilisateurs sont nettement plus actifs que d autres. 20/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 21/43

Choix des tests statistiques Le choix du bon test statistique peut être un problème pour le néophyte, mais répond à des critères précis. Variable qualitative : Test du Chi-carré. Variable continue étrique (test de Shapiro-Wilk) : Comparaison de deux échantillons : Test T de student ; Plus de deux échantillons : ANOVA Variable continue non étrique : Comparaison de deux échantillons : Test de Mann-Whitney ; Plus de deux échantillons : Test de Kruskal-Wallis ; 22/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 23/43

Notion d inférence : rappel L inférence Il s agit d un processus par lequel on induit les caractéristiques inconnues d une population à partir de celles d un échantillon issu de cette population, avec une certaine marge d erreur. C est ce que [Ling, 2005] fait lorsqu il affirme, sur la base d un échantillon de SMS : Les messages écrits par des femmes norvégiennes sont plus longs que ceux des hommes Pour que la procédure d inférence soit valide, il faut que l échantillon soit représentatif. 24/43

Représentativité des corpus sms4science Parmi les différentes techniques d échantillonnage, seules certaines sont probabilistes et engendrent un échantillon i.i.d : échantillonnage aléatoire simple : on dresse une liste des individus et on les sélectionne au hasard ; échantillonnage systématique : on sélectionne les individus à intervalles fixes ; échantillonnage stratifié : respect de la proportion des sous-groupes. Sont théoriquement optimales, mais difficiles à mettre en place (voir [Ling, 2005]). 25/43

Représentativité des corpus sms4science Corpus sms4science sont obtenus via échantillonnage par volontaires (publicité via les médias et stimulation via des lots) représentativité discutable! Échantillon i.i.d. = identiquement distribués : p(x 1 ) = p(x 2 ) =... = p(x n) Dans ce cas, les lots risquent d attirer davantage certains types de personnes. indépendants : p(x 1 x 2... x n) = n i=1 p(x i) La publicité se fait par proximité (amis, médias, etc.). Problème On peut se demander dans quelle mesure les corpus sms4science sont bien représentatifs. 26/43

Représentativité des corpus sms4science Étude de [Cougnon and François, 2010] sur la question : population ciblée : utilisateurs de SMS belges francophones (approximée via la pop. belge francophone) ; Test de représentativité : chi-carré d ajustement pour chaque dimension (âge, sexe, etc.). Résultats : Sexe : 57,2% de femmes contre 42,7% d hommes ne correspond pas au 51,6% contre 48,4% au niveau de la population (χ 2 (1) = 21, 2 ; p <.0001) Âge : même constat. 27/43

Représentativité des corpus sms4science Données pour l âge : Classes -15 ans 15-19 20-24 25-34 35-44 +45 ans prop. corpus 10,9 29,8 32,5 15,4 6,2 5,1 prop. pop. 18,2 6,10 6,3 13,9 14,9 40,5 La différence entre les deux distributions est très largement significative : χ 2 (1) = 3941, 5 ; p <.0001. 28/43

Interprétation de ces résultats Normalement, de tels résultats doivent être interprétés comme la preuve d un biais : l échantillon ne serait pas représentatif de la population... MAIS... dans ce cas, il est possible aussi que la population des utilisateurs de SMS soit nettement différente de celle de la Belgique francophone. [Ling, 2006, 4] : 70% des sujets de 16 à 19 ans utilisent quotidiennement les SMS ; 60% des 20-24 ans et seulement 10 % des plus de 67 ans. [Chabert, 2010, 8] : 97% des 12-24 ans utilisent «au moins de temps en temps», contre 93% des 25-39 ans et 59% des 40 et plus. Il est donc probable que le corpus sms4science belge ne soit pas si biaisé que cela. 29/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 30/43

Quelques études sur les corpus sms4science Nous allons présenter quelques résultats de nos études précédentes sur les pratiques d abréviations dans la francophonie ; Le même genre d étude a été appliquée à : Salutations (ouverture du canal) ; Présence d emprunts ou de code-switching. Détails dans [Cougnon and François, 2010, Cougnon and François, 2011] 31/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 32/43

Pourquoi abrévier? Une question importante : pourquoi le contexte de l esms est-il un lieu privilégié de l abréviation? Qui abrévie et pour quelles raisons? [Panckhurst, 2009] a proposé une classification des néographies rencontrées dans les sms, parmi lesquelles : On trouve des abréviations (ordi ; lut ; mdr ; pr ou ele) ; Mais aussi des allongements : suuuupppeeerrr!!!!!! Notre question : Est-ce que certains types de scripteurs recourrent davantage à l abréviation que d autres? [Ling, 2005, 6] : 6% des messages comportaient des abréviations, qui sont le plus utilisées par les adolescents et les jeunes gens. 33/43

L abréviation dans le corpus belge Variable (nombre de caractères dans la transcription nombre de caractères dans le SMS) nombre de caractères dans la transcription Taux de réduction moyen : 9,4%. Loin de messages tels que : Maman kèsk L sé kèsk L sépa? Eseydepa c àlamésonce WE.PAPA (45%) 19% des messages : «pas d abréviation» ; 2,4% plus longs que la transcription (allongements). 34/43

L abréviation dans le corpus belge Les tests statistiques révèlent que : Les messages écrits par des femmes sont davantages abréviés que ceux des hommes (U = 6, 55; p < 0, 0001) : 10% de réduction contre 8,4%. L âge, le niveau d éducation et le nombre de sms envoyés par semaine influencent la pratique de l abréviation, MAIS... Attention à l excès de données! le nb. de sms par semaine a un effet significatif sur le taux d abréviation (KW : χ 2 (5) = 210; p < 0, 0001) ; la corrélation entre les deux variables est très basse (r s = 0, 006; p = 0, 31) ; Privilégier les mesures de la taille de l effet aux tests de significativité : avec le nombre, tout devient significatif [Kilgarriff, 2005]. 35/43

L abréviation dans le corpus belge Au-delà des facteurs démographiques, la principale motivation à l abréviation ne serait-elle pas la limite des 160 caractères? Dans le corpus belge, 6221 messages comportent entre 151 et 160 caractères soucis d optimisation. On peut donc penser que ces messages seront plus abréviés. 36/43

L abréviation dans le corpus belge Plus les messages sont longs, plus ils sont abréviés (r = 0, 17; p < 0, 001) ; On observe aussi un effet des seuils (160 et 320) sur le taux d abréviation ; Messages de 151 à 160 carac. sont significativement plus abréviés (13,3% contre 9% pour le reste) t = 29, 32; p < 0, 001. 37/43

Autres corpus Ce constat n est pas extensible à l ensemble des régions du projet sms4science. Dans le corpus du Québec, abréviation plus importante (14,6% contre 9,5%) ; Les messages les plus courts sont les plus abréviés (r = 0, 28; p < 0, 001) ; Les messages de 151 à 160 carac. sont moins abréviés que les autres (9% contre 15,6%) t = 6, 21; p < 0, 001. 38/43

Abréviation : conclusions Les belges semblent plus économes! On retrouve ce pic à 160 caractères dans le corpus suisse. La longueur et le taux d abréviation des messages à la Réunion et au Québec laissent envisager une utilisation différente (à vérifier)! Autre effet possible encore : la loi de Zipf. Rapport entre la fréquence des mots et leur taux d abréviation? 39/43

Plan 1 Introduction 2 L approche quantitative La démarche quantitative La étrisation Le choix des outils statistiques Les problèmes d échantillonnage 3 Exemples de résultats La question de l abréviation 4 Conclusion 40/43

Conclusion générale L approche quantitative s avère utile pour explorer la variation, en particulier diastratique ; Son caractère systématique permet déjà de repérer quelques erreurs dans les corpus ; On obtient un tableau intéressant sur les pratiques d abréviations : messages les plus abréviés sont rédigés par des femmes, jeunes (moins de 15 ans) ; Plusieurs variables influencent cette pratique, y compris la zone géographique. De nombreuses pistes de recherches restent ouvertes! 41/43

References I Chabert, G. (2010). Sms et tal : kl 1trè*? Cougnon, L. and François, T. (2010). Quelques contributions des statistiques à l analyse sociolinguistique d un corpus de SMS. In Proceedings of 10th International Conference JADT. Cougnon, L. and François, T. (2011). Étudier l écrit sms. un objectif du projet sms4science (à paraître). Linguistik. Cougnon, L. and Ledegen, G. (2010). C est écrire comme je parle. une étude comparatiste de variétés de français dans l écrit sms. Modern French Identities, 2(94) :39 57. Kilgarriff, A. (2005). Language is never ever ever random. Corpus linguistics and linguistic theory, 1(2) :263 276. 42/43

References II Ling, R. (2005). The sociolinguistics of sms : An analysis of sms use by a random sample of norwegians. In Ling, R. and Pedersen, P., editors, Mobile Communications : Renegotiation of the social sphere, pages 335 349. Springer. Ling, R. (2006). The length of text messages and use of predictive texting : Who uses it and how much do they have to say? In Annual meeting of the Association of Internet Researchers, Chicago, IL. Moreau, M. (1997). Sociolinguistique : les concepts de base. Editions Mardaga, Sprimont. Panckhurst, R. (2009). Short message service (sms) : typologie et problématiques futures. 43/43