Le traitement des nouvelles formes de communication écrite



Documents pareils
DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Ce que tu écris est le reflet de ta personnalité

Les textos Slt koman sa C pa C?

COMMENT PARLER DES LIVRES QUE L ON N A PAS LUS?

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

LES RESEAUX SOCIAUX SONT-ILS UNE MODE OU UNE REELLE INVENTION MODERNE?

LIVRE BLANC Décembre 2014

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Convergence Grand public professionnelle

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

7. Recherche des essais

B Projet d écriture FLA Bande dessinée : La BD, c est pour moi! Cahier de l élève. Nom : PROJETS EN SÉRIE

Et si vous faisiez relire et corriger vos textes par un professionnel?

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

MON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1

Initiation à la recherche documentaire

I/ CONSEILS PRATIQUES

Méthode du commentaire de document en Histoire

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

Nom de l application

Bien architecturer une application REST

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Fiche de synthèse sur la PNL (Programmation Neurolinguistique)

mes m est mets/met mais mets

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

La question suivante était bien sur comment créer un groupe d étude avec des compagnons distants de plusieurs milliers de km? La réponse fût: Skype.

Janvier Enquête CLCV Assurances et sinistres

À propos d exercice. fiche pédagogique 1/5. Le français dans le monde n 395. FDLM N 395 Fiche d autoformation FdlM

Chapitre 1 Qu est-ce qu une expression régulière?

SAISIE DES NOTES DE BAS DE PAGE et BIBLIOGRAPHIE MEMO RÉSUMÉ. Norme AFNOR Z NF ISO 690. Dernière édition : octobre 2011

Le « Pass» : une réponse e-learning à l apprentissage de la messagerie électronique

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

Les indices à surplus constant

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

PLAN D ÉTUDES. école fondamentale

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Chapitre 2. Eléments pour comprendre un énoncé

NORMES DE PRÉSENTATION DES MANUSCRITS

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Synthèse «Le Plus Grand Produit»

Les documents primaires / Les documents secondaires

9.1- Sur les réseaux sociaux, j ai toujours le choix!

Générique [maintenir Durant 10 secondes puis baisser sous l annonce]

Le modèle standard, SPE (1/8)

Mon boss ne délègue pas

Rachel Panckhurst, UMR 5267 CNRS-Université Paul-Valéry Montpellier 3 rachel.panckhurst@univ-montp3.fr

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

MASTER LPL : LANGUE ET INFORMATIQUE (P)

N Y OU OÙ 1 Homophones grammaticaux de catégories différentes. ni n y ou où

1. Coordonnées de l expéditeur. Vous avez réalisé, dans nos locaux, des travaux d aménagement, le jeudi 22 décembre dernier.

N SIMON Anne-Catherine

Modulo Bank - Groupe E.S.C Chambéry - prérequis à la formation - doc. interne - Ecoute active.doc Page 1

Cours Informatique de base INF-B Alphabétisation

Ecrire, un défi pour l'école?

LE PLAISIR D APPRENDRE POUR APPRENDRE

Compte rendu de la formation

CAP TERTIAIRE/INDUSTRIEL

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Gé nié Logiciél Livré Blanc

Compétence 3-1 S EXPRIMER A L ECRIT Fiche professeur

CAC, DAX ou DJ : lequel choisir?

Commerce International. à référentiel commun européen

Projet de Portail des thèses. SYNTHESE DE L ENQUETE DESTINEE AUX DOCTORANTS août 2010

Activité 1. Compter les points Écriture binaire des nombres. Résumé. Liens pédagogiques. Compétences. Âge. Matériel

Compréhension de l oral

Formation à la recherche documentaire sur le web

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Algorithme. Table des matières

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

La rue. > La feuille de l élève disponible à la fin de ce document

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

gagnez du temps sans rien manquer d important

Animer une association

CONSTRUCTION DE L'INFORMATION

Formation Août 2013 Michèle Garello, IEN économie gestion Caroline Natta, professeur

Aide du Grand dictionnaire terminologique

Réaliser un journal scolaire

Dragon Naturally Speaking 13

Synthèse enquête CESC Pratique d'internet, du téléphone portable et des jeux vidéo

Deux exemples de paragraphes, donnés en contre-point l un de l autre :

Enseigner la lecture analytique en 3ème avec une tablette numérique


Enseigner les Lettres avec les TICE

Citizenship Language Pack For Migrants in Europe - Extended FRANÇAIS. Cours m ultim édia de langue et de culture pour m igrants.

LES REFERENCES BIBLIOGRAPHIQUES guide à l usage des étudiants. sources : éléments :

Migration: un plus pour la Suisse Relations entre État social et migration: la position de Caritas

Stratégies favorisant ma réussite au cégep

CRÉER UN COURS EN LIGNE

Ne tombez pas dans les pièges tendus par

Évaluation et implémentation des langages

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Vous allez le voir au cours de ce premier chapitre, 1. Découvrir l ipad

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Transcription:

Chapitre 1 Le traitement des nouvelles formes de communication écrite 1.1. Introduction C est devenu un terrible lieu commun, mais il faut bien le dire : on assiste depuis quelques années à une véritable explosion des nouvelles formes de communication écrite (NFCE) : sites web, e-mails (appelés aussi courriels ou méls), forums, messageries instantanées (ou chats), SMS, blogs 1, etc. Les prédictions alarmistes des années 1970-80, qui voyaient la disparition de l écrit avec l invasion de la télévision et du téléphone, se sont révélées totalement erronées : la planète n a jamais autant écrit. Pour ne citer que quelques chiffres (qui seront sans doute périmés à la parution de cet ouvrage, tant l évolution est rapide) : Chapitre rédigé par Jean VERONIS et Emilie GUIMIER DE NEEF. 1 Les forums sont des groupes de discussions relatifs à une thématique. Les internautes peuvent y lire et y poster des messages alimentant ainsi le débat (cf. http://www.journaldunet.com/encyclopedie/definition/754/54/22/.shtml). Le chat est une technique permettant de dialoguer avec d autres internautes en temps réel sur internet (cf. http://www.journaldunet.com/encyclopedie/definition/242/54/22/chat.shtml). Ces discussions peuvent se faire entre deux internautes ou plus, en privé ou dans des salons. L un des protocoles permettant le chat est l IRC (cf. http://www.officieldunet.com/index.php?pid=120). Le SMS (Short Message Service) est une technologie permettant d émettre et de recevoir des messages courts (160 caractères maximum) sur un téléphone mobile (cf. http://www.journaldunet.com/encyclopedie/definition/190/50/20/short_message_service.shtm l). Un blog est un site web interactif organisé sous la forme d un journal destiné à la publication et au partage d idées (cf. http://www.over-blog.com/definition.php).

2 Compréhension automatique des langues et interaction Les moteurs de recherche Google, Yahoo, MSN, etc. indexent plusieurs milliards de pages Web 2. On ignore la taille exacte du Web, mais elle est très largement supérieure. Le Web «profond» 3 a été estimé dès 2000 à plus de 500 milliards de pages [BER 01]. Il n est donc sans doute pas exagéré d affirmer qu il a désormais dépassé le billion. En décembre 2002, le nombre de SMS échangés par jour à travers la planète a dépassé un milliard. Près de 130 millions de SMS ont été envoyés pour la seule journée du 1 er janvier 2005 en France 4. Confidentiels il y a peu de temps encore, les blogs se comptent désormais par millions. Le site Technorati 5 en indexe 6 millions en janvier 2005. Il se crée un blog toutes les 6 secondes et le rapport Pew [RAI 05], affirme que 27% des internautes américains ont été lecteurs de blogs en 2004. L une des caractéristiques les plus frappantes des NFCE est leur déviance par rapport à l écrit classique. Tout le monde a reçu des e-mails remplis de coquilles et à la ponctuation approximative, tels que 6 : il faudrait qu ils lkes représetnent en tennant ciompte des remarques qui leur aont été faites Ca ferait le ppoint sur la recherche de l éaquipe ou des SMS en «langage Texto» [ANI 01] du genre : Kestufé? ca va bi1 ou kwa? Tel moi si tu vi1. Bizz Le traitement automatique de tels énoncés est à peu près impossible avec des outils standard. L explosion des NFCE a été si rapide que la recherche en traitement des langues (TAL) s est peut-être laissée quelque peu distancer 7. Le but de ce chapitre n est évidemment pas d esquisser des solutions. Nous nous bornerons à faire une typologie des particularités linguistiques rencontrées dans les NFCE, en 2 Les tailles exactes indexées sont sujettes à caution [VER 05]. 3 C est-à-dire celui qui est public mais n est accessible qu à travers des formulaires remplis par l utilisateur et ne peut donc être indexé. 4 Journal du Net, 7 janvier 2005 [http://www.journaldunet.com/imprimer/0501/050107sms.shtml] 5 http://www.technorati.com/ 6 Tous les exemples de ce chapitre sont extraits de corpus réels appartenant au laboratoire DELIC. 7 Notons toutefois le développement d un système de correction automatique de SMS préalable à la vocalisation menée chez France Télécom R&D au moyen du logiciel d analyse linguistique TiLT, en partenariat avec le laboratoire DELIC (cf. [BOV 05]).

Compréhension automatique des langues et interaction 3 essayant de montrer les difficultés qu elles impliquent pour le traitement automatique. Nous verrons qu elles constituent un défi, qui remet en cause les principes algorithmiques généralement acceptés dans le domaine (séquentialité, etc.). 1.2. Terminologie Nous avons proposé récemment [GUI 04] le terme «nouvelles formes de communication écrite» face à l absence de terme permettant d englober les différentes formes d écrit issues des Technologies de l'information et de la Communication (TIC). Les termes existants sont en effet peu satisfaisants : La littérature anglophone utilise généralement le terme computermediated communication. Ce terme a deux inconvénients. D une part, il ne fait pas référence particulièrement à l écrit, et il englobe donc communication vocale (par exemple traduction parole-parole), ou visuelle (par exemple avatars-3d). D autre part, il n englobe pas le domaine de la téléphonie, et donc les SMS, bien que des ordinateurs interviennent sans doute quelque part dans la téléphonie moderne On trouve souvent en français la traduction littérale du terme anglophone, à savoir communication médiatisée par ordinateur. Ce terme a les mêmes inconvénients que son homologue anglophone, et, de plus, si le mot médiatiser signifie bien «servir d intermédiaire», ce sens est très rare, et pour l immense majorité des gens il renvoie surtout à «faire de la publicité à travers les médias». Reconnaissant cette difficulté, Rachel Panckurst [PAN 97] propose le néologisme communication médiée par ordinateur. Ce néologisme est d ailleurs utilisé indépendamment dans d autres sciences, par exemple en biologie («La tolérance immunologique médiée par une molécule», etc.). Jacques Anis a enfin récemment proposé [ANI 02] le terme communication électronique scripturale. Ce dernier terme répondrait à nos objections précédentes (peut-être en le simplifiant en communication électronique écrite) mais Jacques Anis en exclut explicitement le Web, qui pour lui s apparente plutôt à une forme de publication, tout comme les livres, les encyclopédies ou les quotidiens. Il nous paraît toutefois

4 Compréhension automatique des langues et interaction nécessaire de l englober, car, d une part toute forme d écrit est une forme de communication, mais surtout, il se diversifie fortement dans ses formes : les blogs en sont un exemple. Ils relèvent à la fois de la publication comme des pages Web classiques, mais ils permettent aussi commentaires et discussion comme des forums. Les particularités graphiques et linguistiques qui étaient au départ surtout caractéristiques des SMS ou des chats se retrouvent tout naturellement sur les blogs, mais aussi en des zones de plus en plus nombreuses du Web. 1.3. Applications du traitement automatique des NFCE Les applications du traitement automatique des NFCE sont nombreuses. On peut citer par exemple : la synthèse de la parole, qui intéresse aveugles et malvoyants, et également tous les métiers et situations «mains occupées» (conducteurs de véhicules, etc.) elle peut également constituer une solution de remplacement à la consultation d e-mails, SMS, etc. sur téléphones mobiles (dont la taille de l écran et l ergonomie de saisie ne sont pas optimales), ou sur téléphones fixes classiques ; le repérage et l extraction d informations, dont les applications sont manifestes dans les domaines de la veille et de la surveillance militaires, stratégiques ou économiques et pour lesquels, les forums de discussions constituent des mines d informations ; le filtrage, le routage et la catégorisation, particulièrement pour les e-mails, dont la quantité croissante pose de plus en plus problème aux utilisateurs (il est très probable qu un besoin analogue se fasse rapidement sentir pour la consultation des blogs) ; les systèmes anti-spam, qui demandent à être améliorés pour l e-mail, et pourraient s avérer indispensables pour les SMS si l agression par ce canal, encore limitée, continue sa progression (ils sont de plus totalement à développer sur les blogs, qui sont fortement attaqués) ; la traduction automatique, qui pourrait permettre d envoyer des e-mails ou SMS à des correspondants parlant d autres langues ou d échanger avec eux à travers chats, forums ou blogs ; l assistance à la composition, et en particulier la correction orthographique et la saisie prédictive (ou «intuitive»), cette dernière

Compréhension automatique des langues et interaction 5 fonctionnalité intéressant en particulier la saisie à partir de claviers réduits (téléphones mobiles et assistants personnels). 1.4. Particularités textuelles des NFCE Les NFCE se distinguent de l écrit normatif par trois aspects principaux : le respect approximatif des règles orthographiques et typographiques usuelles ; l omniprésence du néologisme et de la néographie, à tel point qu on a pu parler de «cyberlangue» [DEJ 02] ; l émergence de figures de communication spécifiques (smileys 8, etc.), que Florence Mourlhon-Dallies et Jean-Yves Colin proposent d appeler didascalies électroniques [MOU 99]. 9 Pour l instant, on ne dispose pas d étude globale qui fasse le point sur l ensemble des NFCE, mais seulement d études partielles visant l une ou l autre des technologies. Des pans entiers (comme les SMS) ne sont pas couverts de façon systématique, sans doute faute de corpus et du temps nécessaire à la recherche : n oublions pas que la plupart de ces technologies sont très récentes. Notre discussion sera donc principalement qualitative. 1.4.1. Orthographe et typographie Le relâchement orthographique et typographique que l on observe dans les NFCE est probablement dû à plusieurs causes. Tout d abord, nous noterons le caractère rapide de certaines formes de communication, souvent associé à une capacité d édition relativement restreinte du message et un clavier dont l ergonomie est d abord étudiée pour un usage téléphonique 10 : C est le cas, tout particulièrement des chats, où le dialogue (ou plus exactement multilogue) se fait en temps quasi réel : il faut répondre 8 Encore appelés émoticônes, binettes, souriards 9 Les didascalies sont les indications scéniques d une pièce de théâtre, concernant le ton, la gestuelle, les mimiques, les entrées et sorties de personnages, etc. 10 La discussion ci-dessous se fonde sur le mode «canonique» de composition des différents types de NFCE : chats et e-mail à partir d un ordinateur, SMS à partir d un téléphone portable, etc. C est le cas le plus fréquent, mais on observe une tendance à la diversification des modes : on peut envoyer des SMS à partir d ordinateurs, et on peut composer ses e-mails à partir d un téléphone mobile

6 Compréhension automatique des langues et interaction immédiatement aux interlocuteurs, et le message ne peut plus être édité une fois parti. Les SMS autorisent un temps d écriture plus long (bien qu ils soient très souvent utilisés sous une forme d échange rapide qui les place dans le même cas que les chats). Toutefois, leur capacité d édition est minimale : il faut parfois effacer toute la fin du message jusqu au point de l erreur pour pouvoir corriger celle-ci 11 et le mode de saisie des téléphones portables est certainement à la source de confusions de touches fréquentes. Les e-mails et forums, quant à eux permettent généralement un confort de composition et d édition optimal (voir cependant la note 10 cidessus), mais ils restent des modes de communication rapide, où l auto-surveillance du scripteur est relativement relâchée. La masse croissante d e-mails auxquels la plupart des internautes sont confrontés diminue d ailleurs probablement leur capacité de vigilance orthographique et typographique. Comme le remarque Rachel Panckhurst [PAN 99], les erreurs sont fréquentes même dans les e-mails de collègues universitaires, et sont généralement bien tolérées (alors qu elles seraient sans doute mal perçues dans les autres types d écrit des mêmes auteurs). Bien que le recul manque pour analyser le phénomène des blogs, il semblerait qu ils bénéficient d un mode d écriture plus soigné, du moins dans la partie «billet». Celle-ci s apparente à une publication, et à ce titre, incite sans doute à l auto-surveillance, et d autre part, les billets sont éditables à volonté, même longtemps après leur publication. On observe que les commentaires, qui sont souvent non-éditables, contiennent des erreurs plus nombreuses. Par ailleurs, les chiffres cités en introduction (plus d un milliard de SMS par jour, etc.), impliquent un élargissement important de la population des scripteurs électroniques, et par conséquent l accès aux NFCE de publics qui ne maîtrisent pas nécessairement toutes les subtilités de l orthographe et de la typographie classiques. La globalisation des échanges intervient également en entraînant une proportion importante d écriture par des locuteurs non natifs (forums, blogs, etc.). Ce phénomène affecte sans doute surtout l anglais, mais on peut l observer également dans une moindre mesure sur le français. 11 Ceci varie en fonction des modèles de téléphone.

Compréhension automatique des langues et interaction 7 Parmi les phénomènes les plus frappants, nous pouvons noter tout d abord un relâchement de la ponctuation et de la typographie : [ANI 99b] note que les chats sont peu ponctués ; [TOR 04] fait la même constatation sur les messages de forum. Il est évidemment difficile de juger de l absence de ponctuation à l intérieur des énoncés, car il faudrait les examiner manuellement un par un (et de nombreuses ponctuations étant facultatives, l analyse serait très délicate). Néanmoins, les limites de messages ou d énoncés sont relativement faciles à analyser. [TOR 04] constate que seulement 66% des phrases de forum possèdent une majuscule initiale. [ANI 99b] note que c est le cas pour 7 à 25% des énoncés de chats (amputés des énoncés tout en capitales, qui ont une autre fonction). Dans un corpus de SMS réunis par les étudiants de l Université de Provence [BOV 05], nous notons que ce sont 75% des SMS qui n ont pas de majuscule initiale. En ce qui concerne la ponctuation finale, ce sont 46% des messages de forums, 55 à 80% des énoncés de chats, et 40% des SMS qui n en possèdent pas. On peut donc constater la très grande variabilité selon le type de technologie (les auteurs cités mentionnent de plus une grande variabilité interne, selon le type de chat ou de forum). L autre particularité orthographique manifeste dans les NFCE est leur tendance prononcée aux fautes d orthographe. De fortes variations existent entre technologies (les chats semblent plus affectés que les e-mails et les forums, eux-mêmes plus affectés que les sites Web), et à l intérieur d une même technologie (certains forums sont par exemple beaucoup plus soignés que d autres). Il serait bon de distinguer également, comme proposé dans [VER 88], les erreurs de performance et les erreurs de compétence. Les erreurs de performance sont les fautes de saisie, dues à des causes telles que la rapidité d écriture, l absence ou la difficulté d édition, le manque d ergonomie du clavier ou la faible lisibilité de l écran. Les chats, où la rapidité est importante et la possibilité d édition faible, sont immanquablement les plus affectés par les fautes de saisie. A l opposé, les sites Web sont généralement gérés à travers des systèmes qui permettent une saisie confortable, une relecture et une édition à volonté. Ils sont donc tout normalement moins affectés par ce type de faute. Les facteurs matériels influent non seulement sur la quantité des erreurs, mais aussi sur leur type. Lors de la frappe rapide sur un clavier d ordinateur, on trouve de nombreuses erreurs correspondant aux types suivants : - interversion (souvent due à une mauvaise synchronisation des deux mains) 12 : représetnent - insertion (frappe simultanée de touches adjacentes) : 12 Ces erreurs sont reprises de l exemple d e-mail fourni au début de l article.

8 Compréhension automatique des langues et interaction lkes, ciompte, éaquipe - redoublements (appui involontairement prolongé sur la même touche) : tennant, ppoint Les SMS ne présentent pratiquement pas d erreurs de ce type. Les fautes de saisie y reflètent la disposition et le mode d utilisation différent du clavier (plusieurs frappes successives pour une seule lettre). Les fautes de saisie sont souvent dues à un nombre erroné de frappes, par exemple : A lumdi (n et m sont sur la même touche) Laniuersair de ma mer (u et v sont sur la même touche, la confusion est aggravé par la proximité de forme des deux lettres) Bien que nous ne puissions rapporter de chiffres exacts, faute d une étude systématique, les erreurs de saisie semblent beaucoup plus limitées dans les SMS que dans les e-mails ou chats. On peut faire l hypothèse que les messages étant très courts, la vitesse de saisie est moins critique. De plus, le système de saisie par frappes répétées sur la même touche impose une lecture attentive lettre à lettre de l écran. Les erreurs de compétence, quant à elles, proviennent de la méconnaissance des règles normatives de la langue. On ne dispose pas, là non plus, d étude systématique, mais il ne nous semble pas que les erreurs de compétence observées dans les NFCE soient spécifiques. On observe la gamme de fautes connues en français, aussi bien en orthographe lexicale (ou d usage) (confusion de graphèmes, du type paralèle, décidemment, etc.) ou grammaticale (en particulier erreurs d accord, confusion participe en é/infinitif en er 13, etc.). La généralisation de l accès aux NFCE a très probablement pour effet d augmenter la proportion des erreurs par rapport à des temps où l écrit électronique était principalement une affaire de professionnels. Or, on sait que les erreurs de compétence posent de gros problèmes aux systèmes [VER 88], car elles demandent in fine une analyse syntaxique et sémantique des textes qui est hors de portée des techniques actuelles. 13 Quand la terminaison -é est mise pour -er, comme dans je v cherché ma seur, cette «erreur», particulièrement répandue en écriture SMS, est plutôt une stratégie d abrègement de mots.

Compréhension automatique des langues et interaction 9 1.4.2. Néologisme et néographie Les NFCE sont caractérisées par une forte présence de néologismes, dont les plus frappants sont sans doute les anglicismes, liés à la technique (un e-mail, un chat, un blog, etc.) ou faisant partie du jargon de certaines «communautés virtuelles» (par exemple, sur un chat de musique techno : c plus une track construite pr le mix ; me semble que le kick manque de présence ; c'est surtout ce gros lead qui me gêne). Les verbes sont systématiquement francisés dans leur morphologie (je checke, je te kisse, se délogguer, etc.), avec parfois une hésitation graphique (Google donne par exemple 71 500 occurrences pour se loguer, 41 100 pour se logguer, 97 300 pour se logger). Le verlan semble, quant à lui, relativement limité : dans nos corpus (SMS, chats, forums) il se limite à quelques formes faciles à répertorier (meuf = femme, keuf = flic, relou = lourd, etc.). Les néologismes ne posent pas de problèmes conceptuels particuliers au TAL : ils sont difficiles à traiter car ils demandent une incorporation dans les dictionnaires et une mise à jour fréquente, mais c est au même titre que pour les textes scientifiques, par exemple (chimie, etc.). Les «néographies» sont plus délicates à traiter, car elles ne relèvent pas de la seule création de listes. Jacques Anis [ANI 99, ANI 02] groupe sous ce terme toutes les graphies s écartant délibérément de la norme orthographique. Contrairement aux néologismes, il n y a pas création d un nouveau mot, mais simplement d une nouvelle orthographe pour des mots existants. Nous listons seulement très brièvement les catégories proposées par [ANI 99, ANI 02], et nous renvoyons à cet article pour une analyse détaillée : Graphies phonétisantes : généralement remplacement d un des graphèmes complexes ou ambigu du français par une version unilettre (qu k, eau o, s intervocalique z, etc. : koi, pas bo, bizes ) Squelettes consonantiques : bcp (beaucoup), slt (salut), etc. Rébus : lettres et chiffres pris dans leur valeur phonétique (j ai G, cette 7, à demain A2M1, etc.) Troncations : une ou plusieurs lettres finales supprimées pouvant même aboutir à une réduction du mot à son initiale (esp espérer, p tu peux-tu, etc.) Sigles : (tvb tout va bien, atd à ta disposition, etc.) Logogrammes : (en plus en +, à plus [tard] A+, en italien per x, etc.)

10 Compréhension automatique des langues et interaction Etirements graphiques (marquant généralement l expressivité) : saaalut! biiiiizzzz! Agglutination de mots : certaines séquences morphosyntaxiques subissent le phénomène de façon privilégiée (jattends / clitique+verbe, 7éta cet état / déterminant+nom, etc.) 1.4.3. Didascalies et nouvelles conventions graphiques F. Mourlhon-Dallies et J.-Y. Colin font remarquer dans [MOU 99] que les NFCE utilisent des éléments méta-énonciatifs qui s apparentent aux didascalies du théâtre. Il est intéressant, effectivement, de constater que les NFCE développent des conventions spécifiques destinées à réguler les échanges et les dialogues. Ainsi, tout le monde connaît les smileys ou binettes, qui marquent la connivence, l ironie, ou le besoin de lire un message ou une partie de celui-ci au second degré. Le premier smiley est apparu dans un e-mail en 1979, c est-à-dire pratiquement à la naissance de cette forme de communication, ce qui montre que l insuffisance de la ponctuation classique a très vite été perçue. L expressivité (limitée au seul point d exclamation dans la ponctuation classique), peut être notée par différents procédés bien connus des lecteurs de bande-dessinées : l étirement graphique, mentionné cidessus, qui change la forme du mot et le redoublement des marques de ponctuation, particulièrement des points d interrogation et d exclamation : Pqoi tu me donnes + de tes nouvel???? On est sur la plage!!!!!!!! Les majuscules ont également pris un sens conventionnel. Elles sont devenues l équivalent graphique du cri. L exemple ci-dessous est caractéristique (nous gardons l orthographe telle quelle) : Julien34 : SALUT A TOUS!!! Helene_Z : pourquoi tu cris? Julien34 : pardon jai pas l habitude de chatter Les messages électroniques constituent un genre épistolaire particulier, puisqu au contraire des lettres manuscrites, ils peuvent s enchaîner de façon rapide en un véritable dialogue, mais en même temps, ils n ont ni la synchronicité du dialogue oral, ni les caractéristiques prosodiques et mimo-gestuelles spécifiques à celui-ci, qui permettent de transmettre ironie, désapprobation, etc., ainsi qu un certain nombre d informations déictiques (pointer du doigt, direction du regard, etc.). Très tôt dans l histoire du courrier électronique on a vu apparaître le procédé

Compréhension automatique des langues et interaction 11 de citation, qui permet d intercaler son propre texte dans les morceaux du message auquel on répond (avec parfois plusieurs niveaux de réponses imbriqués). Le signe supérieur à (>) est le plus fréquent pour marquer les parties citées, mais d autres signes peuvent être utilisés (renforcés parfois par des conventions graphiques, jeux de couleurs, retraits, etc.). La séparation du message original et de la réponse n est pas toujours triviale, comme le montre cet exemple, où le passage cité est repris comme partie intégrante du texte citant : Alors, si tu crois vraiment que >ça n est pas bien grave c est que tu ne vois pas du tout l impact que cette affaire va avoir sur notre crédibilité Les chats, généralement multilocuteurs, ont entraîné d autres types de nécessités, et en particulier celle de préciser l entrée et la sortie des chatteurs, ainsi que l enchaînement des interventions, celles-ci étant listées dans leur ordre d arrivée, qui ne correspond pas nécessairement à celui des réponses. Exemples : Jay-Z entre dans le salon Shy s est absenté(e) (couche bb) KPoeT à mimi : arrete T koneri Enfin, l hypertexte génère un besoin de désigner ce qui est derrière les liens, comme l on pointerait du doigt vers une image. La compréhension du texte demande une interprétation déictique des liens, comme dans l exemple suivant : les informations que vous pouvez trouver ici et ici l étude j ai postée récemment dans un billet assez long 1.5. Idées reçues Sans doute à cause de leur essor spectaculaire, et de la fascination que nos sociétés portent aux déviances par rapport à la norme langagière (que l on se souvienne par exemple de la passion qu ont pu générer les tentatives de réformes orthographiques depuis plus d un siècle), le langage des NFCE a fait l objet d un certain nombre de clichés ou d idées reçues. Une approche scientifique ne peut s en satisfaire, et nous essayons dans cette section d apporter quelques éléments de réflexion sur des bases que nous espérons objectives.

12 Compréhension automatique des langues et interaction 1.5.1. Ecrit oralisé L un des clichés les plus communs qui affecte le langage des NFCE est qu il s agirait d une forme d écrit oralisé ou d oral écrit, comme l on voudra. Ce cliché repose sur le préjugé selon lequel le parlé est le plus souvent fautif, la seule langue correcte étant écrite. On trouve déjà dans la Technè Grammatikè de Denys de Thrace au 1 er siècle : «la grammaire est la connaissance de ce qu on lit couramment chez les poètes et les prosateurs» [LAL 85]. C est dire à quel point ce préjugé est ancré dans la pensée occidentale. Pourtant, Saussure et Bloomfield (entre autres auteurs) ont essayé de rétablir la primauté de l oral dans les études linguistiques (l écrit n étant qu un système de signes destiné à le coder), mais rien ne semble avoir raison du point de vue péjoratif dont l oral est affecté. On a donc peut-être affaire, dans le cas des NFCE, à une instance de ce préjugé, doublée d un sophisme. Le langage des NFCE est différent, donc il est fautif ; comme il est fautif, c est donc de l oral. Or, Claire Blanche-Benveniste [BLA 97, 90] a largement montré que l oral ne se distingue pas fondamentalement de l écrit, une fois mis à part les phénomènes de production (hésitations, etc.) et certains aspects morphologiques (les marques du pluriel à l oral par exemple ne suivent pas nécessairement celles de l écrit). Tout est question de registres et de fréquences. Il est certain que l oral est souvent informel, et l écrit formel, et c est cette différence qui permet d expliquer les différences observées entre l oral et l écrit (ceci a aussi largement été démontré du point de vue quantitatif par [BIB 88]). Lorsque l oral devient formel, on y retrouve les tournures caractéristiques de l écrit (par exemple des enfants en situation de récit utilisent aisément le passé simple), et à l inverse l écrit informel utilise les tournures fréquentes à l oral (double marquage, clivées, etc.). Il conviendrait donc de conduire des analyses linguistiques détaillées, qui sont hors de portée de cette contribution. Nous prendrons donc seulement quelques exemples qui montrent la complexité des phénomènes. La forme bon particule discursive, ainsi que la tournure c est X que/qui, toutes deux fréquentes à l oral, se retrouvent également fréquentes dans les chats et SMS (on pourrait dans une étude ultérieure séparer les relatives des clivées pour obtenir une image plus précise) : [sms] ok, bon jesp K toi ca va [sms] koukou bon domage pr ce soir joré apprécié [chat] ça srait cool le soleil mais bon un peu de neige de temps en temps jdis pas non! [chat] c toi ki voi [chat] c frangipane ki va rire

Compréhension automatique des langues et interaction 13 [chat] c vrai ke ca me saoul grave le chat [sms] on se met tous en commun pr le Kdo ou c chacun ki achète le sien? Les fréquences dans différents corpus montrent que ces formes se positionnent de façon intermédiaire entre l oral et l écrit, SMS et chats se situant plus près de l oral, les forums plus près de l écrit ( Figure 1). freq p. 100000 freq p. 100000 500 450 400 350 300 250 200 150 100 50 0 oral chat SMS forum litter presse 120 100 80 60 40 20 0 oral SMS chat forum litter presse Bon c est X que/qui freq p. 100000 freq p. 100000 80 70 60 50 40 30 20 10 0 chat forum litter presse oral SMS 220 200 180 160 140 120 100 80 60 40 20 0 SMS litter forum chat presse oral (il) y a-t-il Car Figure 1. Fréquences dans différents corpus En revanche, d autres formes ne suivent pas du tout ce schéma. C est le cas par exemple de (il) y a-t-il, forme inversée très peu fréquente à l oral, mais très présente dans les chats (mais pas dans les SMS ou les forums) : [chat] y a til personne pour me repondre ici?snif snif [chat] il y a tils des filles ce soir

14 Compréhension automatique des langues et interaction C est le cas aussi pour la forme car, à connotation littéraire, très peu présente à l oral, mais plus présente dans les SMS que dans la littérature sans doute pour des raisons de facilité de saisie : [sms] G t appelerai demain du bureau car G plu d forfait [sms] bosse bien lalgebre car ce WE je tapel pr te demandé d chose k g pa comprise [chat] il faut du desherbant car il y a des personnes indesirables içi!!! 1.5.2. Agrammaticalité Une deuxième idée reçue, liée à la première, est la prétendue agrammaticalité des NFCE. L agrammaticalité est difficile à définir linguistiquement, et elle est souvent, tout particulièrement dans la communauté TAL, synonyme de déviance par rapport à la norme, telle qu elle est reflétée par l écrit formel (l oral est donc immédiatement fautif). Ce point de vue extrêmement restrictif semble faire fi d un siècle de réflexion linguistique, et entraîne le TAL dans des difficultés supplémentaires, dont il pourrait se passer. Ainsi, par exemple, la chute du ne de la négation en français est purement et simplement un fait de langue. Elle est absente dans 95% des cas à l oral, y compris chez les locuteurs cultivés ou d un niveau social élevé (hommes politiques, par exemple) [BLA 97]. Elle se constate naturellement dans les situations d écrit informel, et c est tout naturellement qu on la trouve dans les forums, chats ou SMS, pour peu que ceux-ci soient effectivement une interaction informelle (ce qui est généralement mais pas nécessairement le cas) : [chat] on te changera pas [sms] domage ke t pa pu venir [forum] Pour le reste, il faut pas se faire d illusions On peut se donner une idée de la progression sur l axe formel-informel, en comparant la présence d une forme telle que je (ne) sais pas dans différents types de forums : sur les groupes Usenet (groupe fr.soc.div), nous observons 24% de chute de la négation, tandis que nous en observons seulement 14% dans les forums du journal Le Monde, qui sont manifestement rédigés de façon plus soignée. A part ces quelques cas extrêmement banals, de «fautes qui n en sont plus» [BLA 97], les NFCE se caractérisent par une obéissance quasi-totale aux règles de la syntaxe. C est sans doute la conjonction des déviances orthographiques et typographiques (absence de ponctuation), la présence de néologismes (emprunts à l anglais) et de quelques marques typantes (chute de la négation ou des clitiques, présence de particules discursives et d interjections etc.), qui peut faussement

Compréhension automatique des langues et interaction 15 donner une image d agrammaticalité. Lorsqu on restitue l orthographe et la ponctuation habituelle, les énoncés deviennent parfaitement anodins : coucou!comen ca va??ca fé lontps!tré lontps!!kes tu devien?tu c ke g tjs t cour.fodré ke je te lé rende qd meme.enfin si tu lé reveu...je te fé de big kiss!! Coucou! Comment ça va? Ca fait longtemps! Qu est-ce que tu deviens? Tu sais que j ai toujours tes cours. Faudrait que je te les rende, quand même. Enfin, si tu les reveux... Je te fais des big kiss!! o mec!comen va?tjs malad?noubli pa ke samedi ya laniv 2 ma soeurc tjs ok?é pr le matos ossi?é ce tps il é pa fou!!!! O mec! Comment va? Toujours malade? n oublie pas que samedi il y a l anniversaire de ma soeur. C est toujours OK? Et pour le matos aussi? Et ce temps, il est pas fou? je pouré pa venir te cherché.javé oublié ke je devé faire les assurance pr la voiture.essé de te debrouillé.si je fini avan je te tien o couran.sinon rentr seul Je pourrais pas venir te chercher. J avais oublié que je devais faire les assurances pour la voiture. Essaie de te débrouiller. Si je finis avant, je te tiens au courant. Sinon, rentre seul. 1.5.3. Dictionnaire texto De nombreux sites Web proposent des «dictionnaires SMS»,. On trouve ainsi des listes du type bcp = beaucoup, 2m1 = demain, slt = salut, etc., qui laissent penser qu il suffirait de compléter les dictionnaires existants dans les systèmes de TAL avec ces nouvelles formes pour construire un lexique des SMS, et pourquoi pas, plus largement des NFCE. Malheureusement, les néographies que nous avons évoquées en 1.4.2 ne se résument pas à de simples listes : il faut les voir comme le résultat d un ensemble de procédés mis en œuvre de manière dynamique par les scripteurs. Par exemple, le Tableau 1 montre la grande variabilité des formes de beaucoup et longtemps observées dans nos corpus SMS et chat. S il semble possible d enrichir les lexiques avec les variantes orthographiques des mots les plus fréquents, il paraît

16 Compréhension automatique des langues et interaction difficile de produire toute la combinatoire des formes possibles pour l engranger a priori dans les lexiques des systèmes. Forme Fréq. Bcp 50 beaucoup 27 bocou 9 Bc 2 bokou 1 Boc 1 Bc 1 Forme Fréq. longtemps 16 lgtps 7 longtem 6 longtemp 6 lgt 4 lontem 4 longtps 3 lontps 3 lgts 1 lontan 1 lonten 1 Tableau 1. Formes observées pour beaucoup et longtemps 1.5.4. Nouveauté des phénomènes Le caractère soudain et planétaire de la diffusion des NFCE a pu contribuer à un certain sentiment de nouveauté des phénomènes linguistiques qui y sont mis en œuvre. Pourtant, la plupart des phénomènes ou procédés observés ne sont pas spécialement nouveaux, et on les trouve dans les manuscrits, la poésie, la bande dessinée, etc. Bien entendu, ils ont fait l objet d une adaptation aux contraintes technologiques particulières : claviers, mode d interaction, etc. Les abréviations, par exemple, sont utilisées depuis l Antiquité. Les romains utilisaient la ou les première(s) lettre(s) pour abréger les mots sur des inscriptions et monnaies : C (Caius), CON (Consul), utilisaient des sigles SPQR (Senatus Populusque Romanus), INRI (Iesu Nazareth Rex Iudeorum), etc. Les notes tironiennes sont particulièrement connues, car elles ont constitué un véritable système sténographique, mis au point par Tiron, esclave affranchi de Cicéron, pour retranscrire les discours de celui-ci au Sénat. Elles ont été utilisées jusqu au Moyen- Âge (on leur doit l esperluette : &, abréviation de et). La concentration d abréviations peut être spectaculaire dans certains manuscrits du Moyen-Age, dans lesquels les copistes essayaient d économiser le parchemin, matériau très coûteux.

Compréhension automatique des langues et interaction 17 Dans certains textes, pratiquement chaque mot est abrégé, 14 ce qui correspond à une densité très comparable à celle des SMS. De même, l absence ou le caractère fluctuant de la ponctuation dans les NFCE nous surprennent par rapport aux usages qui se sont développés et relativement normalisés depuis le XIX e siècle, mais c est oublier que la ponctuation elle-même est une invention récente. Le latin classique s écrivait pratiquement sans espace entre les mots (scripta continua) ; l espace se généralise seulement au VII e siècle [DRI 91]. Ce n est qu à la Renaissance qu apparaissent la plupart des signes que nous connaissons, et leur usage est très fluctuant. Certaines langues (le chinois par exemple) s écrivent toujours sans espaces et avec très peu de ponctuations. L orthographe elle-même a été fluctuante pendant des siècles. Dans le Chevalier à la Charrette, par exemple «je savais» s écrit indifféremment je savoie, je savoye, je sçavoye, je sçavoys,etc. Au XVII e siècle, le Maréchal de Saxe peut encore écrire au roi «Je fais plasser 30 piesses de canon sur les rampar», et Mme de Sévigné ne met guère la cohérence orthographique au centre de ses priorités. On pourrait multiplier les exemples : les rébus sont aussi vieux que l écriture elle-même puisque c est même ainsi que se sont formés signes cunéiformes et hiéroglyphes, les étirement graphiques sont familiers aux lecteurs de bandes dessinée, etc. Ce qui est nouveau c est d une part la très grande concentration de ces phénomènes dans certaines NFCE (en particulier chats et SMS), et d autre part, l explosion planétaire de ces formes d écrits et donc la nécessité pour le TAL de les prendre en considération. Le problème ne se posait manifestement pas au Moyen Âge ou au XVII e siècle, mais si par un accident de l histoire, la naissance de l ordinateur avait précédé celle de la normalisation orthographique, le TAL eût été confronté aux mêmes difficultés qu avec les NFCE. On peut pratiquement dire que le TAL a pris de «mauvaises habitudes», en ayant eu la chance que les premières décennies de son développement aient porté sur des textes extrêmement canoniques, généralement écrits par des experts ou des professionnels (scientifiques, journalistes, etc.). La démocratisation de l écrit informatisé et la liberté qui l accompagne constituent un ensemble de défis pour le TAL, susceptibles de remettre en cause les fondements mêmes que nous lui connaissons. 1.6. Conséquences pour le TAL L un des premiers défis à relever est l analyse de la composition de ces textes, et sa prise en considération dans le traitement linguistique. Jusqu ici, les systèmes de TAL ont presque tous «fait comme si» les documents étaient du texte brut, sans 14 Voir par exemple ce texte de Saint Thomas d Aquin (1286) : http://archivi.beniculturali.it/biblioteca/steffens/147_tav098.pdf

18 Compréhension automatique des langues et interaction structure interne. C est déjà faux dans de nombreux textes techniques ou scientifiques, et les quelques travaux qui se sont attaqués au problème ont montré la difficulté d un traitement correct des listes, énumérations, citations, etc. (cf. [GAL 03]). La prise en compte de la structure est très importante dans des documents complexes, comme les blogs, par exemple, où le langage utilisé dans les différentes parties peut être extrêmement variable Repérer formellement les différentes parties d un blog n est pas très difficile, si l on connaît à l avance sa structure. Pour des moteurs de recherche, qui analysent du «tout venant», la tâche est beaucoup plus ardue, car les différentes structures rencontrées d un blog à l autre peuvent être extrêmement variables, et généralement aucune balise explicite n indique les différentes parties. La situation est encore pire avec les pages Web générales, dont la structure est encore moins prévisible, et dont le seul balisage, pour l instant, est un code HTML qui reflète la présentation et non la structure. Enfin, la situation se complique encore d un degré lorsqu il s agit, non plus de repérer des parties de document, mais l enchevêtrement du texte et des dialogues eux-mêmes, par exemple pour gérer la plurivocité des salons de chat, la citation en cascade dans les e-mails ou le suivi des opinions utilisateurs sur les forums de discussion. En effet, il s agit alors d exploiter à la fois des indices formels (balisage du texte, repérage de symboles caractéristiques, etc.) et des indices issus du contenu (thème du document, identification du locuteur, etc.) pour recomposer le fil du texte. En ce qui concerne les fameuses «didascalies» (voir ci-dessus en 1.4.3), et en particulier les smileys, même une fois repérés, il reste encore à les traiter correctement pour enrichir la compréhension du texte. Même si l on dispose de typologies dégageant les principaux usages de ces marqueurs (voir en particulier [MAR 00]), leur portée dans le texte reste largement à définir et leur intégration en traitement automatique totalement à faire en analyse de discours. Par ailleurs, il faudrait bien se garder d une assimilation complète des différentes formes de NFCE. On constate, en effet, de grandes différences d un type de NFCE à l autre qu il serait dommage de négliger lors du traitement automatique. On a vu en 1.5.1 que la fréquence de certaines formes ou constructions linguistiques comme (il) y a-t-il peut diverger fortement entre chats et SMS, par exemple. Les procédés graphiques particuliers aux NFCE sont eux-mêmes sujets à de grandes variations. Nous en prendrons seulement deux exemples pour illustrer notre propos.

Compréhension automatique des langues et interaction 19 La graphie phonétisante fait appel ponctuellement à la casse «chameau 15», c est-à-dire une alternance capitales/minuscules à l intérieur d un mot, pour marquer la valeur «rébus» d une lettre et souvent lever certaines ambiguïtés. C est le cas par exemple de boc (bossé, bosser) qui peut être ainsi distingué de boc (beaucoup), ou les (laisse), par rapport à l article ou au pronom les. Le recours à cet artifice est d ailleurs loin d être systématique. Le tableau 2Erreur! Source du renvoi introuvable. montre les 10 premières formes «chameau» par ordre de fréquences décroissantes dans nos corpus. Au total, seules trois formes sont communes dans nos corpus de SMS et chat : jav, jpenc, tomb. La plupart des formes «chameau» dans le chat sont «pseudos» d utilisateurs (PouFiNeTTe, UneFilleALaVanille, etc.). Dans le chat, ces formes ont aussi un côté expressif et très souvent un rôle purement «décoratif» (accompagnée, allez, AlOrs, AmouR, AmOuR, etc.), que l on ne retrouve strictement pas dans les SMS. Forme Fréq. pac 28 mang 5 supr 3 PaC 3 jespr 3 sav 2 regard 2 prson 2 pln 2 les 2 SMS Forme Fréq. GaRcI 115 CaLiM 62 BenJaMaiK 57 NocTuRnuS 53 PouFiNeTTe 51 ArCaNgE 48 RiYaD 39 MisTYgriS 39 NaNa 38 UneFilleALaVanille 33 Chat Tableau 2. Casse «chameau» Un autre exemple significatif est celui des étirements graphiques. Dans les SMS, sa fréquence est de l ordre d une occurrence pour mille mots environ, et l étirement est court ( 8 caractères). Dans les chats, nous observons une fréquence beaucoup plus élevée (12 pour mille), avec des étirements plus longs, qui peuvent atteindre plus de 200 caractères (Erreur! Source du renvoi introuvable.). 15 Traduction de l anglais camel case, terme qui évoque la forme graphique particulière des mots dans lesquels la casse est alternée.

20 Compréhension automatique des langues et interaction SMS chat N 12 10 8 6 4 2 0 0 2 4 6 8 10 L N 700 600 500 400 300 200 100 0 0 50 100 150 200 250 L SMS chat Figure 2. Longueur des étirements graphiques Il est certain que les contraintes variables des différentes NFCE, tant au niveau communicationnel, qu au niveau technique (type de clavier, etc.), introduisent des différences importantes dans les phénomènes observés, dont il est probablement nécessaire de tenir compte dans les traitements automatiques. Les analyseurs et leurs ressources internes (dictionnaires, etc.) doivent donc pouvoir s adapter à cet état de faits tout en gardant une grande souplesse car en matière de mode d écriture rien n est jamais définitif même au sein d un même type de NFCE : à un texte écrit de façon soignée succédera un message où les mots seront accolés les uns aux autres et fortement abrégés. La nécessité de qualifier le texte traité pour configurer au mieux l analyseur se fait ici sentir comme un défi supplémentaire. A l heure actuelle, la plupart des systèmes de TAL sont relativement inflexibles : on ne sait pas très bien appeler des dictionnaires ou des ensembles de règles particuliers «à la volée», en fonction d indices repérés dans les textes. Le problème classique de l analyse des mots inconnus explose avec le traitement des NFCE et constitue un autre verrou important à lever. On a déjà signalé qu il serait vain de compter sur un recensement et un encodage lexical pour venir à bout des néographies. La solution passe donc par l implémentation de mécanismes permettant de rapprocher les graphies déviantes de leur forme standard. Si le problème peut sembler trivial (étirements graphiques, réductions aux squelettes consonantiques, etc.) ou avoir déjà trouvé réponse en TAL (phonétisation, correction typographique, ré-accentuation, etc.), la combinaison des différents modes d écriture accroît considérablement la difficulté et ferait échouer toute tentative de traitement séquentiel du problème :

Compréhension automatique des langues et interaction 21 1dpdte indépendante (Rébus chiffre + squelette consonantique + morphème du féminin) G 1 trist nvl a tanonc (tanonc t annoncer = agglutination + écriture phonétique + écriture rébus) Une gestion accrue de l ambiguïté va de pair avec ces néographies car certains homophones hétérographes deviennent homographes une fois écrits phonétiquement ce qui, combiné au non respect des séparateurs standard, peut devenir rapidement complexe : C est moi c est moi C ta fête c est ta fête G c pa quand je sais pas quand 1 de c copines une de ses copines on a d invités c soir on a des invités ce soir Ce sont les principes architecturaux mêmes sur lesquels reposent la plupart des systèmes de TAL qui sont ici menacés. En effet, l approche classique pour le traitement de cette multiplicité de phénomènes consiste en une multiplication de modules (traitement phonétique, agglutinations, homographes, etc.), mais leur enchaînement séquentiel devient rapidement impossible car auto-contradictoire. Différentes expériences montrent d une part que l activation systématique de tous les modules, générant toutes les possibilités à partir d une forme inconnue, conduit à une combinatoire intenable et d autre part, que l ordonnancement de ces modules devient rapidement impossible à gérer. L ordre de traitement correct peut être totalement inverse d un cas à un autre. Il y a eu, bien sûr, des tentatives de traitement parallèle en TAL, que ce soit à base de réseaux de neurones, d agents, d architectures en tableaux noirs, mais le problème est difficile, et la plupart des systèmes à grande échelle sont encore fondés sur une architecture séquentielle tout à fait classique. Le traitement des NFCE aura certainement l effet bénéfique d accélérer les recherches dans le domaine. 1.7. Conclusion Les nouvelles formes de communication écrite (NFCE) sont à la fois fascinantes par leur diffusion extrêmement rapide à l échelle planétaire, et l aspect variable et créatif qui caractérise leur utilisation. Nous avons brossé dans ce chapitre un panorama des différents phénomènes linguistiques qui apparaissent dans les NFCE : ces phénomènes ne sont pas tous nouveaux (liberté orthographique, abréviations, écriture rébus, etc.), mais leur concentration dans certaines formes d écriture comme les SMS ou les chats a de quoi surprendre. De là à y voir, comme la journaliste

22 Compréhension automatique des langues et interaction Aurélia Dejond [DEJ 02] 16, le développement d une «cyberlangue» il n y a qu un pas qu il faut sans doute se garder de franchir et, quitte à choisir une étiquette, préférer peut-être celle, plus modeste, de «cyberécriture». Néanmoins, étant donnée l explosion des NFCE et le succès de ces procédés d écriture que l on commence à retrouver dans certaines formes d écrit plus classiques, le TAL ne pourra longtemps rester en dehors de la problématique. Or, nous avons montré que les NFCE posent des problèmes de traitement très importants, qui ont toutes les chances d être quasiment insolubles dans le cadre des architectures classiques. Loin d être simplement un ensemble de phénomènes anecdotiques, les NFCE sont donc probablement appelées à être un moteur important d évolution des techniques du TAL dans la prochaine décennie. Remerciements Nous remercions les étudiants de l Université de Provence, et notamment Rémi Bove, pour leur aide sur les corpus utilisés dans cette étude. Bibliographie [ANI 99] ANIS, J. (Ed.) (1999). Internet, communication et langue française. Paris: Hermès. [ANI 99b] ANIS, J. (1999). Chats et usages graphiques. Internet, communication et langue française. J. Anis (éd.). pp. 71-90. Paris : Hermès. [ANI 01] ANIS, J. (2001). Parlez-vous texto? Guide des nouveaux langages du réseau. Paris : Le cherche-midi éditeur [ANI 02] ANIS, J. (2002) Communication électronique scripturale et formes langagières : chats et SMS. Actes des journées «S'écrire avec les outils d'aujourd'hui», Université de Poitiers [en ligne : http://oav.univ-poitiers.fr/rhrt/2002/actes%202002/jacques%20anis.htm (janvier 2005)] [BER 01] BERGMAN, M. K. (2001). "The deep Web: Surfacing Hidden Value". Journal of Electronic Publishing. University of Michigan, July 2001. [en ligne : http://www.press.umich.edu/jep/07-01/bergman.html]. [BIB 88] BIBER, D. (1988). Variation across Speech and Writing. Cambridge, Cambridge University Press. 16 La cyberl@ngue française est d ailleurs le titre de l ouvrage.

Compréhension automatique des langues et interaction 23 [BLA 97] BLANCHE-BENVENISTE, C. (1997). Approches de la langue parlée en français. Paris: Ophrys. [BLA 90] BLANCHE-BENVENISTE C., (1990), Le français parlé. Etudes grammaticales, Paris, éd. du CNRS, pp. 202-206. [BOV 05] BOVE, R. (2005). «Etude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS», Actes de RECITAL 2005, Dourdan, 625-634. [DEJ 02] DEJOND, A., (2002). La cyberl@ngue française, Paris : La Renaissance du Livre. [DRI 91] DRILLON, J., (1991). Traité de la ponctuation française, Paris : Gallimard. [GAL 03] GALA, N., (2003). Un modèle d'analyseur syntaxique robuste fondé sur la modularité et la lexicalisation de ses grammaires. Thèse de doctorat en informatique. Université de Paris-Sud. [GUI 04] GUIMIER DE NEEF, E. & VERONIS, J. (2004). «Tutoriel: 1 pw1 sr la kestion :-)». Journée d étude de l ATALA, [en ligne : http://www.up.univ-mrs.fr/~veronis/je-nfce]. [LAL 85] LALLOT, J. (1985). La Technè Grammatikè de Denys le Thrace. Introduction, traduction et notes. Archives et Documents de la Société d'histoire et d'epistémologie des Sciences du Langage 6, p. 3-101. [MAR 00] MARCOCCIA, M. (2000). «Les smileys : une représentation iconique des émotions dans la communication médiatisée par ordinateur», Les émotions dans les interactions communicatives, ARCI, PUL, Lyon, pp. 249-263. [MOU 99] MOURLHON-DALLIES, F. et COLIN, J.-Y. (1999). «Des didascalies sur Internet?», Internet, communication et langue française, Hermès, J. Anis (éd.), Paris. [PAN 97] PANCKHURST R. (1997). «La communication médiatisée par ordinateur ou la communication médiéepar ordinateur?», Terminologies nouvelles, 17, pp. 56 58. [PAN 99] PANCKHURST R. (1999). «Analyse linguistique assistée par ordinateur du courriel», in Internet, communication et langue française, Anis J. (coord.), Hermès, pp. 55 70. [RAI 05] RAINEE L., (2005). The state of blogging. Pew Internet Project Memo. [en ligne : http://www.pewinternet.org/pdfs/pip_blogging_data.pdf]. [TOR 04] TORZEC N., (2004). Contribution à l'étude des messages électroniques francophones Quelques résultats et de leurs incidences sur le TAL. Journée d étude de l ATALA [en ligne : http://www.up.univ-mrs.fr/~veronis/je-nfce]. [VER 88] VERONIS, J. (1988). Contribution à l'étude l'erreur dans le dialogue hommemachine. Thèse de Doctorat. Université Aix-Marseille III, Marseille. [VER 05] VERONIS, J. (2005). «Le mystère des pages manquantes de Google». Technologies du langage (22 janvier 2005) [En ligne : http://aixtal.blogspot.com/2005/02/web-lemystre-des-pages-manquantes-de.html]