Textos au Canada : encodage, analyses en cours et analyses projetées



Documents pareils
Ce que tu écris est le reflet de ta personnalité

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

Thèmes et situations : Agenda et Emploi du temps. Fiche pédagogique

GRAMMATICAUX DE CATÉGORIES DIFFÉRENTES QUANT QUAND 1 Homophones grammaticaux de catégories différentes

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

L'assurance qualité automatisée en agence de traduction (QA Distiller, Xbench et SDLX QA Check)

Une approche statistique des corpus de SMS : outils et défis

Deux exemples de paragraphes, donnés en contre-point l un de l autre :

Citizenship Language Pack For Migrants in Europe - Extended FRANÇAIS. Cours m ultim édia de langue et de culture pour m igrants.

CAP TERTIAIRE/INDUSTRIEL

Formation Pédagogique 3h

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

La post-édition : l'avenir incontournable du traducteur?

mes m est mets/met mais mets

Vers la constitution d un corpus des SMS grecs : motivations, problèmes et résultats

Et si j étais Marty Mac Fly Ou comment remonter le temps avec une tablette tactile (Ipad)

Atelier rédactionnel

TP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?

TÉMOIGNAGES de participantes et de participants dans des groupes d alphabétisation populaire

Comment utiliser les réseaux sociaux pour redonner le plaisir de la langue française?

Découvrez La Formule Magique Pour Gagner De L argent Sur Internet

Employer des phrases avec subordonnées relatives et marqueurs emphatiques (c est qui, c est que)

Homophones grammaticaux de catégories différentes. s y si ci

CONSTITUTION D'UN CORPUS D'ERREURS DU DACTYLOGRAPHE

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

Tags: LIFE sms textos langage smartphone LOL LOL génération téléphones portables téléphonie mobile

Dire à quelqu un de faire quelque chose

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Tutoriel BLOGGER. Pour vous donner une idée, voici un exemple de blog :

Application d un algorithme de traduction statistique à la normalisation de textos

Pour écrire un texte sans fautes

Homophones grammaticaux de catégories différentes. ce se

Les textos Slt koman sa C pa C?

Apprentissage Automatique

ÉVALUATION NATIONALE DES ACQUIS DES ÉLÈVES EN CE1

N SIMON Anne-Catherine

ACTIVITÉ DE PRODUCTION ORALE. Niveau A1. Qui est-ce?

23. Le discours rapporté au passé

Traitement de texte : Quelques rappels de quelques notions de base

UFR Etudes Interculturelles de Langues Appliquées. Evolution professionnelle des anciens du DESS/Master 2 ILTS

SAISIE DES NOTES DE BAS DE PAGE et BIBLIOGRAPHIE MEMO RÉSUMÉ. Norme AFNOR Z NF ISO 690. Dernière édition : octobre 2011

Formation à l utilisation des réseaux sociaux et d internet. Protéger sa vie privée

1. Ouvrir un compte. 1 Ouverture de compte. I. Prendre un rendez-vous dans une banque. 4 ouvrir un compte 1

Réaliser des achats en ligne

Stratégies favorisant ma réussite au cégep

Janvier 2011 CHIMIE. Camille de BATTISTI. Acquérir la démarche expérimentale en chimie. ACADEMIE DE MONTPELLIER

N Y OU OÙ 1 Homophones grammaticaux de catégories différentes. ni n y ou où

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Et si vous faisiez relire et corriger vos textes par un professionnel?

! Text Encoding Initiative

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

Les transports en commun Vocabulaire Mots 1

1. Coordonnées de l expéditeur. Vous avez réalisé, dans nos locaux, des travaux d aménagement, le jeudi 22 décembre dernier.

Handelsmittelschulen Bern Biel Thun

LE NUMÉRIQUE Dans ce numéro, vous trouverez :


Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

SVP j ai besoin d aide!

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Accompagnement personnalisé 6e

LIVRE BLANC LOGICIELS DE TRADUCTION INSTANTANEE

Livret personnel de compétences

Un nouveau corpus de SMS. La collecte sud4science LR.

Lettre motivation. En haut de la page

1. Productions orales en continu après travail individuel

NORMES DE PRÉSENTATION DES MANUSCRITS

AN-ANG, EN-ENG, IN-ING, ONG

GUIDE POUR AGIR. Comment identifier ses. SAVOIR-FAIRE et. ses QUALITÉS J ORGANISE MA RECHERCHE. Avec le soutien du Fonds social européen

Mon-complement-retraite.com Aide en ligne

Des banques de données terminologiques en Afrique francophone

************************************************************************ Français

Compétence interactionnelle en français langue étrangère : l éclairage du corpus Lancom. Danièle Flament-Boistrancourt

Organisation de la fin d année du Master 2 de stratégie de communication globale

Projet en nouvelles technologies de l information et de la communication

ONe Key ID Compte InfoCentre pour les entreprises Compte auprès du ministère de l Environnement (MEO)

La billetterie informatique du spectacle vivant L ING

Ecrire, un défi pour l'école?

Convention de transcription CIEL-F

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

DIDACTIEL ACHAT DE PLACES SITE WEB DFCO

NOTICE SUR LES MEMOIRES DE MASTER 2

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

LE DISCOURS RAPPORTÉ

Qualité de vie des résidents en EMS: Perspectives croisées

I. Avant de l appeler

Technologie et terminologie: vers le grand partage de l information

1. La famille d accueil de Nadja est composée de combien de personnes? 2. Un membre de la famille de Mme Millet n est pas Français. Qui est-ce?

Charte éditoriale 1- Comment préparer un contenu écrit pour le Web?

ces ses c est s est sais / sait

Mise en place d'un petit workflow de publication avec Drupal 7


Dis-moi ce que tu as fait, je te dirai qui tu es 1

B Projet d écriture FLA Bande dessinée : La BD, c est pour moi! Cahier de l élève. Nom : PROJETS EN SÉRIE

Présentation : Ces quelques informations vous aideront à mieux comprendre son fonctionnement.

Séquence. «Eduquer aux réseaux sociaux : créer, publier, maîtriser»

La saisie d un texte

Transcription:

Textos au Canada : encodage, analyses en cours et analyses projetées Christian Guilbault, Université Simon Fraser Patrick Drouin, Université de Montréal

Plan de cette présentation 1. Texto4science.ca : présentation générale 2. Défis de l'analyse 1. Transcription + annotation 2. Interface de consultation 3. Exploitation des données : 1. Traducteur 2. Pourrisseur 3. Détection de rendez-vous (CalTexto) 4. Clustering 4. Conclusion et projets futurs...

Texto4science.ca Objectif général : colliger et analyser le plus grand nombre de textos possible (en deux phases...) au Canada et mise à la disponibilité des chercheurs en base de données (aussi : faire un premier corpus de référence pour les analyses linguistiques) Objectifs spécifiques : Études de tous les aspects linguistiques pertinents (lexique, phonétique, syntaxique, morphologie, alternance de code, sociolinguistique, etc.) Développements d'applications liées à ce nouvel usage de la langue (correcteurs, traduction automatique, etc.)

Texto4science.ca Organismes et institutions impliqués : Recherche appliquée en linguistique informatique (RALI) Centre de recherche interdisciplinaires en technologies émergentes (CITE) Universités : UdeM, UofO, SFU Autres partenaires Compétences : terminologues, informaticiens, linguistes, communications, traducteurs Méthodologie : similaire aux autres projets liés à SMS4science (Belgique)

Texto4science.ca Résultats de la collecte : Effectuée de 2009-2010 Total environ 7274 messages (très majoritairement en français, 400 en anglais, 6842 en français) Environ 13 135 phrases Environ 106 785 mots Collecte terminée officiellement (officieusement?)

Fait manuellement (complètement!) Très détaillé pour : Appréhender le corpus Faciliter les recherches ultimement grâce aux balises nombreuses et détaillées Faute de ressources (personnel et argent) A été effectué par DEUX assistantes, avec une principale qui est repassée pour harmoniser Est très coûteux à faire... Plus de 31 000 annotations total, 4,5 par message 6

Les balises structurantes : <document> <texto> <user_id>... </user_id> <orig>... </orig> <transcrip>... </transcrip> <texto> </document> 7

Les 17 balises pour l'annotation Abréviation (ABREV) Utilisation : Balise toute abréviation. Exemple : Je vais p-e devoir travailler un peu en fds Je vais <abrev forme="peut-être">p-e</abrev> devoir travailler un peu en <abrev forme="fin de semaine">fds</abrev> Accord (ACCORD) Utilisation : Balise les accords fautifs pour substantifs, adjectifs et verbes. Exemple : Tu ne t'en rend pas compte. Tu ne t'en <accord forme="rends">rend</accord> pas compte 8

Les 17 balises pour l'annotation Binettes ou smileys (BINET) Utilisation : toutes encadrées pour étude éventuelle. Note : dans la phrase, balisées directement. En début de phrase et ou en fin de phrase sans ponctuation, la ponctuation ou la majuscule initiale sont rétablies et la binette est balisée à l'extérieur de la phrase. Exemple : Merci. :) Merci <binet> :) </binet> Bisous (BISOUS) Les diverses réalisations des baisers dans les textes seront balisées. Exemple : Bonne journée! Xxx Bonne journée! <bisous> Xxx </bisous> 9

Les 17 balises pour l'annotation Bloc langue (BLOC_LANG) Les changements de langues dans un texto sont identifiés. Une langue est associée au texto par défaut. Exemple : Are you kidding me? C'est fou ça! <bloc_lang langue="en">are you kidding me </- bloc_lang > C'est fou ça! Coquille (COQUILLE) Utilisation : fautes d'inattention ou «de frappe». Exemple : Ke m'appelle Georges. <coquille forme="je">ke</coquille> m'appelle Georges. 10

Les 17 balises pour l'annotation Élément inconnu (ELEMENT_INCONNU) Utilisation : Identifier les caractères étranges (éléments graphiques non reconnus) Exemple : On ira ÌŠailleurs. On <element_inconnu> ÌŠ</element_inconnu> ira ailleurs. Forme inconnue (FORME_INCONNUE) Utilisation : Identifier formes ling. inconnues Exemple : On n'accepte pas les <forme_inconnue>dli</forme_inconnue> à la maison. On n'accepte pas les <forme_inconnue>dli</forme_inconnue> à la maison. 11

Les 17 balises pour l'annotation Majuscule (MAJUS) Utilisation : Relève une erreur de majuscule (manquante ou en trop). Exemple : On va à new york demain. On va à <majus type_majus="ajout" forme="new York">new york</majus> demain. Négation (NEGAT) Utilisation : Rétablit la négation manquante. Exemple : Je pense pas. Je <negat forme="ne"></negat>pense pas. 12

Les 17 balises pour l'annotation Orthographe (ORTHO) Utilisation : Balise toute faute d'orthographe. Exemple : C'est a deux heures. C'est <ortho forme="à ">a</ortho> deux heures. Ponctuation (PONC) Utilisation : Balise la ponctuation fautive (manquante ou trop abondante). Exemple : Je suis arrivée Je suis arrivée <ponc forme="."></ponc> 13

Les 17 balises pour l'annotation Remarque (REMARQUE) Utilisation : Laisser, à l'intérieur des textos, des commentaires ou des observations. Exemple : Je vais travailler en psy. Je vais travailler en psy <remarque>pas certaine de l'équivalent de l'abréviation "psy". Rire (RIRE) Utilisation : Diverses formes de rire Note : Si dans phrase, balisé directement. En début ou fin de phrase sans ponctuation, ponctuation rétablie et rire est balisé à l'extérieur de phrase. Exemple : je sais pas lol. Je ne sais pas <rire> lol </rire> 14

Les 17 balises pour l'annotation Symb (SYMB) Utilisation : Remplace le symbole qui remplace un mot. Exemple 1 : Je suis @ Berri Je suis <symb forme="à ">@</symb> Berri. Exemple 2 : Je n'en sais pas +. Je n'en sais pas <symb forme="plus">+</symb>. 15

Les 17 balises pour l'annotation Synt (SYNT) Utilisation : Grammaire Exemple 1 : Y ne sait pas de quoi il parle. <synt type_synt="corr" forme="il">y</synt> ne sait pas de quoi il parle. Exemple 2 : Suis revenue! Bonne journee et merci :) <synt type_synt="ins" forme="je suis">suis</synt> revenue! Bonne <ortho forme="journée">journee</ortho> et merci<ponc forme="."/> <binet>:)</binet> 16

Les 17 balises pour l'annotation Typographie (TYPOG) Utilisation : Signale les espaces manquants entre deux mots ou l'apostrophe qui a été remplacée par un espace. Exemple : J ai faim. <typog forme="j'ai"> J ai </typog> faim. 17

Texto4science.ca : anonymisation Anonymisation Approche par annotation : nouveaux prénoms et noms seront générés automatiquement Problèmes d'uniformisation (étape d'anonymisation entièrement manuelle, certains oublis) Problèmes similaires à une anonymisation automatique?

Les 4 balises pour l'anonymisation Adresse (ADRESSE) Utilisation : Encadre toutes les adresses, qui pourront toutes être enlevés en même temps. Exemple : Viens au 2376, christophe-colomb Viens au <adresse> 2376, christophecolomb</adresse> Nom (NOM) Utilisation : Encadre les noms de famille. Exemple : Elle s'appelle Tremblay. Elle s'appelle <nom>tremblay</prenom>. 19

Les 4 balises pour l'anonymisation Numéro (NUMERO) Utilisation : Encadre les numéros (de téléphone, de cartes...) qui doivent être anonymisés. Exemple : C'est le 514 555-3127 C'est le <numero>514 555-3127</numero>. Prénom (PRENOM) Utilisation : Encadre les prénoms. Exemple: Elle s'appelle Ariel. Elle s'appelle <prenom sexe="fem">ariel</prenom>. 20

Sommaire des annotations Type Fréquence Type Fréquence ponc 9027 synt=corr 290 ortho 7496 coquille 267 abrev 5082 synt=supp 183 synt=retab 1648 forme_inconnue 146 binet 1605 nom 121 accord 1505 element_inconnu 28 bloc_lang 1480 numero 21 majus 1427 adresse 17 prenom 1038 synt= 4 typog 1006 majus= 4 synt=ins 836 web 1 negat 818 mail 1 rire 622 majus=supp 307

Texto4science.ca Interface de consultation? Où est-elle? Pas encore constituée malheureusement... Nécessaire pour les analyses ultérieures!

Texto4science.ca : exploitation Normaliseur (Fabrizio Gotti, RALI, Université de Montréal) Traduction des textos an francè vers le français Pour normaliser Pour repérer divers phénomènes (rendez-vous, détection du profil d'utilisateur, etc.) Modèle de traduction appris sur le corpus "bilingue". Problèmes : Corpus trop petit pour la construction de ce modèle, alors corpus d'oral (théâtre, télésérie). Mots inconnus bloquent le processus. Texto trop créatif?!? Mais, un lexique du français + quelques règles de compression des lettres répétées, de désaglutination (jpense -> je pense) et de réaccentuation permet d'augmenter les résultats. - Premiers résultats sont encourageants : taux d'erreurs de 18%.

Texto4science.ca : exploitation Exploitation originale des données : le koolificateur (Florent Cottin, en stage au RALI) Coolificateur : traduction automatique du français en texto québécois Basé sur le corpus Basé sur un dico et la fréquence, aucun modèle de langue ni d'apprentissage Résultats un peu aléatoires mais intéressants pour une première ébauche Exactitude et productivité? «pourrisseur»

Texto4science.ca : exploitation Prototype CalTexto (Thibault Bughin, CENTAL en stage à l'olst à UdeM) Annotation des marqueurs de RV dans les textos Analyse de la temporalité des RV dans les textos Construction d'un typologie des RV Rédaction de grammaires permettant l'extraction automatique des RV Mise au point du prototype CalTexto qui insère automatique dans Google Calendar les RV trouvés

Texto4science.ca : exploitation Clustering et vecteurs sémantiques (Patrick Drouin, OLST, UdeM) Début phase de tests sur données Idée : l'analyse distributionnelle peut aider à regrouper ce qui est sémantiquement relié Pourrait guider l'annotation (identification des prénoms, variation orthographique des pronoms) ou pour l'analyse des données selon un angle sémantique. La taille du corpus risque de poser problème

Conclusion Corpus est satisfaisant dans sa taille Corpus satisfaisant dans sa transcription Interface de consultation? Applications intéressantes Potentiel intéressant pour analyses linguistiques futures