LA RECHERCHE DE TERMES DANS LES TEXTES SPÉCIALISÉS : INTERNET ET LA CONSTITUTION DE CORPUS DE RÉFÉRENCE



Documents pareils
! Text Encoding Initiative

N SIMON Anne-Catherine

1 Description générale. Résumé

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

Plate-forme de tests des fichiers XML virements SEPA et prélèvements SEPA. Guide d'utilisation

Plan de la présentation

Les documents primaires / Les documents secondaires

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

Gestion Électronique de Documents et XML. Master 2 TSM

Table des matières & Index Partie première : Table des matières Jean-Yves Lucca

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

1 On peut consulter et interroger ce corpus sur le site de l équipe DELIC :

Rédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web

Manuel de recherche en sciences sociales

Les Bases de données de presse. Recherche documentaire

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

NORMES DE PRÉSENTATION DES MANUSCRITS

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Tutoriel BLOGGER. Pour vous donner une idée, voici un exemple de blog :

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

LA TECHNIQUE DU COMMENTAIRE DE TEXTE

Gestion collaborative de documents

1. Informations préliminaires

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

Guide de création de site web optimisé

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Construction et maintenance d une ressource lexicale basées sur l usage

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Commerce International. à référentiel commun européen

Gérer les droits d accès 27 Créer et gérer des utilisateurs en tant qu administrateur 27 FAQ 29. Annexe Lexique 31

Lexicologie Terminologie Traduction

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

LES GRANDES ETAPES DE CREATION D UN WEB DESIGN

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Structure et contenu d un mémoire de master pour les étudiants du M2 spécialité ASR

Apprentissage Automatique

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

COMMENT TRADUIRE ET OPTIMISER UN SITE PRESTASHOP? CAS PRATIQUE SOLUTION CLÉ EN MAIN

Formation Word/Excel. Présentateur: Christian Desrochers Baccalauréat en informatique Clé Informatique, 15 février 2007

Référencement naturel & E-tourisme. Pau 02/10/2008

La carte de contrôle chômage complet

Présentation générale du projet data.bnf.fr

Normes graphiques / Sigma Assistel / Site Internet version 1.0 /

Livret personnel de compétences

Technologie et terminologie: vers le grand partage de l information

«L impact de l interculturel sur la négociation» construire des intérêts matériels ou des enjeux quantifiables

Atelier rédactionnel

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

1. Vérification de conformité aux normes Champion

BTS Assistant de gestion de PME-PMI à référentiel commun européen

Une plateforme de recherche et d expérimentation pour l édition ouverte

CATALOGUE Formations courtes PARCOURS TRADUCTION

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Guide concernant l accès au service TFP Internet pour les. notaires, institutions financières et les représentants légaux.

DIPLÔME APPROFONDI DE LANGUE FRANÇAISE

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Mode d emploi. Alex ALBER Université F. Rabelais (Tours) / UMR C.I.T.E.R.E.S Chercheur associé au Centre d Etudes de l Emploi

Guide du mémoire de fin d études

LEXOS, logiciel d'étude lexicale et de conjugaison

F.A.Q 1.0 Designer 3D Atex System

Les enjeux de l internationalisation e-commerce. Table ronde d expert

«Bienvenue en Europe» : fiche Apprenant Thème : technologies, innovations et médias

Comment interroger PubMed pour accéder aux revues en ligne AP-HP sur Intranet

La promotion de la pluralité linguistique dans l usage des nouvelles technologies de l information et de la communication

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

PLAN D ÉTUDES. école fondamentale

Installation du Pilote de scanner

Gestion de références bibliographiques

P RO - enfance. Plateforme Romande pour l accueil de l enfance

Recherche bibliographique

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

Des banques de données terminologiques en Afrique francophone

Drupal : quelques fonctionnalités (ce qu il permet, ce qu il ne permet pas)

LES DESCRIPTEURS DU CECRL EN UN COUP D ŒIL

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

SYSTRAN 7 Guide de démarrage

Atelier de l Ecole doctorale : Latex, Lyx, and friends Chapitre 2 : Gestion de la bibliographie

Livre Blanc Guide pratique pour un bon référencement Internet.

LFRA12 RECHERCHE DOCUMENTAIRE APPLIQUEE A LA TRADUCTION

CHAPITRE VI. Détermination d unités de traitement

Déjeuner de la Technologie 23 Mars 2007 Gestion de Documents Electroniques. Thierry GUILLOTIN - Elie FRANCIS EVER TEAM

Une discipline scolaire

CHAPITRE VII. Caractérisation d un texte dans un corpus : du quantitatif vers le qualitatif

3 logiciels «gratuits» pour gérer sa bibliographie

LA RECHERCHE DOCUMENTAIRE

COMMENT PUBLIER SUR ARIANE?

Transcription:

LA RECHERCHE DE TERMES DANS LES TEXTES SPÉCIALISÉS : INTERNET ET LA CONSTITUTION DE CORPUS DE RÉFÉRENCE ESIT 9 JANVIER 2002 Marc Van Campenhoudt Centre de recherche Termisti Institut supérieur de traducteurs et interprètes Bruxelles

1 INTRODUCTION PROBLÉMATIQUE GÉNÉRALE 1.1 Rompre avec une tradition de compilation des dictionnaires 1.2 Quelques définitions de la notion de corpus «La réunion d un grand nombre de textes indexés constitue une corpus, à l intérieur duquel on se propose d étudier et de quantifier certains faits lexicaux, syntaxiques, etc. Le corpus comprend en général des divisions ou sous-corpus, qui la plupart du temps ont une unité propre (chronologique, stylistique, etc.» (MULLER 1973 : 16.) «Ensemble d énoncés d une langue donnée (écrits ou oraux enregistrés) qui ont été recueillis pour constituer une base d observation permettant d entreprendre la description et l analyse de la langue en question.» (ARRIVÉ, GADET et GALMICHE 1986.) «Si l on veut étudier tels ou tels phénomènes dans une langue naturelle, il faut recueillir les corpus correspondants. Ce sont des ensembles d énoncés (écrits ou oraux, selon les besoins) que le linguiste pose comme un échantillon représentatif de faits de parole (au sens saussurien) des locuteurs de cette langue.» (CHISS, FILLIOLET et MAINGUENEAU 1993 : 61.) 2 DES LOGICIELS À LA RESCOUSSE : CONCORDANCIERS, EXTRACTEURS ET EXTRACTEURS-ALIGNEURS 2.1 Le concordancier, toujours aussi performant 2.2 L extracteur de candidats-termes 2.3 L alignement de corpus

3 INTERNET ET LA DISPONIBILITÉ DES CORPUS 3.1 Recherche de corpus préconstitués 3.2 Recherche de textes spécialisés pour alimenter un corpus 3.3 Recherche de textes spécialisés multilingues à aligner 3.4 Réflexions sur les caractéristiques des textes disponibles 3.5 Internet comme outil de contact avec le spécialiste 4 LE TRAVAIL DE PRÉPARATION DU CORPUS 4.1 Le découpage en unités lexicales [blanc]suivez-moi,[blanc]jeune-homme,[blanc]s écria-t-elle. [blanc] = 3 mots 4.1.1 PONCTUATION 4.1.2 DIACRITIQUES En français : AaÀàÂâ, Bb, CcÇç, Dd, EeÈèÉéÊêËë, etc.

4.1.3 ALGORITHMES DE DÉCOUPAGE Dit-il. Penses-tu? Répète-le. Dis-moi. Va-t en. Laisse-le-moi. Soyez-en sûr. Cette personne-là. Du papier-peint jauni. Un papier peint en rose. Suivez-moi, jeune homme! Son chapeau portait un suivez-moi-jeune-homme. Le poisson-chat. Il s abaisse. La grand place. La grand-place. Mais qu en dira-t-on à l avenir? Je me moque du qu en-dira-t-on. 4.2Propretédelamiseenpage 4.2.1 SAUVEGARDER CORRECTEMENT UN TEXTE DEPUIS INTERNET Du format HTML au format texte Du format PDF (Acrobat Reader) au traitement de texte via le format HTML Du format PostScript au format texte 4.3 La préparation structurelle du corpus 4.3.1 ASSURER LA PÉRENNITÉ DU TEXTE 4.3.2 CONSERVER LA MÉMOIRE DU TEXTE 4.3.2.1 LA NOTION DE DOCUMENT STRUCTURÉ

4.3.2.2 LA TEXT ENCODING INITIATIVE (T.E.I.) www.tei-c.org www.fas.umontreal.ca/ebsi/cursus/vol1no2/beaudry.html Début typique de document T.E.I. : conserver la mémoire de la constitution du corpus Échantillon de quelques balises T.E.I. : <teiheader> <filedesc> <titlestmt> <title>thomas Paine: Common sense, a machine-readable transcript</title> <respstmt><resp>compiled by</resp> <name>jon K Adams</name> </respstmt> </titlestmt> <publicationstmt> <distributor>oxford Text Archive</distributor> </publicationstmt> <sourcedesc> <bibl>the complete writings of Thomas Paine, collected and edited by Phillip S. Foner (New York, Citadel Press, 1945</bibl> </sourcedesc> </filedesc> <teiheader> <bibl> contient une citation bibliographique structurée de façon informelle, et dont les sous-champs peuvent ou non être balisés explicitement ; <div1>...<div1> contient une subdivision de niveau un à sept des parties liminaires du corps ou des annexes d un texte ; <h> marque un mot ou une expression comme étant graphiquement distincte du texte avoisinant, sans aucune interprétation quant à la raison de cette mise en valeur ; <title> contient le titre d une œuvre, que ce soit un article, livre, journal, ou une série, y compris tout sous-titre ou titre alternatif ; <p> marque les paragraphes écrits en prose.

4.3.2.3 QUELLES INFORMATIONS PERTINENTES RETENIR POUR LA RECHERCHE TERMINOLOGIQUE? 5 L EXTRACTION DE CANDIDATS TERMES 5.1 Méthodes statistiques : Quelques notions de lexicométrie (D après MULLER 1968) 5.1.1 ÉTENDUE DU CORPUS Nombre de pages, nombre de lignes, nombres de mots, nombre de caractères? 5.1.2 FORMES : Token = le nombre total de formes fléchies comptées dans un texte, y compris celles qui sont répétées maintes fois ; Type = le nombre total de formes fléchies différentes comptées dans un texte, les répétitions n étant pas prises en compte. 5.1.3 LEMMES : Le nombre de formes canoniques différentes (entrées de dictionnaire) observées dans un texte. Problématique de l homographie : affluent, fils, mousse, voile, etc.

5.1.4 MESURER LA RICHESSE LEXICALE 5.1.4.1 AVEC LEMMATISATION : LA RICHESSE LEXICALE Richesse lexicale = nombre de lemmes nombre de formes 5.1.4.2 SANS LEMMATISATION : LE TYPE-TOKEN RATIO Type-Token Ration = Nombre total de formes fléchies x100 5.1.5 MESURER LA CONNEXION LEXICALE M = 29/53 = 0,55 I manif 1 = 11/40 = 0,28 I manif 2 = 13/42 = 0,31 Présent dans Manif 2 Absent dans Manif 2 Présent dans Manif 1 Absent dans Manif 1 Total 29 13 42 11 11 Total 40 13 53

C= lexique commun (lexique 1 x lexique 2) 5.1.6 L INFORMATION MUTUELLE (CHURCH & HANKS 1990, D APRÈS KRAIF 1997) Pour deux formes x et y : Où P(x,y) est la probabilité d'observer x et y ensemble, P(x) et P(y) sont les probabilités respectives d'observer x et y indépendamment. I(x,y) = log2 P(x,y) P(x) x P(y) 5.2 Approches lexico-syntaxiques : l exemple d Adepte-Nomino 6 EN GUISE DE RÉFLEXION FINALE

MI(x,y) Freq(x,y) Freq(x) Freq(y) X y 10 8.2 7.8 7.3 7.1 6.8 6.2 6.0 5.7 5.4 5.0 5.0 161 14 5 5 4 4 9 5 6 4 199 9 4764 1529 698 968 935 1090 3744 2519 3498 2928 190545 8983 Anonymity permission asylum copies detailed background documents protection additional meetings by information