! Text Encoding Initiative



Documents pareils
fiche D AUTOCORRECTION Frimousse, une petite chienne qu'on a adoptée le mois dernier, est intelligente et docile.

SII Stage d informatique pour l ingénieur

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Plan de la présentation

XML : documents et outils

CONSTITUTION D'UN CORPUS D'ERREURS DU DACTYLOGRAPHE

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

Faculté de Génie Chaire industrielle en infrastructures de communication. La technologie XML. Wajdi Elleuch

Atelier ATOLL pour les grammaires d arbres adjoints

NORMES DE PRÉSENTATION DES MANUSCRITS

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Formation Pédagogique 3h

creer votre site internet en html/css

UML Diagramme de communication (communication diagram) Emmanuel Pichon 2013

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

scientifique de Kourou (présence du on) mois, avant, quelques jours, avant, à partir de, le dernier jour.

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

Ressources lexicales au service de recherche et d indexation des images

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Systèmes d information et bases de données (niveau 1)

Le modèle standard, SPE (1/8)

Enseignement Informatique. Classe de Bac Pro SAPAT

RTDS G3. Emmanuel Gaudin

à l édition de textes

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Annotations manuelles et automatiques de corpus

.. CSS. Damien Nouvel. Damien Nouvel (Inalco) CSS 1 / 15

Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

TD 1 - Structures de Traits et Unification

Cégep de Saint Laurent Direction des communications et Direction des ressources technologiques. Projet WebCSL : Guide de rédaction web

Apprentissage Automatique

Les outils de création de sites web

Guide d élaboration d un Projet de Fin d études

Gestion Électronique de Documents et XML. Master 2 TSM

Chaînes de Markov au lycée

COMMENT CITER OU PARAPHRASER UN EXTRAIT DE DOCUMENT SELON INFOSPHÈRE

OASIS Date de publication

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

SAML et services hors web

Uniformiser la mise en forme du document. Accélère les mises à jour. Permets de générer des tables de matières automatiquement.

4. SERVICES WEB REST 46

La recherche d'information sur Internet

1. Installation du Module

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Et si j étais Marty Mac Fly Ou comment remonter le temps avec une tablette tactile (Ipad)

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

Grammaires d unification

N SIMON Anne-Catherine

Créer le schéma relationnel d une base de données ACCESS

UN TRAVAIL A PLUSIEURS VOIX... 3 LICENCE... 3 TRAÇABILITE... 5 CONTENU DE LA CHARTE... 3 COMMENT UTILISER CETTE E CHARTE?... LES DONNEES...

Informatique : Création de site Web Master 2 ANI TP 1

Introduction à NetCDF

Programmation Internet Cours 4

WINDOWS SHAREPOINT SERVICES 2007

Et si vous faisiez relire et corriger vos textes par un professionnel?

1 Description générale. Résumé

Évaluation de G-LexAr pour la traduction automatique statistique

Optimiser son référencement naturel avec e-majine

Compte-rendu re union Campus AAR 3 mars 2015

Systèmes décisionnels et programmation avancée

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Guide de création de site web optimisé

Google Actualités. Propriétés techniques. Structure des URL

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Titres de créances NégOciables Refonte Informatique et organisationnelle

FORMATION MULTIMÉDIA LVE

EDESS. 1 Démarche générale principes 2

Le référencement naturel

TP SIN Programmation sur androïde Support : eclipse

ScTools Outil de personnalisation de carte

1.1 L EXPLORATEUR WINDOWS

Module http MMS AllMySMS.com Manuel d intégration

PROSOP : un système de gestion de bases de données prosopographiques

1. Qu est-ce que la conscience phonologique?

Annotation collaborative en ligne de l'archive manuscrite

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

Outils logiciels pour l'ingénierie documentaire

Cours 1 : Introduction. Langages objets. but du module. contrôle des connaissances. Pourquoi Java? présentation du module. Présentation de Java

Université de Bangui. Modélisons en UML

Générer du code à partir d une description de haut niveau

Banque d images SVT. Créer et utiliser une banque d images avec Picasa 2. Version anglaise -Windows 98. Banque photo en SVT : page 1 /14

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Centre Génie Industriel et Informatique (G2I) RECHERCHE D INFORMATION DANS LES DOCUMENTS XML RAPPORT DE RECHERCHE

mes m est mets/met mais mets

XML et travail collaboratif : vers un Web sémantique

Guide pour la réalisation d'un document avec Open Office Writer 2.2

PLAN DE COURS DÉPARTEMENT ÉLECTRONIQUE INDUSTRIELLE. TITRE DU COURS Ordinateur Outil RA 1-4-2

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

TP : Shell Scripts. 1 Remarque générale. 2 Mise en jambe. 3 Avec des si. Systèmes et scripts

Webmaster / Webdesigner / Wordpress

Cahier Technique. «Développer une application intranet pour la gestion des stages des étudiants» Antonin AILLET. Remi DEVES

MANUEL TBI - STARBOARD

Auguria_PCM Product & Combination Manager

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

Transcription:

Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique sous forme XML! XML est en fait un méta-langage: il ne spécifie que le principe du balisage! le nom des balises, et leurs contraintes (quelle balise peut contenir quelle autre balise, et peut avoir quels attributs) doit être fixé pour un format XML particulier! historiquement, hérite de :! SGML : standard mark-up language, 1986! erreur de départ: les balises fermantes sont optionnelles => pbs d ambiguité! HTML : une instanciation du standard SGML prévue pour l affichage de documents sur Internet 35 Un format XML instancié pour les documents électroniques: la TEI! Text Encoding Initiative! http://www.tei-c.org! groupement d experts internationaux! qui émettent des «recommandations» sur la bonne façon de représenter / diffuser des «documents électroniques»! et donc en particulier des corpus! recommandations définissent précisément quelles balises utiliser pour représenter toute l information nécessaire pour un document électronique! balises définies pour les méta-données 36 Exemple : le corpus Est Républicain (cf. TP antconc) <teiheader> <filedesc> <titlestmt> <title> L'Est Républicain : édition du <date when="1999-05-22">22 mai 1999</date> </title> <respstmt> <name>b. Gaiffe</name> <resp>conversion en TEI</resp> </respstmt> </titlestmt> <editionstmt><p> </p></editionstmt> <publicationstmt> <distributor>cnrtl-cnrs</distributor> <availability status="free"> <p>dans un cadre de recherche ou d'enseignement à l'exclusion de toute utilisiation commerciale et sous réserve de citation de la source : Est Républicain/CNRTL</p> </availability> </publicationstmt> <sourcedesc> <p> l'est Républicain </p> </sourcedesc> </filedesc> <revisiondesc> <change when="2009-03" who="kamel Nebhi">Transformation des éléments div dont l'attribut type avait pour valeur sousdiv ou generated en élément div sans attribut.</change> 37 etc.. IIIc: Les différents types d annotation! revenons aux méta-données de type «annotation» (linguistique)! marques de segmentation (en phrases, en mots )! annotations morphologiques! annotations syntaxiques! annotations sémantiques! chaque type d annotation peut utiliser! un format ad-hoc! un format XML avec «annotations in situ» :! imbriquées aux productions linguistiques! un format XML avec annotations «déportées» :! séparées des productions linguistiques 38

Segmentation en phrases! format XML in situ! <phrase> Ceci est une première phrase. <phrase>et ceci en est une autre.! compatible avec l utilisation de balises pour des unités de texte plus grandes : par ex. paragraphes! format «ad-hoc»! un format ad-hoc typique est d utiliser le retour à la ligne pour marquer une fin de phrase! format dit «une phrase par ligne» Segmentation en phrases! format XML déporté :! les indications de frontière de phrase sont données dans des balises externes au texte! le positionnement dans le texte se fait en utilisant des «offsets» : rang de caractères numérotés dans l ordre d apparition <text>ceci est une première phrase. Et ceci en est une autre.</text> <annotation> <phrase start=1 end=29 id=p1/> <phrase start=31 end=52 id=p2/> </annotation> </document> 39 40 Segmentation en mots: qu'est-ce qu'un mot?! problème de la définition de mot.! on évite de donner une définition graphique ( linguistique)! définition approximative : plus petite unité de sens ayant une autonomie syntaxique! des unités sont insérables entre les mots, de manière plus libre que ce qui est insérable entre des morphèmes au sein des mots! maison : à la fois un morphème (si on découpe on perd tout sens) et un mot (peut se combiner librement avec grande productivité)! invariablement : découpable en 3 unités de sens (morphèmes) : in / variable / ment mais «in» et «ment» ne se combinent pas librement «*ingrand» «*vélocement» «*courtement» règles de combinaison des morphèmes pour former des mots distinctes et plus contraintes que les règles de combinaisons des mots entre eux 41 Segmentation en mots: qu'est-ce qu'un mot?! en admettant la notion de mot! notion de mot composé:! séquence d éléments qui jouent le rôle de mots dans d autres contextes (ou bien en diachronie)! mais dont le sens est perdu / modifié! «carte bleue» «au fur et à mesure» => on ne peut rien insérer (à moins de perdre le sens) «carte très bleue»! notion d amalgame:! «aux» «du» : on peut considérer 2 mots sousjacents 42

Segmentation en mots: qu'est-ce qu'un mot? Segmentation en tokens! plusieurs acceptions du mot "mot"! les "mots" tels qu'on les utilise dans les productions linguistiques! mot-forme = "forme fléchie"! les "mots" du dictionnaire! mot-lemme = regroupement de formes fléchies ne variant que par la flexion, nommée en utilisation une des formes par exemple l'infinitif pour un verbe! attention: par "mot" on entend parfois! mot-forme = signifiant + signifié mot "avocat" sens fruit mot "avocat" sens profession! mais parfois seulement le signifiant si on dit "le mot avocat a deux sens" => "mot" ne réfère qu'au signifiant graphie-forme = la graphie d'un mot-forme! la terminologie varie pour toutes ces notions, l'important est de bien avoir en tête ces distinctions 43! avant de voir la segmentation en mots! on passe par la notion de "token"! concept non linguistique! tokens = unités obtenues lorsque l'on segmente la chaîne sur la base d indices purement typographiques! unité purement technique, et dépendant du système orthographique! inexistant ds le cas de langues sans séparateurs graphiques! en général : hors ponctuation! un token correspond à une graphie-forme! "maisons" "harmonieuse"! mais: cette correspondance 1 à 1 n'est pas toujours vraie:! un mot peut correspondre à plusieurs tokens :! mots composés => «carte bleue» «a priori»! un token peut correspondre à plusieurs mots! amalgames => «au» «du» 44 Annotation ad-hoc tokens et mots Annotation XML in situ! un format «ad hoc» courant en linguistique informatique :! on utilise un espace comme séparateur de mots! et un "_" pour séparer les différents tokens composant un mot composé Au four, les pommes_de_terre cuisent au_fur_et_à_mesure.! Problème :! pas de solution pour les amalgames! à moins de transformer le texte «au» => «à le»! on s éloigne du texte source de plus en plus! => le corpus sera moins réutilisable 45 <phrase> <m>au</m> <m>four</m> <m>,</m> <m>les</m> <m>pommes de terre</m> <m>cuisent</m> <m>au fur et à mesure</m> <m>.</m> </document>! Rem: les espaces initiaux sont "perdus", on ne peut pas reconstituer totalement le texte initial.! avec une annotation déportée (slide suivant), on va pouvoir! garder le texte source! gérer les amalgames 46

Annotation XML déportée <text>au four, les pommes de terre cuisent au four et à mesure. Ensuite.</text> <phrase id=p1> <tokens> <t id=t1 start=1 end=2/> <t id=t2 start=4 end=7/> <t id=t3 start=8 end=8/> <t id=t4 start=10 end=13/> <t id=t5 start=15 end=20/> <t id=t6 start=22 end=23/> <t id=t7 start=25 end=29/> etc. </tokens> <mots> <m id=m1 lemme="à"><component idref=t1/></m> <m id=m2 lemme="le"><component idref=t1/></m> <m id=m3 lemme="four"><component idref=t2/></m> <m id=m4 lemme=","><component idref=t3/></m> <m id=m5 lemme="le"><component idref=t4/></m> <m id=m6 lemme="pomme de terre"> <component idref=t5/> <component idref=t5/> <component idref=t5/> </m> etc.. </mots> etc </document> 47 Annotations morphologiques! explicitation de! la catégorie morpho-syntaxique! désambiguisée!! ferme => nom / adjectif / verbe! le lemme! les traits flexionnels :! le paradigme de flexion et sa valeur pour la forme fléchie par ex. genre=fem nombre=pl temps=present 48 Annotations morphologiques: format ad hoc! par ex. format Brown! Les/D petits/a chats/n boivent/v du/d lait/n./ PONCT! format lemmatisé! Les/le/D petits/petit/a chats/chat/n boivent/boire/ V du/du/d lait/lait/n././ponct Annotations morphologiques: in situ! On ajoute les traits flexionnels et la catégorie dans la balise de mot : <phrase> <m cat="d" lemme="le" g="m" nb="pl">les</m> <m cat="n" lemme="chat" g="m" nb="pl">chats</m> <m cat="v" lemme="boire" mode="ind" t="pres" pers="3" nb="pl">chats</m> <m cat="d" lemme="du" g="m" nb="sg">chats</m> <m cat="n" lemme="lait" g="m" nb="sg">lait</m> <m cat="ponct" lemme="." >.</m> 49 50

Annotations morphologiques: format déporté! Idem : on ajoute les traits flexionnels et la catégorie dans la balise de mot :! commence à devenir illisible 51 <text>au four, les pommes de terre cuisent au four et à mesure. Ensuite.</text> <phrase id=p1> <tokens> <t id=t1 start=1 end=2/> <t id=t2 start=4 end=7/> <t id=t3 start=8 end=8/> <t id=t4 start=10 end=13/> <t id=t5 start=15 end=20/> <t id=t6 start=22 end=23/> <t id=t7 start=25 end=29/> etc. </tokens> <mots> <m id=m1 lemme="à" cat="p"><component idref=t1/></m> <m id=m2 lemme="le" cat="d" g="m" nb="sg"><component idref=t1/></m> <m id=m3 lemme="four" cat="n" g="m" nb="sg"><component idref=t2/></m> <m id=m4 lemme="," cat="ponct"><component idref=t3/></m> <m id=m5 lemme="le" cat="d" g="f" nb="pl"><component idref=t4/></m> <m id=m6 lemme="pomme de terre" cat="n" g="f" nb="pl"> <component idref=t5/> <component idref=t5/> <component idref=t5/> </m> etc.. </mots> etc </document> 52 Annotations syntaxiques! structure syntagmatique! format parenthésé! format in situ! format déporté! format parenthésé : ARBRE -> ( SYMBOLE_CATEGORIE mot ) ARBRE -> ( SYMBOLE_SYNTAGMATIQUE ARBRE+ ) Exemples : (N chat) (SN (D le) (N chat)) (Phr (SN (D le) (N chat)) (SV (V boit) (SN (D du) (N lait)))) 53 Annotations syntaxiques : in situ! on ajoute des balises pour les syntagmes : <phrase> <Phr> <SN> <m cat="d" lemme="le" g="m" nb="pl">les</m> <m cat="n" lemme="chat" g="m" nb="pl">chats</m> </SN> <SV> <m cat="v" lemme="boire" mode="ind" t="pres" pers="3" nb="pl">chats</m> <SN> <m cat="d" lemme="du" g="m" nb="sg">chats</m> <m cat="n" lemme="lait" g="m" nb="sg">lait</m> </SN> </SV> <m cat="ponct" lemme="." >.</m> </Phr> 54

Annotations syntaxiques déportées! idem : on ajoute des balises pour les syntagmes! dont le contenu fait référence à des ids de mots ou ids de syntagmes Autres types d'annotation! surtout utilisés en linguistique informatique, moins en linguistique! objectif : produire des programmes capables de faire automatiquement les annotations! annotations sémantiques! par exemple en rôles sémantiques! qui fait quoi quand où?! annotations temporelles! repérage des expressions temporelles (dates, durées)! ordonnancement des évènements et positionnement par rapport aux expressions temporelles Paul a mangé avant midi => quel jour? Paul a mangé avant que Pierre n'arrive 55! etc 56 Formats : avantages et inconvénients! compromis à trouver entre! simplicité du format! et donc facilité d utilisation / lisibilité! fidélité aux documents source! le format déporté offre un maximum de souplesse! sans aucune perte d'information! => et donc permet une réutilisation pour objectifs variés, y compris objectifs non prévus lors de la création du corpus! respect de normes et pratiques internationales! => garantissent que différents outils tiers seront capables de traiter le format typiquement : de nombreux outils sont capables de traiter le format général XML alors qu'un format ad hoc est certes plus simple mais nécessitera des outils dédiés! Rem: à partir d un format XML déporté! on peut générer des formats ad hoc! automatiquement via des programmes simples! (modules de transformations de fichiers XML) 57