Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique sous forme XML! XML est en fait un méta-langage: il ne spécifie que le principe du balisage! le nom des balises, et leurs contraintes (quelle balise peut contenir quelle autre balise, et peut avoir quels attributs) doit être fixé pour un format XML particulier! historiquement, hérite de :! SGML : standard mark-up language, 1986! erreur de départ: les balises fermantes sont optionnelles => pbs d ambiguité! HTML : une instanciation du standard SGML prévue pour l affichage de documents sur Internet 35 Un format XML instancié pour les documents électroniques: la TEI! Text Encoding Initiative! http://www.tei-c.org! groupement d experts internationaux! qui émettent des «recommandations» sur la bonne façon de représenter / diffuser des «documents électroniques»! et donc en particulier des corpus! recommandations définissent précisément quelles balises utiliser pour représenter toute l information nécessaire pour un document électronique! balises définies pour les méta-données 36 Exemple : le corpus Est Républicain (cf. TP antconc) <teiheader> <filedesc> <titlestmt> <title> L'Est Républicain : édition du <date when="1999-05-22">22 mai 1999</date> </title> <respstmt> <name>b. Gaiffe</name> <resp>conversion en TEI</resp> </respstmt> </titlestmt> <editionstmt><p> </p></editionstmt> <publicationstmt> <distributor>cnrtl-cnrs</distributor> <availability status="free"> <p>dans un cadre de recherche ou d'enseignement à l'exclusion de toute utilisiation commerciale et sous réserve de citation de la source : Est Républicain/CNRTL</p> </availability> </publicationstmt> <sourcedesc> <p> l'est Républicain </p> </sourcedesc> </filedesc> <revisiondesc> <change when="2009-03" who="kamel Nebhi">Transformation des éléments div dont l'attribut type avait pour valeur sousdiv ou generated en élément div sans attribut.</change> 37 etc.. IIIc: Les différents types d annotation! revenons aux méta-données de type «annotation» (linguistique)! marques de segmentation (en phrases, en mots )! annotations morphologiques! annotations syntaxiques! annotations sémantiques! chaque type d annotation peut utiliser! un format ad-hoc! un format XML avec «annotations in situ» :! imbriquées aux productions linguistiques! un format XML avec annotations «déportées» :! séparées des productions linguistiques 38
Segmentation en phrases! format XML in situ! <phrase> Ceci est une première phrase. <phrase>et ceci en est une autre.! compatible avec l utilisation de balises pour des unités de texte plus grandes : par ex. paragraphes! format «ad-hoc»! un format ad-hoc typique est d utiliser le retour à la ligne pour marquer une fin de phrase! format dit «une phrase par ligne» Segmentation en phrases! format XML déporté :! les indications de frontière de phrase sont données dans des balises externes au texte! le positionnement dans le texte se fait en utilisant des «offsets» : rang de caractères numérotés dans l ordre d apparition <text>ceci est une première phrase. Et ceci en est une autre.</text> <annotation> <phrase start=1 end=29 id=p1/> <phrase start=31 end=52 id=p2/> </annotation> </document> 39 40 Segmentation en mots: qu'est-ce qu'un mot?! problème de la définition de mot.! on évite de donner une définition graphique ( linguistique)! définition approximative : plus petite unité de sens ayant une autonomie syntaxique! des unités sont insérables entre les mots, de manière plus libre que ce qui est insérable entre des morphèmes au sein des mots! maison : à la fois un morphème (si on découpe on perd tout sens) et un mot (peut se combiner librement avec grande productivité)! invariablement : découpable en 3 unités de sens (morphèmes) : in / variable / ment mais «in» et «ment» ne se combinent pas librement «*ingrand» «*vélocement» «*courtement» règles de combinaison des morphèmes pour former des mots distinctes et plus contraintes que les règles de combinaisons des mots entre eux 41 Segmentation en mots: qu'est-ce qu'un mot?! en admettant la notion de mot! notion de mot composé:! séquence d éléments qui jouent le rôle de mots dans d autres contextes (ou bien en diachronie)! mais dont le sens est perdu / modifié! «carte bleue» «au fur et à mesure» => on ne peut rien insérer (à moins de perdre le sens) «carte très bleue»! notion d amalgame:! «aux» «du» : on peut considérer 2 mots sousjacents 42
Segmentation en mots: qu'est-ce qu'un mot? Segmentation en tokens! plusieurs acceptions du mot "mot"! les "mots" tels qu'on les utilise dans les productions linguistiques! mot-forme = "forme fléchie"! les "mots" du dictionnaire! mot-lemme = regroupement de formes fléchies ne variant que par la flexion, nommée en utilisation une des formes par exemple l'infinitif pour un verbe! attention: par "mot" on entend parfois! mot-forme = signifiant + signifié mot "avocat" sens fruit mot "avocat" sens profession! mais parfois seulement le signifiant si on dit "le mot avocat a deux sens" => "mot" ne réfère qu'au signifiant graphie-forme = la graphie d'un mot-forme! la terminologie varie pour toutes ces notions, l'important est de bien avoir en tête ces distinctions 43! avant de voir la segmentation en mots! on passe par la notion de "token"! concept non linguistique! tokens = unités obtenues lorsque l'on segmente la chaîne sur la base d indices purement typographiques! unité purement technique, et dépendant du système orthographique! inexistant ds le cas de langues sans séparateurs graphiques! en général : hors ponctuation! un token correspond à une graphie-forme! "maisons" "harmonieuse"! mais: cette correspondance 1 à 1 n'est pas toujours vraie:! un mot peut correspondre à plusieurs tokens :! mots composés => «carte bleue» «a priori»! un token peut correspondre à plusieurs mots! amalgames => «au» «du» 44 Annotation ad-hoc tokens et mots Annotation XML in situ! un format «ad hoc» courant en linguistique informatique :! on utilise un espace comme séparateur de mots! et un "_" pour séparer les différents tokens composant un mot composé Au four, les pommes_de_terre cuisent au_fur_et_à_mesure.! Problème :! pas de solution pour les amalgames! à moins de transformer le texte «au» => «à le»! on s éloigne du texte source de plus en plus! => le corpus sera moins réutilisable 45 <phrase> <m>au</m> <m>four</m> <m>,</m> <m>les</m> <m>pommes de terre</m> <m>cuisent</m> <m>au fur et à mesure</m> <m>.</m> </document>! Rem: les espaces initiaux sont "perdus", on ne peut pas reconstituer totalement le texte initial.! avec une annotation déportée (slide suivant), on va pouvoir! garder le texte source! gérer les amalgames 46
Annotation XML déportée <text>au four, les pommes de terre cuisent au four et à mesure. Ensuite.</text> <phrase id=p1> <tokens> <t id=t1 start=1 end=2/> <t id=t2 start=4 end=7/> <t id=t3 start=8 end=8/> <t id=t4 start=10 end=13/> <t id=t5 start=15 end=20/> <t id=t6 start=22 end=23/> <t id=t7 start=25 end=29/> etc. </tokens> <mots> <m id=m1 lemme="à"><component idref=t1/></m> <m id=m2 lemme="le"><component idref=t1/></m> <m id=m3 lemme="four"><component idref=t2/></m> <m id=m4 lemme=","><component idref=t3/></m> <m id=m5 lemme="le"><component idref=t4/></m> <m id=m6 lemme="pomme de terre"> <component idref=t5/> <component idref=t5/> <component idref=t5/> </m> etc.. </mots> etc </document> 47 Annotations morphologiques! explicitation de! la catégorie morpho-syntaxique! désambiguisée!! ferme => nom / adjectif / verbe! le lemme! les traits flexionnels :! le paradigme de flexion et sa valeur pour la forme fléchie par ex. genre=fem nombre=pl temps=present 48 Annotations morphologiques: format ad hoc! par ex. format Brown! Les/D petits/a chats/n boivent/v du/d lait/n./ PONCT! format lemmatisé! Les/le/D petits/petit/a chats/chat/n boivent/boire/ V du/du/d lait/lait/n././ponct Annotations morphologiques: in situ! On ajoute les traits flexionnels et la catégorie dans la balise de mot : <phrase> <m cat="d" lemme="le" g="m" nb="pl">les</m> <m cat="n" lemme="chat" g="m" nb="pl">chats</m> <m cat="v" lemme="boire" mode="ind" t="pres" pers="3" nb="pl">chats</m> <m cat="d" lemme="du" g="m" nb="sg">chats</m> <m cat="n" lemme="lait" g="m" nb="sg">lait</m> <m cat="ponct" lemme="." >.</m> 49 50
Annotations morphologiques: format déporté! Idem : on ajoute les traits flexionnels et la catégorie dans la balise de mot :! commence à devenir illisible 51 <text>au four, les pommes de terre cuisent au four et à mesure. Ensuite.</text> <phrase id=p1> <tokens> <t id=t1 start=1 end=2/> <t id=t2 start=4 end=7/> <t id=t3 start=8 end=8/> <t id=t4 start=10 end=13/> <t id=t5 start=15 end=20/> <t id=t6 start=22 end=23/> <t id=t7 start=25 end=29/> etc. </tokens> <mots> <m id=m1 lemme="à" cat="p"><component idref=t1/></m> <m id=m2 lemme="le" cat="d" g="m" nb="sg"><component idref=t1/></m> <m id=m3 lemme="four" cat="n" g="m" nb="sg"><component idref=t2/></m> <m id=m4 lemme="," cat="ponct"><component idref=t3/></m> <m id=m5 lemme="le" cat="d" g="f" nb="pl"><component idref=t4/></m> <m id=m6 lemme="pomme de terre" cat="n" g="f" nb="pl"> <component idref=t5/> <component idref=t5/> <component idref=t5/> </m> etc.. </mots> etc </document> 52 Annotations syntaxiques! structure syntagmatique! format parenthésé! format in situ! format déporté! format parenthésé : ARBRE -> ( SYMBOLE_CATEGORIE mot ) ARBRE -> ( SYMBOLE_SYNTAGMATIQUE ARBRE+ ) Exemples : (N chat) (SN (D le) (N chat)) (Phr (SN (D le) (N chat)) (SV (V boit) (SN (D du) (N lait)))) 53 Annotations syntaxiques : in situ! on ajoute des balises pour les syntagmes : <phrase> <Phr> <SN> <m cat="d" lemme="le" g="m" nb="pl">les</m> <m cat="n" lemme="chat" g="m" nb="pl">chats</m> </SN> <SV> <m cat="v" lemme="boire" mode="ind" t="pres" pers="3" nb="pl">chats</m> <SN> <m cat="d" lemme="du" g="m" nb="sg">chats</m> <m cat="n" lemme="lait" g="m" nb="sg">lait</m> </SN> </SV> <m cat="ponct" lemme="." >.</m> </Phr> 54
Annotations syntaxiques déportées! idem : on ajoute des balises pour les syntagmes! dont le contenu fait référence à des ids de mots ou ids de syntagmes Autres types d'annotation! surtout utilisés en linguistique informatique, moins en linguistique! objectif : produire des programmes capables de faire automatiquement les annotations! annotations sémantiques! par exemple en rôles sémantiques! qui fait quoi quand où?! annotations temporelles! repérage des expressions temporelles (dates, durées)! ordonnancement des évènements et positionnement par rapport aux expressions temporelles Paul a mangé avant midi => quel jour? Paul a mangé avant que Pierre n'arrive 55! etc 56 Formats : avantages et inconvénients! compromis à trouver entre! simplicité du format! et donc facilité d utilisation / lisibilité! fidélité aux documents source! le format déporté offre un maximum de souplesse! sans aucune perte d'information! => et donc permet une réutilisation pour objectifs variés, y compris objectifs non prévus lors de la création du corpus! respect de normes et pratiques internationales! => garantissent que différents outils tiers seront capables de traiter le format typiquement : de nombreux outils sont capables de traiter le format général XML alors qu'un format ad hoc est certes plus simple mais nécessitera des outils dédiés! Rem: à partir d un format XML déporté! on peut générer des formats ad hoc! automatiquement via des programmes simples! (modules de transformations de fichiers XML) 57