Documents structurés multilingues () Création de documents bien formés Cours n 2 Rappel cours n 1 Plan du cours n 2 Structure et forme en concepts fondamentaux TIM, Comment créer un set de balises? La syntaxe (règles à suivre lors de la création de documents ) 2 Rappel = méta-langage ensemble de règles permettant la création de langages de balisage personnalisés pour une certaine application Langage = vocabulaire = application d ensemble de balises définies pour une certaine application Rappel: eléments d'un document En-tête: la déclaration : <?xml version="1.0"?> Des balises sans attributs Une balise définis le début et la fin d un ensemble de texte et de balises: <balise_ouvrante> un ensemble de texte et de balises </balise_fermante> Des balises avec des attributs : <balise_ouvrante nom_attribut="valeurattribut"> un ensemble de texte et de balises </balise_fermante> 3 4 Notions de base Structure et forme en (1/3) Structure vs. forme des documents deux dimensions différentes: structure (ou sens, contenu) forme (ou présentation, aspect graphique) On peut: varier la feuille de style pour le même document et/ou utiliser la même feuille de style pour plusieurs documents Document bien formé: respecte la syntaxe La vision hiérarchique des balises valide: respecte en plus les règles d une application particulière (définies par une DTD, c.-à-d Document Type Definition) La sémantique d' l ensemble des éléments qui existent dans un document, leurs relations et leur signification Nombreux "langages" tels que: XLIFF ( Localization Interchange File Format) XCES ( Corpus Encoding Standard) TMX (Translation Memory exchange) XLT ( representation of Lexicons and Terminologies) XHTML (the extensible HyperText Markup Language), etc. 5 6 1
Structure et forme en (2/3) Structure et forme en (3/3) Document bien formé: Feuille de style Document bien formé: Feuille de style + + Navigateur ou éditeur : Navigateur : 7 8 Comment créer un set de balises? Texte structuré par des balises Texte structuré par des tabulations : id title publisher year Savourel:2001 Yves Savourel and Localization Sams Publishing 2001 Ray:2001 Erik T. Ray Learning O'Reilly 2001 9 10 Vision hiérarchique d arbre La syntaxe Yves Savourel id = Savourel:2001 title & Localization bibliography publisher < Sams Publishing > id = Ray:2001 year 2001 Erik T. Ray La syntaxe est constituée de règles minimales à respecter afin de créer des documents bien formés : Les documents ont toujours en première ligne la déclaration Les documents ont toujours un et un seul élément racine Les éléments: peuvent avoir un contenu, ou être vides peuvent avoir des attributs, ou ne pas en avoir doivent toujours être fermés doivent toujours être emboîtés, à partir de la racine Les noms des éléments et des attributs sont sensibles à la casse ne peuvent pas contenir certains caractères La valeur d un attribut doit toujours être entre guillemets Il existe cinq caractères définies par défaut : <, >, &, ", et 11 12 2
Les documents ont toujours en première ligne la déclaration Les documents ont toujours un et un seul élément racine La déclaration débute par les cinq caractères <?xml, suivis d un certain nombre d attributs et se termine par le deux caractères?> Ex: <?xml version="1.0" encoding="utf-8"?> Bien formé Le numéro de la version : 1.0 ou 1.1 L alphabet qui sera utilisé [cours 3]: ISO-8859-1 UTF-8 US-ASCII N est pas bien formé 13 14 un seul élément racine id = Savourel:2001 Structure d arbre bibliography id = Ray:2001 Type d éléments: avec contenu: texte <réponse> Les éléments (1/2) est facile à utiliser. </réponse> balise ouvrante contenu balise fermante title publisher year avec contenu: texte et autres éléments Yves Savourel & Localization < Sams Publishing > 2001 <réponse> est facile à utiliser. </réponse> balise ouvrante contenu balise fermante Erik T. Ray 15 16 Les éléments (2/2) Les attributs Type d éléments: sans contenu, sans attributs la balise est ouverte et fermé à la fois <réponse/> ou balise ouvrante, balise fermante <réponse></réponse> sans contenu, avec des attributs avec contenu, avec des attributs <qr id = '2'> <question> Est-il facile de débuter en? </question> </qr> 17 Utilisation des attributs pour décrire plus clairement les détails d un élément Ex: un attribut peut servir à donner un identifiant unique à un élément décrire une propriété d un élément Guillemets autour de la valeur d un attribut simples ( ' ) ou doubles ( " ) sans formatage <graphique file_ref='smiley.jpg'/> NB: pas acceptés: ` Les attributs figurent uniquement dans les balises ouvrantes Conseil : évitez : <bibliography> < index="savourel:2001" ="Yves Savourel" title='' publisher="sams Publishing" year="2001"/> < index="ray:2001" ="Erik T. Ray" title="learning " publisher="o'reilly" year="2001"/> </bibliography> 18 3
Les éléments doivent toujours être fermés et correctement emboîtes Éléments et attributs: noms permis Éléments emboîtés correctement: <aaa> <bbb> contenu b </bbb> contenu a </aaa> Éléments chevauchés non-permis: <aaa> <bbb> incorrect </aaa> </bbb> Les noms d'éléments peuvent contenir des lettres de A à Z et de a à z, des entiers 0 à 9 des lettres accentuées des caractères _, -,., : Les noms d'éléments ne peuvent pas: contenir d autres signes de ponctuation contenir d'espace vide (blanc, tabulation, retour à la ligne) commencer par autre chose qu une lettre ou les caractères _, : NB: Les noms des éléments et des attributs sont sensibles à la casse <bbb> Incorrect </Bbb> 19 20 Cinq caractères sont définis par défaut : <, >, &, ", et ' Exemple Les caractères < et > sont réservés pour délimiter les noms d'éléments Les caractères " et ' sont utilisés pour délimiter la valeur d un attribut Le caractère & est utilisé pour délimiter l'affichage de certains caractères spéciaux appelés entités Entités prédéfinies en : & - pour afficher le caractère & < - pour afficher le caractère < > - pour afficher le caractère > ' - pour afficher le caractère ' " - pour afficher le caractère " 21 22 Insérer des commentaires Exemples d erreurs de bonne formation Mettre le texte entre <!-- et --> <!-- Ceci est un commentaire --> Exemple: Absence de déclaration Balises ouvertes pas bien fermées Emboîtement incorrect des éléments Caractères réservés mal utilisés Utilisation d'entités invalides Plusieurs éléments racine Mauvaise syntaxe des attributs 23 24 4
Outils pour vérifier la bonne formation Références Navigateurs web (Firefox, IE) si le document est bien formé affichage sinon première erreur trouvée Vérificateurs en ligne, par exemple: http://www.xml.com/pub/a/tools/ruwf/check.html Editeur Exchanger Editor Menu «Check well-formedness» ou F5 ou bouton marqué avec NB: Mode de visualisation «Viewer» possible seulement si le fichier est bien formé Sites définissant les normes et fournissant de l aide: www.w3.org http://www.w3schools.com http://www.xml.com/ La syntaxe : http://www.w3schools.com/xml/xml_syntax.asp 25 26 5