Le codage informatique

Outils de Bureautique Le codage informatique (exemple : du binaire au traitement de texte)

PLAN 3) Le codage binaire 4) Représentation physique des bits 5) Le bit est un peu court... 6) Codage de texte simple 7) Éditeurs de texte et fichiers-texte 8) Codage par le texte 9) Jeux de caractères étendus 10) Autres élément du codage du texte 11) Résumé 12) Annexe : base 2 vs base 16???

Le codage binaire Tout contenu informatique, quelque soit sa complexité apparente, est représenté dans l'ordinateur, par une suite de zéros (0) et de uns (1), les bits (binary digits), qui permettent de définir en base 2, toutes sortes de valeurs. Avec seulement un bit, on peut différencier, par exemple : Les nombres zéro et un (évidemment!). Le concept de vérité (en logique) : 0 -> faux 1 -> vrai La couleur à donner à un pixel d'une image noir & blanc: 0 -> noir 1 -> blanc etc...

Représentation physique des bits Le problème consistant à obtenir deux états objectivement distincts d'un même élément (le bit) peut être résolu de nombreuses façons : En mettant cet élément sous tension de +5 volts ou -5 volts respectivement (cas de la mémoire centrale). En appliquant à un dipôle des champs magnétiques orthogonaux (cas des disquettes). En créant ou non une dépression sur une surface réfléchissante pour dévier différemment un faisceau laser (cas des CD et DVD "pressés" du commerce). En créant ou non des taches colorées sur cette surface pour modifier la réflexion (cas des CD et DVD "gravés" par les particuliers). etc...

Le bit est un peu court... Un bit ne permet de coder que deux valeurs distinctes. Pour coder des informations plus riches, on prendra en compte des nombres binaires plus longs : Un nombre de deux bits permet d'encoder quatre (2 2 ) valeurs distinctes : 00 (zéro), 01 (un), 10 (deux) et 11 (trois). Un nombre de quatre bits, seize (2 4 ) valeurs distinctes : de 0000 à 1111. Un nombre de huit bits (de 0000 0000 à 1111 1111), deux cent cinquante six (2 8 ) valeurs. Dénommé octet, ce type de nombre binaire est très utilisé. On utilise aussi le double octet (16 bits = mot ou word) et le mot double (32 bits = double word) aux capacités de codages considérables (2 32 valeurs).

Codage de texte simple Très tôt dans le développement des systèmes informatiques, on a défini un codage de l'alphabet latin, codage selon lequel un octet correspond : À un caractère alphabétique : 65d (d pour décimal) -> 'A' ; 66d -> 'B' ; 97d -> 'a' etc... À un chiffre : 48d -> '0' ; 49d -> '1' etc... Un signe de ponctuation : 44d -> ',' ; 63d -> '?' etc... Des caractères "de contrôle" : saut de ligne, saut de page, fin du texte etc... Avec ce codage (ASCII étendu), on dispose donc de 256 symboles (codés de 0d à 255d), pour du texte sans mise en forme ni enrichissement.

Éditeurs de texte et fichiers-texte Un éditeur de texte est un programme permettant de créer, enregistrer, modifier des documents en texte simple (un seul type de caractères, mise en page limitée aux sauts de ligne). Ces fichiers conviennent à de nombreux usages "techniques" en informatique : Fichiers de paramètres. Écriture de scripts et de programmes. Spécification de la structure et de la mise en forme d'un texte (exemple : fichiers HTML) Etc...... mais sont insuffisants pour créer des textes très élaborés.

Codage par le texte Les caractères, on l'a vu, sont codés en binaire. Rien n'empêche de considérer certains caractères, ou séquences de caractères, comme des codes d'un niveau supérieur. Exemple : le texte suivant... <html> </html> <body> </body> Je vous <i> salue </i> <b> BIEN </b>... sera affiché par un navigateur web, ainsi : Je vous salue BIEN (avec enrichissement des caractères)

Jeux de caractères étendus Le codage ASCII, étant basé sur un seul octet, ne permet de définir que 256 symboles au maximum. Pour offrir le support des jeux de caractères différents (grec, arabe, katakana...) et de symboles graphiques plus nombreux, d'autres systèmes de codages (ISO, UTF...) ont été développés, basés sur l'usage de mots binaires de 16 bits (2 octets). Un tel codage offre 2 16 = 65 536 possibilités. Tous les codes ne servent pas à indiquer quel caractère afficher ; ils permettent aussi de spécifier toutes sortes d'informations sur la structure et le style du texte...

Autres éléments du codage d'un texte Parmi les caractéristiques codées par un traitement de texte, certaines concernent l'aspect des caractères : La fonte : forme graphique du caractère (, Arial, Courrier...). La taille, la couleur. Le style : effets de gras, italique, souligné, relief... D'autres concernent la structure du document : Paragraphes Listes Tableaux... ainsi que le positionnement de ces éléments. D'autres permettent l'incorporation "d'objets" (images, feuilles de calcul...) gérés par d'autres programmes.

Résumé "En interne", toutes les informations sont représentées en binaire (base 2, suite de 0 et de 1). Dans les documents en texte simple, créés par les éditeurs de texte, chaque caractère est codé par un octet (nombre binaire de 8 bits). Le texte est de style uniforme. Dans les documents "riches" créés avec les traitements de texte, le jeu de caractères est généralement codé par des mots de 16 bits, ainsi que les éléments d'enrichissement et de structuration du texte. Certains documents en texte simple sont sur-codés par des séquences de caractères (balises) qui permettent de spécifier structure et enrichissement.

Annexe : base 2 vs base 16??? Alors qu'en base 2, on ne dispose que de deux symboles numériques (0 et 1), en base 16 (hexadécimale) on dispose de 16 symboles : 0, 1, 2,... 9, A, B, C, D, E, F (A=10d, F=15d). On a vu qu'un nombre binaire de 4 bits permet aussi de coder 16 valeurs. Il est donc commode de représenter les longues séries binaires sous forme hexadécimale. Ex. : 1111 0000 0011 (b) -> F 0 3 (x) 0101 1110 (b) -> 5 E (x) Mais ce n'est qu'une commodité utilisée par les programmeurs pour effectuer leurs calculs. L'ordinateur, lui, travaille toujours en base 2.