Principe de l'encodage binaire des caractères

Documents pareils
Le codage informatique

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

TP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?

Jeux de caracte res et encodage (par Michel Michaud 2014)

Partie 1. Professeur : Haouati Abdelali. CPGE Lycée Omar Ibn Lkhattab - Meknès haouaticpge@gmail.com

DELIBERATION N CP

Une version javascript sera disponible directement dans le cours prochainement.

Cycle III Brevet Informatique & Internet Niveau 1. "Je pense être capable

Base de l'informatique. Généralité et Architecture Le système d'exploitation Les logiciels Le réseau et l'extérieur (WEB)

Cours Informatique 1. Monsieur SADOUNI Salheddine

Apprendre à manipuler le clavier Médiathèque de Bussy Saint-Georges APPRENDRE A MANIPULER LE CLAVIER

Les conseils et les procédures pour utiliser divers programmes francophones avec de l'hébreu

Conservation des documents numériques

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Annexe : La Programmation Informatique

CHRONIQUE de la société royale LE VIEUX-LIÈGE

I- Définitions des signaux.

Permis de conduire info

Codage d information. Codage d information : -Définition-

Traitement de texte : Quelques rappels de quelques notions de base

à l édition de textes

Chapitre 1 : Introduction aux bases de données

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Programmation C. Apprendre à développer des programmes simples dans le langage C

Avec le pare-feu Windows Vista, vous protégez votre ordinateur contre les attaques provenant d'internet.

1. Étape: Activer le contrôle du compte utilisateur

MODE OPERATOIRE OPENOFFICE BASE

AUJOUR'HUI, NOUS ALLONS DÉCOUVRIR

Certificat Informatique et internet Niveau 1 TD D1. Domaine 1 : Travailler dans un environnement numérique évolutif. 1. Généralités : Filière

Créer une base de données

Traitement numérique de l'image. Raphaël Isdant

VOS PREMIERS PAS AVEC TRACENPOCHE

Introduction à NetCDF

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

Guide pour la réalisation d'un document avec Open Office Writer 2.2

I. QU'EST-CE QU'UN ORDINATEUR? Un ordinateur est relié à plein de périphériques

WINDOWS SERVER 2003 Maintenance d'active directory V1.0

clavier espagnol Figure 1 - deux types de claviers AZERTY ou QWERTY

Structure et fonctionnement d'un ordinateur : hardware

COMMUNICATION ENTRE DEUX ORDINATEURS PAR LASER MODULE EN CODE MORSE OU BINAIRE.

Clé Flash USB2.0 Acer

Cours 3 : L'ordinateur

Informatique Générale

L informatique en BCPST

TIC. Tout d abord. Objectifs. L information et l ordinateur. TC IUT Montpellier

Condition inf-sup pour l Elément Fini de Taylor-Hood È ¾ -iso-è ½


La communication et la gestion de l'information

SYSTÈME DE GESTION DE FICHIERS

La saisie d un texte

Livre blanc Mesure des performances sous Windows Embedded Standard 7

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

1 Introduction au codage

Uniformiser la mise en forme du document. Accélère les mises à jour. Permets de générer des tables de matières automatiquement.

Fiche animateur : module écriture collaborative

Gestion des utilisateurs : Active Directory

Gestion de gros fichiers binaires (images) en APL*PLUS III

SYSTÈME DE GESTION DE FICHIERS SGF - DISQUE

Xubuntu Une alternative à Windows et à Ubuntu, (pour ceux qui ne veulent pas d'unity) : installer Xubuntu.

SAUVEGARDER SES FICHIERS AU SEIN DE LA MSHS. Arnaud Lechrist. ALT,02/10/13 MSHS Poitiers 1 / 5


COPIER, COUPER, COLLER, SELECTIONNER, ENREGISTRER.

Microsoft Windows NT Server

Les bases de données Page 1 / 8

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ


NOTE D'APPLICATION CONCERNANT LA MISE EN SERVICE DE MATERIELS SUR RESEAU IP

Le chiffre est le signe, le nombre est la valeur.

Logiciel de Base. I. Représentation des nombres

Tune Sweeper Manuel de l'utilisateur

SOS Info: Traitement de textes. 1. Structurer un document. 2. Enregistrer un document

Tutoriel - flux de facturation

Note de cours. Introduction à Excel 2007

Architecture matérielle des systèmes informatiques

Créer votre propre modèle

B2i. LE B2i Brevet Informatique et Internet. Niveau : tous. 1 S'approprier un environnement informatique de travail. b2ico1.odt.

Utilisation de l'outil «Open Office TEXTE»

Connaître la durée de vie d'un SSD


TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

SQL Serveur Programme de formation. France Belgique Suisse - Canada. Formez vos salariés pour optimiser la productivité de votre entreprise

1.1 L EXPLORATEUR WINDOWS

Programme Prélavage vapeur. Nettoyage automatique du tambour Permet de nettoyer automatiquement le tambour.

Tester Windows 8 sans l'installer avec Virtualbox

Initiation au binaire

Chapitre 1 I:\ Soyez courageux!

FileMaker 13. Guide ODBC et JDBC

Représentation des Nombres

CPLN 20/08/2009 MBO Service ICT et Pédagogie

Gérer une comptabilité dans Tiny

COMMUNICATION PC/MINITEL

Découvrir OpenOffice Comment optimiser et formater votre ebook avec OpenOffice

LA SAUVEGARDE DES DONNEES SUR LES ORDINATEURS PERSONNELS

Optimisation SSD associé à un disque dur classique. Windows 7.

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Architecture des ordinateurs Introduction à l informatique

Tutorial Ophcrack. I) Ophcrack en API. (ou comment utiliser Ophcrack pour recouvrir un mot de passe sous Windows XP et Windows Vista)

Transcription:

Principe de l'encodage binaire des caractères L'informatique est basé sur le traitement et le stockage de l'information à l'aide d'entités binaires appelées bits, pouvant prendre les valeurs symboliques 0 ou 1. Concrètement le support d'une entité binaire pourra être tout système physique présentant deux états distincts pouvant être à tout moment choisi (écriture) ou connu (lecture) et le reste du temps conservé (mémoire). Cela pourra être la présence ou l'absence d'une charge électrique, la polarisation N/S ou S/N d'un dipôle (petit barreau aimanté) magnétique ou encore la différence de relief dans un support physique comme un disque optique qui renverra ou non le faisceau d'un laser vers un détecteur. Il s'agit de trouver un système de stockage de données textuelles et donc de coder les caractères alphabétiques à l'aide de ces bits. 1 2 3 4 0 00 000 0000 1 01 001 0001 10 010 0010 2 11 011 0011 100 0100 4 101 0101 110 0110 111 0111 1000 8 1001 1010 1011 1100 1101 1110 1111 16 Avec un bit, on distingue deux valeurs : 0 et 1. On pourrait décider que 0 représenter la lettre "a" et 1 la lettre "b". Mais quid des autres lettres. Si on choisit alors de lire (et écrire) les bits deux par deux, on aura 4 valeurs différentes: 00, 01, 10, 11. En attribuant à chacune de ces combinaisons une lettre de l'alphabet, on pourra distinguer les lettres de "a" à "d". Avec trois bits, on aura les 4 valeurs précédentes avec un 0 devant et les mêmes 4 valeurs avec un 1 devant. On aura doublé le nombre de valeurs et donc de lettres distinguables. 3 bits permettent de coder 8 caractères différents. Chaque fois que l'on ajoute un bit à notre système de codage, on double le nombre de valeurs possibles du mot binaire. Pour distinguer nos 26 lettres de l'alphabet, il faudrait les coder sur 5 bits (2^5=32 valeurs différentes). Pour pouvoir distinguer les minuscules des majuscules (soit 52 caractères), il faudra passer à 6 bits (2^6=64). Pour saisir nos textes, il nous faudra ajouter les caractères de ponctuation (espace, point, virgule, parenthèses...) et également des codes pour contrôler la forme du texte : fin de paragraphe, tabulation... Les 12 codes restants ne suffiront pas, on passera donc à un codage sur 7 bits, soit 128 codes différents. C'est ce choix qui a été retenu dans le standard ASCII qui affecte un numéro de code distinct à chacun des caractères de l'alphabet Latin ainsi qu'à 32 caractères dits de contrôle (de 0 à 31) 1. L'affichage de ces caractères à l'écran (ou son impression) se fait par l'intermédiaire d'un fichier spécial appelé police de caractères qui contient la définition graphique des caractères. Il consiste en des tables définissant la forme de chacun des caractères identifié par un octet. Depuis le standard TTF (True Type Font), une seule police est nécessaire pour l'écran et l'imprimante quelque soit la taille du caractère. Chaque police diffère par le style du caractère mais d'une police à l'autre, un même code représente le même caractère 1 En fait dès le départ, les données seront gérées par mots de 8 bits appelés octets. Le 8ème bit ne servait pas à l'origine à coder des caractères supplémentaires, mais à contrôler les échanges des données d'un point à un autre de la chaîne informatique.

(sauf pour les polices spéciales représentant autre chose que des caractères alphabétiques courants, par exemple une police API). Le standard ASCII sur 7 bits 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47! " # $ % & ' ( ) * +, -. / 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 0 1 2 3 4 5 6 7 8 9 : ; < = >? 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 @ A B C D E F G H I J K L M N O 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 P Q R S T U V W X Y Z [ \ ] ^ _ 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 ` a b c d e f g h i j k l m n o 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 p q r s t u v w x y z { } ~ Nos systèmes d'écriture européens ne peuvent pas se satisfaire de ces seuls caractères latins du fait des diacritiques qu'ils utilisent (é, è, ê...) ou encore des caractères non-latins (cyrillique, grec...). La libération du 8ème bit a permis de doubler la capacité de codage des caractères. Sur les 128 codes supplémentaires libérés, une trentaine a été réservée pour des caractères de contrôle supplémentaires et le reste a été affecté d'abord aux caractères spéciaux des système d'écriture de l'europe de l'ouest. Cela a donné naissance au standard ANSI. Les différents systèmes d'exploitation (Windows, Mac...) ont malheureusement leurs propres standards pour cette extension et de fait, il y a incompatibilité entre fichiers provenant de plateformes différentes dès que ces codes étendus sont utilisés. Certains logiciels, comme Word, restitue automatiquement les caractères à leur place au moment de l'ouverture d'un fichier issu d'une autre plateforme 2. D'autre part, pour satisfaire les besoins du reste du monde, des variantes se sont développées pour cette deuxième partie de la table de codage. Ainsi des jeux de caractères (character set ou codepage) différents sont apparus suivant l'aire géographique d'utilisation de l'ordinateur. Un système d'exploitation ne pouvait jusqu'alors gérer qu'un jeu de caractères à la fois et ce choix était fait au démarrage. Les fichiers provenant d'une aire géographique différente ne pouvait pas s'afficher correctement sur un autre système. 2 Toutefois, certains caractères spéciaux (peu nombreux) sont codés dans une plateforme et pas dans l'autre et dans ce cas, il y a une erreur d'affichage.

Les jeux de caractères 8 bits Exemples Sous Windows (SBCS: single bit character set. CP 1251 : Europe centrale; CP1252 : Europe de l'ouest ) 10000000 128 10000001 129 10000010 130 10000011 131 ƒ 10000100 132 10000101 133 10000110 134 10000111 135 10001000 136 ˆ 10001001 137 10001010 138 Š Š 10001011 139 10001100 140 Œ Ś 10001101 141 Ť 10001110 142 Ž Ž 10001111 143 Ź 10010000 144 10010001 145 10010010 146 10010011 147 10010100 148 10010101 149 10010110 150 10010111 151 10011000 152 10011001 153 10011010 154 š š 10011011 155 10011100 156 œ ś 10011101 157 ť 10010110 158 ž ž 10011111 159 Ÿ ź 10100000 160 10100001 161 ˇ 10100010 162 10100011 163 Ł 10100100 164 10100101 165 Ą 10100110 166 10100111 167 10101000 168 10101001 169 10101010 170 ª Ș 1252 1250 1252 1250 1252 1250 10101011 171 «10101100 172 10101101 173-10100110 174 10101111 175 Ż 10110000 176 10110001 177 ± ± 10110010 178 ² 10110011 179 ³ ł 10110100 180 10110101 181 µ µ 10110110 182 10110111 183 10111000 184 10111001 185 ¹ ą 10111010 186 º ș 10111011 187» 10111100 188 ¼ Ľ 10111101 189 ½ 10111110 190 ¾ ľ 10111111 191 ż 11000000 192 À Ŕ 11000001 193 Á Á 11000010 194   11000011 195 Ã Ă 11000100 196 Ä Ä 11000101 197 Å Ĺ 11000110 198 Æ Ć 11000111 199 Ç Ç 11001000 200 È Č 11001001 201 É É 11001010 202 Ê Ę 11001011 203 Ë Ë 11001100 204 Ì Ě 11001101 205 Í Í 11001110 206 Î Î 11001111 207 Ï Ď 11010000 208 Ð Đ 11010001 209 Ñ Ń 11010010 210 Ò Ň 11010011 211 Ó Ó 11010100 212 Ô Ô 11010101 213 Õ Ő 11010110 214 Ö Ö 11010111 215 11011000 216 Ø Ř 11011001 217 Ù Ů 11011010 218 Ú Ú 11011011 219 Û Ű 11011100 220 Ü Ü 11011101 221 Ý Ý 11011110 222 Þ Ț 11011111 223 ß ß 11100000 224 à ŕ 11100001 225 á á 11100010 226 â â 11100011 227 ã ă 11100100 228 ä ä 11100101 229 å ĺ 11100110 230 æ ć 11100111 231 ç ç 11101000 232 è č 11101001 233 é é 11101010 234 ê ę 11101011 235 ë ë 11101100 236 ì ě 11101101 237 í í 11101110 238 î î 11101111 239 ï ď 11110000 240 ð đ 11110001 241 ñ ń 11110010 242 ò ň 11110011 243 ó ó 11110100 244 ô ô 11110101 245 õ ő 11110110 246 ö ö 11110111 247 11111000 248 ø ř 11111001 249 ù ů 11111010 250 ú ú 11111011 251 û ű 11111100 252 ü ü 11111101 253 ý ý 11111110 254 þ ț 11111111 255 ÿ

Standard Windows CP1252 (Europe de l'ouest) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47! " # $ % & ' ( ) * +, -. / 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 0 1 2 3 4 5 6 7 8 9 : ; < = >? 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 @ A B C D E F G H I J K L M N O 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 P Q R S T U V W X Y Z [ \ ] ^ _ 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 ` a b c d e f g h i j k l m n o 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 p q r s t u v w x y z { } ~ 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 ƒ ˆ Š Œ Ž 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 š œ ž Ÿ 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 ª «- 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 ± ² ³ µ ¹ º» ¼ ½ ¾ 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 Ð Ñ Ò Ó Ô Õ Ö Ø Ù Ú Û Ü Ý Þ ß 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 à á â ã ä å æ ç è é ê ë ì í î ï 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 ð ñ ò ó ô õ ö ø ù ú û ü ý þ ÿ

Un texte basé sur un script LATIN s'affichera mal avec une version "exotique" du système d'exploitation code US Windows Russian Windows Thai Windows 225 199 234 242 241 252 163 Exemple de texte encodé en Latin1 C'était pendant l'horreur d'une profonde nuit 01000011001001111110100101110100011000010110100101110100001000000111000001100101 01101110011001000110000101101110011101000010000001101100001001110110100001101111 01110010011100100110010101110101011100100010000001100100001001110111010101101110 01100101001000000111000001110010011011110110011001101111011011100110010001100101 0010000001101110011101010110100101110100001011100010111000101110 010000110010011111101001011101000110000101101001011101000010000001110000011 00101 C ' é t a i t p e 011011100110010001100001011011100111010000100000011011000010011101101000011 01111 n d a n t l ' h o 011100100111001001100101011101010111001000100000011001000010011101110101011 01110 r r e u r d ' u n 011001010010000001110000011100100110111101100110011011110110111001100100011 00101 e p r o f o n d e 0010000001101110011101010110100101110100001011100010111000101110 n u i t... 00100000 espace 01101110 lettre n

Le même texte enregistré par WORD ÐÏà ± á > þÿ! # þÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿì Á 9 ð 1 bjbjýïýï. Ÿ Ÿ 1 ÿÿ ÿÿ ÿÿ l ž ž ž ž ž ž ž ² Ì Ì Ì Ì Ø ² ë ð ð ð ð ð ð ð ð j l l l l l l $ Á ª ž ð ð ð ð ð ú ž ž ð ð ú ú ú ð ž ð ž ð j ú ð j ú p ú j ž ž j ð ä @ç Nþ  ² Ì ð j j» 0 ë j k ð k j ú ² ² ž ž ž ž Ù C'était pendant l'horreur d'une profonde nuit... 1 1 ý 1 þ, 1 h. ÆA! " # $ % Ä Ä Ä i 8 @ñÿ 8 N o r m a l CJ _HaJ mhshth 2 A@òÿ 2 P o l i c e p a r d é f a u t 1 ÿÿÿÿ 3 0 1 1 1 3 ÿÿ C h r i s t i a n * C : \ 1. D e v e l o p p e m e n t \ I n a l c o \ 2 0 0 3 \ h o r r e u r. d o c ÿ@ 0 0 & & 0-1 @ ÿÿ U n k n o w n ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ ÿÿ G z ÿ T i m e s N e w R o m a n 5 S y m b o l 3& z ÿ A r i a l " 1ˆ ðä ÀBqfËBqf (! ð 0 1 2ƒ ð ÿÿ. C ' é t a i t p e n d a n t l ' h o r r e u r d ' u n e p r o f o n d e n u i t & C h r i s t i a n C h r i s t i a n þÿ à ŸòùOh «+'³Ù0 œ Ð Ü ð ü 0 < X d p Œ ä - / C'était pendant l'horreur d'une profonde nuit 0- 'ét- Christian nd- hri- hri- Normal.dot d- Christian d- 2 ri- Microsoft Word 9.0 o@ FÃ# @» ü  @