CARACTÉRISER, METTRE EN FORME ET ANALYSER DES DONNÉES

Documents pareils
TP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?

1 Introduction au codage

Jeux de caracte res et encodage (par Michel Michaud 2014)

Le codage informatique

Codage d information. Codage d information : -Définition-

Partie 1. Professeur : Haouati Abdelali. CPGE Lycée Omar Ibn Lkhattab - Meknès haouaticpge@gmail.com

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Algorithme. Table des matières

CHRONIQUE de la société royale LE VIEUX-LIÈGE

clavier espagnol Figure 1 - deux types de claviers AZERTY ou QWERTY

Informatique. Les réponses doivent être données en cochant les cases sur la dernière feuille du sujet, intitulée feuille de réponse

Informatique Générale

Logiciel de Base. I. Représentation des nombres

Une version javascript sera disponible directement dans le cours prochainement.

Plan. Programmation Internet Cours 3. Organismes de standardisation

Cours Informatique 1. Monsieur SADOUNI Salheddine

PROJET ALGORITHMIQUE ET PROGRAMMATION II

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

L3 informatique TP n o 2 : Les applications réseau

Solutions web : instructions aux développeurs

USTL - Licence ST-A 1ère année Codage de l information TP 1 :

Licence Sciences et Technologies Examen janvier 2010

Instructions et spécifications pour la transmission en format XML de déclarations par lots. 30 mai 2015 MODULE 1


Mise à jour : Octobre 2011

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Programmation C. Apprendre à développer des programmes simples dans le langage C

COMMUNICATION ENTRE DEUX ORDINATEURS PAR LASER MODULE EN CODE MORSE OU BINAIRE.

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Activité 1. Compter les points Écriture binaire des nombres. Résumé. Liens pédagogiques. Compétences. Âge. Matériel

HMTL. Exemple de fichier HTML. Structure d un document HTML. Exemple de fichier HTML. Balises HTML. IFT1147 Programmation Serveur Web avec PHP

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

Base de l'informatique. Généralité et Architecture Le système d'exploitation Les logiciels Le réseau et l'extérieur (WEB)

US & COUTUMES : LES REGLES D USAGE EN E- MAIL MARKETING Ou comment optimiser vos chances de bien réaliser des campagnes en toute sérénité

GPA770 Microélectronique appliquée Exercices série A

2 Comment fonctionne un ordinateur, dans les grandes lignes

Le poids et la taille des fichiers

Démonstration d utilisation De NesmaCom

Introduction à l algorithmique et à la programmation (Info 2)

Filtrage de messagerie et analyse de contenu

DE L ALGORITHME AU PROGRAMME INTRO AU LANGAGE C 51

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

I- Définitions des signaux.

Représentation des Nombres

Architecture matérielle des systèmes informatiques

DE LA CAMÉRA SOMMAIRE

Formats d images. 1 Introduction

Concept de machine virtuelle

UE Programmation Impérative Licence 2ème Année

Chap17 - CORRECTİON DES EXERCİCES

Architecture des ordinateurs Introduction à l informatique

La mémoire. Un ordinateur. L'octet. Le bit

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Conservation des documents numériques

FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

Présentation du cours

API HTTP DOCUMENTATION TECHNIQUE PLATEFORME SAAS D'ENVOI DE SMS. Version Mise à jour : 3 juillet 2015

Les types de fichiers

Annexe : La Programmation Informatique

Programmation en Java IUT GEII (MC-II1) 1

NOTIONS DE RESEAUX INFORMATIQUES

Licence Sciences, Technologies, Santé Mention Informatique Codage de l'information

IFT2880 Organisation des ordinateurs et systèmes

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Bases de programmation. Cours 5. Structurer les données

Note de cours. Introduction à Excel 2007

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Chapitre 10 Arithmétique réelle

Info0101 Intro. à l'algorithmique et à la programmation. Cours 3. Le langage Java

ORDINATEUR DOSSIERS FICHIERS

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Services sur réseaux. Trois services à la loupe. Dominique PRESENT Dépt S.R.C. - I.U.T. de Marne la Vallée

Premiers pas avec Mathematica

TP 1. Prise en main du langage Python

nom : Collège Ste Clotilde

Automatisation de l administration système avec

Simplifier l intégration des systèmes RH et garantir une version unique des données de l employé. D

Stage d informatique pour l ingénieur

Informatique : Création de site Web Master 2 ANI TP 1

Guide de démarrage rapide

Plan du Travail. 2014/2015 Cours TIC - 1ère année MI 30

WORLD LIBRARY AND INFORMATION CONGRESS: 75TH IFLA GENERAL CONFERENCE AND COUNCIL

JEUX. Internet, Poste et télécommunications. Activité 1 - Histoire de l Internet

M1105 : Bases des systèmes d exploitation

FileMaker Server 12. publication Web personnalisée avec XML

4. SERVICES WEB REST 46

I.1- DÉFINITIONS ET NOTIONS DE BASE

NFC Near Field Communication

L3 informatique Réseaux : Configuration d une interface réseau

Les opérations binaires

Introduction à NetCDF

API FTP SMSENVOI V1.1

Transcription:

CARACTÉRISER, METTRE EN FORME ET ANALYSER DES DONNÉES Encodage de caractères

Historique 1 Code de signaux maritimes Code morse pour le télégraphe dès 1836 initialement lettres et chiffres quelques symboles ajoutés au fil du temps Code Baudot pour le Telex dès 1874 Premier code à utiliser un format binaire 5 bits permettent de coder 32 caractères (2 5 )

Principe du codage des caractères 2 Pour représenter des caractères dans un ordinateur, on doit coder ces caractères sous forme de nombre. Pour cela, on procède en deux temps: 1. On définit une table qui associe chaque caractère d un alphabet à un numéro. 2. On définit une façon de coder les numéros en binaire à l aide de 1 et de 0. La manière la plus simple de coder des numéros est de convertir leur valeur en binaire puis de représenter toutes ces valeurs avec le même nombre de chiffres (bit).

Les débuts 3 Les premiers ordinateurs utilisent des mots (word) de 36 bits, c est-à-dire que chaque cellule de leur mémoire pouvait contenir un nombre de 36 chiffres binaires (bit). Un mot de 36 bits permet de représenter un nombre décimal de 10 chiffres (la norme dans l ingénierie avant l arrivée des ordinateurs). Pour utiliser au mieux la mémoire, on a choisi de diviser chaque mot en 6 morceaux (bites) de 6 bits, chacun d eux permettant de stocker un caractère. Pour éviter toute confusion entre «bite» et «bit» à l écrit, «bite» a été changé en «byte» (la prononciation [baɪt] reste inchangée).

ASCII 4 L ASCII (American Standard Code for Information Interchange) est proposé en 1968 pour faciliter l échange d informations entre les machines des différents constructeurs (IBM, Bull, etc.). Inclus les lettres majuscules et minuscules, les chiffres ainsi que quelques caractères spéciaux, soit un peu plus de 90 caractères auxquels s ajoutent des caractères de contrôles (6 bits ne suffisent plus). Le choix de 7 bits permet de coder un caractère dans un byte de 8 bits (standard à la fin des années 60) avec un bit de réserve pour la détection d erreurs de transmission.

Table de caractères ASCII 5

Et les accents? 6 L ASCII (ISO/IEC 646) inclut l alphabet latin de base, mais pas les lettres accentuées (é, ü, etc.) Solution: étendre l ASCII à 8 bits et permettre de représenter 128 caractères supplémentaires. L ajout de 128 caractères ne suffit pas pour représenter toutes les variations de l alphabet latin (accent aigu, grave et circonflexe, tréma, caron, rond en chef, etc.) existantes. Solution: les 128 premiers caractères sont toujours les mêmes, les 128 derniers sont spécifiques à une langue ou à un groupe de langues (pages de codes).

Page de code 850 (Europe de l ouest) 7

Page de code 852 (Europe de l est) 8

Windows et l ISO 9 L idée des pages de code a été reprise et standardisée dans la seconde moitié des années 80 par l ISO -> ISO 8859 128 premiers caractères identiques à ceux de l ASCII Suppression des caractères graphiques dans la partie étendue au profit de caractères accentués Certaines pages de code de Windows sont basées sur le standard : ISO 8859-1 / Windows 1252 (latin 1) ISO 8859-2 / Windows 1250 (latin 2) ISO 8859-7 / Windows 1253 (greek)

Inconvénients des pages de code 10 Lors d un échange de données, le destinataire et l expéditeur doivent se mettre d accord sur la page de code à utiliser. Si les pages de codes sont différentes, seuls les caractères de l ASCII sont affichés correctement. Impossible d avoir dans le même fichier de texte des caractères latins, cyrilliques et arabes par exemple.

Les alphabets non latins 11 Le chinois simplifié comprend largement plus de 2000 caractères, le japonais un peu moins de 2000 (beaucoup sont communs aux deux langues) Nécessite plus de 8 bits : codes multibytes Exemple : Shift JIS Les caractères ASCII (codes de 00 16 7F 16 ) et les Kana qui (codes A0 16 DF 16 ), sont codés sur un seul octet. Les caractères Kanji sont représenté par deux octets: lorsqu un octet contient une valeur comprise entre 81 16 et 9F 16 ou E0 16 et FC 16, il doit être associé à l octet suivant pour former le code du caractère. Problème : pas de consensus, versions incompatibles

Un code pour tous 12 Les codes sur 8 bits avec des pages de codes et les codes multibytes permettent l encodage de n importe quel caractère de n importe quel alphabet, mais l échange de données demeure un problème. Solution : créer un seul code qui comprend tous les caractères de tous les alphabets connus => l UNICODE

Unicode 13 L Unicode est né de la collaboration d un consortium privé et de l ISO, l Unicode / ISO 10646 définit dès 1991 un jeu de caractères universel comprenant plus 60 000 caractères. Unicode associe à chaque caractère un numéro appelé «point de code». L idée initiale est d encoder les points de code sur 16bits, mais très vite, le nombre de caractères dépasse la limite de 65535 et une autre manière de représenter les points de code devient nécessaire.

Encoder les points de code 14 Des mots de 16 bits ne suffisent plus, mais il n est pas question, dans le courant des années 90, d utiliser des mots de 32 bits (la mémoire est encore très coûteuse). Solution : représenter les points de code avec un nombre de bits variable : UTF-8 : encodage sur 1, 2, 3 ou 4 octets. UTF-16 : encodage sur 1 ou 2 mots de 16 bits. UTF-32 : encodage sur 1 mot de 32 bits.

UTF-8 15 Unicode Transformation Format sur 8 bits UTF encode les points de code sur 1, 2, 3 ou 4 octets On utilise une partie des bits pour déterminer s il s agit ou non du premier octet d un code, et le reste des bits (7, 11, 16 ou 21 bits) pour coder la valeur du point de code en binaire : 0xxx xxxx 110x xxxx 10xx xxxx 1110 xxxx 10xx xxxx 10xx xxxx 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxxx

Exemple 16 Comment encoder le caractère «é»? À l aide d une table, on trouve le point de code : E9 16 E9 16 est plus grand que 7F 16 mais plus petit 800 16, on peut donc le coder sur deux octets (11 bits). En UTF-8, pour écrire un code sur deux octets, on utilise le format suivant : 110x xxxx 10xx xxxx On convertit E9 16 en binaire : 1110 1001 2 En remplaçant les x par la valeur du point de code sur 11 bits, on obtient : 1100 0011 1010 1001

Pourquoi encoder des caractères? 17 L encodage de texte est utilisé dans tous les aspects de l informatique : Encodage de textes brut (fichier de texte). Encodage d un programme (code source) avec langage de programmation (p. ex. Java). Encodage de la structure d un texte avec un langage de description (p. ex. Open XML). Encodage de l information à travers les réseaux de communication (p. ex. HTTP, SMTP, etc.).

18 Questions?

Quiz 19 Répondez en 2 minutes sur une feuille aux trois questions suivantes : 1. Citez de tête trois codes de caractères. 2. Expliquez le principe de l encodage de caractères. 3. Vrai ou faux : UTF-8 est une version simplifiée d Unicode avec seulement 256 caractères (2 8 ).