INF4375 Paradigmes des échanges Internet. Encodage de caractères. Jacques Berger

Documents pareils
TP Codage numérique des caractères. Un ordinateur ne manipule que des 0 et des 1 : Comment alors code-t-il du texte?

Jeux de caracte res et encodage (par Michel Michaud 2014)

Le codage informatique

USTL - Licence ST-A 1ère année Codage de l information TP 1 :

Programmation C. Apprendre à développer des programmes simples dans le langage C

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

Partie 1. Professeur : Haouati Abdelali. CPGE Lycée Omar Ibn Lkhattab - Meknès haouaticpge@gmail.com

Informatique. Les réponses doivent être données en cochant les cases sur la dernière feuille du sujet, intitulée feuille de réponse

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Informatique Générale

1 Introduction au codage

Support pour les langues s écrivant de droite à gauche

Procédure d'installation de PostgreSQL pour Windows

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

LIGNES DIRECTRICES À L USAGE DES ORGANISMES RÉALISANT LA CERTIFICATION DE SYSTÈMES DE QUALITÉ POUR LES PROGRAMMES DE CONTRÔLE DU DOPAGE

Manuel d intégration API FTP SMS ALLMYSMS.COM

Demain, encore plus de tifinaghes sur Internet

TP 1 : 1 Calculs en binaire, octal et hexadécimal

Plan. Programmation Internet Cours 3. Organismes de standardisation

L3 informatique TP n o 2 : Les applications réseau

Classe ClInfoCGI. Fonctions membres principales. Gestion des erreurs

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Méthode de préparation du fichier texte d import depuis Excel, via Access jusqu à Drupal.

Logiciel de Base. I. Représentation des nombres

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Référentiel Général d Interopérabilité

Programmation en Java IUT GEII (MC-II1) 1

TIC. Tout d abord. Objectifs. L information et l ordinateur. TC IUT Montpellier

Les types de fichiers

Chapitre 10 Arithmétique réelle

FileMaker Server 12. publication Web personnalisée avec XML

Demande de transformation de la formation qualifiante TEMIR : Technicien En Maintenance Informatique et Réseaux en diplôme d université (DU)

Affichage de la date d'exigibilité sur les documents FAQ INV 011

UE Programmation Impérative Licence 2ème Année

Créer le schéma relationnel d une base de données ACCESS

4D v11 SQL Release 5 (11.5) ADDENDUM

Création et Gestion des tables

Une version javascript sera disponible directement dans le cours prochainement.

Organisation des Ordinateurs

Fonctions. Solution professionnelle pour le stockage de données, la synchronisation multi- plateformes et la collaboration

EBS 204 E C B S. Publication : Novembre 96

Guide Utilisateur Transnet

Application de lecture de carte SESAM-Vitale Jeebop

Codage d information. Codage d information : -Définition-

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

TP : Gestion d une image au format PGM

Bases de programmation. Cours 5. Structurer les données

Guide d installation de L A TEX

Spécifications système. Démarrage de l application CertiBru-Res. Premier accès à l application à partir de cet ordinateur

L'essentiel de XML. Cours XML. Olivier Carton

HMTL. Exemple de fichier HTML. Structure d un document HTML. Exemple de fichier HTML. Balises HTML. IFT1147 Programmation Serveur Web avec PHP

Représentation des Nombres

Internet et Programmation!

Direction des Systèmes d'information

TD : Codage des images

Manuel logiciel client Java

XDCAM EX Clip Browsing Software

nom : Collège Ste Clotilde

UFR de Mathématiques et Informatique Année 2009/2010. Réseaux Locaux TP 04 : ICMP, ARP, IP

Abonnement DreamSpark Premium

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

1.1 L EXPLORATEUR WINDOWS

La sécurité dans un réseau Wi-Fi

Projet Gestion des Formats de Fichier

Architectures web/bases de données

Les Protocoles de sécurité dans les réseaux WiFi. Ihsane MOUTAIB & Lamia ELOFIR FM05

Rapport de certification ANSSI-CSPN-2010/07. KeePass Version 2.10 Portable


FORMATS DE FICHIERS. Quels sont les différents types d informations numériques dans un document multimédia?

Les commandes Internet de 4D. Préface Installation et logiciels requis Glossaire et terminologie Format des paramètres

Tarification comparative pour l'industrie des assurances

Areca Backup Première Sauvegarde - Configurez votre premier groupe et votre première cible.

Plan du cours. Historique du langage Nouveautés de Java 7

CHRONIQUE de la société royale LE VIEUX-LIÈGE

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

T500 DUAlTACH. JAQUET T500 DualTach Instrument de mesure et de surveillance équipé de 2 entrées fréquence TACHYMETRE 2 CANAUX

Déploiement des manuels numériques sur tablette. Mode d emploi intégrateur / administrateur

DE L ALGORITHME AU PROGRAMME INTRO AU LANGAGE C 51

Conservation des documents numériques

SCHMITT Année 2012/2014 Cédric BTS SIO TP SPICEWORKS. SpiceWorks propose un logiciel de gestion de parc informatique aux multiples facettes :

Progitek Extraire Web s version 4.0 (Prix public 19 NET ) DESCRIPTION

Optimisation des échanges et traitements XML

Le serveur web Windows Home Server 2011

Les Boitiers de Vote Electroniques (Clickers)

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

Installation et Administration de SolidWorks Electrical CadWare Systems

Algorithmique et langages du Web

Administration du Client Web

Le format OpenPGP. Traduit par : Sébastien Person. personseb@yahoo.fr. Matthieu Hautreux. matthieu.hautreux@insa-rouen.fr.

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Mise à jour : Octobre 2011

4D v11 SQL BREAKING THE LIMITS * Les nouveautés

Architecture des ordinateurs Introduction à l informatique

SSL ET IPSEC. Licence Pro ATC Amel Guetat

4D Internet Commands. Guide de référence Windows / Mac OS. 4D D SAS. Tous droits réservés.

SII Stage d informatique pour l ingénieur

Transcription:

INF4375 Paradigmes des échanges Internet Encodage de caractères Jacques Berger

Objectifs Comprendre la problématique et les solutions

Prérequis Aucun

Encodage de caractères Ne s'applique qu'aux chaînes de caractères En mémoire Dans un fichier Un fichier texte, c'est une chaîne de caractères

Encodage de caractères Découle de la représentation binaire de la chaîne de caractères Encodages standards Encodages propriétaires

Problème Le web accentue les problèmes d'incompatibilité d'encodage de caractères Plus de communications Plus de composants Plus d'échanges de données

Problème L'interprétation d'une donnée encodée avec un encodage différent Exemple : "Énoncé du TP1" encodé en UTF-8, interprété en Latin1 devient : "Ãnoncà du TP1"

Concepts de base Répertoire Ensemble de symboles Code Tableau de symboles Position : index dans le tableau Assignation d'un numéro de référence

Concepts de base Encodage Algorithme Code <=> chaîne de bits Représentation du code selon une convention binaire

Confusion Langue et encodage Police de caractères

ASCII L'encodage de base à tous les autres Combine le répertoire, le code et l'encodage Répertoire : 128 caractères anglais Code : 0..127

ASCII Encodage Le code est directement traduit en binaire ASCII est encodé sur 7 bits Plusieurs variantes selon le pays d'usage grâce au 8ème bit (ASCII étendu)

ISO-8859-1 (Latin1) Encodage normalisé Contient le code ASCII Rétrocompatible avec ASCII Encodage fait sur un seul octet

ISO-8859-1 (Latin1) Contient les caractères en usage en Europe occidentale Possède une plage de codes réservés

ISO-8859-1 (Latin1) Traduction ASCII vers Latin1 : directe, sans perte Latin1 vers ASCII : directe, avec perte

Windows-1252 (cp-1252) Encodage propriétaire de Microsoft Par défaut avec Windows Semblable mais non identique à Latin1 1252 contient Latin1 Utilise les positions de code réservées de Latin1

Windows-1252 (cp-1252) Traduction ASCII vers 1252 : directe, sans perte 1252 vers ASCII : directe, avec perte

Windows-1252 (cp-1252) Traduction Latin1 vers 1252 : conversion, sans perte 1252 vers Latin1 : conversion, avec perte

Mac Roman Encodage propriétaire d'apple Par défaut sur les machines Apple Semblable mais non identique à Latin1 Contient ASCII Contient une partie seulement de Latin1

Mac Roman Traduction ASCII vers MR : directe, sans perte MR vers ASCII : directe, avec perte

Mac Roman Traduction Latin1 vers MR : conversion, avec perte MR vers Latin1 : conversion, avec perte

Mac Roman Traduction 1252 vers MR : conversion, avec perte MR vers 1252 : conversion, avec perte

Unicode répertoire et code Compatibilité avec UCS (Universal Char Set) UCS est divisé en plans Chaque plan contient des caractères reliés

Unicode répertoire et code BMP contient la majorité des caractères «utiles» Basic Multilingual Plane Les autres plans : plans astraux

Unicode encodage UTF-32 Encode un caractère vers un entier sur 4 octets 4 fois la taille de Latin1 Très volumineux

Unicode encodage UTF-16 Encodage à longueur variable sur 2 ou 4 octets 2 octets : BMP 4 octets : le reste

Unicode encodage UTF-8 Encodage à longueur variable sur 1 à 4 octets 1 octet : ASCII 2 octets : caractères européens 3 octets : le reste du BMP 4 octets : le reste

Unicode encodage UTF-8 Algorithme plus complexe qu'utf-16 et UTF-32 Plus efficace pour les textes anglophones Code source

Unicode encodage UTF-8 Ethnocentrisme Rétrocompatible avec ASCII IETF favorise UTF-8

Unicode Traduction Unicode vers autre : conversion, avec perte Autre vers unicode : conversion, sans perte

Recommandations Si possible, entente entre les deux parties d'une communication Spécifier l'encodage avec les données HTTP, HTML, XML, etc. Utiliser des caractères sécuritaires Éviter les encodages propriétaires

Recommandations Quel encodage choisir? Dépend des caractères les plus communs Taille vs interopérabilité En Amérique du Nord : UTF-8, Latin1, ASCII

Recommandations Pour les échanges web : UTF-8

Plus loin... Table ASCII http://www.asciitable.com/ ISO-8859-1 http://unicode.org/public/mappings/iso8859/8859-1.txt

Plus loin... Windows 1252 http://msdn.microsoft.com/en-us/goglobal/cc305145 Mac Roman http://unicode.org/public/mappings/vendors/apple/roman.txt

Plus loin... Unicode http://unicode.org/