TechWeb
Accueil Codage HTML CSS DESIGN XML LaboCSS

Codage des caractères

Le code ASCII

ASCII = (American Standard Code for Information Interchange). Correspond à la norme iso-646 Les caractères sont codés sur 7 bits, 128 caractères sont donc possibles. Le huitième bit sert au contrôle de parité.

  0 1 2 3 4 5 6 7 8 9 A B C D E F
0 NUL SOH STH ETH EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1 DLE DC1 CD2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS US RS US
2 spc ! " # $ % & ' ( ) * + . - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6 a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~ DEL

Les 128 codes disponibles ne suffisent pas à représenter les caractères accentués ou des caractères d’autres alphabets. On a alors recours à l'ASCII étendu.

L'ASCII étendu

Le huitième bit est utilisé. 256 caractères sont alors possibles. Plus de contrôle de parité possible

Les 128 caractères supplémentaires sont définis selon la localisation. Une quinzaine de version selon les langues codées. Norme iso-8859-1 (iso-latin1) en est la déclinaison pour la langue française, incluant les lettres accentuées.

  0 1 2 3 4 5 6 7 8 9 A B C D E F
0 NUL SOH STH ETH EOT ENQ ACK BEL BS HT LF VT FF CR SO SI
1 DLE DC1 CD2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS US RS US
2 spc ! " # $ % & ' ( ) * + . - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6 a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~ DEL
8  ƒ ˆ Š Œ  Ž 
9  ˜ š œ  ž Ÿ
A   ¡ £ ¥ ¦ § ¨ © š « ¬ ­ ® ¯
B ° ± ² ³ ´ µ · ¸ ¹ º » ¼ ½ ¾ ¿
C À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï
D Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß
E à á â ã ä å æ ç è é ê ë ì í î ï
F ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

La transmission des caractères

Les protocoles de communication sur internet comme SMTP pour le courier électronique utilise le code ASCII standard conçut initialement pour la transmission du texte en langue anglaise.

Le courriel

Les logiciels de courrier électronique utilisent l'extension MIME (Multipurpose Internet Mail Extension) pour résoudre le problème.

Deux système de codage cohabitent au sein d’un ensemble nommé MIME (Multipurpose Internet Mail Extension)

Le Quoted-Printable

Les caractères accentués sont représentés par le signe « = » suivi d’un code hexadécimal le représentant (Exemple =E9 pour é)

Le Base64

On utilise des caractères codés sur 8 bits. 3 x 8 = 24 = 4 * 6
On envoie donc 4 * 7 bits (ASCII standard) dont seul six bits sont significatifs et on reconstitue à l’arrivée.

Ainsi les trois caractères : "fût" de l'ASCII étendu seront ainsi traités :  

texte f û t
ASCII étendu 66 FB 74
binaire 01100110 11111011 01110100
décomposition
011001 101111 101101 110100
transmis
0011001 0101111 0101101 0110100

Un problème analogue se pose pour les fichiers attachés

MIME code également le texte enrichi (gras souligné etc..) des images, les sons et tout autre type de fichier.

Pages web

Le langage HTML décrivant les pages Web permet d’utiliser des caractères ASCII étendu par l’artificice d’un caractère d’échappement précédent un identifiant de caractère ou un code hexadécimal.

Exemples :

le caracète é est codé &eacute; ou &#xE9; le caractère è est codé &egrave; ou &#xE8

L’unicode

Norme iso-10646-1. Codage sur 16 bits. Autorise 65536 caractères. Permet de coder tous les symboles de toutes les langues sur un seul jeu de caractères. Inconvénient : doublement de la taille des textes. Peu utilisé.

Liens

 

Valid XHTML 1.0 Strict Valid CSS!

Copyright Gabriel Braun 2007