Présentation
Auteur(s)
-
Jacques ANDRÉ : Directeur de recherche Irisa / Inria-Rennes
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Un codage de caractère est un ensemble de couples associant à chaque caractère un nom et une valeur numérique. Après avoir explicité le concept de caractère (entité abstraite) et celui de glyphe (forme graphique), on présente les divers standards ou normes d’échange de caractères en fonction de la taille des répertoires. On présente notamment les codages Ascii (7 bits, utilisé pour l’américain), Latin-1 (8 bits, utilisé pour les langues de l’Europe de l’ouest) et le nouveau codage universel Unicode (16 bits, couvrant toutes les langues du monde). On montre enfin l’utilisation de ces normes dans le cadre de l’échange d’information sur le web, en particulier pour le courrier électronique (RFC, MIME) et par le biais d’HTML et de XML.
Cet article est essentiellement consacré aux normes d’échanges de caractères, un second article [H 7 012] devant traiter des problèmes d’impression ou d’affichage de ces caractères (c’est-à-dire de ce que l’on nomme souvent les « fontes »). Dans l’introduction du présent article, nous expliquons la différence entre ces domaines et en précisons les limites. Un troisième article [H 7 014] traitera de saisie et notamment des claviers et enfin un quatrième [H 7 358] de multilinguisme.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
3. Codage à 7 bits : Ascii ou ISO 646
pour unifier les notations de ce codage et des suivants, nous donnons désormais les numéros de code en hexadécimal.
Jusqu’à ce jour, la seule norme de codage universellement utilisée aura été l’Ascii (American Standard Code for Information Interchange ). Ce codage a vu le jour aux USA vers 1967 et a fourni depuis plus de trois décennies le seul codage non ambigu à 7 bits. Son contenu et son nom (ISO 646) actuels datent de 1983.
Le principe de la norme Ascii est une structure à 7 moments (7 bits) permettant donc le codage de 27 soit 128 caractères. Ce codage comprend en fait deux parties (tableau 6).
34 caractères dits (à tort) « de contrôle » : les 32 premiers (numérotés de 0 à 001F16 ), le suivant (002016 ) qui est en fait l’espace et le dernier (007F16 pour DEL (delete = supprimer). Ces caractères étaient en fait des caractères de commande pour périphériques tels que écrans, perforateurs de ruban ou Télétypes : Carriage Return pour « retour chariot », Bell (sonnerie) pour activer la sonnerie d’un télex, etc. — voir en [, tableau 1] la liste de tous les noms correspondants. Trois d’entre eux (SO, SI et ESC) sont à la base des systèmes d’extensions 4.2.1.
94 caractères dits « graphiques » car on peut les afficher sur un écran ou les imprimer : ces 94 caractères sont eux-mêmes répartis en trois groupes :
-
82 caractères obligatoires :
-
52 lettres : A-Z et a-z,
-
10 chiffres : 0-9,
-
20 signes de ponctuation ou autres : ! " % & ’( ) * + , – . / : ; < = > ? _
-
-
deux caractères « au choix » (cf. note ci-après) :
-
# ou £
-
$...
-
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Codage à 7 bits : Ascii ou ISO 646
BIBLIOGRAPHIE
-
(1) - AKIRA (M.) - Writing Systems of the World : Alphabets, Syllabaries, Pictograms, - Charles E Tuttle Co ; ISBN : 0804816549, octobre 1990.
-
(2) - ANDRÉ (J.) - IsoLatin-1, une norme de codage de caractères européens ? trois caractères français en sont absent ! - Cahier GUTenberg, no 25, p. 65-77. Voir [18], novembre 1996.
-
(3) - ANDRÉ (J.) - Iso-Latin-9, euro et typographie française. - Document numérique, vol. 2, no 2, p. 231-240 (1998).
-
(4) - AUMONT (S.), DIRLEWANGER (R.) - Recevoir les accents dans votre messagerie, c’est possible... - Document numérique, vol. 2, no 1, p. 93-101 (1998). http://www.cru.fr/listes/apropos/accents.html
-
(5) - BEEBE (N.) - Fonts for the Unicode Character Set. - http://www.math.utah.edu/~beebe/fonts/unicode.html
-
(6) - BIGELOW...
ANNEXES
1.1 Normes et standards de codage de caractères
Alphabet phonétique international/IPA : http://www.arts.gla.ac.uk/IPA/ipa.html
EBCDIC : http://www4.ibm.com/software/ts/mqseries/support/faqs/conver16.html/ http://anubis.dkuug.dk/i18n/charmaps/
ISO 2022 : http://www.iso.ch/catf/d22747.html
ISO 8859 : http://babel.alis.com/codage/iso8859/
Latin-9 : LABONTÉ (A.) et EVERSON (M.). – Épreuve finale pour l’alphabet latin no 9 : http://www.indigo.ie/egt/standards/iso8859/8859-15-fr.pdf
Latin-10 : EVERSON (M.), CD pour l’alphabet latin no 10 : http://www.indigo.ie/egt/standards/iso8859/cd8859-16-fr.pdf
Standard Roman Character Set d’Apple : http://developer.apple.com/techpubs/mac/Text/Text-30.htmlMARKER-9-69
STIX : Proposition pour le codage des caractères MathML : http://www.ams.org/STIX/
UNICODE :...
Cet article fait partie de l’offre
Documents numériques Gestion de contenu
(76 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive