UTF-8

UTF-8 (UCS Transformation Format 8) est le codage de caractères le plus répandu sur le World Wide Web. Chaque caractère est représenté par un à quatre octets. UTF-8 est rétro-compatible avec l'ASCII et peut représenter n'importe quel caractère Unicode.

Les 128 premiers caractères UTF-8 correspondent exactement aux 128 premiers caractères ASCII (numérotés de 0 à 127), ce qui signifie que tous les textes ASCII existants sont déjà valides en UTF-8. Tous les autres caractères utilisent de deux à quatre octets. Chacun de ces octets possède quelques bits réservés à des fins d'encodage. Comme les caractères non-ASCII nécessitent plus d'un octet pour être enregistrés, ils courent le risque d'être corrompus s'ils sont séparés ou s'ils ne sont pas recombinés.

Pour approfondir

Culture générale

UTF-8 sur Wikipédia
FAQ sur l'UTF-8, sur le site web d'Unicode

Étiquettes et contributeurs liés au document

Contributeurs à cette page : xdelatour

Dernière mise à jour par : xdelatour, 13 janv. 2016 à 03:45:44