UTF-8: Разлика между версии
Изтрито е съдържание Добавено е съдържание
Редакция без резюме |
м →top: пунктоация |
||
Ред 1:
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е стандарт за [[символно кодиране]]. Чрез UTF-8 може да бъде кодиран всеки [[символ (PC)|символ]] или кодова точка ([[:en:Code_point|code point]]) в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].
Кодирането е с [[променлива ширина]] ([[:en:Variable-width_encoding|variable-length]]) и използва [[8-битови]] ([[:en:8-bit|8-bit]]) кодови единици. Проектирано е, за да се поддържа [[обратна съвместимост]] ([[:en:Backward_compatibility|backward compatibility]]) с [[ASCII]] код и за да се избегнат усложненията с [[ендиани]] ([[:en:Endianness|endianness]]) и [[маркери за последователността на байтовете]] ([[:en:Byte_order_mark|byte order marks]]) при алтернативните [[UTF-16]]
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<ref>[[:en:Mark_Davis_(Unicode)|Davis, Mark]]
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови [[Байт|байта]] (група от 8 бита се нарича октет ([[:en:Octet_(computing)|octet]]) при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко на брой байтове. Първите 128 символа от Unicode, които съответстват на ASCII кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които интерпретират определени ASCII символи по специфичен начин, например като обозначение за край на символен низ.
|