UTF-8: Разлика между версии

241 байтове добавени ,  преди 6 години
редакция без резюме
Редакция без резюме
Редакция без резюме
Етикети: Визуален редактор Премахване на референтен списък
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е стандарт за [[символно кодиране]] с променлива ширина, което може да представя всеки [[символ (PC)|символ]] или [[:en:Code_point|кодова точка]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].
 
Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII кодиранетокод и за да се избегнат усложнения с редапоследователността на байтоветебайтове, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<supref>"Chapter 2. General Structure". [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[:en:Unicode_Consortium|The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] [[:en:Special:BookSources/978-1-936213-01-6|978-1-936213-01-6]].</supref>
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е [[символно кодиране]], което може да представя всеки [[символ (PC)|символ]] или [[:en:Code_point|кодова точка]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].
 
UTF-8 е преобладаващоизползваният кодиранестандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използвано е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<sup>[4][2][5]</sup> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми за електронна поща да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<sup>[6]</sup> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 като стандартно кодиране при [[XML]] и [[HTML]].
Кодирането е с променлива ширина и използва 8-битови кодови единици. Проектирано е за да се поддържа обратна съвместимост с ASCII кодирането и за да се избегнат усложнения с реда на байтовете, съдържащи една дигитална дума в компютърната памет при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<sup>[1]</sup>
 
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко байтове. Първите 128 символа от Unicode, които съответстват на [[ASCII]] кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки и поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които обработват ASCII символи.
UTF-8 е преобладаващо кодиране за [[Уеб|световната мрежа (World Wide Web)]]. Използвано е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<sup>[4][2][5]</sup> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми за електронна поща да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<sup>[6]</sup> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 като стандартно кодиране при [[XML]] и [[HTML]].
 
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-ранни кодови позиции)
 
Code points with lower numerical values (i.e., earlier code positions in the Unicode character set, which tend to occur more frequently) are encoded using fewer bytes. The first 128 characters of Unicode, which correspond one-to-one with ASCII, are encoded using a single octet with the same binary value as ASCII, making valid ASCII text valid UTF-8-encoded Unicode as well. And ASCII bytes do not occur when encoding non-ASCII code points into UTF-8, making UTF-8 safe to use within most programming and document languages that interpret certain ASCII characters in a special way, e.g. as end of string.
 
The official IANA code for the UTF-8 character encoding is <code>UTF-8</code>.<sup>[7]</sup>
 
== Източници ==
<references group="The Unicode Consortium. Chapter 2. General Structure. // The Unicode Standard. 6.0. Mountain View, California, USA, The Unicode Consortium. ISBN 978-1-936213-01-6.. RFC 3629 also refers to UTF-8 as &quot;UCS transformation format&quot;. Also commonly known as &quot;Unicode Transformation Format&quot;." />
<references/>
 
[[Категория:Системи за кодиране]]
17

редакции