UTF-8: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Aababbyy (беседа | приноси)
Редакция без резюме
Aababbyy (беседа | приноси)
Редакция без резюме
Ред 1:
'''UTF-8''' ({{lang-en|8-bit '''Unicode Transformation Format''' или 8-bit '''[[UCS]] Transformation Format'''<ref>{{Cite book|author=[http://www.unicode.org/ The Unicode Consortium]| title=The Unicode Standard| url=http://www.unicode.org/versions/Unicode6.0.0/|edition=6.0| publisher=The Unicode Consortium| location=Mountain View, California, USA| isbn=978-1-936213-01-6| chapter=Chapter 2. General Structure}}. RFC 3629 also refers to UTF-8 as "UCS transformation format". Also commonly known as "Unicode Transformation Format".</ref>}}) е стандарт за [[символно кодиране]]. Чрез UTF-8 може да бъде кодиран всеки [[символ (PC)|символ]] или [[:en:Code_point|кодова точка]] в [[Unicode]] символното множество. Той е създаден от [[Роб Пайк]] и [[Кен Томпсън]].
 
Кодирането е с [[:en:Variable-width_encoding|променлива ширина]] и използва [[:en:8-bit|8-битови]] кодови единици. Проектирано е за да се поддържа [[:en:Backward_compatibility|обратна съвместимост]] с [[ASCII]] код и за да се избегнат усложненията с последователносттиедниани от([[:en:Endianness|endiannes]]) байтове,и съдържащимаркери за еднапоследователността дигиталнана думабайтовете в([[:en:Byte_order_mark|byte компютърнатаorder паметmarks]]) при алтернативните UTF-16 и UTF-32 кодирания. Наименованието произлиза от: ''U''niversal Coded Character Set + ''T''ransformation ''F''ormat—''8''-bit.<ref>"Chapter 2. General Structure". [http://www.unicode.org/versions/Unicode6.0.0/ The Unicode Standard] (6.0 ed.). Mountain View, California, USA: [[:en:Unicode_Consortium|The Unicode Consortium]]. [[Международен стандартен номер на книга|ISBN]] [[:en:Special:BookSources/978-1-936213-01-6|978-1-936213-01-6]].</ref>
 
UTF-8 е най-използваният стандарт за кодиране в [[Уеб|световната мрежа (World Wide Web)]]. Използван е при създаването на 85.1% от всички интернет страници към м. септември 2015 год.<ref>[[:en:Mark_Davis_(Unicode)|Davis, Mark]] (28 January 2010). [https://googleblog.blogspot.bg/2010/01/unicode-nearing-50-of-web.html "Unicode nearing 50% of the web"]. ''Official [[Гугъл|Google]] Blog''. Google. Retrieved 5 December 2010.</ref><ref>van der Poel, Erik (8 May 2008). [http://www.w3.org/QA/2008/05/utf8-web-growth#c139948 "utf-8 Growth On The Web (response)"]. ''W3C Blog''. W3C. Retrieved 6 August 2015.</ref><ref>[http://w3techs.com/technologies/overview/character_encoding/all "Usage Statistics of Character Encodings for Websites, (updated daily)"]. W3Techs. Retrieved 18 September 2015.</ref><ref>[http://trends.builtwith.com/encoding/UTF-8 "UTF-8 Usage Statistics"]. BuiltWith. Retrieved 28 March 2011.</ref> [[:en:Internet_Mail_Consortium|The Internet Mail Consortium (IMC)]] препоръчва във всички програми поддържащи електронна поща (e-mail) да бъде заложена възможност за изобразяване и създаване на електронни съобщения, използващи UTF-8 кодиране.<ref>[http://www.imc.org/mail-i18n.html "Using International Characters in Internet Mail"]. Internet Mail Consortium. 1 August 1998. Retrieved 8 November 2007.</ref> [[:en:World_Wide_Web_Consortium|W3C]] препоръчва UTF-8 да бъде използвано като стандартно кодиране при работа с [[XML]] и [[HTML]].
 
Чрез UTF-8 се кодира всяка от 1 112 064 на брой валидни кодови точки в Unicode кодовото пространство (1 114 112 кодови точки общо минус 2 048 заместващи кодови точки), като се използват от един до четири 8-битови байта (група от 8 бита се нарича октет при Unicode стандарта). Кодови точки с по-малки числови стойности (т.е. по-рано създадени кодови позиции в Unicode символното множество, които се очаква да бъдат използвани по-често) се кодират с по-малко байтове. Първите 128 символа от Unicode, които съответстват на [[ASCII]] кода, се кодират с един октет със същата бинарна стойност както при ASCII кодирането, като по този начин всеки валиден ASCII текст в същото време е и валиден UTF-8-кодиран Unicode текст. При UTF-8, байтовете с бинарни стойности, използвани за кодиране на ASCII символи не се използват при кодирането на не-ASCII кодови точки. Поради тази причина UTF-8 кодирането може безопасно да се използва при повечето програмни езици и документи, които обработват ASCII символи.
 
== Източници ==