Символно кодиране: Разлика между версии

Изтрито е съдържание Добавено е съдържание
форматиране: 6x кавички, 6x тире, 3x тире-числа, 2x интервал, 2x нов ред, 28 интервала, 6lokavica, заглавие-стил (ползвайки Advisor)
мРедакция без резюме
Ред 2:
 
== История ==
Ранните примери за двоично кодиране включват Шифърът на Бейкън ([[:en:Bacon's_cipher|Bacon's cipher]]), [[Брайлова азбука|Брайловата азбука]], [[Международни морски сигнални флагове|Международните морски сигнални флагове]] и 4-цифреното кодиране на китайски йероглифи. Често срещани примери за системи за символно кодиране са [[Морзова азбука|Морзовата азбука]], кода на Бодо, Американския стандартен код за обмен на информация [[ASCII|ASCII.]]
 
Морзовата азбука е въведена през 40-те години на 19 век и се използва за кодиране на буквите от латинската азбука, арабските числа и някои символи. Осъществява се посредством серии от кратки и продължителни натискания на телеграфния ключ – тирета и точки.
Ред 35:
'''''Репертоарът от символи''''' предстсвлява абстрактен списък от повече от един милион открити скриптове, включително ''латински, кирилица, китайски, корейски, японски, иврит и арамейски символи.''
 
Други символи като музикалните ноти например, също са включени в символния репертоар. И двата формата – [[:en:Unicode|Unicode]] и [[:en:GB_18030|GB18030]] имат символен репертоар. Когато нови символи са добавени към един формат, друг формат ги добавя също, с цел да се поддържа подобие на първия.
 
Размерът на кодовата единица се равнява на битовете за конкретния формат на кодиране:
* Кодова единица според [[:en:ASCII|US-ASCII]] формата се състои от 7 бита;
* Кодова единица според [[:en:UTF-8|UTF-8]], [[:en:EBCDIC|EBCDIC]] и [[:en:GB_18030|GB18030]] формата се състои от 8 бита;
* Кодова единица според [[UTF-16]] формата се състои от 16 бита;
* Кодова единица в [[UTF-32]] формата се състои от 32 бита.
Ред 49:
Символи, които са в диапазона от U + 10 000 до U + 10FFFF се наричат ​​допълващи знаци (англ.: ''[http://www.i18nguy.com/surrogates.html supplementary characters]'')
 
Наборът от символи от U + 0000 до U + FFFF понякога се отнасят до Основната Многоезичнамногоезична равнина (англ.: ''[[:en:Plane_(Unicode)#Basic_Multilingual_Plane|Basic Multilingual Plane]]'' – BMP).
 
Таблицата по-долу демонстрира примери за стойности на кодови точки:
Ред 110:
UTF-16 кодовите единици са два пъти по-големи от 8-битовите кодови единици. Ето защо, всички кодови точки със скаларна стойност по-малка от 10 000 U + е кодирана с единична кодова единица.
 
За кодовите точки със скаларна стойност U + 10 000 или по-висока, са необходими две кодови единици за една кодова точка. За тези двойки кодови единици съществува уникален термин в UTF-16: [[:en:UTF-16#cite_note-Unicode7Ch3s8-5|„UnicodeUnicode сурогатни двойки“двойки]].
* '''''UTF-32'''''
32-битовата кодова единица, използвана в UTF-32 е достатъчно голяма, за да позволява на всяка кодова точка да се кодира като единична кодова единица.
Ред 118:
 
== Уникод кодиращ модел ==
'''[[Уникод]]''' или ''Универсален набор от символи'' (на английски: ''Unicode'') и паралелния му стандарт [[:en:Universal_Coded_Character_Set|ISO/IEC 10646 Universal Character Set]], заедно представляват модерна единна система за символно кодиране. Вместо символите да се свързват директно в байтове, те поотделно определят какви символи са свободни, тяхното подреждане, как тези числа са кодирани като серия от „кодови единици“, и как накрая как тези единици са кодирани като поток от байтове. Идеята за това разлагане е да се създаде универсален набор от символи, които могат да бъдат кодирани по различен начин. За да се опише този модел правилно, трябва да се въведат по-точни методи от „набор от символи“ и „символно кодиране“. Методите, които се използват в съвременния модел са:
 
''Символното съдържание'' е пълният набор от абстрактни символи, които една система поддържа. Съдържанието може да бъде затворено, т.е. не са позволени допълнения без създаване на нови стандарти (както е направена [[:en:ASCII|ASCII]] таблицата), или да бъде отворено, позволявайки допълнения. Символите в дадено съдържание отразяват решенията как да се разделят системите за писане на основни информационни единици. Основните варианти на латински, гръцки и кирилица могат да бъдат разделени на букви, цифри, пунктуационни знаци и няколко специфични символи като празно място, които могат да бъдат подредени в прости линейни последователности, които се показват в реда, в който се четат. Дори с тези азбуки, диакритични знаци представляват усложнение: те могат да се разглеждат или като част от отделен символ, който съдържа буква и диакритичен символ, или като отделни символи. Основният позволява много по-проста текстова обработка, а последният позволява да бъде използвана буквена/ диакритична комбинация. Лигатурите създават същите проблеми. Други системи за писане като арабската азбука или иврит са представени като по сложни символни съдържания, поради необходимостта да се акомодират неща като двупосочен текст и знаци, които са свързани по между си по различни начини.
 
''Кодирания символен низ'' отговаря на това как е представено съдържанието на символите като цели числа, наречени кодови точки. Като например в дадено съдържание, символ представен с главна буква „А“, в латинската азбука е представен като числото 65.