Символно кодиране: Разлика между версии
Изтрито е съдържание Добавено е съдържание
Редакция без резюме |
|||
Ред 23:
* '''''Символът (знакът)''''' е минимална единица текст, който има семантична стойност.
* '''''Наборът от символи''''' представлява колекция от символи, които биха могли да бъдат използвани от различни езици.
Пример:
* '''''Кодираният набор''''' '''''от символи''''' е набор от символи, където всеки символ получава уникален номер.
Ред 30:
'''''Кодовата единица''''' е последователност от битове, използвана за кодиране на всяка отделна символна единица, която е част от репертоар в рамките на всеки вид кодиране.
'''Символен репертоар (абстрактен
'''''
Други символи като музикалните ноти например, също са включени в символния репертоар. И двата стандарта - [[:en:Unicode|Unicode]] и [[:en:GB_18030|GB18030]] имат символен репертоар. Когато нови символи
Размерът на кодовата единица се равнява на
* Кодова единица според [[:en:ASCII|US-ASCII]] стандарта се състои от 7 бита;
* Кодова единица според [[:en:UTF-8|UTF-8]], [[:en:EBCDIC|EBCDIC]] и [[:en:GB_18030|GB18030]] стандарта се състои от 8 бита;
Ред 42:
* Кодова единица в [[:en:UTF-32|UTF-32]] стандарта се състои от 32 бита.
'''''Пример за кодова единица:''''' Представете си един '''''String''' (бълг.: низ от символи)'', който съдържа
За да изразите символ (знак) в Unicode, за шестнадесетичната стойност се добавя е началото представка на низа U +. Валидният обхват на кодовата точка за стандарта Unicode варира от U + 0000 до U + 10FFFF, включително.
Ред 81:
|}
Символи, които са в диапазона от U + 10 000 до U + 10FFFF се наричат допълващи знаци (англ.: ''[http://www.i18nguy.com/surrogates.html supplementary characters]'')
Наборът от символи от U + 0000 до U + FFFF понякога се отнасят до Основната
'''Връзката между кодовите точки и кодовите единици:'''
Ред 89:
Кодовата точка е символ (знак) и се представя с една или повече кодови единици в зависимост от стандарта на кодирането.
Броят на кодови единици изисква да бъде картиран към кодова точка в зависимост от стандарта на кодиране:
* UTF-8
* UTF-16
UTF-16 кодовите единици са два пъти по-големи от 8-битовите кодови единици. Ето защо, всички кодови точки
За кодовите точки
* UTF-32
* GB18030
Множество кодови единици на една кодова точка са често срещани в GB18030,
== Уникод кодиращ модел ==
|