Символно кодиране: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Ralitsa88 (беседа | приноси)
Редакция без резюме
Ред 23:
* '''''Символът (знакът)''''' е минимална единица текст, който има семантична стойност.
* '''''Наборът от символи''''' представлява колекция от символи, които биха могли да бъдат използвани от различни езици.
Пример: ЛатинскияЛатинският набор от символи се използва от английския език и повечето европейски езици, въпреки че гръцкиягръцкият набор от символи се използва само от гръцкия език.
* '''''Кодираният набор''''' '''''от символи''''' е набор от символи, където всеки символ получава уникален номер.
 
Ред 30:
'''''Кодовата единица''''' е последователност от битове, използвана за кодиране на всяка отделна символна единица, която е част от репертоар в рамките на всеки вид кодиране.
 
'''Символен репертоар (абстрактен списъкасписък от символи (знаци)):'''
 
'''''Символният репертоарРепертоарът от символи (знаци)''''' предстсвлява абстрактен списък от повече от един милион открити (в голямо разнообразие) скриптове, включително ''латински, кирилица, китайски, корейски, японски, иврит и арамейски символи (знаци).''
 
Други символи като музикалните ноти например, също са включени в символния репертоар. И двата стандарта - [[:en:Unicode|Unicode]] и [[:en:GB_18030|GB18030]] имат символен репертоар. Когато нови символи (знаци) са добавени към един стандарт, друг стандарт ги добавя също, с цел да се поддържа подобие на първия.
 
Размерът на кодовата единица се равнява на измерването в битовабитовете за конкретния стандарт на кодиране:
* Кодова единица според [[:en:ASCII|US-ASCII]] стандарта се състои от 7 бита;
* Кодова единица според [[:en:UTF-8|UTF-8]], [[:en:EBCDIC|EBCDIC]] и [[:en:GB_18030|GB18030]] стандарта се състои от 8 бита;
Ред 42:
* Кодова единица в [[:en:UTF-32|UTF-32]] стандарта се състои от 32 бита.
 
'''''Пример за кодова единица:''''' Представете си един '''''String''' (бълг.: низ от символи)'', който съдържа букви "abc", последван от Deseret LONG I, който е представен с две символни стоностистойности. Този символен низ съдържа четири знака, четири кодови точки, но като цяло '''''пет кодови единици'''''.
 
За да изразите символ (знак) в Unicode, за шестнадесетичната стойност се добавя е началото представка на низа U +. Валидният обхват на кодовата точка за стандарта Unicode варира от U + 0000 до U + 10FFFF, включително.
Ред 81:
|}
 
Символи, които са в диапазона от U + 10 000 до U + 10FFFF се наричат ​​допълващи знаци (англ.: ''[http://www.i18nguy.com/surrogates.html supplementary characters]'')
 
Наборът от символи от U + 0000 до U + FFFF понякога се отнасят до Основната МногоезиченМногоезична равнина (англ.: ''[[:en:Plane_(Unicode)#Basic_Multilingual_Plane|Basic Multilingual Plane]]'' - BMP).
 
'''Връзката между кодовите точки и кодовите единици:'''
Ред 89:
Кодовата точка е символ (знак) и се представя с една или повече кодови единици в зависимост от стандарта на кодирането.
 
Във всеки стандарт кодиране кодовитеКодовите точки се картират в една или повече кодови единици във всеки стандарт за кодиране.
 
Броят на кодови единици изисква да бъде картиран към кодова точка в зависимост от стандарта на кодиране:
* UTF-8
МножествоМножеството кодови единици на една кодoва точка са често срещани в UTF-8, поради по-малките кодовиразмери на кодовите единици. Кодовите точки ще бъдебъдат картирани с една, две, три, или четири кодови единици.
* UTF-16
UTF-16 кодовите единици са два пъти по-големи от 8-битовите кодови единици. Ето защо, всички кодови точки ссъс скаларна стойност по-малкомалка от 10 000 U + е кодирана с една единствена (единична) кодова единица.
 
За кодовите точки ссъс скаларна стойност U + 10 000 или по-висока, са необходими две кодови единици за една кодова точка. За тези двойки кодови единици имасъществува уникален термин в UTF-16: [[:en:UTF-16#cite_note-Unicode7Ch3s8-5|"Unicode сурогатни двойки"]].
* UTF-32
При 32-битовабитовата кодова единица, използвана в UTF-32 е достатъчно голяма, за да позволява на всяка кодова точка да се кодира като единична кодова единица.
* GB18030
Множество кодови единици на една кодова точка са често срещани в GB18030, защото напоради по-малките кодови единици. ТочкитеКодовите кодътточки ще бъдебъдат съпоставенасъпоставени с една, две или четири кодови единици.
 
== Уникод кодиращ модел ==