Символно кодиране: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Редакция без резюме
Ред 125:
Кодираните символни модели биват наричани понякога кодови страници.
 
Символното кодиране рефлектира начина, по който кодираните символни модели(множества) са преведени в битове за манипулация в компютъра. Картинката показва как символите и символните точки в скрипта Tifinagh(Berber) са преведени до поредица от битове в паметта използвайки UTF-8 кодиране. Стойността на кодовата точка за всеки символ е зададена непосредствено под всеки символ на картинката. Стрелките показват как са преведени в поредица от битове, където всеки бит е представен от двуцифрено шестнадесетично число. Забележете как на дадения пример кодовите точки на скрипта Tifinagh(Berber) са представени в три битови, а удивителния знак е представен с един бит. (В процес на обновяване)<gallery>
 
Един символен модел, няколко кодирания. Много стандарти в символните кодирания, като тези в ISO 8859 сериите използват един бит за даден символ и кодирането се извършват директно, тоест позицията на символа отговаря на кодирания символ. За пример буквата А в ISO 8859-1 кодиран символен модел е 65-та подред (започващ от 0) и кодирана е представена на компютъра като байт използващ стойността 65. За ISO 8859-1 това не се променя.
 
За Уникод обаче нещата не са директни. Всъщност кодовата точка за буквата à в модела Уникод е винаги 225 (в десетична бройна система), в UTF-8 буквата е представена в компютъра в два бита. В допълнение в Уникод има различни на брой начини за кодиране на един и същ символ. За пример буквата à може да бъде представена като 2 бита в едно кодиране и като 4 байта в друго. Кодиращите форми които могат да се използват в Уникод са UTF-8, UTF-16 и UTF-32.<gallery>
[[File:Encodings-utf8.png|thumb|UTF-8 Encoding example]]
</gallery>