UTF-32: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Редакция без резюме
Редакция без резюме
Ред 7:
== История ==
Оригиналният ISO 10646 стандарт дефинира 31 битово кодиране, наричан UCS-4 (Universal Character Set), при който всеки кодиран знак е представен от 32 битова стойност от цели числа между 0 и шестнадесетичен 7FFFFFFF. Понеже в момента се ползват само 17 BMP части, всички кодови точки са между 0 и 0x10FFFF. UTF-32 е подгрупа на UCS-4, който ползва този диапазон. Тъй като принципите и процедурите посочени в JTC1/SC2/WG2 документацията заявяват, че всички бъдещи задания на знаците ще бъдат ограничени до BMP или до първите 14 допълнителни части, UTF-32 ще бъде в състояние да представя всички Unicode знаци. Ето защо, UCS-4 и UTF-32 са идентични с изключение на това, че UTF-32 има допълнителна Unicode семантика.
 
== Анализ ==
Въпреки, че фиксиран брой бита за кодова точка се явява удобно, не е толкова полезно колкото изглежда. Това прави орязването по-лесно, но не значително в сравнение с UTF-8 и UTF-16 (и при двата формата може да се търси точка за съкращаване в обратен ред гледайки по 2-4 кодови единици).
Изключително рядко е даден код да намери N-тата точка без предварително разглеждане на точките от 0 до N - 1. Това означава, че индекс увеличен с 1 за всеки знак може да бъде заменен с изместеното число, измерено в кодови единици и увеличено с броя кодови единици като всеки знак се разглежда. Това премахва всички предимства със скоростта при работа с UTF-32.
 
[[Категория:Кодови таблици]]