Уникод: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Структурата на статията е уеднаквена с английската, добавен е превод на уводната част. Премахнат е разделът „Сведения“, който съдържаше остаряла, непълна и дублирана информация.
VAN-ST (беседа | приноси)
| уточнение кои латински букви се кодират с по 8 бита в UTF-8
Ред 12:
 
При UTF-8, използвана в над 90% от уебсайтовете, за първите 128 кода се използва по един [[байт]], а за останалите – до 4 байта<ref>С един байт се представят например
[[латиница]]та без диакритични знаци, цифрите и основните препинателни знаци; с два – повечетовключените в стандарта латински букви с диакритични знаци, [[кирилица]]та, [[гръцка азбука|гръцката]], [[арменска азбука|арменската]], [[еврейска азбука|еврейската]] и [[арабска азбука|арабската]] азбука; с повече – [[африка]]нски, [[Азия|азиа]]тски, [[америка]]нски азбуки и др.</ref>. Първите 128 кода от Уникод съвпадат с тези на [[ASCII]], което означава, че всеки текст в ASCII е и в UTF-8.
 
При UCS-2 за всеки знак се използват два байта (16 [[бит]]а), но така могат да се представят само първите 65 536 кода, които образуват групата ''Basic Multilingual Plane'' (BMP, ''Основна многоезична група''). Тъй като са възможни общо 1 114 112 кода в 17 различни групи, а до момента вече са дефинирани над 137 000 от тях, много от знаците в Уникод са извън обхвата на UCS-2. Затова тя се смята за остаряла, макар да е все още в широка употреба. UTF-16 разширява UCS-2, като използва същото 16-битово кодиране за BMP и 4-байтово – за останалите групи. Всеки текст в UCS-2, който не съдържа кодове в запазения диапазон U+D800–U+DFFF, представлява и валиден текст в UTF-16.