Уникод: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Краткото определение е променено, за да отговаря на въпроса „Какво е Уникод“ (предишното казваше само защо е създаден, но не и какво представлява).
→‎Сведения: Редакции за стил и фактологична точност (не всички кодировки преди UTF са еднобайтови; Уникод не е само знаковият набор, но и правилата за кодиране, сортиране, построяване на съставни глифове и пр.)
Ред 6:
 
== Сведения ==
УникодДефинираният (универсалнав кодировка) еУникод набор от [[символ]]и, е създаден с цел е да съдържавключи всекиписмените символ,знаци използван при писане, наот всички азбуки (включително итези на много [[мъртъв език|мъртви езици]]) и други символи, използвани в [[математика]]та и инженерните науки.
 
ВсекиНа всеки знак или символ отговаряе наприписан определен номер в кодовата таблица, който се ползваслужи примернонапример за изобразяванеобозначаване на символа в даден [[шрифт]]. Тъй като символите са няколконад десеткисто хиляди и не е възможно номерата им да се представят в един [[байт]], номерата се трансформират по специални правила ([[UTF]]) номерата на символите се трансформират в един, два, три или четири байта, за да могат да се ползват от компютрите.
* Обикновената [[латиница|латинска азбука]], цифрите и основните препинателни знаци се изобразяватпредставят с един байт.
* Повечето диакритични латински букви с диакритични знаци, [[кирилица]]та, [[гръцка азбука|гръцката]], [[арменска азбука|арменската]], [[еврейска азбука|еврейската]], [[арабска азбука|арабската]] и др.други азбуки и някои знаци се представят с два байта.
* Други азбуки ([[африка]]нски, [[Азия|азиа]]тски, [[америка]]нски) и някои специални знаци се кодират с три или четири байта.
 
ВсекиТрадиционните единкодировки отса досегашнитееднобайтови, наборис отмалък символиброй изключения, кодираникоито сизползват единподобни байтна UTF механизми (основно за източноазиатските езици). Всеки текст, можепредставен безв загубанякоя от тези кодировки, може да бъде преобразуван без загуба към Уникод, при едно условие: даче смезнаем сигурникоя точно оте кой набор (в коявъпросната кодировка) са символите. Обратното преобразуване, от Уникод към някоя от еднобайтовитепо-старите кодировки, е еднозначно и безспорно за тези знаци, които съществуват в целевата кодировка. Но текстовете, вкодирани универсалнатас кодировкаУникод, могат да съдържат всякакви знаци и тогавав общия случай не е възможно да се преобразуват коректно в някоя еднобайтовапо-стара кодировка.
 
Например текст само на [[кирилица]] или само на [[Чехия|чешка]] латиница (с диакритични знаци) се преобразуватпреобразува без проблем от съответната кодировка към Уникод и обратно. ОбачеОт друга страна, текст в Уникод, съдържащ и с кирилица, и латиница с латински диакритични знаци (букви с ударения и лигатури), не може да се преобразува изцяло: или кирилицата ще се загуби или кирилицата, или буквите с диакритични знаци, в зависимост от целевата кодировка.
 
Относно дължината на текстовете, порадиПоради кодирането на всеки знак с един до четири байта (вместо само с един), обикновено текстоветекстовете в Уникод са с по-голяма дължина в байтове от същите текстове в старите еднобайтови кодировки.
 
== Създаване и разработка ==