Уникод: Разлика между версии

Изтрито е съдържание Добавено е съдържание
→‎Главна символна категория: Добавена липсващата таблица със стойности на свойството „Обща категория“. Смислови корекции на превода.
Ред 159:
 
=== Свойство „Обща категория“ ===
Всяка кодова точка има свойство „Обща категория“ ({{Lang-en |General Category}}). Основните категории са: буква, комбиниращ или ограждащ знак, число, пунктуация, символ, разделител и друго. Всяка от тези категории има подразделения. В повечето случаи за точно задаване характеристиките на дадена кодова точка е необходимо да се използват и други свойства. Възможните общи категории са:
 
{|class="wikitable sortable collapsible {{{state|collapsed}}}" style="width:100%; margin:0;"
! colspan=6 style="border:1px solid grey; line-height:1.75em;" |Обща категория <small>(свойство на знаците в Уникод)</small> {{navbar|Обща категория (Уникод)|mini=1|style=float:left;padding:2px;}}
|-
! Стойност !! Категория: главна, второстепенна !! Основен тип !! НазначенПрисвоен знак !! Брой {{nowrap|(във версия 10.0)}} !! Бележки
|-
!&nbsp;
Ред 175:
|colspan=6 data-sort-value="000" style="font-weight:bold" |Буква (letter)
|-
|data-sort-value="001" |Lu ||Буква, горен регистър ||ГрафикаГрафичен ||Знак || 1702 ||
|-
|data-sort-value="002" |Ll ||Буква, долен регистър ||ГрафикаГрафичен ||Знак || 2063 ||
|-
|data-sort-value="003" |Lt ||Буква, заглавен регистър ||ГрафикаГрафичен ||Знак || 31 ||[[Лигатура (типография)|Лигатури]], съдържащи главна буква, последвана от малка (напр. [[Dž]], [[Lj]], [[Nj]], andи [[Dz]])
|-
|data-sort-value="004" |Lm ||Буква, модификатор ||ГрафикаГрафичен ||Знак || 250 ||
|-
|data-sort-value="005" |Lo ||Буква, друга ||ГрафикаГрафичен ||Знак || 121  047 ||
|-
|colspan=6 data-sort-value="010" style="font-weight:bold" |ЗнакКомбиниращ или ограждащ знак (mark)
|-
|data-sort-value="011" |Mn ||Знак, не интервал ||ГрафикаГрафичен ||Знак || 1763 ||
|-
|data-sort-value="012" |Mc ||Знак, комбиниращ интервал ||ГрафикаГрафичен ||Знак || 401 ||
|-
|data-sort-value="013" |Me ||Знак, ограждащ ||ГрафикаГрафичен ||Знак || 13 ||
|-
|colspan=6 data-sort-value="020" style="font-weight:bold" |Число (number)
|-
|data-sort-value="021" |Nd ||Число, десетична цифра ||ГрафикаГрафичен ||Знак || 590 ||Всички, и само те, имат свойство „Числов тип“ = De
|-
|data-sort-value="022" |Nl ||Число, буква ||ГрафикаГрафичен ||Знак || 236 ||Числа, съставени от буквоподобни знаци (напр. [[римски цифри]])
|-
|data-sort-value="023" |No ||Число, друго ||ГрафикаГрафичен ||Знак || 676 ||Например [[Дроб|обикновени дроби]], цифри в [[горен индекс]] и [[долен индекс]]
|-
|colspan=6 data-sort-value="030" style="font-weight:bold" |Пунктуация (punctuation)
|-
|data-sort-value="031" |Pc ||Пунктуация, свързваща ||ГрафикаГрафичен ||Знак || 10 ||Включва "_" ([[долна черта]])
|-
|data-sort-value="032" |Pd ||Пунктуация, тире ||ГрафикаГрафичен ||Знак || 24 ||Включва няколко различни [[тире]]та
|-
|data-sort-value="033" |Ps ||Пунктуация, отваряща ||ГрафикаГрафичен ||Знак || 75 ||Отварящи [[скоби]]
|-
|data-sort-value="034" |Pe ||Пунктуация, затваряща ||ГрафикаГрафичен ||Знак || 73 ||Затварящи скоби
|-
|data-sort-value="035" |Pi ||Пунктуация, начална кавичка ||ГрафикаГрафичен ||Знак || 12 ||Отваряща [[кавичка]]. Не включва "неутралните" кавички от ASCII. Може да се държи като Ps или Pe в зависимост от употребата.
|-
|data-sort-value="036" |Pf ||Пунктуация, завършваща кавичка ||ГрафикаГрафичен ||Знак || 10 ||Затваряща кавичка. Може да се държи като Ps или Pe в зависимост от употребата.
|-
|data-sort-value="037" |Po ||Пунктуация, друга ||ГрафикаГрафичен ||Знак || 566 ||
|-
|colspan=6 data-sort-value="040" style="font-weight:bold" |Символ (symbol)
|-
|data-sort-value="041" |Sm ||Символ, математически ||ГрафикаГрафичен ||Знак || 948 ||Математически символи (напр. [[+]], [[=]], [[×]], [[÷]], [[√]], [[∊]]). Не включва скоби – те са в категориите Ps и Pe. Също не включва [[Удивителен знак|!]], [[Звездичка|*]], [[Минус|-]] и [[Наклонена черта|/]], които въпреки честата си употреба в математиката се смятат основно за „пунктуация“.
|-
|data-sort-value="042" |Sc ||Символ, валутен ||ГрафикаГрафичен ||Знак || 54 ||Валутни символи
|-
|data-sort-value="043" |Sk ||Символ, модификатор ||ГрафикаГрафичен ||Знак || 121 ||
|-
|data-sort-value="044" |So ||Символ, друг ||ГрафикаГрафичен ||Знак || 5855 ||
|-
|colspan=6 data-sort-value="050" style="font-weight:bold" |Разделител (separator)
|-
|data-sort-value="051" |Zs ||Разделител, интервал ||ГрафикаГрафичен ||Знак || 17 ||Включва интервал, но не и знак за табулация, връщане на каретката (CR) и нов ред (LF), които са Cc.
|-
|data-sort-value="052" |Zl ||Разделител, ред ||ФорматФорматиращ ||Знак || 1 ||Само U+2028, LINE SEPARATOR
|-
|data-sort-value="053" |Zp ||Разделител, абзац ||ФорматФорматиращ ||Знак || 1 ||Само U+2029, PARAGRAPH SEPARATOR
|-
|colspan=6 data-sort-value="060" style="font-weight:bold" |Други
Ред 239:
|data-sort-value="061" |Cc ||Друг, контролен ||Контролен ||Знак || 65 (никога няма да се промени) ||Без име, <control>
|-
|data-sort-value="062" |Cf ||Друг, форматиращ ||ФорматФорматиращ ||Знак || 151 ||Включва [[меко тире]], свързващи контролни знаци ([[несъединител с ширина нула|zwnj]] andи [[съединител сширина нула|zwj]]), контролни знаци за [[двупосочен текст]] и знаци за отбелязване на език.
|-
|data-sort-value="063" |Cs ||Друг, сурогатен ||СурогатСурогатен ||Не (абстрактен) || 2048 (никога няма да се промени) ||Без име, <surrogate>
|-
|data-sort-value="064" |Co ||Друг, частно използване ||Частно използване ||Не (абстрактен) || Общо 137  468 (никога няма да се промени) ({{nowrap|6400 в BMP}}, 131  068 {{nowrap|в групи 15&ndash;16}}) ||Без име, <private-use>
|-
|rowspan=2 data-sort-value="065" |Cn ||rowspan=2 |Друг, недефиниран ||Не знак ||Не || 66 (никога няма да се промени) ||Без име, <noncharacter>
|-
|Запазен||Не|| 837  775 ||Без име, <reserved>
|}
 
Кодовите точки в диапазона между U+D800 и U+DBFF (общо 1024 кодовина точкиброй) сасе известнинаричат ощестарши като'''сурогати''' високо(''high-surogate заместимиcode кодови точкиpoints''],  а кодовите точки в диапазонатези между U+DC99 и U+DFFF (1,024също кодови точки1024) са известнимладши като слабо заместими кодови точки. Високо заместима кодова точкасурогати (известна още като''low-surrogate водещcode заместителpoints''). следванаСтарши отсурогат слабои заместимаследващ кодоваго точкамладши (известнасурогат още като заместител последовател)образуват формиратсурогатна двойка, използвана в UTF-16 за представяне на 1,048,576 кодовикодовите точки извъннад BMPU+FFFF. Високите и слабо заместимитеСурогатните кодови точки не самогат валиднида посе отделно.използват Порадипо тазидруг причинаначин обхватът(това направило кодовитечесто точки,се достъпнипренебрегва зана ползване като символи е между U+0000..U+D7FF и U+E000..U+10FFFF (1,112практика,064 кодовиособено точки).когато Стойността на тези кодови точки понякогане се отнасяизползва като скаларна величинаUTF-16).
 
За определен малък набор от кодови точки се гарантира, че никога няма да се използват за кодиране на знаци, макар че приложенията при желание могат да ги използват вътрешно. Тези '''не-знаци''' (''noncharacters'') са 66 на брой: U+FDD0–U+FDEF и всички кодови точки, завършващи на FFFE или FFFF (например U+FFFE, U+FFFF, U+1FFFE, U+1FFFF, … U+10FFFE, U+10FFFF). Наборът от не-знаци е стабилен и никога няма да се разширява в бъдеще. Както и при сурогатите, правилото, че тези кодови точки не бива да се използват, често се игнорира, макар че за работата на маркера за ред на байтовете (BOM) се приема, че U+FFFE никога няма да бъде първа кодова точка в текст.
Някои кодови точки, които не съдържат символи не могат да се използват за шифроване на символи, въпреки че съществуват програми, които вътрешно могат да използват тези кодови точки. Съществуват 66 кодови точки без символи: U+FDD0..U+FDEF и всяка кодова точка, завършваща със стойност FFFE до FFFF (например U+FFFE, U+FFFF, U+1FFFE, U+1FFFF, … U+10FFFe, U+10FFFF).
 
Като изключим сурогатите и не-знаците, остават 1 111 998 достъпни за употреба кодови точки.
Обратните кодови точки са тези, които съществуват като кодирани символи, но не са дефинирани като такива от Уникод.
 
ЧастноЗа използваните кодовикодовите точки саза '''частно използване''' определенисе символиприема, коиточе обачеса им приписани знаци, но нямат конкретназададена интерпретация от Уникодв стандарта Уникод. Поради тазитова причина всяка размянаобменът на подобни символизнаци изисква собствена интерпретацияспоразумение между изпращачаподателя и получателя за интерпретацията им. СъществуватВ кодовото пространство на Уникод общоима три частнидиапазона категорииза вчастно Уникодизползване:
* U+E000..U+F8FF (6400 символа) - Private Use Area
 
* Private Use Area: U+E000–U+F8FF (6400 знака)
* U+F0000..U+FFFD (65, 534 символа) - Supplementary Private Use Area-A
* Supplementary Private Use Area-A: U+F0000–U+FFFD (65 534 знака)
* Supplementary Private Use Area-B: U+100000–U+10FFFD (65 534 знака)
 
'''Графичните''' символизнаци са символитакива, на които саУникод семантичниприписва определена семантика и или имат видима форма ([[глиф]] форма), или представляват видимо празно място. В Уникод 10.0 има 136 537 графични знака.
* U+100000..U+10FFFD (65 534 символа) - Supplementary Private Use Area-B
Графичните символи са символи, които са семантични и имат видима [[глиф]] форма или представляват видимо празно място.
 
'''Форматиращите''' знаци са такива, които не се виждат сами по себе си, но може да влияят върху вида или поведението на съседните. Например U+200C (несъединител с нулева ширина, zwnj) и U+200D (съединител с нулева ширина, zwj) служат за променяне на подразбираната форма на съседни знаци (в частност потискане на лигатурите или налагане на лигатура). В Уникод 10.0 има 153 форматиращи знака.
След Уникод 8.0 съществуват 120,520 графични символа.
 
Шейсет и пет кодови точки (U+0000–U+001F и U+007F–U+009F) са запазени като '''контролни''' кодове, отговарящи на дефинираните в [[ISO/IEC 6429]] групи от контролни кодове C0 и C1. Кодовете U+0009 (знак за табулация, ''Tab''), U+000A (нов ред, ''Line Feed'') и U+000D (връщане на каретката, ''Carriage Return'') се използват широко в текстове, кодирани с Уникод. На практика кодовите точки от групата C1 често представляват неправилно преобразувани знаци от остарялата кодировка [[CP-1252]], използвана в някои текстове на английски и западноевропейски езици в Windows.
Форматиращите символи са символи, които нямат видимо проявление, но може да имат ефект върху вида или поведението на съседни символи. Съществуват 152 форматиращи символи в Уникод 8.0.
 
Графичните, форматиращите, контролните и частните знаци се наричат общо ''присвоени знаци'' (''assigned characters''). '''Запазени''' (''reserved'') са тези кодови точки, които са достъпни за използване, но още не са присвоени. В Уникод 10.0 има 873 775 запазени кодови точки.
Кодовите точки от групата 65 (U+0000..U+001F и U+007F.. U+009F) са контролни кодове, отговарящи на C0 и C1 контролни кодове, дефинирани в ISO/IEC 6429. От тази група най-често използвани са U+0009 (Tab), U+000A (Преместване с един ред) и U+000D (Return).
 
Графичните символи, форматиращите символи, контролните символи и частните символи са известни още като присвоени символи.
 
=== Абстрактни символи ===