БулПосКор: Разлика между версии

Изтрито е съдържание Добавено е съдържание
м замяна на месец на бг.
м Поправка на правописни грешки от списък в Уикипедия:AutoWikiBrowser/Typos
Ред 5:
Анотирането на БулПосКор се състои от първичен етап на автоматично приписване на тагове от тагсета на Българския граматичен речник (Коева 1998) и последващ етап на ръчно разрешаване на случаите на многозначност. Граматичният речник на българския език включва около 85 хиляди леми и над 1 милион словоформи, описани с граматичните им характеристики. Автоматичното анотиране е свързано с класифициране на токъните в БулПосКор по типове в зависимост от това дали са съставени от главни букви, малки букви, цифри, специални символи и т.н. Чрез правила за токънизация се разпознават и различават графични думи; съкращения; думи, съставени от комбинация от цифра, пунктуационен знак и букви (например 1-ви); правила за разпознаване на дати; на математически изрази; адреси на сайтове и електронни пощи и т.н. Изградена е система от възможните граматични значения за всеки пунктуационен знак. Експертната проверка на граматичната анотация и разрешаването на лексикално-раматичната многозначност, както и описателните множества, конструирани според принципите за деление на категории, типове и подтипове (Коева 1998), превръщат корпуса в ценен лингвистичен ресурс. Подробната морфосинтактична информация, въведена в тагсета, позволява лесното му адаптиране за тренирането и тестването на нови тагери независимо от подхода, използван за тяхното създаване.
 
Текстовото съдържание на корпуса е съставено според международните стандарти за езикова представителност. Българският POS анотиран корпус е представителна част от Българския Браун корпус (ББК) и е с големина 174 697 лексикални единици. От всеки файл на ББК е направена извадка от минимум 300 думи, като извадките са разширени до крайдокрай на изречение. По този начин структурата на Браун корпуса е запазена – текстовете са разделени в 15 категории от 2 типа – художествени и информативни. Думите в БулПосКор заедно с лексикално-граматичните им описания са достъпни за търсене онлайн.
 
Качеството на морфологично анотираните ресурси е определящо при създаването на компютърни програми за обработка на естествения език, като автоматично синтактично анотиране, автоматично резюмиране на текстове, автоматичен превод и т.н. Едни от най-важните и широко използвани приложения на морфологичното анотиране са програмите за проверка на правописа и автоматичното отделяне на срички.