Български национален корпус

Българският национален корпус е голям представителен корпус за български език, който включва над 200 000 текста и над 1 милиард думи текст[1][2].

История редактиране

БНК е създаден в Института за български език „Проф. Любомир Андрейчин“ от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени електронни корпуси, разработвани от двете секции в периода 2001 – 2009 г. Корпусът непрекъснато се разширява и обогатява с нови текстове.[3][4][5]

Съдържание редактиране

Българският национален корпус се състои от ядро и множество паралелни сателитни корпуси. Ядрото е едноезикова българска част, която съдържа над 1 милиард думи и включва над 200 000 текста. Материалите в корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на 20 век (1945 г.) до наши дни.[1]

БНК също включва 47 паралелни чуждоезични корпуса с различна големина.[6][7]

БНК е снабден с лингвистична анотация на различни нива.[8]

Подбор на текст редактиране

Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:

  1. Дарения от издателства и автори.
  2. Дигитализиране на печатни текстове чрез сканиране.
  3. Автоматично и ръчно извличане на електронни текстове от интернет.

Приложения редактиране

Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др.

Някои възможни приложения на корпуса:

  • Извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично маркиране и пр., както и за други изследователски цели.
  • Наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.
  • Търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).

Достъп редактиране

Достъпът до Българския национален корпус е напълно безплатен и включва следните възможности:

Следните подкорпуси са предоставени за изтегляне:

  1. Административен корпус от официални документи на Европейския съюз – паралелен, на 23 езика с най-големи корпуси на английски, немски, румънски, гръцки и полски.
  2. Публицистичен корпус от SETimes.com – паралелен, на 9 балкански езика (български, гръцки, турски, сръбски, хърватски, босненски, македонски, албански, румънски) и английски.
  3.  Научнопопулярен корпус със статии от Уикипедия – на български език.
  4.  Административен/Научен корпус с текстове от Агенцията за лекарствата – паралелен, на 23 езика.

Вижте също редактиране

Източници редактиране

  1. а б Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova (2012) The Bulgarian National Corpus: Theory and Practice in Corpus Design[неработеща препратка]. Journal of Language Modelling, 2012, Vol. 0, No. 1, pp. 65 – 110. ISSN: 2299 – 8470
  2. Коева, Светла, Ивелина Стоянова, Цветана Димитрова, Светлозара Лесева (2012) „Традиции и новаторство в корпусната лингвистика: Българският национален корпус“, Списание на Българската академия на науките, 2012, 3, ISSN: 0007 – 3989
  3. Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulgarian Tagged Corpora“. In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18 – 20 октомври 2006, Sofia, Bulgaria, pp. 78 – 86.
  4. Светла Коева, Диана Благоева, Сия Колковска (2011) „Проектът Български национален корпус – резултати и перспективи“ Български език, 58 (2011), 3, стр. 34 – 53. ISSN 0005 – 4283.
  5. Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) Bulgarian National Corpus Project. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678 – 3684.
  6. Коева, С., Декова, Р., Стоянова, И. (2011) „Българо-английски-Х+ паралелен корпус“ – Български език, (кн. 3), стр. 100 – 118. ISSN 0005 – 4283.
  7. Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12).
  8. Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceeding of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.

Външни препратки редактиране