Български национален корпус

Българският национален корпус е голям представителен корпус за български език, който включва над 200 000 текста и над 1 милиард думи текст^[1]^[2].

История редактиране

БНК е създаден в Института за български език „Проф. Любомир Андрейчин“ от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени електронни корпуси, разработвани от двете секции в периода 2001 – 2009 г. Корпусът непрекъснато се разширява и обогатява с нови текстове.^[3]^[4]^[5]

Съдържание редактиране

Българският национален корпус се състои от ядро и множество паралелни сателитни корпуси. Ядрото е едноезикова българска част, която съдържа над 1 милиард думи и включва над 200 000 текста. Материалите в корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на 20 век (1945 г.) до наши дни.^[1]

БНК също включва 47 паралелни чуждоезични корпуса с различна големина.^[6]^[7]

БНК е снабден с лингвистична анотация на различни нива.^[8]

Подбор на текст редактиране

Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:

Дарения от издателства и автори.
Дигитализиране на печатни текстове чрез сканиране.
Автоматично и ръчно извличане на електронни текстове от интернет.

Приложения редактиране

Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др.

Някои възможни приложения на корпуса:

Извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично маркиране и пр., както и за други изследователски цели.
Наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.
Търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).

Достъп редактиране

Достъпът до Българския национален корпус е напълно безплатен и включва следните възможности:

достъп до търсачката на Българския национален корпус
изтегляне на части от Българския национален корпус

Следните подкорпуси са предоставени за изтегляне:

Административен корпус от официални документи на Европейския съюз – паралелен, на 23 езика с най-големи корпуси на английски, немски, румънски, гръцки и полски.
Публицистичен корпус от SETimes.com – паралелен, на 9 балкански езика (български, гръцки, турски, сръбски, хърватски, босненски, македонски, албански, румънски) и английски.
Научнопопулярен корпус със статии от Уикипедия – на български език.
Административен/Научен корпус с текстове от Агенцията за лекарствата – паралелен, на 23 езика.

Вижте също редактиране

Източници редактиране

↑ ^а ^б Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova (2012) The Bulgarian National Corpus: Theory and Practice in Corpus Design^{[неработеща препратка]}. Journal of Language Modelling, 2012, Vol. 0, No. 1, pp. 65 – 110. ISSN: 2299 – 8470
↑ Коева, Светла, Ивелина Стоянова, Цветана Димитрова, Светлозара Лесева (2012) „Традиции и новаторство в корпусната лингвистика: Българският национален корпус“, Списание на Българската академия на науките, 2012, 3, ISSN: 0007 – 3989
↑ Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulgarian Tagged Corpora“. In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18 – 20 октомври 2006, Sofia, Bulgaria, pp. 78 – 86.
↑ Светла Коева, Диана Благоева, Сия Колковска (2011) „Проектът Български национален корпус – резултати и перспективи“ Български език, 58 (2011), 3, стр. 34 – 53. ISSN 0005 – 4283.
↑ Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) Bulgarian National Corpus Project. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678 – 3684.
↑ Коева, С., Декова, Р., Стоянова, И. (2011) „Българо-английски-Х+ паралелен корпус“ – Български език, (кн. 3), стр. 100 – 118. ISSN 0005 – 4283.
↑ Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12).
↑ Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceeding of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.

Външни препратки редактиране

[ipipan-1] а ^б Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova (2012) The Bulgarian National Corpus: Theory and Practice in Corpus Design^{[неработеща препратка]}. Journal of Language Modelling, 2012, Vol. 0, No. 1, pp. 65 – 110. ISSN: 2299 – 8470

[2] Коева, Светла, Ивелина Стоянова, Цветана Димитрова, Светлозара Лесева (2012) „Традиции и новаторство в корпусната лингвистика: Българският национален корпус“, Списание на Българската академия на науките, 2012, 3, ISSN: 0007 – 3989

[3] Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulgarian Tagged Corpora“. In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18 – 20 октомври 2006, Sofia, Bulgaria, pp. 78 – 86.

[4] Светла Коева, Диана Благоева, Сия Колковска (2011) „Проектът Български национален корпус – резултати и перспективи“ Български език, 58 (2011), 3, стр. 34 – 53. ISSN 0005 – 4283.

[5] Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) Bulgarian National Corpus Project. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678 – 3684.

[6] Коева, С., Декова, Р., Стоянова, И. (2011) „Българо-английски-Х+ паралелен корпус“ – Български език, (кн. 3), стр. 100 – 118. ISSN 0005 – 4283.

[7] Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12).

[8] Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceeding of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]