Отваря главното меню

Компютърната лингвистика е интердисциплинарна теоретико-приложна наука, която се занимава както с формалното описание на естествения език, така и с разработването и прилагането на компютърните технологии при статистическото и логическото му анализиране и моделиране.

Езиковото компютърно моделиране не е ограничено в конкретен дял или граници в лингвистиката. То обикновено се осъществява от интердисциплинарни екипи от компютърни специалисти, лингвисти, програмисти, логици, математици, специалисти по изкуствен интелект, когнитивна психология и др. Разработват се електронни езикови приложения и системи, които обслужват потребителите при работата им с текстове – такива са програмите за автоматично коригиране на правописа, за автоматичен превод от един език на друг, за категоризиране и резюмиране на документи; за преобразуване на текст в реч и обратно и др., както и програми, обслужващи лингвистичните изследвания и анализи.

Съдържание

ОбластиРедактиране

Едни от основните области в компютърната лингвистика са:

  • автоматичен анализ на текстове
  • генериране на текстове
  • анализ и синтез на реч

ПриложениеРедактиране

Автоматичен анализ на текстовеРедактиране

Автоматичното анализиране на текстове се използва в области като машинен превод, интелигентно търсене на информация, автоматично отговаряне на въпроси и др.

Генерирането на текстове има приложение при интелигентните интерфейси.

Компютърната обработка на реч се използва в различни компютърни системи за автоматично преобразуване на текст в реч или на реч в текст, в устройства, управлявани с гласови команди (например управление на автомобил с глас) и др.

Автоматичният анализ може да обхваща различни нива от заложената в текста информация. Това определя множество подзадачи и модули като: токънизиране (разделяне текста на определени единици – фонеми, морфеми, графични думи, лексеми, изречения и др.); тагиране (приписване на характеристики на всяка отделна единица – приписване на дадени морфологични, синтактични, морфосинтактични, семантични и др. характеристики); парсиране – морфологичен анализ, синтактичен анализ, разрешаване на различни езиково специфични явления като местоименни и неместоименни анафори, елипси и др. и на различните типове езикова многозначност.

Различните нива на анализ използват различни програми: морфологични анализатори (тагери), синтактични анализатори (парсери), разрешители на анафори, анализатори на реторичната структура.

Текущото състояние на автоматичния текстов анализ позволява сравнително надежден морфологичен анализ /до 99% точност/, не дотам точен синтактичен анализ /80 – 85%/ и твърде неточно разрешаване на анафори /70 – 80%/. Съществуват и разработки за привеждане на текста в логическа форма.

При автоматичния анализ на текстове се използват ресурси, в които е зададено знанието за езика. Такива ресурси са морфологичните речници, граматиките, онтологиите, честотни таблици, информация за синтактичните рамки на глаголите и др.

Друг източник на знания са колекциите от текстове в електронен формат /корпуси/, които се използват за различни типове езикови анализи и заключения, както и за извличане на езикова информация чрез компютърни програми и статистически техники. Този дял от компютърната лингвистика е познат като корпусна лингвистика.

Генериране на текстовеРедактиране

Програмите за генериране на текст, за разлика от текстообработващите програми, анализиращи готовия вече текст, използват определени модели, по които се конструира смисъла на текста и конструират лингвистичното му представяне.

Анализ и синтез на речРедактиране

Обработката на реч използва статистически техники, за да се превърнат гласовите команди в текст.

Вижте същоРедактиране

Външни препраткиРедактиране