Машинен превод: Разлика между версии

Изтрито е съдържание Добавено е съдържание
Darldarl (беседа | приноси)
Заместване на съдържанието на страницата с „Grendel was half-man and half-monster.“
Ред 1:
Grendel was half-man and half-monster.
'''Машинен превод''' е дисциплина от [[компютърна лингвистика|компютърната лингвистика]], която се занимава със задачата за автоматично [[Превод|превеждане]] на писмен текст или реч от един естествен [[език]] на друг чрез компютърен софтуер. В най-простия си вариант МП представлява обикновено заместване на думи от един език с думи от друг. Използването на текстови корпуси дава възможност за по-сложни методи за превод, включващи отразяване на типологичните разлики между езиците, разпознаване на фрази, превеждане на [[Идиом|идиоми]] и изолиране на аномалии.
 
Съвременният софтуер за машинен превод често позволява избор на предметна област (например [[право]] или [[метеорология]]). Целта е да се подобри качеството на резултата чрез ограничаване на допустимите значения на думите. Тази техника е особено ефективна в области, в които се ползват стандартизирани, шаблонни езикови средства. Затова машинният превод на правителствени или правни документи често е по-сполучлив от превода на свободен разговор или друг слабо стандартизиран текст.
 
Качеството на резултата може да се подобри и чрез човешка намеса. Например, някои системи са в състояние да превеждат по-точно, ако потребителят е определил еднозначно кои думи в текста представляват имена. С помощта на подобни техники машинният превод се оказва полезно помощно средство за хората – преводачи и в някои случаи дори може да даде резултат, използваем без допълнително редактиране. Съвременните системи обаче не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил.
 
Машинният превод не трябва да се бърка с [[Превод с помощта на компютър|подпомагания от компютър превод]]. При последния водещата роля в превода се изпълнява от човек – преводач, а софтуерът само улеснява някои аспекти от работата му.
 
== Увод ==
Процесът на превеждане може да бъде описан като съвкупност от
# декодиране значението на изходния текст и
# кодирането на откритото значение със средствата на целевия език.
 
Зад тази проста процедура се крие сложен познавателен процес. За да декодира цялостно значението на изходния текст, преводачът трябва да изтълкува и анализира всички негови особености, което изисква задълбочени познания за [[Граматика|граматиката]], [[Семантика|семантиката]], [[Синтаксис|синтаксиса]], [[Идиом|идиомите]] и други свойства на изходния език, както и за [[Култура|културата]] на хората, които го ползват. За втората част от процеса същите познания се изискват и за целевия език.
 
Предизвикателството пред машинния превод е следното: как да се програмира компютърът, така че да „разбира“ текста подобно на човек и да създава на друг език нов текст със същия смисъл, който да изглежда като написан от човек?
 
Към решаването на тази задача може да се подходи по различни начини.
 
== Видове машинен превод ==
=== Машинен превод, базиран на речник ===
Най-простият вид машинен превод замества думи от единия език със съответните им думи от другия, без да коригира словореда или да се съобразява с различните значения, които придобиват думите в различни съчетания помежду си. Този вид „превод“ е със силно ограничено приложение.
 
=== Машинен превод, базиран на правила ===
При базирания на правила машинен превод базата от данни включва граматични правила за анализ и синтез на изречения и словосъчетания. Често се приема, че за да се реши задачата за машинния превод, първо трябва да се реши задачата за '''разбиране на естествен език'''. При този вид превод програмата анализира оригиналния текст и го преобразува до специално вътрешно представяне, от което след това се синтезира преведеният текст. За това са нужни обширни речници и набори от правила, включващи подробна [[Морфология (езикознание)|морфологична]], [[синтаксис|синтактична]] и [[семантика|семантична]] информация за разглежданите езици. Тези ресурси се обикновено се изготвят ръчно от квалифицирани езиковеди и изработването им е сложна и трудоемка задача.
 
=== Статистически машинен превод ===
При статистическия машинен превод данните за съответствието между думите и поредиците от думи в двата езика се събират автоматично от така наречените '''двуезични корпуси'''. Двуезичните корпуси представляват обемисти набори от съответстващи си текстове на два езика, например протоколите от заседанията на [[Канада|канадския]] парламент, които се водят едновременно на английски и френски, протоколите на [[Европейски парламент|Европейския парламент]] или новините на агенция „Синхуа“ [[http://www.xinhuanet.com]], които са успоредно на английски и китайски. Засега обаче подобни корпуси, използваеми за целите на машинния превод, съществуват за много малко езици. След като програмата бъде „обучена“, събраната статистика се използва за избиране на думи и фрази по време на превеждане.
 
=== Машинен превод, базиран на примери ===
При базирания на примери машинен превод двуезичният корпус се използва по време на самото превеждане и непознатите изречения се превеждат по аналогия с най-близкия известен на програмата пример. Този подход е много близък с [[машинно самообучение|машинното самообучение]].
 
=== Машинен превод с помощта на междинен език ===
Машинният превод чрез междинен език е частен случай на превода, базиран на правила. При този подход изходният текст се трансформира във вид, независим от изходния и целевия език – '''интерлингва'''. След това от въпросното представяне се генерира текст на целевия език.
 
== Основни проблеми ==
=== Многозначност ===
[[полисемия|Думите с повече от едно значение]] са трудни за автоматично превеждане. Днес съществуват различни подходи за преодоляване на този проблем, които могат да бъдат групирани в две категории: „плитки“ и „дълбоки“.
 
При „плитките“ подходи, които засега са по-сполучиливи в практиката, не се изисква разбиране на текста – вместо това се използват статистически методи, за да анализира контекстът на нееднозначната дума. При „дълбоките“ подходи се предполага, че системата притежава подробни знания за думите.
 
=== Имена ===
В много ситуации за системата за машинен превод е трудно или невъзможно да различи кои думи са имена или съкращения, които трябва да бъдат транслитерирани, [[транскрибиране|транскрибирани]] или прехвърлени без промяна, вместо да се превеждат.
 
=== Неграматичен изходен текст ===
Несъвършенствата на изходния текст, например правописни или правоговорни грешки, лоша пунктуация или недовършени изречения, могат да затруднят сериозно автоматичния превод.
 
В някои ситуации за да се подобри работата на системата за машинен превод оригиналният текст се подготвя ръчно, като например се маркират думите, които не трябва да се превеждат (имена и съкращения), отстранява се многозначността и т.н.
 
== История ==
Същинската история на машинния превод започва през 50-те години на 20-ти век след [[Втора световна война|Втората световна война]]. Проведеният през [[1954]] г. експеримент „Джорджтаун – Ай Би Ем“ с участието на университета „Джорджтаун“ и фирмата „Ай Би Ем“ представлява демонстрация, включваща превеждането на няколко десетки изречения от руски на английски. Експериментът има успех и поставя началото на период на сериозно финансиране за изследвания в областта на машинния превод. Авторите му заявяват, че в срок от три до пет години задачата за машинния превод ще бъде решена.
 
Действителният напредък обаче се оказва много по-бавен. През [[1966]] г. създаденият две години по-рано Специален комитет по приложна лингвистика ([[ALPAC]]) към Националната академия на науките на САЩ издава доклад, станал известен като „Черната книга на машинния превод“. Докладът съдържа много скептична оценка за изследванията в областта на машинния превод и възможността за постигане на сериозен напредък в близко бъдеще. След излизането му финансирането на изследванията в тази област в САЩ (и донякъде в СССР и Великобритания) намалява драстично. В Канада, Франция и Германия обаче разработките продължват.
 
През [[1970]] г. ВВС на САЩ внедряват системата [[Systran]], последвани през [[1976]] г. от [[Европейска комисия|Европейската комисия]]. През [[1977]] г. в Канада се внедрява системата [[METEO]], разработена от университета в [[Монреал]], която превежда климатични прогнози от английски на френски и работи и до днес, превеждайки по около 80 000 думи на ден или 30 милиона думи на година. В [[Европа]] от [[1970]] до [[1994]] г. се работи по основания и финансиран от Европейската комисия проект [[Eurotra]] за превод между езиците на [[Европейска общност|Европейската общност]]. Проектът не успява да достигне до практически използваем продукт, но работата по него повлиява положително на изследванията и разработките в областта на МП в отделните страни – участнички.
 
В края на 80-те години увеличаването на изчислителната мощност и поевтиняването на компютрите предизвиква интерес към статистическите модели за машинен превод и превода чрез примери. След средата на 90-те години вследствие поевтиняването и усъвършенстването на компютрите се наблюдава бурно развитие и поява на множество висококачествени комерсиални продукти в областта на машинния превод. С напредъка на технологиите за разпознаване и синтез на говор започват изследвания за превод на реч в реално време. В [[Интернет]] се появяват сайтове за автоматичен превод, например услугите ''Translate'' на [[Google]] и ''Babelfish'' на [[AltaVista]], които ползват ''Systran''.
 
Сред българските програми за машинен превод са ''Translat'' (за превод от английски и немски на български и обратно), ''Bultra'' (за превод от английски на български) и ''WebTrance'' (за превод между английски, френски, испански и български).
 
==Качество на машинния превод==
Разработени са различни методики за оценяване работата на системите за машинен превод. Най-старият подход включва хора – преводачи, които определят качеството на превода. Сред по-новите методи, вече автоматизирани, са [[BLEU]], [[NIST]] и [[METEOR]].
 
Съвременните системи за машинен превод не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил. В повечето случаи преведените от тях текстове могат да се използват само за бегло запознаване с темата на текста, но не и за пълно разбиране на смисъла.
 
При някои специализирани приложения обаче машинният превод вече е в състояние да замени човешкия до голяма степен (например при превода на климатични прогнози или технически упътвания, където използваният набор от думи и изразни средства е силно ограничен).
 
== Вижте също ==
 
* [[Изкуствен интелект]]
* [[Компютърна лингвистика]]
* [[Превод с помощта на компютър]]
* [[Обработка на естествен език]]
 
== Външни препратки ==
 
* {{de икона}} [http://liternet.bg/publish3/vkonstantinov/computer.htm Die ''Maschine als Deuter? Die Übersetzungskunst im Spannungsverhältnis zur Computer-Vermittlung''], [[Венцеслав Константинов|Wenzeslav Konstantinov]], "Literarisches Colloquium Berlin", 1992
 
 
[[Категория:Машинен превод|*]]
[[Категория:Компютърна лингвистика]][[Категория:Изкуствен интелект]][[Категория:Превод]]
 
[[af:Outomatiese vertaling]]
[[ar:ترجمة آلية]]
[[be:Машынны пераклад]]
[[be-x-old:Машынны пераклад]]
[[ca:Traducció automàtica]]
[[cs:Strojový překlad]]
[[cy:Peiriant cyfieithu]]
[[da:Maskinoversættelse]]
[[de:Maschinelle Übersetzung]]
[[en:Machine translation]]
[[eo:Maŝintradukado]]
[[es:Traducción automática]]
[[eu:Itzulpengintza automatikoa]]
[[fa:ترجمه ماشینی]]
[[fi:Konekääntäminen]]
[[fr:Traduction automatique]]
[[he:תרגום מכונה]]
[[hi:मशीनी अनुवाद]]
[[hr:Strojno prevođenje]]
[[hu:Gépi fordítás]]
[[id:Terjemahan mesin]]
[[it:Traduzione automatica]]
[[ja:機械翻訳]]
[[ko:기계 번역]]
[[lt:Automatinis vertimas]]
[[ms:Terjemahan mesin]]
[[nl:Computervertaling]]
[[no:Maskinoversettelse]]
[[oc:Traduccion automatica]]
[[pl:Tłumaczenie automatyczne]]
[[pt:Tradução automática]]
[[ro:Traducere automată]]
[[ru:Машинный перевод]]
[[simple:Machine translation]]
[[sk:Strojový preklad]]
[[sr:Машинско превођење]]
[[sv:Maskinöversättning]]
[[ta:பொறிமுறை மொழிபெயர்ப்பு]]
[[tg:Тарҷумаи мошинӣ]]
[[th:การแปลภาษาอัตโนมัติ]]
[[uk:Машинний переклад]]
[[vi:Dịch tự động]]
[[wuu:机器翻译]]
[[zh:机器翻译]]
[[zh-yue:機械翻譯]]