Обучение с утвърждение

В контекста на Изкуствения Интелект, терминът „Обучение с утвърждение“, или "Учене с подсилване" и "Учене с подкрепление" (анг. Reinforcement Learning) обозначава група от методи за автоматично самообучение. Тези методи се отличават със способността си да функционират без необходимост от примерни решения на поставения проблем. Обучението протича като последователност от пробни действия, които постепенно водят до утвърждаване на добрите действия и избягване на неподходящите.

Проблеми от този тип често се представят като агент, разположен в някакво обкръжение, който взима решения в зависимост от състоянието на това обкръжение. На свой ред обкръжението реагира с награда или наказание, в зависимост от това колко уместно е било избраното действие.

Резултатът от обучението е оптимална стратегия за действие във всяка ситуация. Стратегията е оптимална ако успява да максимизира сумата от всички награди получени по време на изпълнението си.

История и връзка с други области редактиране

Сред първите алгоритми за Обучение с утвърждение са т.нар. TD-Learning, разработен от Ричард Сътън през 1988, и Q-Learning, разработен 1989 и публикуван 1992 година.

Тези методи са също така свързани с теорията на оптималния контрол. Обучението с утвърждение често пъти се разглежда като дискретен Марковски процес. Агентът взима решения на дискретни стъпки и всяко следващо решение зависи само от текущото състояние на обкръжението, а не цялата история от предишни състояния. Тази формулировка на проблема е въведена от Белман през 1957 година.

Формализъм редактиране

Обучението чрез утвърждение може да се разглежда като комбинация от три елемента:

  • Множество  , включващо всички състояния на обкръжението които агентът разпознава
  • Множество  , включващо всички действия, които агентът може да извърши
  • Множество  , включващо наградата която агентът може да получи

При дадено състояние   и  , агентът получава награда   Тази функционална зависимост може да бъде записана по следния начин:

 

Целта на агента е да открие такава стратегия  , която максимизира сумарната награда получени на всяка стъпка:

 

Обикновено наградата в близките състояния на обкръжението е много по-важна от тази на далечните бъдещи състояния. Тази зависимост може да бъде отразена чрез въвеждането на коефициент гама:

 

Източници редактиране