Сквозное обучение с подкреплением - End-to-end reinforcement learning

При сквозном обучении с подкреплением весь процесс от датчиков до двигателей в роботе или агенте (называемый сквозным процессом) включает в себя одиночную, многоуровневую или рекуррентную нейронную сеть без модуляции и обучается с помощью обучения с подкреплением ( RL). Этот подход предлагался в течение долгого времени, но он был активизирован благодаря успешным результатам обучения игре в видеоигры Atari (2013–15) и AlphaGo (2016) с помощью Google DeepMind .

RL традиционно требовал явного проектирования пространства состояний и пространства действий, в то время как отображение из пространства состояний в пространство действий изучалось. Следовательно, RL был ограничен обучением только для действия, и дизайнеры-люди должны спроектировать, как построить пространство состояний из сигналов датчиков, и указать, как генерируются команды движения для каждого действия перед обучением. Нейронные сети часто использовались в RL, чтобы обеспечить приближение нелинейных функций, чтобы избежать проклятия размерности . Также использовались рекуррентные нейронные сети , в основном для того, чтобы избежать перцептивного искажения или частично наблюдаемого марковского процесса принятия решений (POMDP).

Сквозной RL расширяет RL от обучения только действиям до изучения всего процесса от датчиков до двигателей, включая функции более высокого уровня, которые сложно разработать независимо от других функций. Функции более высокого уровня не подключаются напрямую ни к датчикам, ни к двигателям, поэтому даже указать их входы и выходы сложно.

История

Подход возник в TD-Gammon (1992). В нардах оценка игровой ситуации во время самостоятельной игры была изучена с помощью TD ( ) с использованием многоуровневой нейронной сети. Четыре входа использовались для количества элементов данного цвета в заданном месте на плате, всего 198 входных сигналов. С нулевым уровнем знаний сеть научилась играть в игру на среднем уровне.

Шибата начал работать с этой структурой в 1997 году. Они использовали Q-обучение и актер-критик для задач непрерывного движения и использовали рекуррентную нейронную сеть для задач, требующих памяти. Они применили эту структуру для некоторых реальных задач роботов. Они продемонстрировали обучение различным функциям.

Примерно с 2013 года Google DeepMind показал впечатляющие результаты обучения в видеоиграх и игре го ( AlphaGo ). Они использовали глубокую сверточную нейронную сеть, которая показала превосходные результаты в распознавании изображений. В качестве входных данных они использовали 4 кадра почти необработанных пикселей RGB (84x84). Сеть обучалась на основе RL с вознаграждением, представляющим знак изменения игрового счета. Все 49 игр были изучены с использованием одной и той же сетевой архитектуры и Q-обучения с минимальными предварительными знаниями и превосходили конкурирующие методы почти во всех играх и выполнялись на уровне, сопоставимом или превосходящем уровень профессионального тестировщика игр. Иногда ее называют сетью Deep-Q (DQN). В AlphaGo глубокие нейронные сети обучаются не только путем обучения с подкреплением , но также путем обучения с учителем и поиска по дереву Монте-Карло .

Возникновение функции

Группа Шибаты показала, что в этой структуре возникают различные функции, в том числе:

  • Распознавание изображений
  • Постоянство цвета (оптическая иллюзия)
  • Датчик движения (активное распознавание)
  • Зрительно-моторная координация и движение рук
  • Объяснение деятельности мозга
  • Передача знаний
  • объем памяти
  • Избирательное внимание
  • Предсказание
  • Исследование

В этих рамках были установлены коммуникации. Режимы включают:

  • Динамическое общение (переговоры)
  • Бинализация сигналов
  • Заземленное общение с помощью настоящего робота и камеры

Ссылки