MuZero - MuZero

MuZero - это компьютерная программа, разработанная компанией DeepMind, занимающаяся исследованиями искусственного интеллекта, для освоения игр, не зная их правил. Его выпуск в 2019 году включал тесты производительности в го , шахматах , сёги и стандартный набор игр Atari . В алгоритме используется подход, аналогичный AlphaZero . Он соответствовал производительности AlphaZero в шахматах и ​​сёги, улучшил его производительность в Go (установив новый мировой рекорд) и улучшил состояние искусства в освоении набора из 57 игр Atari (Arcade Learning Environment), визуально сложной домен.

MuZero был обучен путем самостоятельной игры, без доступа к правилам, открывающим книгам или основам финальной игры. Обученный алгоритм использовал те же сверточные и остаточные алгоритмы, что и AlphaZero, но с на 20% меньше шагов вычислений на узел в дереве поиска.

История

MuZero действительно открывает для себя, как построить модель и понять ее только из первых принципов.

-  Дэвид Сильвер, DeepMind, Wired

19 ноября 2019 года команда DeepMind выпустила препринт, представляющий MuZero.

Производные от AlphaZero

MuZero (MZ) - это сочетание высокопроизводительного планирования алгоритма AlphaZero (AZ) с подходами к обучению с подкреплением без использования моделей. Комбинация позволяет более эффективно обучаться в классических режимах планирования, таких как Go, а также обрабатывать области с гораздо более сложными входами на каждом этапе, например, визуальные видеоигры.

MuZero был получен непосредственно из кода AZ, разделяя его правила установки гиперпараметров . Различия между подходами включают:

  • В процессе планирования АЗ используется симулятор . Симулятор знает правила игры. Это должно быть явно запрограммировано. Затем нейронная сеть предсказывает политику и ценность будущей позиции. Совершенное знание правил игры используется при моделировании переходов состояний в дереве поиска, действий, доступных в каждом узле, и завершения ветви дерева. MZ не имеет доступа к правилам и вместо этого изучает их с помощью нейронных сетей.
  • AZ имеет единую модель игры (от состояния доски до прогнозов); MZ имеет отдельные модели для представления текущего состояния (от состояния доски к ее внутреннему встраиванию), динамики состояний (как действия изменяют представление состояний доски) и прогнозирования политики и значения будущей позиции (с учетом представления состояния).
  • Скрытая модель MZ может быть сложной, и может оказаться, что она может содержать вычисления; изучение деталей скрытой модели в обученном экземпляре MZ - это тема для будущих исследований.
  • MZ не ожидает игры для двух игроков, в которой победители получают все. Он работает со стандартными сценариями обучения с подкреплением, включая среды с одним агентом с непрерывным промежуточным вознаграждением, возможно, произвольной величины и с дисконтом по времени. AZ был разработан для игр двух игроков, которые можно было выиграть, сыграть вничью или проиграть.

Сравнение с R2D2

Предыдущей современной техникой обучения игре в набор игр Atari была R2D2, Recurrent Replay Distributed DQN.

MuZero превзошел как среднюю, так и медианную производительность R2D2 по набору игр, хотя и не во всех играх.

Обучение и результаты

MuZero использовал 16 блоков тензорной обработки ( TPU) третьего поколения для обучения и 1000 TPU для самостоятельной игры для настольных игр с 800 симуляциями на шаг и 8 TPU для обучения и 32 TPU для самостоятельной игры для игр Atari с 50 симуляциями на шаг.

AlphaZero использовала 64 TPU первого поколения для обучения и 5000 TPU второго поколения для самостоятельной игры. Поскольку конструкция TPU улучшилась (чипы третьего поколения в отдельности в два раза мощнее чипов второго поколения, с дальнейшим улучшением пропускной способности и сетевого взаимодействия между чипами в модуле), это сопоставимые обучающие установки.

R2D2 обучался в течение 5 дней за 2 миллиона шагов обучения.

Первые результаты

MuZero сравнялся с AlphaZero в шахматах и ​​сёги примерно после 1 миллиона тренировочных шагов. Он сравнялся с показателями AZ в го после 500 тысяч тренировочных шагов и превзошел его на 1 миллион шагов. Он соответствовал средней и средней производительности R2D2 в игровом наборе Atari после 500 тысяч шагов обучения и превзошел его на 1 миллион шагов, хотя никогда не работал хорошо в 6 играх в наборе.

Реакции и связанные с ними работы

MuZero рассматривался как значительный прогресс по сравнению с AlphaZero и значительный шаг вперед в методах обучения без учителя. Работа была замечена как продвижение понимания того, как составлять системы из более мелких компонентов, разработка на системном уровне больше, чем разработка чисто машинного обучения.

Хотя команда разработчиков выпустила только псевдокод, Вернер Дюво создал на его основе реализацию с открытым исходным кодом.

MuZero использовался в качестве эталонной реализации в других работах, например, как способ создания поведения на основе модели.

Смотрите также

использованная литература

внешние ссылки