AlphaZero - AlphaZero

AlphaZero - это компьютерная программа, разработанная компанией DeepMind, занимающаяся исследованиями искусственного интеллекта, для освоения шахмат , сёги и го . В этом алгоритме используется подход, аналогичный AlphaGo Zero .

5 декабря 2017 года команда DeepMind выпустила препринт, представляющий AlphaZero, который в течение 24 часов обучения достиг сверхчеловеческого уровня игры в этих трех играх, победив программы чемпионов мира Stockfish , elmo и трехдневную версию AlphaGo Zero. . В каждом случае использовались настраиваемые блоки тензорной обработки (TPU), для использования которых были оптимизированы программы Google. AlphaZero был обучен исключительно посредством «самостоятельной игры» с использованием 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей , все параллельно , без доступа к открывающим книгам или таблицам финальных игр . После четырех часов обучения DeepMind оценил, что AlphaZero играет в шахматы с более высоким рейтингом Эло, чем Stockfish 8; после 9 часов обучения алгоритм победил Stockfish 8 в турнире из 100 партий (28 побед, 0 поражений и 72 ничьих). Обученный алгоритм играл на одной машине с четырьмя TPU.

Статья DeepMind об AlphaZero была опубликована в журнале Science 7 декабря 2018 года. В 2019 году DeepMind опубликовала новую статью с подробным описанием MuZero , нового алгоритма, способного обобщать работу AlphaZero, играя как в Atari, так и в настольные игры, не зная правил или представлений игра.

Отношение к AlphaGo Zero

AlphaZero (AZ) - это более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , который может играть в сёги и шахматы, а также в го . Различия между AZ и AGZ включают:

  • В AZ жестко запрограммированы правила настройки гиперпараметров поиска .
  • Нейронная сеть теперь постоянно обновляется.
  • Го (в отличие от шахмат) симметричен при определенных отражениях и поворотах; AlphaGo Zero был запрограммирован на использование этих симметрий. AlphaZero - нет.
  • В отличие от го, шахматы могут закончиться ничьей ; поэтому AlphaZero учитывает возможность ничьей.

Вяленая рыба и эльмо

Сравнивая поиск по дереву методом Монте-Карло , AlphaZero ищет только 80 000 позиций в секунду в шахматах и ​​40 000 в сеги, по сравнению с 70 миллионами для Stockfish и 35 миллионами для elmo. AlphaZero компенсирует меньшее количество оценок, используя свою глубокую нейронную сеть, чтобы более избирательно сосредоточиться на наиболее многообещающем варианте.

Обучение

AlphaZero был обучен исключительно в режиме самостоятельной игры с использованием 5000 TPU первого поколения для создания игр и 64 TPU второго поколения для обучения нейронных сетей . Параллельно с этим, AlphaZero во время обучения периодически сравнивался с его эталонным тестом (Stockfish, elmo или AlphaGo Zero) в коротких односекундных играх на ход, чтобы определить, насколько хорошо продвигается обучение. DeepMind пришел к выводу, что производительность AlphaZero превысила эталонный показатель после примерно четырех часов обучения Stockfish, двух часов для Elmo и восьми часов для AlphaGo Zero.

Предварительные результаты

Исход

Шахматы

В шахматном матче AlphaZero против Stockfish 8 ( чемпион мира TCEC 2016 года) каждой программе давалась одна минута на ход. Stockfish было выделено 64 потока и размер хэша 1 ГБ, что позже Торд Ромстад из Stockfish назвал неоптимальным. AlphaZero тренировался по шахматам за девять часов до матча. Во время матча AlphaZero работал на одной машине с четырьмя приложения определенного ТПУ . В 100 играх с обычной стартовой позиции AlphaZero выиграл 25 партий белыми, 3 - черными и оставшиеся 72 - вничью. В серии из двенадцати матчей по 100 партий (с неопределенным временем или ограничениями ресурсов) против Stockfish, начиная с 12 самых популярных человеческих дебютов, AlphaZero выиграла 290, сыграла вничью 886 и проиграла 24.

Сёги

AlphaZero тренировался по сёги в общей сложности за два часа до турнира. В 100 играх сёги против Эльмо ​​(версия 27-го летнего турнира World Computer Shogi Championship 2017 с поиском YaneuraOu 4.73) AlphaZero выиграла 90 раз, проиграла 8 раз и дважды сыграла вничью. Как и в шахматных играх, каждая программа получала одну минуту на ход, а elmo было дано 64 потока и размер хэша 1 ГБ.

Идти

После 34 часов самообучения Го и против AlphaGo Zero AlphaZero выиграла 60 игр и проиграла 40.

Анализ

DeepMind заявила в своем препринте: «Игра в шахматы представляла собой вершину исследований искусственного интеллекта на протяжении нескольких десятилетий. Современные программы основаны на мощных машинах, которые ищут многие миллионы позиций, используя ручной опыт в предметной области и сложную адаптацию предметной области. AlphaZero - это общий алгоритм обучения с подкреплением , изначально разработанный для игры в го, который достиг превосходных результатов в течение нескольких часов, ища в тысячу раз меньше позиций, не имея никаких знаний в предметной области, кроме правил ». Демис Хассабис из DeepMind, сам шахматист, назвал стиль игры AlphaZero «чужим»: иногда он побеждает, предлагая нелогичные жертвы, например, предлагая ферзя и слона, чтобы использовать позиционное преимущество. «Это похоже на шахматы из другого измерения».

Учитывая сложность в шахматах добиться победы над сильным соперником , результат +28 –0 = 72 представляет собой значительный запас победы. Однако некоторые гроссмейстеры, такие как Хикару Накамура и разработчик Komodo Ларри Кауфман , преуменьшают значение победы AlphaZero, утверждая, что матч был бы ближе, если бы программы имели доступ к открытой базе данных (поскольку Stockfish был оптимизирован для этого сценария). Ромстад дополнительно указал, что Stockfish не оптимизирован для жестко фиксированных перемещений, а использовавшаяся версия была годовой давности.

Точно так же некоторые наблюдатели сёги утверждали, что размер хэша elmo был слишком мал, что настройки отказа и настройки «EnteringKingRule» (ср. Shogi § Entering King ) могли быть неуместными, и что elmo уже устарел по сравнению с более новыми программами.

Реакция и критика

В статьях говорилось, что тренировка по шахматам длилась всего четыре часа: «На это ушло немногим больше, чем время между завтраком и обедом». Wired рекламировал AlphaZero как «первого чемпиона по настольным играм с ИИ в различных областях». Эксперт в области искусственного интеллекта Джоанна Брайсон отметила, что «способность Google к хорошей рекламе» дает ему сильные позиции в борьбе с конкурентами. «Речь идет не только о найме лучших программистов. Это также очень политически, поскольку помогает сделать Google максимально сильным в переговорах с правительствами и регулирующими органами, рассматривающими сектор ИИ».

Человеческие гроссмейстеры в целом выражали восторг по поводу AlphaZero. Датский гроссмейстер Питер Хайне Нильсен сравнил игру AlphaZero с игрой высших инопланетных существ. Норвежский гроссмейстер Йон Людвиг Хаммер охарактеризовал игру AlphaZero как «безумные атакующие шахматы» с глубоким позиционным пониманием. Бывший чемпион Гарри Каспаров сказал: «Это замечательное достижение, даже если мы должны были ожидать его после AlphaGo».

Гроссмейстер Хикару Накамура был менее впечатлен и заявил: «Я не обязательно доверяю результатам просто потому, что я понимаю, что AlphaZero в основном использует суперкомпьютер Google, а Stockfish не работает на этом оборудовании; Stockfish в основном работал. на том, что было бы моим ноутбуком. Если вы хотите получить сопоставимый матч, вам нужно, чтобы Stockfish был запущен на суперкомпьютере ».

Ведущий американский шахматист по переписке Вольф Морроу также не был впечатлен, заявив, что AlphaZero, вероятно, не выйдет в полуфинал честного соревнования, такого как TCEC, где все движки играют на одинаковом оборудовании. Морроу также заявил, что, хотя он, возможно, не смог бы победить AlphaZero, если бы AlphaZero разыграл ничейные дебюты, такие как защита Петрова , AlphaZero также не смог бы победить его в заочной шахматной игре.

Мотохиро Исодзаки, автор YaneuraOu, отметил, что, хотя AlphaZero действительно полностью победил Эльмо, рейтинг AlphaZero в сеги перестал расти в точке, которая не более чем на 100 ~ 200 выше, чем у Эльмо. Этот разрыв не так велик, и elmo и другие программы для сёги должны наверстать упущенное через 1-2 года.

Окончательные результаты

DeepMind рассмотрел многие критические замечания в своей окончательной версии статьи, опубликованной в декабре 2018 года в журнале Science . Далее они пояснили, что AlphaZero не работает на суперкомпьютере; он был обучен с использованием 5000 блоков тензорной обработки (TPU), но в своих матчах работал только на четырех TPU и 44-ядерном процессоре.

Шахматы

В окончательных результатах Stockfish версии 8 работал в тех же условиях, что и в суперфинале TCEC : 44 ядра ЦП, конечные таблицы Syzygy и размер хэша 32 ГБ. Вместо фиксированного контроля времени, равного одному ходу в минуту, обоим двигателям давалось 3 часа плюс 15 секунд на каждый ход, чтобы завершить игру. В матче из 1000 игр AlphaZero выиграла со счетом 155 побед, 6 поражений и 839 ничьих. DeepMind также провел серию игр, используя начальные позиции TCEC; AlphaZero также убедительно выиграла. Stockfish нуждался в коэффициенте времени 10: 1, чтобы соответствовать AlphaZero.

Сёги

Как и Stockfish, Эльмо ​​бежал в тех же условиях, что и на чемпионате CSA 2017 года. Используемая версия Elmo была WCSC27 в сочетании с YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo работал на том же оборудовании, что и Stockfish: 44 ядра ЦП и размер хэша 32 ГБ. AlphaZero выиграла 98,2% игр черным цветом (который играет первым в сёги) и 91,2% в целом.

Реакции и критика

Человеческие гроссмейстеры в целом были впечатлены партиями AlphaZero против Stockfish. Бывший чемпион мира Гарри Каспаров сказал, что было приятно наблюдать за игрой AlphaZero, тем более что ее стиль был открытым и динамичным, как и его собственный.

В компьютерном шахматном сообществе разработчик Komodo Марк Лефлер назвал это «довольно удивительным достижением», но также отметил, что данные устарели, поскольку Stockfish сильно набрал силу с января 2018 года (когда был выпущен Stockfish 8). Соавтор-разработчик Ларри Кауфман сказал, что AlphaZero, вероятно, проиграет матч против последней версии Stockfish, Stockfish 10, на условиях Top Chess Engine Championship (TCEC). Кауфман утверждал, что единственным преимуществом движков на основе нейронных сетей было то, что они использовали графический процессор, поэтому, если не принималось во внимание энергопотребление (например, в соревновании с одинаковым оборудованием, когда оба движка имели доступ к одному и тому же процессору и графическому процессору), тогда что угодно достигнутый GPU был «бесплатным». Основываясь на этом, он заявил, что самая сильная машина, вероятно, будет гибридом с нейронными сетями и стандартным альфа-бета-поиском .

AlphaZero вдохновила компьютерное шахматное сообщество на разработку Leela Chess Zero с использованием тех же методов, что и AlphaZero. Лила участвовала в нескольких чемпионатах против Stockfish, где продемонстрировала примерно такую ​​же силу, как и Stockfish.

В 2019 году DeepMind опубликовала MuZero , унифицированную систему, в которой можно отлично играть в шахматы, сёги и го, а также в игры в среде обучения Atari , без предварительного программирования их правил.

Смотрите также

Примечания

использованная литература

внешние ссылки