Искусственный интеллект AlphaGo Zero может самообучаться

То, что искусственный интеллект вышел на новый уровень развития, говорит возможность нейросети AlphaGo Zero побеждать в го, не используя загруженные в память варианты ходов из партий мастеров.

Программисты из компании DeepMind издали в Nature очерк о новом алгоритме для AlphaGo — AlphaGo Zero, программе искусственного интеллекта, которая играет в го — древнюю настольную игру Китая. Деятельность этой новейшей версии AlphaGo основывается лишь на самообучении, в нее не был заложен опыт игр мастеров в го. Программа с данной системой победила в игре всех своих искусственных предшественников, а профессиональные мастера игры в го утверждают, что, ведя наблюдения за партиями AplhaGo Zero, они открывают для себя новые сильные ходы.

В 1944 году издалась книга, заложившая математические основы теории игр — «Теория игр и экономическое поведение» Джона фон Неймана и Оскара Моргенштерна. Джон фон Нейман кроме этого научного труда проявил себя во многих других областях, но, что примечательно, именно он создал «архитектуру фон Неймана» — базовую архитектуру всех компьютеров, действующую и сегодня.

Джон Нэш лишь в 1994 году получил премию Нобеля за экономическую работу по исследованию некооперативных игр почти полувековой давности (1949). Он же стал главным героем фильма «Игры разума», в котором простым языком поясняются основы его теории игр. Данная теория, описанная Нэшем и Нейманом, определяет все игры как взаимодействие игроков, ограниченное формальными правилами. Для наглядности подходит всем известная игра крестики-нолики, где два участника по очереди ставят крестик или нолик в пустые поля. Победа одерживается при выполнении условия заполнения трёх клеток в ряд. В этой игре побеждает тот, кто ходит первым, но только если не допустит ошибки. Получается, что компьютер обыгрывает человека всегда, когда ходит первым. Если первый ход за человеком, который играет без ошибок, то он тоже всегда обыграет компьютер.

Это называется доминирующей стратегией игры. Но она есть не у всех игр. Например, в шахматах соперник должен опираться в своих ходах на ходы партнера, чтоб противодействовать ему и даже предвосхищать следующий шаг. Абсолютно все современные системы искусственного разума так и поступают, AlphaGo Zero в том числе.

Победа Deep Blue в поединке с Гарри Гаспаровым в 1996 году доказала, что машина достигла достаточной производительности, чтобы опередить человека хотя бы в шахматной партии. Хотя процесс расчета исходов партии, применяемый в Deep Thought/Blue, мало напоминает мыслительный процесс человека. Игрок в шахматы не просчитывает ходы явно — он даёт оценку наиболее перспективным ходам и выбирает предпочтительный ход практически интуитивно. Компьютерный же «мозг» реально рассчитывает десятки вариантов, и выбирает из них максимально выгодный для себя, основываясь на уже заложенных в нем данных.

В шахматах число возможных ходов из каждой позиции не больше 64, а в игре го гораздо больше — порядка 250. Делать расчеты партий го на много ходов вперёд уходит много времени и трудозатрат. Из- за этого разработчики первоначального AlphaGo отказались от полного расчета следующих шагов, а стали рассчитывать наперед всего на несколько ходов, а дальше оценивать позицию в общем. А для оценки решили пользоваться записью игр мастеров го. Подход себя оправдал, и вскоре ИИ AlphaGo победил сильнейших чемпионов в данной игре — Ке Цзе и Ли Седоля.

Прорыв новой версии AlphaGo Zero заключается в том, что система, работающая на одном мощном сервере, не обучается на играх мастеров и опыте миллионов сыгранных человеком партий, а играет сам с собой и генерирует все важные стратегии достижения победы в го всего за несколько дней (общее время обучения Zero — чуть больше месяца). AlphaGo Zero выигрывает предыдущие версии AlphaGo и человека в 87 случаях из ста.

Сегодня нейронные сети применяются при создании беспилотных автомобилей, систем безопасности, анализа поведения оборудования, а также в медицине — для анализа рентгенснимков, и даже в фундаментальной науке — например, в исследованиях черных дыр. И в дальнейшем область применения искусственного интеллекта будет только расширяться.

Новости СМИ2