Новое поколение искусственного интеллекта учится без человеческой помощи - The Economist

В 2016 году один из лучших игроков Go Ли Седол проиграл матч компьютерной программе AlphaGo со счетом 4:1. Это было большим событием как для истории самой игры, так и для искусственного интеллекта.

Go занимает такое же место в культуре китайцев, корейцев и японцев, как шахматы на Западе. После победы над Ли AlphaGo одолела десятки других игроков в ряде анонимных игр онлайн, прежде чем выступить против Кэ Цзе во время матча в Китае. Новый человеческий чемпион тоже проиграл машине со счетом 3:0.

Для разработчиков искусственного интеллекта игра Go тоже была большим достижением. Машины покорили шахматы в 1997 году, когда Гарри Каспаров проиграл компьютеру IBM под названием Deep Blue. Но до поражения Ли сложность Go не позволяла компьютерам ее в совершенстве освоить. Победа AlphaGo стала яркой демонстрацией силы машинного обучения, которое позволяет компьютерам осваивать сложные задачи самостоятельно.

Об этом пишет The Economist, добавляя, что AlphaGo научилась играть в Go, изучив матч между опытными игроками-людьми. Программа изучила правила и тактики, а затем разработала сотни собственных, играя сама с собой. Этого оказалось достаточно, чтобы стать сильнее любого человеческого игрока. Однако, разработчики AlphaGo в компании DeepMind были убеждены, что могут улучшить свое детище.

В недавней статье они объявили о разработке новой версии под названием AlphaGo Zero. Она значительно лучший игрок, учится быстрее и требует меньше компьютерного оборудования для работы. Но самое важное то, что новая версия способна учиться игре сама без помощи экспертов-людей.

Как все самые лучшие игры, Go легко научиться, но сложно добиться в ней мастерства. Два игрока - черный и белый - делают ходы, кладя камешки на доске, разделенной на 19 вертикальных и 19 горизонтальных строк. Цель игры - контролировать больше территории, чем оппонент. Камни, которые оказались в окружении соперника, удаляются с доски. Игроки могут играть сколько хотят. В конце каждый из них подсчитывает количество камней на доске и добавляет к ним количество "захваченных" позиций оппонента. У кого большее число, тот и выиграл.

Сложность игры в большом количестве возможных ходов. Доска 19х19 допускает 361 точку, куда черный игрок может положить свой камень. Белый в свою очередь имеет 360 ходов в ответ. Общее количество комбинаций позиций составляет 10170. Их настолько много, что найти аналог в мире очень сложно.

Человеческие мастера игры сосредотачиваются на понимании ее на высшем уровне. Простота правил Go дает простор для возникновения различных фигур. Игроки говорят о "глазах", "лестнице", о таких концепциях как "угроза" или "жизненная важность". Однако, если для людей такие вещи понятны, объяснить их в буквальной форме программы для компьютера значительно сложнее. Поэтому первая AlphaGo изучила сотни примеров игры между людьми в процессе, который называют "обучение под присмотром". Поскольку игра между людьми отражает понимание человеческих концепций, компьютер, изучив большое количество матчей, тоже способен их постичь. Когда AlphaGo изучила значительное количество тактик и стратегий с помощью людей, она начала проводить миллионы матчей самостоятельно для улучшения игры с каждым новым матчем.

Метод обучения под присмотром полезен не только для того, чтобы заставить машину хорошо играть в Go. Этот метод лежит в основе многих последних достижений искусственного интеллекта. Благодаря ему компьютеры учатся выполнять различные функции, такие как распознавать лица на фото, распознавать человеческую речь, фильтровать спам в электронной почте и тому подобное.

Но, по словам руководителя Deepmind Демиса Хассабиса, метод обучения под надзором имеет свои пределы. Он полагается на доступность данных для обучения, которые можно показать машине, чтобы она поняла, что нужно делать. И такие данные отбирают люди. К примеру, тренировочные материалы для распознавания лиц состоят из тысяч фото, среди которых есть снимки с лицами и без. Каждое из них обозначено людьми. Поэтому формирование таких баз данных - не дешевый процесс. Кроме того, такая форма обучения компьютера ограничивается еще и человеческими способностями.

AlphaGo Zero разработана так, чтобы избежать этих проблем, отказываясь от механизма тренировки полностью. Программа начинает лишь с заложенными правилами игры и "функцией вознаграждения", которая вознаграждает ее баллом за победу и наоборот в случае поражения. Потом, программу поощряют экспериментировать, постоянно играя в игры против других версий себя. Единственным условием устанавливается лишь цель добиться максимального количества наград. Программа начинает играть в Go, размещая камни в произвольном порядке, не имея понятия, как нужно это делать на самом деле. Но она очень быстро улучшает свои подходы и методику. За день AlphaGo Zero научилась играть как продвинутый профессиональный игрок. За два - она обыграла предыдущую версию, которая победила человеческого чемпиона Ли Седола в 2016 году.

Ранее ученые из университета Аделаиды научили искусственный интеллект предсказывать смерть пациента по результатам компьютерной томографии грудной клетки.

Пожалуйста выберите один или несколько пунктов (до 3 шт.) которые по Вашему мнению определяет этот комментарий.

Пожалуйста выберите один или больше пунктов

Нецензурная лексика, ругань Флуд Нарушение действующего законодательства Украины Оскорбление участников дискуссии Реклама Разжигание розни Признаки троллинга и провокации Другая причина Отмена Отправить жалобу ОК