Нове покоління штучного інтелекту навчається без людської допомоги - The Economist

В 2016 році один з найкращих гравців Go Лі Седол програв матч комп'ютерній програмі AlphaGo з рахунком 4:1. Це було великою подією як для історії самої гри, так і для штучного інтелекту.

Go займає таке ж місце у культурі китайців, корейців і японців, як шахи на Заході. Після перемоги над Лі AlphaGo здолала десятки інших гравців у низці анонімних ігор онлайн, перш ніж виступити проти Ке Цзе під час матчу в Китаї. Новий людський чемпіон теж програв машині з рахунком 3:0.

Для розробників штучного інтелекту гра Go теж була великим здобутком. Машини підкорили собі шахи в 1997 році, коли Гаррі Каспаров програв комп'ютеру IBM під назвою Deep Blue. Але до поразки Лі скадність Go не дозволяла комп'ютерам її досконало освоїти. Перемога AlphaGo стала яскравою демонстрацією сили машинного навчання, яке дозволяє комп'ютерам освоювати складні завдання самостійно.

Про це пише The Economist, додаючи, що AlphaGo навчилася грати в Go, вивчивши матчі між досвідченими гравцями-людьми. Програма вивчила правила і тактики, а потім розробила сотні власних, граючи сама з собою. Цього виявилося достатньо, щоб стати сильнішою за будь-якого людського гравця. Однак, розробники AlphaGo у компанії DeepMind були переконані, що можуть покращити своє дітище.

В нещодавній статті вони оголосили про розробку нової версії під назвою AlphaGo Zero. Вона значно кращий гравець, вчиться швидше і потребує менше комп'ютерного обладнання для роботи. Але найважливіше те, що нова версія здатна вчитися грі сама без допомоги експертів-людей.

Як усі найкращі ігри, Go легко навчитися, але складно досягти в ній майстерності. Два гравці - чорний і білий - роблят ходи, кладучи камінці на дошці, поділеній на 19 вертикальних і 19 горизонтальних рядків. Мета гри - контролювати більше території, ніж опонент. Камені, які опинилися в оточенні суперника, видаляються з дошки. Гравці можуть грати, скільки хочуть. В кінці кожен з них підраховує кількість каменів на дошці і додає до них кількість "захоплених" позицій опонента. У кого більше число, той і виграв.

Складність гри у великій кількості можливих ходів. Дошка 19х19 допускає 361 точку, куди чорний гравець може покласти свій камінь. Білий у свою чергу має 360 ходів у відповідь. Загальна кількість комбінацій позицій складає 10170. І настільки багато, що знайти аналог у світі дуже складно.

Людські майстри гри зосереджуються на розумінні її на вищому рівні. Простота правил Go дає простір для виникнення різних фігур. Гравці говорять про "очі", "сходи", про такі концепції як "загроза" чи "життєва важливість". Однак, якщо для людей такі речі зрозумілі, пояснити їх у формі буквальної програми для комп'ютера значно складніше. Тож перша AlphaGo вивчила сотні прикладів гри між людьми у процесі, який називають "навчання під наглядом". Оскільки гра між людьми відображає розуміння людських концепцій, комп'ютер, вивчивши велику кількість матчів, теж здатен їх осягнути. Коли AlphaGo вивчила значну кількість тактик і стратегій за допомогою людей, вона почала проводити мільйони матчів самостійно для покращення гри з кожним новим матчем.

Метод навчання під наглядом корисний не лише для того, щоб змусити машину добре грати в Go. Цей метод лежить в основі багатьох останніх досягнень штучного інтелекту. Завдяки йому комп'ютери вчаться виконувати різні функції, такі як розпізнавати обличчя на фото, розпізнавати людську мову, фільтрувати спам в електронній пошті тощо.

Але, за словами керівника Deepmind Деміса Хассабіса, метод навчання під наглядом має свої межі. Він покладається на доступність даних для навчання, які можна показати машині, щоб вона зрозуміла, що потрібно робити. І такі дані відбирають люди. Приміром, тренувальні матеріали для розпізнавання облич складаються з тисяч фото, серед яких є знімки з обличчями і без. Кожне з них позначене людьми. Тож формування таких баз даних - не дешевий процес. Крім того, така форма навчання комп'ютера обмежується ще й людськими здібностями.

AlphaGo Zero розроблена так, щоб уникнути цих проблем, відмовляючись від механізму тренування повністю. Програма починає лише з закладеними правилами гри і "функцією винагороди", яка винагороджує її балом за перемогу і навпаки в разі поразки. Потім, програму заохочують експериментувати, постійно граючи в ігри проти інших версій себе. Єдиною умовою встановлюється лише ціль добитися максимальної кількості нагород. Програма починає грати в Go, розміщуючи камені в довільному порядку, не маючи й гадки, як належить це робити насправді. Але вона дуже швидко покращує свої підходи і методику. За день AlphaGo Zero навчилася грати як просунутий професійний гравець. За два - вона обіграла попередню версію, яка перемогла людського чемпіона Лі Седола у 2016 році.

Раніше вчені з університету Аделаїди навчили штучний інтелект пророкувати смерть пацієнта за результатами комп'ютерної томографії грудної клітини.

Будь ласка, виберіть один або кілька пунктів (до 3 шт.), які на Вашу думку визначає цей коментар.

Будь ласка, виберіть один або більше пунктів

Нецензурна лексика, лайка Флуд Порушення дійсного законодвства України Образа учасників дискусії Реклама Розпалювання ворожнечі Ознаки троллінгу й провокації Інша причина Відміна Надіслати скаргу ОК