Технології фейкових новин: все тільки починається - The Economist

На початку цього року французька співачка Франсуаза Арді з'явилася на відео, розміщеному на YouTube. Закадровий голос запитав її, чому президент Дональд Трамп змусив свого прес-секретаря Шона Спайсера збрехати про те, скільки людей прийшло на його інавгурацію.

Спочатку Арді сперечалася. А потім сказала, що Спайсер "озвучив альтернативні факти з цього приводу". Відео мало дивний вигляд хоча б тому, що співачці зараз 73 роки, а, коментуючи інавгурацію Трампа, вона мала вигляд на 20. Крім того, вона чомусь промовляла голосом радника президента 3 Келліенн Конвей.

Про це пише The Economist, додаючи, що відео під назвою "Альтернативне обличчя 1.1" створив німецький художник Маріо Клінгеманн. Він взяв звук з інтерв'ю Конвей для NBC і пропустив "через уста елетронного привида Арді". Відео не дуже якісне. Компетентні експерти з візуальних ефектів можуть добитися більш переконливого результату. Але Клінгеманн не майстрував довго свій ролик у спеціальних програмах. Він зробив його за кілька днів на звичайному комп'ютері, використовуючи алгоритм машинного самонавчання - так звану "генеративну змагальну мережу" (GAN). Комп'ютер згенерував автоматично відео, де Арді говорить голосом Конвей, проаналізувавши старі кліпи французької співачки.

Експеримент Клінгеманна пролив світло на майбутнє поле битви між фейком і правдою. Довіра до друкованого слова вже під ударом через розповсюдження так званих фейкових новин. Але відео і звук досі змушують багатьох повірити. GAN став частиною технологічної хвилі, яка може підірвати довіру і до такої інформації.

Аудіо простіше підробити. Зараз комп'ютери генерують мовлення, пов'язуючи короткі аудіозаписи, щоб озвучити речення. Так говорить електронний помічник Apple Siri. Але електронні голоси такого типу обмежені кількістю аудіозаписів у їхній пам'яті. Вони звучать по-справжньому реалістично лише тоді, коли говорять конкретними цілісними фразами.

Технологія ж генерації звуку працює інакше, використовуючи нейронні мережі для вивчення статистичних властивостей джерела звуку. Потім відбувається відтворення цих властивостей в контесті, моделюючи зміну мовлення не просто щосекундно, а кожної мілісекунди. Для того, щоб змусити Трампа чи будь-яку іншу публічну особу сказати конкретні речі, достатньо просто змусити машину проаналізувати записи старих промов, а потім наказати натренованому програмному забезпеченню говорити голосом цієї особи.

Підрозділ DeepMind компанії Alphabet у Великій Британії, Інститут глибокого самонавчання Baidu у Кремнієвій долині і Монреальський інститут алгоритмів самонавчання вже опублікували дуже реалістичні алгоритми генерації мовлення в минулому році. Зараз ці алгоритми вимагають потужності комп'ютерів, які є лише у великих технологічних компаній. Але так буде не завжди.

Генерувати зображення складніше. GAN був представлений Аяном Гудфелловом, коли він був ще студентом одного з "батьків" машинного самонавчання Йошуа Бенджіо в Монреальському інституті алгоритмів самонавчання. Гудфеллов встановив, що глибоке самонавчання дозволяє машинам добре розрізняти різні типи даних (зображення котів і собак, наприклад). Але програми, які намагалися генерувати зображення котів і собак, справлялися з завданням не дуже добре. Комп'ютеру було складно працювати з великою кількістю тренувальних зобрежень у базі даних, щоб потім самому створити пристойну картинку.

Гудфеллов звернувся до звичного для людей підходу - конкуренції. Замість того, щоб просити програму згенерувати щось корисне у вакуумі, він додав іншу програму-суперника, щоб штучний інтелект міг змагатися. Програма-суперник оцінювала згенероване зображення і визначала, чи воно "реальне", тобто схоже на ті, які вже існують у тренувальній базі даних. Намагаючись обдурити суперника, програма-генератор вчилася створювати зображення, які мали реалістичний вигляд, але реальними не були. Програма-суперник, знаючи напевне, який вигляд має справжнє зображення, створювала критерії і перешкоди для тієї, яка генерувала зображення.

Сьогодні GAN може створити невелкі зображення завбільшки з поштову марку, приміром, птахів, отримавши лише команду одним реченням. Можна сказати GAN: "Пташка має бути білою з чорними плямками на голові і крилах, а її дзьоб повинен бути довгим і помаранчевим". І програма намалює таку пташку. Зображення буде не ідеальним, але з першого погляду воно здаватиметься цілком реальним.

Навряд чи зображення пташок зруйнують суспільство, але технології розвиваються швидко. За останні 5 років програмне забезпечення, засноване на схожих алгоритмах, скоротило помилки при сортуванні фото з 25% до лише кількох відсотків. Технологія генерації зображення, швидше за все, продемонструє такий же прогрес. Експерт Google з самонавчання машин вже добився генерації зображень вигаданих обличь з роздільною здатністю 768 пікселів, що вдвічі якісніше ніж все, що було до цього.

Гудфеллов, який зараз працює на Google Brain, вважає, що згенеровані машиною фейкові відео почнуть масово з'являтися на YouTube вже через три роки. Інші експерти вважають, що це станеться пізніше. Але всі погоджуються з тим, що це лише питання часу.

"Думаю, штучний інтелект внесе зміни в те, яким доказам ми можемо довіряти", - вважає Гудфеллов.

Втім, якщо технології продукують нові форми артифактів, вони також пропонують способи боротися з фейками. Приміром, для підтвердження фото чи відео можна вимагати їхні метадані, тобто електронні записи, коли, де і як вони були зняті. Знаючи цю інформацію, можна відсіяти фейки, виявивши розбіжності зі справжніми умовами місцевості на вказаний момент зйомки.

Тим часом, президент США Дональд Трамп вважає "фейками" всі опитування з негативною оцінкою своєї діяльності.

На початку лютого були опубліковані результати опитування CNN/ORC, згідно з яким шість з десяти жителів США не схвалюють рішення Трампа про будівництво стіни на кордоні з Мексикою. При цьому 53 відсотки респондентів не підтримали тимчасову заборону на в'їзд для громадян семи країн і припинення прийому біженців.

Технології фейкових новин: все тільки починається - The Economist

Штучний інтелект активно вчиться фальсифікувати відео і звук, підриваючи довіру і до такої інформації.