Ученые научили искусственный интеллект имитировать голос человека

Ученые создали роботизированную систему, которая способна воспроизводить человеческую речь, с точностью копируя ее уникальные характеристики.

Технология получила название Deep Voice. Для ее обучения исследователи использовали звуковую запись, которая длится 800 часов и включает в себя 2400 разных голосов. Для эффективной работы нейросети нужно около 100 пятисекундных звуковых сигналов, при этом она может обмануть системы распознавания голоса с помощью всего десяти пятисекундных семплов.

Deep Voice точно имитирует тембр и интонации голоса, что делает производимые им звуки неотличимыми от настоящих, и, по мнению создателей, система найдет широкое применение в совершенно разных областях. Например, она может быть использована для создания персонализированных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того, нейросеть облегчит жизнь тем, кто по каким-то причинам утратил возможность говорить, и скрасит одиночество детей, читая им сказки на ночь, когда родители уехали в командировку. Система умеет менять голос, делая его мужским вместо женского или добавляя ему иностранный акцент.

Ранее Илон Маск заявил о том, что искусственный интеллект является самой большой угрозой, с которой человечество может столкнуться как цивилизация и призвал к жесткому государственному регулированию развития искусственного интеллекта.

Ученые научили искусственный интеллект имитировать голос человека

Система с точностью копирует уникальные характеристики человеческой речи.