Ученые научили нейросеть угадывать движение рук человека по его речи

Ученые из Калифорнийского университета в Беркли создали алгоритм, который может угадать движение рук человека по его речи. Как сообщает N+1, для этого нейросеть изучает только аудиозапись речи, затем создает анимированную модель тела человека, а потом на ее основе генерирует реалистичный видеоролик.

Отмечается, что работу алгоритма можно разбить на две части: сначала он предсказывает движение рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, который разработала в 2018 году смежная группа исследователей.

На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик.

Для обучения алгоритма ученые собрали базу данных, которая состояла из записей суммарной длительностью 144 часа. В частности, она содержала записи речей телеведущих, лекторов и проповедников. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью, алгоритм научился создавать реалистичные видеоролики.

Ранее искусственный интеллект обнаружил лекарство от малярии в зубной пасте. В ходе исследования ученые подключили искусственный интеллект для анализа того, как возбудитель, малярийный плазмодий, взаимодействует с триклозаном, антибиотиком из обычной "лечебной" зубной пасты. Этот антибиотик, как объясняют биологи, подавляет размножение бактерий, мешая работе одного из ключевых ферментов, который отвечает за составление жировых молекул, необходимых для нормальной работы клеточных стенок микробов.

Ученые научили нейросеть угадывать движение рук человека по его речи

Алгоритм изучает только аудиозапись речи.