Компьютер научили анимировать лица необработанной записью речи

Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи. Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research. Их алгоритм получает на вход аудиофайл и с помощью вариационного автоэнкодера на основе нейросетей с долгой краткосрочной памятью выделяет ключевые аспекты: фонетическую и эмоциональную составляющую (всего алгоритм понимает шесть базовых эмоций), а также сторонний шум. На основе выделенной информации реконструируется мимика говорящего — для этого используются видеофайлы — и накладывается на изначально статичное изображение.

Для обучения алгоритма исследователи использовали три разных датасета: GRID, состоящий из тысячи видеозаписей речи 34 людей, сказанной с нейтральным выражением, 7,4 тысячи видеозаписей речей с различным эмоциональным окрасом, взятых из датасета CREMA-D, а также более ста тысяч отрывков из видео TED.

В результате исследователям удалось анимировать статичные изображения даже с использованием аудио с фоновым шумом до 40 децибел, а также — успешно использовать эмоциональные составляющие речи говорящего в анимировании. Сами анимации авторы не приводят, но приводят сравнение получившихся кадров с результатами работы одного из первых подобных алгоритмов.

Авторы работы также уточнили, что их алгоритм можно использовать во всех уже существующих системах, которые могут анимировать статичные изображения с помощью аудио: для этого необходимо будет заменить в сторонних алгоритмах обрабатывающий аудио компонент.

Источник: https://nplus1.ru

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Daimler и Bosch запустили сервис беспилотного такси

Компании Daimler AG и Bosch запустили в Сан-Хосе тестовый сервис беспилотного такси. Пассажиры могут вызвать беспилотный автомобиль в одной из предусмотренных точек посадки и бесплатно доехать до другой точки

Сила самовнушения, чтобы тратить меньше энергии на подогрев электромобиля

Компания Ford нашла интересное решение, позволяющее с помощью цветного освещения убедить автомобилистов в том, что температура в салоне машины остается в зоне комфорта.

Дети депрессивных родителей получили уменьшенную скорлупу головного мозга

Американские ученые выяснили, что в мозге детей, у родителей которых была диагностирована депрессия, наблюдается уменьшенный объем одного из базальных ядер головного мозга — скорлупы.