Компьютер научили анимировать лица необработанной записью речи

Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи. Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research. Их алгоритм получает на вход аудиофайл и с помощью вариационного автоэнкодера на основе нейросетей с долгой краткосрочной памятью выделяет ключевые аспекты: фонетическую и эмоциональную составляющую (всего алгоритм понимает шесть базовых эмоций), а также сторонний шум. На основе выделенной информации реконструируется мимика говорящего — для этого используются видеофайлы — и накладывается на изначально статичное изображение.

Для обучения алгоритма исследователи использовали три разных датасета: GRID, состоящий из тысячи видеозаписей речи 34 людей, сказанной с нейтральным выражением, 7,4 тысячи видеозаписей речей с различным эмоциональным окрасом, взятых из датасета CREMA-D, а также более ста тысяч отрывков из видео TED.

В результате исследователям удалось анимировать статичные изображения даже с использованием аудио с фоновым шумом до 40 децибел, а также — успешно использовать эмоциональные составляющие речи говорящего в анимировании. Сами анимации авторы не приводят, но приводят сравнение получившихся кадров с результатами работы одного из первых подобных алгоритмов.

Авторы работы также уточнили, что их алгоритм можно использовать во всех уже существующих системах, которые могут анимировать статичные изображения с помощью аудио: для этого необходимо будет заменить в сторонних алгоритмах обрабатывающий аудио компонент.

Источник: https://nplus1.ru

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Пристрою віртуальної реальності довелося навчитися розпізнавати ялинки

Тим, хто на Різдво отримав під ялинку пристрій віртуальної реальності Oculus, певно, що схочеться приміряти його прямо там на місці.

Регулярные походы в музей снизили смертность среди британских стариков

Пожилые люди живут дольше, если увлекаются искусством - ходят в театры и музеи. Причем, по оценкам британских ученых, чем чаще они это делают, тем ниже среди них смертность.

В США изобрели летающий робот-пылесос

Американский инженер превратил робот-пылесос в трехвинтовой дрон-уборщик, способный перелетать через препятствия на своем пути, а также перемещаться между этажами.