Нейросеть научили искать на видео целующихся людей

Разработчики из Стэнфордского университета представили алгоритм, который автоматически определяет на видео целующихся людей.

Система состоит из двух частей: бинарного классификатора, который выносит решение о наличии поцелуя по секундному отрывку видео, и сегментатора, который выдает все сцены поцелуев из необходимого видео. Препринт статьи с описанием работы алгоритма опубликован на arXiv.

Одна из самых популярных и важных задач в области компьютерного зрения — распознавание объектов. Задача эта, пусть и уже вполне решенная, однако, не ограничивается определением и последующим называнием объектов на статичных изображениях. Чуть сложнее работать с динамичными изображениями (например, видео): в этом случае число задач, для которых используются алгоритмы компьютерного зрения, дополняется, к примеру, распознаванием действий.

Разработчик Амир Зиай (Amir Ziai) из Стэнфордского университета решил создать алгоритм, который умеет определять на видео поцелуй. Система состоит из двух частей: бинарного классификатора и сегментатора. Первая система анализирует отрывки длиной в одну секунду по видео и аудио: за первую часть отвечает сверточная нейросеть ResNet, которая используется для распознавания и классификации изображений, а за вторую — сверточная нейросеть VGG, которая, помимо прочего, используется для анализа акустических характеристик. Вторая часть алгоритма использует данные о вероятности наличия поцелуя на каждом секундном отрывке видео и выдает каждый из них таким образом, чтобы отрывки не повторялись.

В итоге работа такого алгоритма заключается в следующем. Система получает на вход видефрагмент, а на выход выдает отдельные отрывки разных сцен с поцелуями. Точность распознавания созданной системы составляет 95 процентов. Датасет для обучения и тестирования собрали из более сотни голивудских фильмов: Зиай использовал 263 сцены с поцелуями и 363 сцены без поцелуев длительностью от 10 секунд до двух минут.

Как сообщает портал IEEE Spectrum, в настоящий момент Зиай работает в Netflix, но сервис не имеет отношения к разработке исследователя. При этом одно из вероятных применений такой технологии — как раз стриминговые сервисы: например, для озвучивая видео для слабовидящих людей.

Источник

Заглавная илюстрация: https://ua.depositphotos.com

Тэги:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Пристрою віртуальної реальності довелося навчитися розпізнавати ялинки

Тим, хто на Різдво отримав під ялинку пристрій віртуальної реальності Oculus, певно, що схочеться приміряти його прямо там на місці.

Регулярные походы в музей снизили смертность среди британских стариков

Пожилые люди живут дольше, если увлекаются искусством - ходят в театры и музеи. Причем, по оценкам британских ученых, чем чаще они это делают, тем ниже среди них смертность.

В США изобрели летающий робот-пылесос

Американский инженер превратил робот-пылесос в трехвинтовой дрон-уборщик, способный перелетать через препятствия на своем пути, а также перемещаться между этажами.