Нейросеть научили искать на видео целующихся людей

Разработчики из Стэнфордского университета представили алгоритм, который автоматически определяет на видео целующихся людей.

Система состоит из двух частей: бинарного классификатора, который выносит решение о наличии поцелуя по секундному отрывку видео, и сегментатора, который выдает все сцены поцелуев из необходимого видео. Препринт статьи с описанием работы алгоритма опубликован на arXiv.

Одна из самых популярных и важных задач в области компьютерного зрения — распознавание объектов. Задача эта, пусть и уже вполне решенная, однако, не ограничивается определением и последующим называнием объектов на статичных изображениях. Чуть сложнее работать с динамичными изображениями (например, видео): в этом случае число задач, для которых используются алгоритмы компьютерного зрения, дополняется, к примеру, распознаванием действий.

Разработчик Амир Зиай (Amir Ziai) из Стэнфордского университета решил создать алгоритм, который умеет определять на видео поцелуй. Система состоит из двух частей: бинарного классификатора и сегментатора. Первая система анализирует отрывки длиной в одну секунду по видео и аудио: за первую часть отвечает сверточная нейросеть ResNet, которая используется для распознавания и классификации изображений, а за вторую — сверточная нейросеть VGG, которая, помимо прочего, используется для анализа акустических характеристик. Вторая часть алгоритма использует данные о вероятности наличия поцелуя на каждом секундном отрывке видео и выдает каждый из них таким образом, чтобы отрывки не повторялись.

В итоге работа такого алгоритма заключается в следующем. Система получает на вход видефрагмент, а на выход выдает отдельные отрывки разных сцен с поцелуями. Точность распознавания созданной системы составляет 95 процентов. Датасет для обучения и тестирования собрали из более сотни голивудских фильмов: Зиай использовал 263 сцены с поцелуями и 363 сцены без поцелуев длительностью от 10 секунд до двух минут.

Как сообщает портал IEEE Spectrum, в настоящий момент Зиай работает в Netflix, но сервис не имеет отношения к разработке исследователя. При этом одно из вероятных применений такой технологии — как раз стриминговые сервисы: например, для озвучивая видео для слабовидящих людей.

Источник

Заглавная илюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

OPEN CALL для сімейних бізнесів: стартував конкурс Family Business Awards Ukraine 2019

Вперше в Україні проходить конкурс «Найкращий сімейний бізнес року», організований Асоціацією власників сімейних компаній України FBN Україна в партнерстві з компаніями «Делойт» в Україні та IdeasFirst.

Цвет Vantablack уже не самый темный черный

Инженеры Массачусетского технологического института разработали материал, который в 10 раз темнее, чем самый темный черный, известный до сих пор.

Mastercard і ПриватБанк запустять перший в Україні проект поведінкової біометрії

Mastercard у партнерстві з ПриватБанком реалізує перший в Україні проект верифікації клієнтів, заснований на поведінковій біометрії — для прогресивної та безпечної аутентифікації в епоху, коли пароля недостатньо для захисту облікового запису.