Нейросеть научили искать на видео целующихся людей

Разработчики из Стэнфордского университета представили алгоритм, который автоматически определяет на видео целующихся людей.

Система состоит из двух частей: бинарного классификатора, который выносит решение о наличии поцелуя по секундному отрывку видео, и сегментатора, который выдает все сцены поцелуев из необходимого видео. Препринт статьи с описанием работы алгоритма опубликован на arXiv.

Одна из самых популярных и важных задач в области компьютерного зрения — распознавание объектов. Задача эта, пусть и уже вполне решенная, однако, не ограничивается определением и последующим называнием объектов на статичных изображениях. Чуть сложнее работать с динамичными изображениями (например, видео): в этом случае число задач, для которых используются алгоритмы компьютерного зрения, дополняется, к примеру, распознаванием действий.

Разработчик Амир Зиай (Amir Ziai) из Стэнфордского университета решил создать алгоритм, который умеет определять на видео поцелуй. Система состоит из двух частей: бинарного классификатора и сегментатора. Первая система анализирует отрывки длиной в одну секунду по видео и аудио: за первую часть отвечает сверточная нейросеть ResNet, которая используется для распознавания и классификации изображений, а за вторую — сверточная нейросеть VGG, которая, помимо прочего, используется для анализа акустических характеристик. Вторая часть алгоритма использует данные о вероятности наличия поцелуя на каждом секундном отрывке видео и выдает каждый из них таким образом, чтобы отрывки не повторялись.

В итоге работа такого алгоритма заключается в следующем. Система получает на вход видефрагмент, а на выход выдает отдельные отрывки разных сцен с поцелуями. Точность распознавания созданной системы составляет 95 процентов. Датасет для обучения и тестирования собрали из более сотни голивудских фильмов: Зиай использовал 263 сцены с поцелуями и 363 сцены без поцелуев длительностью от 10 секунд до двух минут.

Как сообщает портал IEEE Spectrum, в настоящий момент Зиай работает в Netflix, но сервис не имеет отношения к разработке исследователя. При этом одно из вероятных применений такой технологии — как раз стриминговые сервисы: например, для озвучивая видео для слабовидящих людей.

Источник

Заглавная илюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Здоровый образ жизни снижает риск развития деменции

Люди с высокой генетической предрасположенностью к развитию деменции, но ведущие здоровый образ жизни, на 30 процентов реже страдают этой болезнью по сравнению с теми, кто в дополнение к плохой генетике ведет нездоровый образ жизни.

В Японии создали экран из падающих стеклянных частиц

Японские инженеры создали экран, состоящий из потока падающих стеклянных частиц, отражающих проецируемое на них изображение.

Умный вазон с анимацией превращает растение в питомца

Для незадачливых садоводов был разработан умный вазон Lua. Он превращает растение в домашнего любимца, которого просто рука не поднимется уморить.