Нейросеть научили превращать картины в музыку

Нидерландские разработчики создали нейросеть, способную проявлять искусственный аналог визуально-звуковой синестезии — способности соотносить визуальные ощущения со звуками. Алгоритм состоит из двух частей, одна из которых кодирует изображение в высокоуровневое представление, а вторая декодирует это представление в музыку. Особенность алгоритма заключается в том, что он обучался самостоятельно без пар типа изображение-музыка. Разработчики описали алгоритм в статье на arXiv.org, а также расскажут о нем на конференции ICCVW 2019.

В широком смысле художники, фотографы и дизайнеры используют картины и другие визуальные произведения как способ передачи информации другим людям. Однако такой способ донесения информации не работает в случае, если человек, смотрящий на картину, имеет проблемы со зрением. При этом визуальные произведения передают информацию различным способом, например, с помощью сюжета, формы, цвета и других особенностей, то есть их можно описать аналитически. Это означает, что не существует фундаментальной проблемы для того, чтобы передавать ту же информацию другим способом так же, как люди могут доносить информацию до иностранцев, используя свое знание другого языка или программу-перводчик.

Максимилиан Мюллер-Эберштайн (Maximilian Müller-Eberstein) и Нанне ван Ноорд (Nanne van Noord) из Амстердамского университета разработали алгоритм, способный проводить преобразование между изображениями и музыкой, причем при обучении он не требует соотносить изображения с музыкой, а учится этому самостоятельно, применяя метод обучения без учителя.

Алгоритм построен на архитектуре автокодировщика. Такой алгоритм производит преобразование из исходных данных в скрытое представление, которое несет в себе основную информацию об исходных данных и позволяет восстановить их в достаточно похожем виде. Автокодировщики состоят из кодировщика и декодировщика. Особенность таких алгоритмов заключается в том, что, как правило, кодировщик и декодировщик работают с разными данными. К примеру, недавно исследователи из Google использовали такую архитектуру для преобразования музыкальной последовательности на любом инструменте в партию на барабанах.

Нидерландские разработчики в своей работе использовали более необычный подход и применили кодировщик, работающий с изображениями, и декодировщик, работающий с музыкой. Для того, чтобы использовать метод обучения без учителя, авторы применили двунаправленный автокодировщик. После того, как он провел преобразование из изображения в музыку, он производит обратное преобразование из полученной музыки в новое изображение, после чего оно сравнивается с исходным. Это позволяет применять функцию потерь и в ходе обучения снижать разницу между двумя изображениями, тем самым повышая точность работы автокодировщика.

Разработчики обучали алгоритм на популярном датасете MNIST, содержащем 60 тысяч рукописных символов, а также на датасете Behance Artistic Media, из которого они использовали около 180 тысяч картин маслом и акварелью. В качестве музыкального декодировщика они использовали обученную нейросетевую модель MusicVAE.

После обучения авторы проверили точность работы алгоритма количественно, с помощью нескольких метрик, в том числе расстояния Кульбака — Лейблера, а также качественно. Для второй оценки они попросили добровольцев описать свои эмоции при просмотре изображений из датасета с картинами. Эксперимент показал, что после обратного автокодирования эмоции совпадали с эмоциями при оценке исходного изображения со средней точностью 71 процент. Оценить работу алгоритма можно самостоятельно на сайте авторов.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Бренд фільтрів для води випустив «найогидніші» різдвяні светри. З пластику

Цього року творцем найбридкішого різдвяного светра цілком може виявитися компанія, яка взагалі-то фільтри для води робить.

Пристрою віртуальної реальності довелося навчитися розпізнавати ялинки

Тим, хто на Різдво отримав під ялинку пристрій віртуальної реальності Oculus, певно, що схочеться приміряти його прямо там на місці.

MEGOGO LIVE разом із українськими артистами створили новорічний хіт

Напередодні новорічних свят канал молодіжної альтернативної музики MEGOGO LIVE об’єднав зірок українського шоу-бізнесу у ВІА «БУРУЛЬКА» та створив жартівливий новорічний ...