Разработчики Google собрали базу данных синтезированных голосов

Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Теги: новини технології

Разработчики Google собрали базу данных синтезированных голосов

СХОЖІ ПУБЛІКАЦІЇ

Як створити нешаблонний візуальний стиль в Instagram для спільноти лікарів. Кейс Kukurudza & Sviy.Doc

Як взяти максимум із SMM-трендів 2024: поради для комунікаційників

Налагодити роботу клієнтського сервісу і не вмерти. Шлях від В2В до В2С

РЕКОМЕНДОВАНО

Ніндзя, бамбалейло та велоаб’юзер у новій кампаніі від Nebo ideas agency та Half&Half для петиків

Галичина шукає українців з екзотичними прізвищами

БІЛЬШЕ МАТЕРІАЛІВ

MEGAКАВА донатить на “крила”. Креатив Gusev Art Lab для проєкту WOG та фонду Dignitas

КМФР 2024 оголосив міжнародні команди журі

Про медіа

Тематичні напрями

Контакти

Відділ реклами

Імейл редакції

+380 44 221 6131

Новини Каннських Левів в Україні

Подкаст Creative Digest

Ми у соцмережах

З поверненням!

Відновіть свій пароль