Разработчики Google собрали базу данных синтезированных голосов

Бизнес и инновации - Разработчики Google собрали базу данных синтезированных голосов

Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Бизнес и инновации - Установлено: эмоции можно программировать

Установлено: эмоции можно программировать

Чтобы «промыть мозги», оказалось достаточно томографа и несложной системы обратной связи, стимулирующей разные паттерны активности нейронов передней поясной коры. Об ...

Бизнес и инновации - «Стоп мейк-ап. Води безопасно!» – рекламная кампания от «Хонда Украина»

«Стоп мейк-ап. Води безопасно!» – рекламная кампания от «Хонда Украина»

Естественно, в основном водители обоих полов стараются быть ответственными и внимательными – от этого зависит жизнь и здоровье их самих, ...

Бизнес и инновации - Айфон разоблачит вора

Айфон разоблачит вора

В скором времени Apple сможет отслеживать перемещения владельцев iPhone даже при выключенном телефоне, пишет The independent. Патент на соответствующую технологию компания получила в ...