Разработчики Google собрали базу данных синтезированных голосов

Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Instagram тестирует посты без лайков

Instagram тестирует посты без счетчика лайков. Об этом пишет онлайн-издание TechCrunch. «Мы хотим, чтобы ваши подписчики сосредоточились на том, чем ...

Собака заставляет хозяина быть в четыре раза активнее и здоровее

Британцы, у которых есть собаки, оказались активнее остальных своих сограждан: наличие животного в четыре раза увеличивало вероятность того, что его хозяин или хозяйка придерживаются врачебных рекомендаций по физической активности,

Автомобиль Kia HabaNiro знает, когда водителю грустно

Корейская машиностроительная компания Kia продемонстрировала концепт-кар HabaNiro. Этот беспилотный электромобиль умеет все. Даже проявлять эмпатию.