Разработчики Google собрали базу данных синтезированных голосов

Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Tags:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Разработка Eyesight Technologies проследит, чтобы водитель не отвлекался

В последнее время по всему миру начали рассматривать законопроекты, которые обяжут автостроителей оборудовать машины технологиями, отслеживающими, насколько внимательно водитель смотрит на дорогу.

Приложения под Android могут пользоваться камерой смартфона без разрешения

Некоторые стандартные команды во многих Android-смартфонах позволяли приложениям запускать и управлять камерой, не запрашивая на это разрешение пользователя

Врачи приступили к клиническим испытаниям погружения в анабиоз

Криозаморозка давно была темой для научной фантастики, и теперь медики из Мэрилендского университета (США) почти что воплотили ее в реальность.