Разработчики Google собрали базу данных синтезированных голосов

Специалисты компании Google собрали масштабный датасет, который содержит тысячи записей синтезированной английской речи. Всего в базе данных доступны несколько десятков «голосов». Подробнее об этом можно прочитать в блоге компании: пока что датасет открыт только для разработчиков — участников конкурса по созданию автоматических систем различения синтезированной и реальной речи.

Технологии синтеза речи (text-to-speech) позволяют формировать речевой сигнал из печатного текста. Для этого человеку, чей голос используется для конечной модели, необязательно проговаривать весь нужный текст целиком: нужна только репрезентативная выборка данных, из которых можно выделить достаточное количество фонем для дальнейшего качественного синтеза. Сейчас такие технологии в основном используются для озвучивания голосовых помощников: например, о том, как научилась разговаривать Алиса, голосовой помощник компании «Яндекс», вы можете прочитать в нашем материале «Алиса, скажи что-нибудь».

Синтез речи постоянно улучшается: например, в декабре 2017 года разработчики Google создали систему, которая может производитьустную речь, почти неотличимую от человеческой. Создание и использование настолько эффективных технологий поднимает важные вопросы приватности данных пользователей: с хорошим синтезом злоумышленники могут правдоподобно скопировать чужой голос и использовать его в своих целях.

Специально для того, чтобы это предотвратить, Google опубликовала большую базу данных образцов синтезированной речи: в нее входят несколько тысяч отрывков из газет, «зачитанных» 68 синтезированными голосами. Фразы звучат на английском и имитируют несколько разных акцентов.

Пока что датасет доступен только для участников конкурса Automatic Speaker Verification, который посвящен обучению систем, позволяющих автоматически отличить синтезировнную речь от реальной. Результаты конкурса будут подведены в сентябре этого года; будут ли данные доступны для сторонних разработчиков, пока неизвестно.

Помимо эффективного синтеза голоса сейчас также создаются системы, которые позволяют переносить лица и даже движения между людьми. К примеру, летом прошлого года в NVIDIA создали нейросеть, которая позволяет переносить движения человека с одного видео на тело человека в другом.

Источник

Заглавная иллюстрация: https://ua.depositphotos.com

Тэги:

ТЕБЕ МОЖЕТ ПОНРАВИТЬСЯ

Пристрою віртуальної реальності довелося навчитися розпізнавати ялинки

Тим, хто на Різдво отримав під ялинку пристрій віртуальної реальності Oculus, певно, що схочеться приміряти його прямо там на місці.

Регулярные походы в музей снизили смертность среди британских стариков

Пожилые люди живут дольше, если увлекаются искусством - ходят в театры и музеи. Причем, по оценкам британских ученых, чем чаще они это делают, тем ниже среди них смертность.

В США изобрели летающий робот-пылесос

Американский инженер превратил робот-пылесос в трехвинтовой дрон-уборщик, способный перелетать через препятствия на своем пути, а также перемещаться между этажами.