Все мы знаем, что успех коммуникации зависит не только от того, что мы говорим, но и от того, как мы это говорим. Поэтому-то новый прототип автопереводчика от Google переводит не только речь, но также тон и модуляции голоса.
Система называется Translatotron, и разработчики говорят, что она пока еще не готова для коммерческого выпуска. Сейчас они работают над тем, как сделать синтезированную речь более «живой».
И хотя для простых смертных воспроизведение интонаций, пожалуй, самая интересная часть, для инженеров эта система интересна другим. Translatotron переводит аудио в аудио напрямую, минуя промежуточный текст.
Такая модель искусственного интеллекта называется end-to-end, поскольку в ней промежуточных заданий. Google утверждает, что такой подход к переводу значительно ускоряет процесс и позволяет избежать ошибок, которые могут возникнуть, как в игре в испорченный телефон.
Интересно также и то, что эта модель работает не совсем с аудио. Она воспринимает спектрограмму, то есть подробную визуализацию звука. По сути перевод речи в речь происходит с помощью картинок, как бы странно это ни было.
Впрочем, как это нередко бывает с Google-переводом, остается гадать, как эта система справится в реальных ситуациях.