Использование нейрокомпьютерных интерфейсов, подсоединенных к синтезаторам речи, могло бы помочь людям, страдающим от паралича или афазии, восстановить речь. Однако для реализации такой технологии необходимо сначала создать синтезатор речи, который позволит в режиме реального времени воссоздавать голосовой сигнал по небольшому набору параметров. Авторы новой работы предложили концепцию устройства, которое может синтезировать речь, опираясь всего лишь на информацию о движении органов речи человека.
В основе разработанного исследователями синтезатора речи лежит использование нейронной сети с тремя скрытыми слоями и вокодера(устройства синтеза речи). Нейросеть была обучена с помощью специальной базы данных, в которой хранилась информация о звуках, произносимых человеком, и соответствующих им действиях органов речи. Для ее создания ученые подсоединили девять датчиков движения к небной занавеске, губам, языку и челюсти мужчины, носителя французского языка. Во время того, как он говорил, компьютер следил за его артикуляцией. В итоге исследователям удалось записать почти девятнадцать тысяч звуков или 712 речевых элементов разной длины (начиная с отдельных гласных и согласных и заканчивая целыми предложениями) и соответствующие им движения органов речи. Общая продолжительность аудиозаписи составила 45 минут.
После обучения искусственный интеллект научился восстанавливать голосовой сигнал исключительно по движению губ человека. Речь, созданная компьютером, звучит искусственно, однако исследователи на данном этапе не добивались ее естественного звучания. Четыре носителя французского языка проверили работу программы: каждого из участников исследования попросили беззвучно произнести семь гласных и несколько последовательностей, построенных по схеме гласная-согласная-гласная. После этого 12 человек, также говорящих на французском языке, пытались определить по восстановленному голосовому сигналу, какой звук произнесли испытуемые.
Тестирование показало, что искусственный интеллект распознает гласные звуки значительно лучше, чем согласные — средняя точность распознавания гласных достигала 86 процентов, а согласных — 49 процентов. Последовательности гласных система распознавала в 48–52 процентах случаев.
В будущем подобное устройство может быть использовано для помощи людям с проблемами речевого тракта. Кроме того, изобретение авторов работы поможет другим исследователям при разработке нейрокомпьютерных интерфейсов, которые будут воспроизводить речь человека только на основе сигналов его мозга. В частности, ученые смогут использовать похожий подход.