Translatotron способен переводит с одного языка на другой без использования текста. При этом интонации и паузы говорящего сохранятся.
Имитация основывается на алгоритме, который транслирует речь в спектрограмму и уже на основе полученных данных создает перевод на выбранном языке с сохранёнными показателями голоса.
Обычно подобные системы разбиты на три отдельных компонента: распознавание речи для преобразования ее в текст, машинный перевод текста на необходимый язык и синтез текста в речь. Разделение задачи на такой каскад было эффективным, однако настало время новых технологий.
Translatotron дает более точный перевод, чем базовая каскадная модель, а также лучше обрабатывает имена собственные, отметили в Google. Экспериментальная новая система основана на нейронном машинном переводе и не полагается на промежуточное текстовое представление. Это дает более быструю скорость вывода, естественным образом избегая ошибок составления между распознаванием и переводом, и делает простым сохранение голоса говорящего, улучшая обработку слов, которые не нужно переводить (например, имена и имена существительные).
Появление сквозных моделей трансляции речи началось еще в 2016 году, когда исследователи продемонстрировали возможность использования единой модели последовательности для перевода речи в текст. В 2017 году Google показал, что такой метод может превосходить каскадные модели.
Пусть по результатам недавно сделанных тестов Translatotron и уступает пока привычной системе, тем не менее возможности перевода продемонстрировать удалось.
Источник: it-world.ru