Нейросети в роли синхронного переводчика: Яндекс браузер запустил технологию потокового перевода трансляций в публичную бету
В чем новшество. Наверняка, вы встречали ранее новость о закадровом переводе загруженных на YouTube роликов, но тут еще более крутой кейс — перевод видеотрансляций в режиме реального времени. В случае с переводом записанного видео алгоритм скачивает полную аудиодорожку, и нейросеть получает сразу все данные на вход. Но в случае с потоковой трансляцией переводить нужно буквально “на лету”, но для качественного перевода нейросети нужно как можно дольше “слушать” говорящего, и при этом алгоритм должен иметь минимальную задержку, чтобы сохранить ощущение прямого эфира.
Как решили задачу. Использовали связку из пяти нейросетей: 1) распознавание речи, перевод аудио в текст, 2) биометрия и определение пола спикера 3) нарезка текста на предложения и выделение фрагментов, которые содержат законченную мысль, 4) перевод на русский язык, 5) синтез речи. Технические тонкости разобраны в блоге Яндекса на Хабре.
Протестировать технологию может любой пользователь десктопного Яндекс Браузера: перевод стримов пока доступен для некоторых YouTube-каналов, на которых проводятся прямые трансляции — попробовать можно, например, тут. Но разработчики обещают со временем расширить список.