Там Яндекс браузер выпустил в открытую бету технологию перевода прямых трансляций. До этого они напилили очень крутой закадровых переводчик для уже записанных ютуб-видосов (который по данным Яндекса заюзали для перевода 81 миллионов видосов). Да-да, если вы были не в курсе, уже давно иностранные видео на YouTube можно смотреть с автоматической русской озвучкой через Я браузер – фича работает по нажатию одной кнопки в плеере.
Но для потокового перевода (трансляции в режиме реального времени) алгоритм, который использовался для простых видео на Youtube не подходит, так как там всё видео грузится целиком, и так же целиком аудиодорожка подаётся на вход нейронке для перевода и озвучки.
Проблему решили изящно и гениально – перепридумали архитектуру перевода видео, разработали и “подружили” пять нейросетей. Первая нейронка распознает аудиодорожку и конвертирует её в текст. Вторая определяет пол спикера. Третья – принимает на вход текст из первой, расставляет знаки препинания и на основе этого определяет части текста, которые содержат законченную мысль. Четвертая нейросеть берет на вход готовые “куски” и переводит их. Пятая – синтезирует речь на русском языке.
Яснопонятно, что задержка все равно будет, но она по сути совсем небольшая для такого алгоритма – ощущение прямого эфира остаётся.
Потестить работу алгоритма можно в Яндекс браузере на компьютере (пока бета-тест, только для некоторых каналов с прямыми трансляциями, например NASA и English Speeches, позже завезут и для других). Узнать в деталях что именно находится под капотом у сабжа и как оно работает можно в статье на хабре.
Осенью прошлого года мы рассказали читателям Хабра, как работает голосовой перевод видео в Яндекс Браузере. За первые десять месяцев пользователи посмотрели видеоролики с закадровым переводом 81...