Обложка канала

Neural Shit

35268 @NeuralShit

Проклятые нейронные сети

Neural Shit

4 года назад
Открыть в
Там Яндекс браузер выпустил в открытую бету технологию перевода прямых трансляций. До этого они напилили очень крутой закадровых переводчик для уже записанных ютуб-видосов (который по данным Яндекса заюзали для перевода 81 миллионов видосов). Да-да, если вы были не в курсе, уже давно иностранные видео на YouTube можно смотреть с автоматической русской озвучкой через Я браузер – фича работает по нажатию одной кнопки в плеере. Но для потокового перевода (трансляции в режиме реального времени) алгоритм, который использовался для простых видео на Youtube не подходит, так как там всё видео грузится целиком, и так же целиком аудиодорожка подаётся на вход нейронке для перевода и озвучки. Проблему решили изящно и гениально – перепридумали архитектуру перевода видео, разработали и “подружили” пять нейросетей. Первая нейронка распознает аудиодорожку и конвертирует её в текст. Вторая определяет пол спикера. Третья – принимает на вход текст из первой, расставляет знаки препинания и на основе этого определяет части текста, которые содержат законченную мысль. Четвертая нейросеть берет на вход готовые “куски” и переводит их. Пятая – синтезирует речь на русском языке. Яснопонятно, что задержка все равно будет, но она по сути совсем небольшая для такого алгоритма – ощущение прямого эфира остаётся. Потестить работу алгоритма можно в Яндекс браузере на компьютере (пока бета-тест, только для некоторых каналов с прямыми трансляциями, например NASA и English Speeches, позже завезут и для других). Узнать в деталях что именно находится под капотом у сабжа и как оно работает можно в статье на хабре.
Голосовой перевод трансляций в Яндекс Браузере: как он устроен и чем отличается от перевода обычных видео

Осенью прошлого года мы рассказали читателям Хабра, как работает голосовой перевод видео в Яндекс Браузере. За первые десять месяцев пользователи посмотрели видеоролики с закадровым переводом 81...

Хабр