В Яндекс Браузер добавили нейросетевой перевод видео с китайского языка
«Яндекс» научил нейросети переводить видео с китайского и автоматически накладывать русскую озвучку, рассказала компания. В пресс-службе отметили, что теперь есть «достаточная технологическая база» для работы с другими сложными языками — например, корейским и японским.
Чтобы научить нейросети, разработчики обработали 1,5 млн видео с помощью специального алгоритма и выбрали 100 тысяч примеров с качественными субтитрами на севернокитайском языке. Соответствие аудио и субтитров важно, потому что по ним нейросеть учится понимать речь, пояснили в компании. На первом этапе перевода нейросети выучили 6500 иероглифов, каждый из которых читается как слог. Чтобы нейросеть научилась их понимать, разработчики закодировали необходимый для работы с китайским словарь в виде 10 тысяч токенов. Один токен равен одному слогу или сочетанию двух слогов. Также нейросеть обучили делить сплошной поток иероглифов на смысловые отрезки, чтобы точнее синхронизировать перевод с речью.
«Яндекс Браузер» сам предложит перевести видео с китайского на YouTube после того, как пользователь его откроет. Для этого ему нужно нажать кнопку «Перевести видео». «Чуть позже» компания добавит перевод для китайской видеоплатформы Bilibili.