Neural Shit(@NeuralShit). Ого, смотрите, гуглоинженеры напили AudioLM — аналог Jukebox. Только в отличие от него, эта штука

Ого, смотрите, гуглоинженеры напили AudioLM — аналог Jukebox. Только в отличие от него, эта штука генерирует сильно более качественные сэмплы + умеет работать с речью. Принимает на вход аудиофайл (от 3х секунд), после чего продолжает его. Не требует транскрипции или маркировки. Вместо этого в программу загружаются звуковые базы данных, а машинное обучение используется для сжатия аудиофайлов в звуковые фрагменты, называемые «токенами», без потери слишком большого количества информации. Затем эти токенизированные обучающие данные передаются в модель машинного обучения, которая использует обработку естественного языка для изучения звуковых паттернов. Примеры можно послушать тут Источник тут