Ого, смотрите, гуглоинженеры напили AudioLM — аналог Jukebox.
Только в отличие от него, эта штука генерирует сильно более качественные сэмплы + умеет работать с речью. Принимает на вход аудиофайл (от 3х секунд), после чего продолжает его.
Не требует транскрипции или маркировки. Вместо этого в программу загружаются звуковые базы данных, а машинное обучение используется для сжатия аудиофайлов в звуковые фрагменты, называемые «токенами», без потери слишком большого количества информации. Затем эти токенизированные обучающие данные передаются в модель машинного обучения, которая использует обработку естественного языка для изучения звуковых паттернов.
Примеры можно послушать тут
Источник тут