ArsTechnica: Новая модель ИИ от Microsoft может имитировать голос любого человека за 3 секунды
– Microsoft анонсировала модель ИИ под названием VALL-E
– Модель может имитировать голос любого человека
– Для обучения VALL-E нужен 3-секундный звуковой сэмпл
– Модель старается сохранить эмоциональный тон человека
– VALL-E можно использовать для превращения текста в речь
– Языковая модель VALL-E основана на технологии EnCodec
– Синтез речи VALL-E обучали на аудиобиблиотеке LibriLight
– В ней 60 тыс. часов англоязычной речи от 7+ тыс. ораторов
@ftsec