Нейросеть научили генерировать любые звуки по текстовой подсказке🤖
Исследователи Сингапурского университета технологий и дизайна создали модель для преобразования текста в аудио под названием TANGO.
☝🏻TANGO может генерировать реалистичные звуки, включая человеческую речь, звуки животных, естественные и искусственные звуки, а также звуковые эффекты и музыку — все это из текстовых подсказок пользователя.
Модель также понимает и сложные подсказки, с последовательностью звуков или их перемешиванием.
Исследователи опубликовали весь исходный код модели на GitHub. А также привели примеры генераций TANGO.🤔