Voicebox: генеративная модель от Meta AI, которая «говорит»🗣️
Разработчики Meta AI опубликовали исследование, в котором представили свое новое детище: модель для генерации речи Voicebox. В отличие от многих уже существующих аналогичных продуктов, Voicebox построена на новом подходе – «сопоставления потоков» (*flow matching*). Суть этого метода в том, что модель может обучаться на речевых данных без необходимости их маркировки, что дает возможность использовать более разнообразный набор данных, а в итоге – получать более качественные результаты генерации.
Какие же функции может выполнять Voicebox?
1️⃣ Генерация текста (как с референсом голоса или стиля речи, так и без),
2️⃣ Воспроизведение аудио отрывка на другом языке (доступно для английского, французского, немецкого, испанского, португальского, польского),
3️⃣ Редактирование аудио, включая удаление фоновых шумов и замену слов.
Впечатляет!
Но и настораживает – и это одна из причин почему разработчики Meta AI пока не готовы выложить модель и ее код в открытый доступ. Нам остается только слушать демочки и читать многостраничный научно-исследовательский отчет разработчиков.
А как вы считаете: пользы от моделей для генерации речи больше (помощь неговорящим, озвучивание), чем риск угроз (фальсификация высказываний, мошенничество)? И как стоить регулировать распространение таких продуктов?