Поигрался с новым алгоритмом Bark для озвучки текста: в отличии от других доступных алгоритмов, этот умеет и в придыхания, и в копирование голоса (но в коде написано, что как-то ограничили эту функцию из-за этических рисков), и в кучу языков, и даже в пение (!), и все это работает довольно быстро.
Что мне больше всего понравилось, что можно в модель передавать помимо текста – эмоции которые алгоритм попробует озвучить.
Я протестировал все голоса доступные на русском, и мне кажется лучше всего справились голоса 3 и 5. В общем, собрал все тесты в видео, где этот алгоритм озвучил пикап лайны из моего прошлого поста.✨ Поиграться онлайн | Исходный код
Для тех кто доберется поиграться сам, передавайте это вместе с текстом:
[laughter] или [laughs] - и диктор засмеется во время озвучки,
[sighs] или [gasps] - озвучит вздох или испуг,
[music] - будет музыкальная вставка (не очень хорошо работает),
[clears throat] - и диктор прочистит горло,
— или ... и нейронка "запнется", как человек,
♪ и нейронка попробует напеть текст, работает не очень стабильно.
А если выделить капсом, то алгоритм сделает акцент на этом слове.
Я некоторым людям скидывал первый фрагмент из видео, и они подумали что это мой голос ☕️ что забавно - в видео нет настоящих людей.
Как по мне, сильная заявка на «Лучший опенсорс алгоритм озвучки 2023»