Захотел я значит вчера сделать приколяндру с text-to-speech ai клоном локально известного голоса. И начал изучать, чем же в 2023м такое можно синтезировать по модели. И есть 3 основных пути:
Text-to-speech ai clone:
• https://beta.elevenlabs.io/ — Суперкачественный синтез речи из текста. Собственную модель голоса ловит быстро и подстраивается похоже процентов на 70%. Подписка стоит 1$ первый месяц. Но не может в русский язык и звучит как пьяный американец который спрашивает у таксиста где снять проститутку.
• https://resemble.ai/ — Хороший синтез, но свою модель можно загружать только на английском. Любой русский текст звучит хуево.
Встречались еще примеры, но опять же никто из них не может в русский язык.
Voice-to-voice ai clone (надо записать голос заранее и скормить его сервису, а он позволяет натянуть модель)
• https://musicfy.lol/ — судя по тестам очень хорошо, но проверять платный не стал (25$ жалко), а только на нём можно вгрузить 3 своих модели.
• https://voice.ai/ — очень хороший сервис, который может менять голос и на лету. Куча моделей в базе и можно загружать свою. Из трёх попыток загрузить русскую речь все 3 обломались. Бидона, Трампыню, Обэму и Гомера симулирует на 10 из 10.
Нерососети:
Самый бесплатный и качественный метод, проверять который я не стал, потому что ради шутки-минутки я не готов ебаться 2 дня с этим питоно-коллабовым костыльванием
• RVC — github.com/RVC-Pro…on-WebUI самая крутая модель на сегодняшний день. С помощью неё в основном и делают эти видосы из тиктока где Дора поет песни Максим, а Моргенштерн отбирает пиво у Джарахова. Все туториалы как настроить и установить и обучить есть тут http://discord.gg/aihub + тонна готовых моделей всех на свете. Но только чтобы надрочить свою модель голоса надо потратить кучу времени https://youtu.be/t_ZW3W3okOs
• Более устаревшая на сегодня so-vits-svs: https://github.com/voicepaw/so-vits-svc-fork Тот же самый пердолинг.
В общем не будет мема, но если кому-то понадобится сделать качественный синтез речи по своему или чужому голосу — вот вам пост. (если нужен просто синтез речи, то таких сервисов сотни, даже в тг можно сделать через @steosvoice_bot или @silero_voice_bot или через Алису или через их же api https://cloud.yandex.ru/services/speechkit)