Чтобы создать модель синтеза речи на новом языке, понадобятся диктор, войскоуч, примерно 30 часов записи и четыре нейросети. А создать модель распознавания речи ещё сложнее. Вот как в Yandex Cloud добавляют новый язык в SpeechKit на примере узбекского