Еще из интересного. Есть датасет Common Voice.
Вроде прекрасно, бесплатная датка.
Но есть один нюанс. Почему-то в языковых парах:
Русский - Белорусский
Татарский - Башкирский
Испанский - Каталонский
Лидирует менее популярный язык. И очень много эсперанто. Интересно, почему?)