OpenAI опубликовала исходный код системы распознавания речи Whisper. Открыты код эталонной реализации на базе фреймворка PyTorch и набор уже обученных моделей для использования под лицензией MIT.
В OpenAI представили две модели: для английского языка и многоязычную, которая, в частности, поддерживает русский, украинский и белорусский языки. Каждая модель делится на пять вариантов в зависимости от размеров и числа параметров.
Самая маленькая модель обучена на 39 млн параметров и требует 1 ГБ видеопамяти, а сама большая прошла обучение на 1550 млн параметров и требует 10 ГБ видеопамяти.