запуск завтра(@ctodaily). Open AI опубликовала крупнейшую нейросеть распознавания речи, обученную на 680 тысячах часов аудио

Open AI опубликовала крупнейшую нейросеть распознавания речи, обученную на 680 тысячах часов аудио, назвали Whisper — шепот. Сеть понимает множество языков кроме английского, включая русский. Качество распознавания сравнимо с сервисами от Google, Amazon, Microsoft и Yandex. При этом сервисы распознавания речи от корпораций стоят по 2 доллара за минуту распознавания, а тут можно скачать и пользоваться этой штукой бесплатно и без подключения к интернету. Открыта и бесплатна для скачивания не только конечная сеть, но и «развесовка», то есть модель можно тюнить и использовать как составную часть более сложных алгоритмов. Не открыты только 680 тысяч часов аудио, которые использовали для обучения модели. Пара примеров есть на странице проекта; распознать любые файлы и даже свою речь с микрофона можно попробовать онлайн в неофициальном google colab блокноте (очень классный инструмент!). — Кстати, если у вас айфон — рекомендую обновить iOS и попробовать встроенное распознавание речи. Новая версия iOS внесла одно маленькое изменение — теперь редактирование текста клавиатурой не прерывает процесс распознавания. Можно набрать текст голосом, исправить ошибку пальцами и продолжить набор голосом. Я теперь пишу большинство сообщений на айфоне именно так — гораздо быстрее и легче, чем печатать пальцами. Интересно, что мы как раз начинаем исследовательский проект для Чайки — встроим распознавание речи в медицинскую информационную систему, чтобы врачи могли заполнять карточки пациентов голосом и тратили на это меньше времени. Будущее уже совсем близко.