Будни технического директора новостного стартапа. «Закрытие Parse и куда с него переехать», очередной лонгрид «как программируют в NASA» и прочие ссылки с hackernews. Ну и истории, конечно.
Можно самому всё слушать и печатать, это сложная и долгая работа.
Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.
Для текстов на английском языке есть совершенно космический редактор — Descript. В нем редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.
С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: HappyScribe, Trint, SimonSays, Sonix. Эти продукты отличаются моделью ценообразования и вниманием к деталям.
Эти сервисы не разрабывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется Google Cloud Speech-to-Text. Практические идентичные решения есть у Яндекса, Амазона и Microsoft.
По стоимости: расшифровка часа видеозвонка в гугле стоит 2.16$, у яндекса — 0.46$, а в Sonix — от 5 до 10$, остальные сервисы ещё дороже. Для сравнения, профессиональная расшифровка с русского — около 23$ за час.
Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объем труда.