Обложка канала

Spark in me - Internet, data science, math, deep learning, philosophy

2440 @snakers4

Канал про интересные мне темы - интернет - статистика - наука о данных Без рекламы и буллшита.

Spark in me - Internet, data science, math, deep learning, philosophy

4 года назад
Открыть в
Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка. В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser. Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов. А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений. TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.