Spark in me - Internet, data science, math, deep learning, philosophy(@snakers4). Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка. В ком

Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка. В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser. Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов. А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений. TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.