Год назад я выложил пост про rubert-tiny, миниатюрный энкодер предложений для русского языка.
В комменты пришёл @snakers4 и справедливо придрался, что я не сравнил свою модель с очевидными бейзлайнами: FastText, USE, Laser.
Спустя полгода я прокачал модель до rubert-tiny2 и сравнил ещё с кучей бейзлайнов.
А сейчас у меня наконец дошли руки накатать про это пост: Рейтинг русскоязычных энкодеров предложений.
TL;DR: если в вашем sentence encoder'е важно только качество на разнообразных задачах, юзайте USE, если очень важна скорость – FastText. Моя rubert-tiny2 – между ними; остальные модели проигрывают по качеству или скорости этим трём.