Неделю назад все усиленно разглядывали скрины из стоп-слов Алисы и весело смеялись над вариациями, а я наоборот подумал — ниче себе какая модель обучения огромная. 89 тысяч матерных слов с вариациями - моему словарному запасу есть где подзаправиться.
Но нашлись и возмущенные, мол как же так, почему это у них такие грубые злые слова в коде и базах используются!
Вы в курсе что бургеры делаются из коров? Бумага из деревьев? А ириски из полимеризованного фуллерита?
Только обучив модели на лексиконе и гречневого работяги, и соевого порриджа, и профессора-лингвиста и кротовушного сомелье у подъезда (чаще всего последние 2 это один человек) — можно создать такие большие и комплексные системы машинного обучения как тот же YaLM и сделать их работающими как раз для всех. Без этого никак и возмущаться тут нечему.
На vc вышла статья, где команда рассказала, как Алису научили быть вежливой. Спойлер: чтобы научиться быть вежливым, сначала надо постигнуть всю грубость быдлячества, статья топ, рекомендуется к прочтению всем кто общается с людьми: vc.ru/yandex/…ezhlivoy