LEFT JOIN(@leftjoin). Это страшное слово — деградация В Твиттере X (иксе? экс? мы пока не разобрались, как это называть) з

Это страшное слово — деградация В ~~Твиттере~~ X (иксе? экс? мы пока не разобрались, как это называть) завирусился тред про деградацию GPT-4. За последние пять дней в сети появилось много комментариев и мнений на тему работы модели, а именно ухудшения качества ответов. Но началось все с одного исследования… Рассказываем! Недавно вышла научная статья ученых из Стэнфорда и Беркли в которой показано, что версия GPT-4, выпущенная в июне, работает хуже, чем более ранняя версия, выпущенная в марте. Команда оценивала модели, используя 500 задач, в которых модели должны были определить, является ли число простым. В марте GPT-4 правильно ответил на 488 вопросов, а в июне правильных ответов было всего 12. То есть качество ответов упало с 97.6% до всего лишь 2.4%! Однако, исследование было проведено странно Все дело в том, что в эксперименте проверялись только числа, которые на самом деле были простыми. Составных чисел в выборке не было, а это не может не влиять на результаты. В итоге, команда провела более честный тест с простыми и составными числами. И выяснилось, что обе модели весьма некомпетентны в этом отношении — мартовская чаще говорила, что число простое, а июньская — наоборот. Очевидный вывод состоит в том, что GPT-4 не умеет определять, является ли число простым. Хуже не стало — никогда не было хорошо. В любом случае, по-прежнему остаются нерешенные проблемы, связанные с ухудшениям в других направлениях, например, генерации кода. Почему это вообще происходит? По слухам, OpenAI перешли на использование подмоделей, которые ведут себя также как основная GPT-4, но дешевле в эксплуатации. Когда пользователь задает вопрос, система решает, к какой модели его направить. Вероятно, перенаправление запроса и влияет на серьезные ухудшения в качестве ответов. Конечно, это тревожный сигнал для тех, кто создает приложения на основе GPT-4. Потому что мы уже не просто восхищаемся тем, что могут делать языковые модели, но выпускаем на их основе сервисы и продукты, а значит толерантность к ошибкам резко снизилась.