Futuris(@Futuris). Тут пишут что Gpt-4 всё-таки тестировали и он достиг 30% улучшения в ответах, критикуя самого себя⚡️

Тут пишут что Gpt-4 всё-таки тестировали и он достиг 30% улучшения в ответах, критикуя самого себя⚡️ В статье упоминаются три теста: HumanEval, Alfworld и HotPotQA. HumanEval - тест, состоящий из 164 задач по программированию на языке Python, которые модель никогда ранее не видела. Без использования техники Reflexion, GPT-4 показал результат в 67% правильных ответов, а с Reflexion - 88%. Alfworld - тест, направленный на проверку способности ИИ принимать решения и решать многоступенчатые задачи, выполняя различные разрешенные действия в интерактивных средах. Здесь GPT-4 без Reflexion показал результат около 73% правильных решений, а Reflexion - 97%, не справившись только с 4 из 134 задач. HotPotQA - тест, в котором языковая модель получает доступ к Википедии и затем должна ответить на 100 вопросов из возможных 13 000, связанных с анализом контента и рассуждением на основе нескольких источников. Без Reflexion, GPT-4 показал результат в 34% правильных ответов, а с Reflexion - 54% правильных ответов🤯