Якщо вас теж лякають графіки про те, як мовні моделі справляються з різними інтелектуальними задачами, цей текст дозволить трохи розслабитись.
По-перше, деякі з бенчмарків, на яких тестували GPT-4, були в навчальному датасеті (це називається training data contamination). При тестуванні на нових аналогічних тестах GPT-4 показує зовсім інші результати (0/10 замість 10/10). Тобто, інколи нейромережа класно проходить тест лише тому, що запам'ятала буквально його питання і відповіді.
По-друге, проходження професійного тесту далеко не дорівнює наявності професійних компетенцій.
Professional exams, especially the bar exam, notoriously overemphasize subject-matter knowledge and underemphasize real-world skills, which are far harder to measure in a standardized, computer-administered way. In other words, not only do these exams emphasize the wrong thing, they overemphasize precisely the thing that language models are good at.
Ну а ще будь-який бенчмарк стає ціллю для тренування, і перестає бути корисним, тому що все тренування перетворюється в підгонку результату під конкретний тест — емпіричне правило, відоме як закон Гудхарта.
В кінці є лінки на джерела про недоліки тестів для LLMs та альтернативні підходи до оцінювання їх продуктивності.
Виходить, ввів вас в оману цим графіком від Open AI, вибачаюсь! Краще перечитайте ще один текст від пана Нараянана з Прінстона, щоб краще помічати такі маніпуляції.