Технологии, медиа и общество(@brodetsky). Якщо вас теж лякають графіки про те, як мовні моделі справляються з різними інтелектуальними задачам

Якщо вас теж лякають графіки про те, як мовні моделі справляються з різними інтелектуальними задачами, цей текст дозволить трохи розслабитись. По-перше, деякі з бенчмарків, на яких тестували GPT-4, були в навчальному датасеті (це називається training data contamination). При тестуванні на нових аналогічних тестах GPT-4 показує зовсім інші результати (0/10 замість 10/10). Тобто, інколи нейромережа класно проходить тест лише тому, що запам'ятала буквально його питання і відповіді. По-друге, проходження професійного тесту далеко не дорівнює наявності професійних компетенцій. Professional exams, especially the bar exam, notoriously overemphasize subject-matter knowledge and underemphasize real-world skills, which are far harder to measure in a standardized, computer-administered way. In other words, not only do these exams emphasize the wrong thing, they overemphasize precisely the thing that language models are good at. Ну а ще будь-який бенчмарк стає ціллю для тренування, і перестає бути корисним, тому що все тренування перетворюється в підгонку результату під конкретний тест — емпіричне правило, відоме як закон Гудхарта. В кінці є лінки на джерела про недоліки тестів для LLMs та альтернативні підходи до оцінювання їх продуктивності. Виходить, ввів вас в оману цим графіком від Open AI, вибачаюсь! Краще перечитайте ще один текст від пана Нараянана з Прінстона, щоб краще помічати такі маніпуляції.