Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.
Новая «Квантовая теория знаний» может ответить на вопрос века.
Этот вопрос – приостанавливать ли обучение сверхбольших моделей ИИ?
Дискуссии технооптимистов и технопессимистов ИИ, все более накаляющиеся с началом «революции ChatGPT», постоянно упираются в непреодолимую стену непонимания сторон.
• Технопессимисты настаивают на необходимости временной приостановки обучения сверхбольших языковых моделей.
• На что даже самые сговорчивые из технооптимистов резонно спрашивают:
– зачем?
– что это даст?
– как на практике приостановка может помочь снизить риски дальнейших разработок ИИ?
Свои ответы на эти вопросы я недавно опубликовал.
Приостановка нужна, чтобы исследовать, что за скрытые эмерджентные способности ИИ могут прятаться в скрытом пока что от нас «навесе» новых способностей, не предусмотренных и непредвиденных разработчиками.
Однако, в логике этого моего ответа, есть неприятный изъян.
Не понятно, что за механизм может на практике помочь прогнозированию появления эмерджентных способностей при масштабировании нейросетей (увеличении размеров моделей и объемов данных)?.
И вот прорыв, убирающий этот изъян.
Такой механизм предложен в работе Макса Тегмарка и трёх его коллег из Department of Physics, MIT; NSF AI Institute for AI and Fundamental Interactions; Department of EECS, MIT; Center for Brains, Minds and Machines, MIT.
Работа называется «Квантование модели масштабирования нейронов». В ней описываются:
1. «Гипотеза квантования» знаний при обучении нейросетей, согласно которой возможности нейросетей квантуются в дискретные блоки (кванты).
2. Модель квантования законов нейронного масштабирования, объясняющая и численно описывающая:
- наблюдаемое возрастание по степенному закону точности модели при увеличении модели и размера данных;
- наблюдаемое внезапное появление новых эмерджентных возможностей в результате масштабирования модели и данных.
Гипотеза и модель пока что успешно протестированы на относительно небольших моделях.
Теперь, если подтвердится их применимость к большим моделям, появятся две столь необходимые для исследователей возможности предсказать:
1) Что за эмерджентные способности могут таиться в «навесе» уже существующих нейросетевых больших языковых моделей (типа GPT-4)
2) Каков должен быть масштаб нейросетевой большой языковой модели (напр. GPT-5 или 6), чтобы в ней прорезалась определенная новая способность ИИ.
Наличие этих возможностей позволяет продуктивно использовать приостановку обучения свербольших языковых моделей для выявления спрятанных в них рисков и разработки способов их минимизации.
Ну а в будущем, не исключено, что предложенная квантовая модель знаний нейросетей сыграет не меньшую роль в понимании работы интеллекта (и в том числе, нашего), чем квантовая физика сделала для понимания физики материального мира.
#LLM #ИИ