Обложка канала

Малоизвестное интересное

Рассказы, анализ и аннотации происходящего на стыке науки, технологий, бизнеса и общества. Поскольку переделать мир мы не можем, то давайте попробуем его понять.

Малоизвестное интересное

3 года назад
Открыть в
​​Новая «Квантовая теория знаний» может ответить на вопрос века. Этот вопрос – приостанавливать ли обучение сверхбольших моделей ИИ? Дискуссии технооптимистов и технопессимистов ИИ, все более накаляющиеся с началом «революции ChatGPT», постоянно упираются в непреодолимую стену непонимания сторон. • Технопессимисты настаивают на необходимости временной приостановки обучения сверхбольших языковых моделей. • На что даже самые сговорчивые из технооптимистов резонно спрашивают: – зачем? – что это даст? – как на практике приостановка может помочь снизить риски дальнейших разработок ИИ? Свои ответы на эти вопросы я недавно опубликовал. Приостановка нужна, чтобы исследовать, что за скрытые эмерджентные способности ИИ могут прятаться в скрытом пока что от нас «навесе» новых способностей, не предусмотренных и непредвиденных разработчиками. Однако, в логике этого моего ответа, есть неприятный изъян. Не понятно, что за механизм может на практике помочь прогнозированию появления эмерджентных способностей при масштабировании нейросетей (увеличении размеров моделей и объемов данных)?. И вот прорыв, убирающий этот изъян. Такой механизм предложен в работе Макса Тегмарка и трёх его коллег из Department of Physics, MIT; NSF AI Institute for AI and Fundamental Interactions; Department of EECS, MIT; Center for Brains, Minds and Machines, MIT. Работа называется «Квантование модели масштабирования нейронов». В ней описываются: 1. «Гипотеза квантования» знаний при обучении нейросетей, согласно которой возможности нейросетей квантуются в дискретные блоки (кванты). 2. Модель квантования законов нейронного масштабирования, объясняющая и численно описывающая: - наблюдаемое возрастание по степенному закону точности модели при увеличении модели и размера данных; - наблюдаемое внезапное появление новых эмерджентных возможностей в результате масштабирования модели и данных. Гипотеза и модель пока что успешно протестированы на относительно небольших моделях. Теперь, если подтвердится их применимость к большим моделям, появятся две столь необходимые для исследователей возможности предсказать: 1) Что за эмерджентные способности могут таиться в «навесе» уже существующих нейросетевых больших языковых моделей (типа GPT-4) 2) Каков должен быть масштаб нейросетевой большой языковой модели (напр. GPT-5 или 6), чтобы в ней прорезалась определенная новая способность ИИ. Наличие этих возможностей позволяет продуктивно использовать приостановку обучения свербольших языковых моделей для выявления спрятанных в них рисков и разработки способов их минимизации. Ну а в будущем, не исключено, что предложенная квантовая модель знаний нейросетей сыграет не меньшую роль в понимании работы интеллекта (и в том числе, нашего), чем квантовая физика сделала для понимания физики материального мира. #LLM #ИИ